تبلیغات

آموزش Apache Spark با Python - کلان داده با PySpark و Spark 

دسته بندی ها: آموزش آپاچی اسپارک (Apache Spark) ، پایگاه داده ، آموزش های Packtpub ، تحلیل داده (Data Analysis) ، آموزش پایتون (Python) ، آموزش کلان داده (Big Data)

این دوره تمام مبانی Apache Spark با Python را پوشش می دهد و همه چیزهایی را که شما باید در مورد ایجاد اپلیکیشن های Spark با استفاده از PySpark و Python API برای Spark یاد خواهید گرفت. در پایان این دوره، شما دانش کافی درباره Apache Spark و تحلیلی کلان داده و مهارت های دستکاری برای کمک به شرکت جهت بکارگیری Apache Spark در ایجاد ساخت خط لوله پردازش کلان داده و اپلیکیشن های تحلیل داده بدست خواهید آورد. در این دوره با نحوه در نظر گرفتن مشکلات تحلیل داده به عنوان مشکلات Spark، جمع آوری وبلاگ های ناسا آپاچی از منابع مختلف، بررسی روند قیمت با نگاهی به اطلاعات املاک و مستغلات در کالیفرنیا، نوشتن اپلیکیشن های Spark برای پیدا کردن حقوق و دستمزد متوسط توسعه دهندگان در کشورهای مختلف از طریق داده های نظرسنجی Stack Overflow و ایجاد یک سیستم برای تحلیل نحوه توزیع  فضاهای سازنده در میان مناطق مختلف در بریتانیا آشنا می شوید.

سرفصل:

  • شروع کار با Apache Spark
  • معرفی دوره
  • مقدمه ای بر Spark
  • Java و Git را نصب کنید
  • راه اندازی Spark
  • اجرای اولین کار Spark
  • RDD
  • مبانی RDD
  • ایجاد RDD
  • تبدیل نقشه و فیلتر
  • تبدیل FlatMap
  • تنظیم عملیات
  • راه حل برای مشکل مشابه میزبان
  • اقدامات
  • حل مسئله تعداد اعداد
  • جنبه های مهم در مورد RDD
  • خلاصه ای از عملیات RDD
  • کش کردن و مقاومت
  • معماری و کامپوننت های Spark
  • Pair RDD
  • معرفی Pair RDD
  • ایجاد Pair RDD
  • فیلتر و تبدیل MapValue در Pair RDD
  • کاهش توسط Key Aggregation
  • گروه بندی با Key Transformation
  • مرتب سازی با Key Transformation
  • راه حل برای مشکل کلمه ذخیره شده
  • تقسیم داده
  • پیوستن به عملیات
  • عناوین پیشرفته Spark
  • Accumulators
  • راه حل برای پیگیری مشکل نظرسنجی StackOverflow
  • پخش متغیرها
  • Spark SQL
  • معرفی Spark SQL
  • تمرین Spark SQL: مشکل قیمت مسکن
  • جوین های Spark SQL
  • Dataframe یا RDD
  • تبدیل داده ها و RDD
  • تنظیم عملکرد Spark SQL
  • اجرای Spark در Cluster
  • Spark-submit
  • اجرای Spark Application در Amazon EMR (ElasticMapReduce) cluster
آیا این نوشته را دوست داشتید؟
Apache Spark with Python - Big Data with PySpark and Spark [Video] Publisher:Packtpub Author:James Lee Duration:3 hours and 18 minutes

Learn Apache Spark and Python by 12+ hands-on examples of analyzing big data with PySpark and Spark
This course covers all the fundamentals of Apache Spark with Python and teaches you everything you need to know about developing Spark applications using PySpark, the Python API for Spark. At the end of this course, you will gain in-depth knowledge about Apache Spark and general big data analysis and manipulations skills to help your company to adopt Apache Spark for building big data processing pipeline and data analytics applications. This course covers 10+ hands-on big data examples. You will learn valuable knowledge about how to frame data analysis problems as Spark problems. Together we will learn examples such as aggregating NASA Apache weblogs from different sources; we will explore the price trend by looking at the real estate data in California; we will write Spark applications to find out the median salary of developers in different countries through the Stack Overflow survey data; we will develop a system to analyze how maker spaces are distributed across different regions in the United Kingdom. And much much more.
Style and Approach
This course covers 10+ hands-on big data examples. You will learn valuable knowledge about how to frame data analysis problems as Spark problems.
Released: Monday, April 16, 2018
Get Started with Apache Spark
Course Overview
Introduction to Spark
Install Java and Git
Set up Spark
Run our first Spark job
RDD
RDD Basics
Create RDDs
Map and Filter Transformation
Solution to Airports by Latitude Problem
FlatMap Transformation
Set Operations
Solution for the Same Hosts Problem
Actions
Solution to Sum of Numbers Problem
Important Aspects about RDD
Summary of RDD Operations
Caching and Persistance
Spark Architecture and Components
Spark Architecture
Spark Components
Pair RDD
Introduction to Pair RDD
Create Pair RDDs
Filter and MapValue Transformations on Pair RDD
Reduce By Key Aggregation
Solution for the Average House Problem
Group By Key Transformation
Sort By Key Transformation
Solution for the Sorted Word Count Problem
Data Partitioning
Join Operations
Advanced Spark Topics
Accumulators
Solution to StackOverflow Survey Follow-up Problem
Broadcast Variables
Spark SQL
Introduction to Spark SQL
Spark SQL in Action
Spark SQL practice: House Price Problem
Spark SQL Joins
Dataframe or RDD
Dataframe and RDD Conversion
Performance Tuning of Spark SQL
Running Spark in a Cluster
Introduction to Running Spark in a Cluster
Spark-submit
Run Spark Application on Amazon EMR (ElasticMapReduce) cluster

پیشنهاد فرادرس