مطالب پیشنهادی از سراسر وب

مقدمه ای بر Spark SQL و DataFrames

دسته بندی ها: آموزش آپاچی اسپارک (Apache Spark) ، آموزش های لینکدین (LinkedIn)

کاوشی در DataFrames، یک ساختار داده ای پر استفاده در Apache Spark .DataFrames به توسعه دهندگان Spark اجازه می دهد تا عملیات رایج داده مانند فیلتر، جمع آوری و همچنین تجزیه و تحلیل پیشرفته داده را روی مجموعه های بزرگی از داده های توزیع شده انجام دهند. با افزودن Spark SQL، توسعه دهندگان به یک زبان کوئری، حتی محبوب تر و قدرتمندتر از API داخلی DataFrames دسترسی دارند. در این دوره، مربی Dan Sullivan به شما نشان می دهد که چگونه عملیات اصلی بارگذاری، فیلترگذاری و جمع آوری داده ها را در DataFrames با استفاده از API و SQL و همچنین تکنیک های پیشرفته بیش تری که به سادگی در SQL انجام می شوند را انجام دهید. در این بخش از دوره، مربی نحوه به هم پیوستن داده ها، حذف نسخه های تکراری و کار با مقادیر null یا NA را توضیح می دهد. دروس با سه مثال دقیق و عمیق استفاده از DataFrames برای علم داده نتیجه گیری می شوند: تجزیه و تحلیل داده اکتشافی، تجزیه و تحلیل سری زمانی و یادگیری ماشین.

1. مقدمه ای بر Spark DataFrames

نتیجه گیری

فایل های تمرین Ex_Files_Spark_SQL_DataFrames.zip
آیا این نوشته را دوست داشتید؟
Linkedin Introduction to Spark SQL and DataFrames Author:Dan Sullivan Duration:1:53:25 Level:INTERMEDIATE

Explore DataFrames, a widely used data structure in Apache Spark. DataFrames allow Spark developers to perform common data operations, such as filtering and aggregation, as well as advanced data analysis on large collections of distributed data. With the addition of Spark SQL, developers have access to an even more popular and powerful query language than the built-in DataFrames API. In this course, instructor Dan Sullivan shows how to perform basic operations—loading, filtering, and aggregating data in DataFrames—with the API and SQL, as well as more advanced techniques that are easily performed in SQL. In this section of the course, Dan explains how to join data, eliminate duplicates, and deal with null or NA values. The lessons conclude with three in-depth examples of using DataFrames for data science: exploratory data analysis, time series analysis, and machine learning.

پیشنهاد آموزش مرتبط در فرادرس


Geek 5 ماه قبل

بسیار دوره ی مفید و خلاصه ای بود. با داشبورد آنلاین دیتابریکس یه مدل با پای اسپارک ساخت و با افزودن یه دیتاست عکس گل ها در نهایت عکس یک گل را داد و مدل درصد تشخیص داد که عکسه لاله هست یا آفتابگردان:)