آموزش آپاچی اسپارک (Apache Spark)

دسته بندی: فریمورک ها

معرفی Apache Spark

Apache Spark یک فریمورک منبع باز پردازش داده بزرگ است که بر اساس سرعت، سهولت استفاده و تجزیه و تحلیل پیچیده ساخته شده است.

در ابتدا در سال 2009 در آزمایشگاه AMPLab شهر UC Berkeley توسعه داده شد و در سال 2010 به عنوان یک پروژه منبع باز آپاچی منتشر شد.

Spark دارای مزایای متعددی نسبت به سایر داده های بزرگ و تکنولوژی MapReduce مانند Hadoop و Storm دارد.

اول از همه، Spark به ما یک فریمورک جامع و یکپارچه برای مدیریت نیازهای پردازش داده های بزرگ با مجموعه های مختلف داده های متنوع (داده های متنی، نمودار داده ها و غیره) و نیز منبع داده را ارائه می دهد.

Spark برنامه های Cluster های هدوپ را قادر می سازد تا تا 100 برابر سریعتر در حافظه و 10 برابر سریعتر حتی در هنگام اجرای روی دیسک اجرا شود.

Spark این امکان را فراهم می کند تا سریعا برنامه های کاربردی را در جاوا، اسکالایا پایتونبنویسید. این فریمورک دارای بیش از 80 اپراتور سطح بالا است. شما می توانید آن را به صورت تعاملی برای پرس و جوی داده های درون پوسته استفاده کنید.

علاوه بر نقشه و کاهش عملیات، از پرس و جوهای SQL، جریان داده ها، یادگیری ماشینی و پردازش داده های گرافیکی پشتیبانی می کند.

ویژگی های Apache Spark

  • بهینه سازی مراحل جریان پردازش داده ها
  • ذخیره سازی زیاد داده در حافظه
  • پشتیبانی از نقشه و کاهش عملکرد
  • بهینه سازی نمودارهای اپراتور دلخواه
  • ارائه ی API های مختصر و سازگار در Scala، Java و Python
  • ارائه ی پوسته تعاملی برای Scala و Python

Spark با زبان برنامه نویسی Scala نوشته شده است و در محیط ماشین مجازی جاوا (JVM) اجرا می شود. در حال حاضر از زبان های زیر برای توسعه برنامه های کاربردی پشتیبانی می کند:

  • Scala
  • Java
  • Python
  • Clojure
  • R

به غیر از Spark Core API، کتابخانه های اضافی وجود دارند که بخشی از اکوسیستم Spark هستند و قابلیت های اضافی در زمینه تجزیه و تحلیل داده های بزرگ و حوزه های یادگیری ماشینی را فراهم می کند.

  • Spark Streaming
  • Spark SQL
  • Spark MLlib
  • Spark GraphX
  • BlinkDB
  • Tachyon
آیا این نوشته را دوست داشتید؟