آموزش Apache Pig | پردازش و تحلیل کلان‌داده با زبان Pig Latin

مرتب‌سازی:

معرفی Apache Pig

Apache Pig یک پلت فرم برای تجزیه و تحلیل مجموعه داده های بزرگ است که شامل یک زبان سطح بالا برای بیان برنامه های تجزیه و تحلیل داده ها، همراه با زیرساخت ها برای ارزیابی این برنامه ها است. ویژگی برجسته برنامه Pig این است که ساختار آنها قابل مقایسه با مقادیر قابل توجهی است که به نوبه خود آنها را قادر می سازد مجموعه داده های بسیار بزرگ را اداره کنند. Pig به طور کلی با Hadoop استفاده می شود؛ ما می توانیم تمام عملیات تغییر داده ها را در Hadoop با استفاده از Apache Pig انجام دهیم. برای نوشتن برنامه های تجزیه و تحلیل داده ها Pig یک زبان سطح بالا به نام Pig Latin را ارائه می دهد. این زبان اپراتورهای مختلفی را فراهم می کند که با استفاده از آنها متوجه می شوید کدام برنامه نویسان می توانند عملکردهای خود را برای خواندن، نوشتن و پردازش داده ها توسعه دهند. برای تجزیه و تحلیل داده ها با استفاده از Apache Pig، برنامه نویسان با استفاده از زبان Pig Latin اسکریپت نویسی کنند. Apache Pig دارای جزئی به نام Pig Engine است که اسکریپت های لاتین Pig را به عنوان ورودی می پذیرد و این اسکریپت ها را به مشاغل MapReduce تبدیل می کند.

مزایای Apache Pig

استفاده راحت تر نسبت به MapReduce
بدون نیاز به نوشتن کد جاوا
کوتاه بودن کدنویسی
شبیه به زبان SQL
پشتیبانی از عملیات داده ها مانند ordering
ارائه ی انواع داده های تودرتو مانند تپه ها، کیسه ها و نقشه هایی را که در MapReduce وجود ندارد

ویژگی های Apache Pig

مجموعه وسیعی از اپراتورها - این اپراتورهای انجام عملیات هایی مانند پیوستن، مرتب سازی، فیلتر کردن و غیره را فراهم می کند.
سهولت برنامه نویسی - Pig Latin شبیه به SQL است و اگر شما در SQL خوب هستید نوشتن اسکریپت Pig امری آسان خواهد بود.
فرصت های بهینه سازی – تسک ها در Apache Pig به طور خودکار اجرای خود را بهینه می کنند، به طوری که برنامه نویسان نیاز به تمرکز تنها بر معانی زبان دارند.
توسعه پذیری - با استفاده از اپراتورهای موجود، کاربران می توانند توابع خود را برای خواندن، پردازش و نوشتن داده ها توسعه دهند.
UDF's- Pig امکاناتی برای ایجاد توابع تعریف شده توسط کاربر در زبان های دیگر برنامه نویسی مانند جاوا و فراخوانی آنها را در اسکریپت Pig فراهم می کند.
انواع داده ها را مدیریت می کند - Apache Pig تجزیه و تحلیل انواع داده ها، هم ساختاری و هم بدون ساختار را فراهم می کند و نتایج را در HDFS ذخیره می کند.

کاربرد Apache Pig

Apache Pig به طور کلی توسط دانشمندان داده برای انجام وظایف مربوط به پردازش ad-hoc و نمونه سازی سریع استفاده می شود.

برای پردازش منابع اطلاعاتی بزرگ مانند لگاریتم های مربوط به وب.
برای انجام پردازش داده ها برای سیستم عامل های جستجو
برای پردازش بارهای حساس به زمان.

تاریخچه Apache Pig

در سال 2006، Apache Pig به عنوان یک پروژه تحقیقاتی در یاهو، مخصوصا برای ایجاد و اجرای کارهای MapReduce در هر مجموعه داده، توسعه یافت. در سال 2007، از طریق انکوباتور آپاچی به صورت منبع باز درآمد. در سال 2008، اولین آپاچی پیگ منتشر شد. در سال 2010، Apache Pig به عنوان یک پروژه سطح بالا در Apache تبدیل شد.

نظرتون درباره این نوشته چیه؟ عالیه بد نیست خوب نبود