هدوپ (Hadoop)

معرفی Hadoop

Hadoop یک فریمورک منبع باز، برنامه نویسی مبتنی بر جاوا است که از پردازش و ذخیره مجموعه داده های بسیار بزرگ در محیط محاسباتی توزیع شده پشتیبانی می کند. این بخشی از پروژه آپاچی است که توسط بنیاد نرمافزار آپاچی حمایت می شود.

Hadoop توسط دانشمندان کامپیوتر Doug Cutting و مایک کافارلا در سال 2006 برای پشتیبانی از توزیع برای موتور جستجو Nutch ایجاد شد.

Hadoop باعث می شود برنامه های کاربردی در سیستم با هزاران گره سخت افزاری کالا اجرا شود و هزاران ترابایت داده را اداره کند. سیستم فایل توزیع شده آن، سرعت انتقال داده ها را در میان گره ها تسهیل می دهد و به سیستم اجازه می دهد تا در صورت شکست یک گره به کارش ادامه دهد.

این رویکرد ریسک خرابی سیستم و خرابی غیر منتظره داده ها را کاهش می دهد، حتی اگر تعداد قابل توجهی از گره ها غیر فعال شوند.

سازمانها می توانند اجزای Hadoop گسترش دهند و از بسته های نرم افزاری در مرکز داده محلی خود پشتیبانی کنند. با این حال، بیشتر پروژه های داده بزرگ به استفاده کوتاه مدت از منابع محاسباتی بستگی دارد. این نوع کاربرد برای خدمات گسترده ای از قبیل Amazon Web Services (AWS)، Google Cloud Platform و Microsoft Azure مناسب است.

پلت فرم Hadoop برای حل مشکلاتی که در آن مقدار زیادی داده با ترکیبی از اطلاعات پیچیده و ساختار یافته وجود دارد و مطابقت آنها در جداول را حت نیست مناسب می باشد.

کاربرد Hadoop

  • پردازش داده های بزرگ
  • ذخیره مجموعه ای از داده ها
  • پردازش داده های موازی
  • خدمات هماهنگی با عملکرد بالا برای برنامه های توزیع شده با ابزار ZooKeeper
  • ارائه یک موتور قدرتمند و انعطاف پذیر برای اجرای DAG دلخواه با ابزار Tez
  • دارای سیستم سریال سازی داده ها
  • دارای پایگاه داده ی مقیاس پذیر multimaster بدون نقطه شکست
  • سیستم جمع آوری داده ها
  • ارائه ی خلاصه های داده ها و پرس و جو های ad hoc