پیشنهاد فرادرس

آموزش عیب یابی آپاچی اسپارک (Apache Spark)

دسته بندی ها: آموزش های OReilly ، علم داده (Data Science) ، آموزش آپاچی اسپارک (Apache Spark)

آپاچی اسپارک (Apache Spark) یک سیستم توزیع شده همه منظوره و بسیار قدرتمند است که ممکن است اشکال زدایی آن بسیار دشوار باشد.

این ویدیو برای توسعه دهندگان سطح متوسط اسپارک و دانشمندان علوم داده طراحی شده و برخی از رایج ترین (و مبهم) شیوه هایی که اسپارک می تواند استثنا های حافظه را گسترش دهد، مانند بخش بندی نامتوازن، سریالیزه کردن (Serialization) خطاهای عجیب، اشکال زدایی خطا های درون برنامه، و همچنین مجموعه ای از راه حل ها برای تحت کنترل نگه داشتن آنهایی که بسیار گسترش یافته اند را بررسی می کند. در این دوره شما تکنیک های خود را برای بهبود ثبت رخداد های خود (و کاهش وابستگی به گزارش های طولانی اسپارک) انتخاب می کنید، یاد می گیرید چگونه با داده های مبهم رفتار کنید، نحوه اتصال و استفاده از اشکال زدا (debugger) در محیط توزیع شده را می آموزید، و خواهید توانست تشخیص دهید که کدام گزارش مربوط به پیغام خطای اسپارک می باشد.

  • درک اینکه چرا اشکال زدایی در اسپارک مشکل می باشد، انواع خرابی های اسپارک و نحوه تشخیص آنها
  • بررسی تفاوت بین اشکال زدایی یک جزء واحد و سیستم های توزیع شده
  • یادگیری بهترین روش های اشکال زدایی اسپارک و یک چارچوبی برای اشکال زدایی

مباحث دوره:

  • اشکال زدایی در Apache Spark
  • معرفی
  • یک مرور  سریع از طراحی اسپارک
  • پیدا کردن گزارش های شما در اسپارک (و پیدا کردن مورد صحیح)
  • گراف جهت‌ دار غیر مدور (DAG) و طرح پرس و جو
  • پیدا کردن علت ریشه ای خطا در اسپارک با روش ارزیابی کُند (lazy evaluation)
  • خلاصه ای از خطاهای رایج اسپارک و شناسایی مشکلات داده های ناهمگون با اسپارک
  • استثنا های خارج از حافظه در اسپارک
  • خواندن پشته JVM ردیابی های پشته برای توسعه دهندگان غیر JVM
  • خطاهای سریالیزه کردن در اسپارک. این همیشه خطای اسپارک نیست: رفع اشکال خطاهای درون تبدیل ها
  • اضافه کردن گزارش های خود با استفاده از انباشتگر ها (accumulators)
  • اتصال اشکال زدای راه دور به اسپارک
  • مراحل بعدی: تست و نظارت
Debugging Apache Spark Publisher:Oreilly Author:Holden Karau

Apache Spark is an extremely powerful general purpose distributed system that also happens to be extremely difficult to debug. This video, designed for intermediate-level Spark developers and data scientists, looks ... - Selection from Debugging Apache Spark [Video]
Video Description:
Apache Spark is an extremely powerful general purpose distributed system that also happens to be extremely difficult to debug. This video, designed for intermediate-level Spark developers and data scientists, looks at some of the most common (and baffling) ways Spark can explode (e.g., out of memory exceptions, unbalanced partitioning, strange serialization errors, debugging errors inside your own code, etc. ) and then provides a set of remedies for keeping those blow-ups under control. You'll pick up techniques for improving your own logging (and reducing your dependence on Spark's verbose logs); learn how to deal with fuzzy data; discover how to connect and use a debugger in a distributed environment; and gain the ability to know which Spark error messages are actually relevant.
Understand why Spark is difficult to debug, the types of Spark failures, and how to recognize them
Explore the differences between debugging single node and distributed systems
Learn the best debugging techniques for Spark and a framework for debugging
Holden Karau is an open source developer advocate at Google focusing on Apache Spark, Beam, and related big data tools. She is an in-demand speaker at O'Reilly Media's Strata + Hadoop conferences, a committer on the Apache Spark, SystemML, and Mahout projects, and the author of multiple O'Reilly titles including High Performance Spark and Learning Spark. She holds a bachelor's degree in math and computer science from the University of Waterloo.
Table of Contents
Debugging Apache Spark
Introduction 00:09:15
A Quick Re-cap of Spark's Design 00:09:01
Finding Your Logs in Spark (and Finding the Right Ones) 00:17:13
The DAG (Not to Be Confused with Dog) and Query Plan 00:12:49
Finding the Root Cause of an Error in Spark with Lazy Evaluation 00:19:48
A Summary of Common Spark Errors 00:04:49
Diagnosing Key-Skew Problems with Spark 00:15:38
Out of Memory Exceptions in Spark 00:07:54
Reading JVM stack traces for non-JVM developers 00:16:08
Serialization Errors in Spark 00:20:02
It's Not Always Spark's Fault: Debugging Errors inside of Transformations 00:05:24
Adding your own logging and using accumulators 00:02:51
Attaching Remote Debuggers to Spark 00:02:18
Next Steps: Testing and Monitoring 00:02:58

پیشنهاد فرادرس