آموزش علم داده (Data Science) | یادگیری تحلیل داده با پایتون، آمار و یادگیری ماشین

مرتب‌سازی:

علم داده

علم داده چیست؟

علم داده یک علم چند رشته ای است که از روش های علمی، فرآیندها، الگوریتم ها و سیستم ها برای استخراج دانش و بینش از داده های ساختاری و بدون ساختار استفاده می کند. علم داده به منظور فهم و تحلیل پدیده های واقعی با داده ها مفهومی برای متحد کردن آمار، تحلیل داده، یادگیری ماشین و روش های مرتبط با آنها است. تکنیک ها و تئوری هایی را استخراج می کند که از بسیاری زمینه ها در چارچوب ریاضیات، آمار، علوم کامپیوتر و علوم اطلاعات به دست آمده است. جیم گری برنده جوایز تورینگ، علم داده را به عنوان "الگوی چهارم" علم (تجربی ، نظری ، محاسباتی و اکنون داده محور) تصور می کند و ادعا می کند که "همه چیز در مورد علم به دلیل تأثیر فن آوری اطلاعات تغییر می کند". انجمن آماری آمریكا مدیریت پایگاه داده، آمار و یادگیری ماشینی را مشخص كرد و سیستم های توزیع و موازی را به عنوان سه انجمن حرفه ای بنیادی در حال ظهور معرفی كرد. اکنون اغلب با مفاهیم قبلی مانند آنالیز تجارت، هوش تجاری، مدل سازی پیش بینی و آمار به صورت متقابل مورد استفاده قرار می گیرد. در حالی که اکنون بسیاری از برنامه های دانشگاهی دارای مدرک علوم داده هستند، در مورد تعریف محتوای برنامه درسی مناسب اجماع وجود ندارد. با این وجود، بسیاری از پروژه های علوم داده و داده های بزرگ نتوانسته اند نتایج مفیدی را بدست آورند، که غالباً به دلیل عدم مدیریت و استفاده از منابع است.

با ورود جهان به عصر داده های بزرگ، نیاز به ذخیره سازی آن نیز افزایش یافت. این مهمترین چالش و نگرانی برای صنایع سازمانی تا سال 2010 بود. تمرکز اصلی بر ایجاد فریمورک و راه حل های ذخیره داده بود. اکنون وقتی هدوپ و سایر فریمورک ها با موفقیت مشکل ذخیره سازی را حل کرده اند، تمرکز به پردازش این داده ها تغییر یافته است. تمام ایده هایی که در فیلم های علمی تخیلی هالیوود مشاهده می کنید توسط Data Science می توانند به واقعیت تبدیل شوند. علم داده ها آینده هوش مصنوعی است. بنابراین، درک این مسئله که Data Science چیست و چگونه می تواند ارزش آن را به تجارت شما اضافه کند، بسیار مهم است.

ارتباط علم داده با آمار

علم داده اخیرا به یک اصطلاح رایج در بین مدیران تجاری تبدیل شده است. با این حال، بسیاری از دانشگاهیان و روزنامه نگاران منتقد هیچ تمایزی بین علوم داده و آمار نمی بینند، در حالی که برخی دیگر این را یک اصطلاح رایج برای "داده کاوی" و "کلان داده" می دانند. به طور مشابه، در بخش تجارت، محققان و تحلیلگران متعددی اظهار داشتند كه دانشمندان داده به تنهائی در اعطای مزیت رقابتی واقعی به شركتها كافی نیستند و دانشمندان داده را در نظر می گیرند كه تنها یكی از چهار شركت شغلی بزرگتر خانواده ها نیاز به اهرم داده های بزرگ به طور مؤثر دارند، یعنی: تحلیلگران داده ها، دانشمندان داده ها، توسعه دهندگان داده های بزرگ و مهندسان داده های بزرگ.

از سوی دیگر، پاسخ به انتقاد به همان تعداد است. در مقاله ای از وال استریت ژورنال، اشتیاق علوم داده را با طلوع علم کامپیوتر مقایسه می کند. در این مقاله استدلال می شود که علوم داده، مانند هر زمینه بین رشته ای دیگر، از روش ها و شیوه هایی از سراسر دانشگاه و صنعت استفاده می کند، اما سپس آنها را به یک رشته جدید تبدیل می کند. بسیاری از طرفداران دانشگاهی علوم داده، به طور خاص استدلال می کند که علم داده با عملکرد موجود در تجزیه و تحلیل داده ها در همه رشته ها متفاوت است، که فقط به توضیح مجموعه های داده می پردازد. علم داده به دنبال الگوی عملی و سازگار برای استفاده های پیش بینی است. این هدف مهندسی عملی علوم داده را فراتر از تجزیه و تحلیل سنتی می داند. اکنون می توان از داده های موجود در آن رشته ها و رشته های کاربردی که فاقد نظریه های جامد بودند، مانند علم بهداشت و علوم اجتماعی، برای تولید مدل های پیش بینی قدرتمند استفاده کرد.

پروفسور استنفورد، دیوید دونوو، در سپتامبر سال 2015 با رد سه تعریف ساده و گمراه کننده از علم داده به جای انتقادات، این پیشنهاد را در پیش گرفت. اول، علم داده با کلان داده برابر نیست، به این ترتیب اندازه مجموعه داده ها ملاکی برای تشخیص علم و آمار داده ها نیست. دوم، علم داده ها با مهارت محاسباتی در مرتب سازی مجموعه های بزرگ داده تعریف نمی شوند، به این معنا که این مهارت ها در حال حاضر بطور کلی برای تجزیه و تحلیل در تمام رشته ها استفاده می شود. سوم، علم داده به شدت کاربردی است که برنامه های دانشگاهی در حال حاضر به اندازه کافی دانشمندان داده را برای مشاغل آماده نمی کنند، به این دلیل که بسیاری از برنامه های تحصیلات تکمیلی به طور گمراه کننده تبلیغات آنالیز و آماری خود را به عنوان جوهره یک برنامه علوم داده تبلیغ می کنند. از داده های ابزار پیش بینی کاربردی نسبت به نظریه های توضیحی با هم، این آمارشناسان زمینه کاربردی فزاینده ای را تصور می کنند که از آمارهای سنتی و فراتر از آن رشد می کند.

برای آینده علم داده، دونوو محیطی رو به رشد را برای علم آزاد طراحی می کند که مجموعه داده های مورد استفاده برای انتشارات دانشگاهی در دسترس همه محققان باشد. انستیتوی ملی بهداشت ایالات متحده قبلا برنامه هایی را برای تقویت تولید مثل و شفافیت داده های تحقیق اعلام کرده است. سایر ژورنال های بزرگ نیز به همین ترتیب در زیر پرونده هستند. به این ترتیب، آینده علم داده ها نه تنها از مرز تئوری های آماری در مقیاس و روش شناسی فراتر می رود، بلکه علم داده باعث انقلابی در دانشگاه های فعلی و الگوی تحقیق خواهد شد. همانطور که دونووه نتیجه می گیرد، "دامنه و تأثیر دانش علوم داده ها در دهه های آینده به طرز گسترده ای گسترش می یابد، زیرا داده های علمی و داده های مربوط به علم به طور گسترده در دسترس می شوند."

دانشمند داده

به عنوان یک تخصص، علم داده جوان است. این از حوزه های تجزیه و تحلیل آماری و داده کاوی رشد کرد. مجله Data Science که در سال 2002 توسط شورای بین المللی علوم منتشر و تا سال 2008، عنوان دانشمند داده ظاهر شد و این زمینه به سرعت از بین رفت. از آن زمان تاکنون کمبود اطلاعاتی دانشمندان وجود داشته است، حتی اگر کالج ها و دانشگاه های بیشتری شروع به ارائه مدارک علوم داده کنند. وظایف یک دانشمند داده می تواند شامل تدوین استراتژی هایی برای تجزیه و تحلیل داده ها باشد.همچنین تهیه داده ها برای تجزیه و تحلیل را بر عهده دارد. کاوش، تجزیه و تحلیل و تجسم داده ها و ساختن مدل هایی با داده با استفاده از زبان های برنامه نویسی مانند Python و R؛ و استقرار مدل ها در برنامه ها از وظایف دانشمند داده است. دانشمند داده تنها کار نمی کند. در حقیقت، مؤثرترین علم داده در تیم ها انجام می شود. علاوه بر یک دانشمند داده، این تیم ممکن است شامل یک تحلیلگر مشاغل باشد که مشکل را تعریف می کند، یک مهندس داده که داده ها را تهیه می کند و چگونه می توان به آنها دسترسی پیدا کرد، یک مهندس IT که بر فرآیندهای زیربنایی و زیرساخت ها نظارت دارد و یک توسعه دهنده برنامه که مدل ها یا خروجی های تجزیه و تحلیل به برنامه ها و محصولات مستقر می کند.

دانشمندان داده از انواع مختلفی از ابزارها استفاده می کنند، اما یکی از رایج ترین آنها نوت بوک های اوپن سورس است که برنامه های وب برای نوشتن و اجرای کد، تجسم داده ها و دیدن نتایج همه در یک محیط هستند. برخی از محبوب ترین نوت بوک ها عبارتند از:

Jupyter
RStudio
Zepplin

نوت بوک ها برای انجام تجزیه و تحلیل بسیار مفید هستند، اما هنگامی که دانشمندان داده ها به عنوان تیم نیاز به کار دارند، محدودیت های خود را دارند. بسترهای علوم داده برای حل این مشکل پدیدار شدند. یافتن و استخدام استعدادها بزرگترین سدی است که شرکت ها هنگام تمایل به استفاده از علوم داده برای مزیت رقابتی با آن روبرو هستند. در یک بررسی اخیر شرکت مک کینزی، نیمی از مدیران سراسر جغرافیا و صنایع نسبت به هر نوع مهارت دیگری در استخدام استعداد تحلیلی مشکل بیشتری داشتند. همچنین طبق 40 درصد از افراد مورد بررسی، کار جذب مشکلی است. علاوه بر دانشمندان داده، مک کینزی گزارش می دهد که در سایر مقوله های تحلیلی نیز کمبودهایی وجود دارد. به طور خاص، کمبود کارگران ماهر وجود دارد که می توانند بین مشکلات تجاری و کاربرد صحیح دانش داده و کارگرانی که در تجسم داده ها مهارت دارند، ترجمه شوند.

Indeed.com ،Glassdoor و Bloomberg اثبات بیشتری مبنی بر اینکه تقاضای قابل توجهی برای استعداد علم داده وجود دارد:

پست های شغلی برای دانشمندان داده در Real.com بین ژانویه 2015 و ژانویه سال 2018 افزایش 75 درصدی یافته است. طبق گفته های بلومبرگ، جستجوهای شغلی برای نقش دانشمندان داده 65 درصد افزایش یافته است.
Glassdoor تخمین می زند که تقاضا برای دانشمندان داده در سال 2018 از 50 درصد از عرضه فراتر رفته است.
Glassdoor برای سومین سال پیاپی دانشمند داده را به عنوان برترین کار در آمریکا رتبه بندی کرد.

کاربرد علم داده

از آنجا که فناوری مدرن امکان ایجاد و ذخیره اطلاعات روز افزون را فراهم کرده است، حجم داده ها افزایش یافته است. تخمین زده می شود که 90 درصد از داده ها در جهان در دو سال گذشته ایجاد شده اند. به عنوان مثال، کاربران فیسبوک در هر ساعت 10 میلیون عکس بارگذاری می کنند. تعداد دستگاه های متصل در جهان - اینترنت اشیاء (IOT) - پیش بینی می شود تا سال 2025 به بیش از 75 میلیارد برسد. ثروت داده هایی که توسط این فناوری ها جمع آوری و ذخیره می شود می تواند مزایای تحول آفرینی برای سازمان ها و جوامع در سراسر جهان به همراه آورد، اما تنها درصورتی که بتوانیم آن را تفسیر کنیم. این جایی است که علم داده وارد می شود.

سازمانها از تیم های علوم داده استفاده می كنند تا با پالایش محصولات و خدمات، داده ها را به یك مزیت رقابتی تبدیل كنند. به عنوان مثال، شرکت ها داده های جمع آوری شده از مراکز تماس را برای شناسایی مشتریانی که احتمالا دچار طغیان کردن می شوند، تجزیه و تحلیل می کنند، بنابراین بازاریابی می تواند اقدامی برای حفظ آنها انجام دهد. شرکت های لجستیکی برای بهبود سرعت تحویل و کاهش هزینه ها الگوهای ترافیکی، شرایط آب و هوایی و سایر عوامل را تحلیل می کنند. شرکت های بهداشت و درمان داده های تست پزشکی و علائم گزارش شده را برای کمک به پزشکان در تشخیص زودتر بیماری ها و درمان بهتر آنها، تجزیه و تحلیل می کنند.

اکثر شرکت ها علم داده را در اولویت قرار داده اند و سرمایه گذاری زیادی روی آن می کنند. در نظرسنجی اخیر بیش از 3000 CIO از گارتنر، پاسخ دهندگان تجزیه و تحلیل و هوش تجاری را به عنوان برترین فن آوری متمایز برای سازمان های خود قرار داده اند. CIO های مورد بررسی این فناوری ها را استراتژیک ترین برای شرکت های خود می دانند. بنابراین، آنها جدیدترین سرمایه گذاری را جذب می کنند. روند تجزیه و تحلیل و عمل بر روی داده ها تکراری است نه خطی، اما اینگونه است که کار به طور معمول برای یک پروژه مدل سازی داده جریان می یابد:

برنامه: یک پروژه و خروجی های بالقوه آن را تعریف کنید.
آماده سازی: ایجاد محیط کار، اطمینان از دانشمندان داده های مناسب و همچنین دسترسی به داده های مناسب و منابع دیگر مانند توان محاسبه
مصرف: داده ها را وارد محیط کار کنید.
کاوش: داده ها را تجزیه و تحلیل، کاوش و تجسم کنید.
مدل: مدل ها را بسازید، آموزش دهید و اعتبار دهید تا مطابق نیاز انجام شوند.
استقرار: مدل ها را به مرحله تولید تبدیل کنید.

فرآیند علوم داده به طور معمول توسط سه نوع مدیر کنترل می شود:

مدیران مشاغل: این مدیران برای تعریف مشکل و تدوین استراتژی برای تجزیه و تحلیل با تیم علوم داده همکاری می کنند. آنها ممکن است رئیس یک خط مشاغل مانند بازاریابی، مالی یا فروش باشند و یک تیم علوم داده را به آنها گزارش دهند. آنها برای اطمینان از تحویل پروژه ها از نزدیک با مدیر علوم داده و مدیر فناوری اطلاعات همکاری می کنند.
مدیران فناوری اطلاعات: مدیران ارشد فناوری اطلاعات مسئول برنامه ریزی زیرساخت ها و معماری هستند که از عملیات علوم داده پشتیبانی می کنند. آنها بطور مداوم در حال نظارت بر عملیات و استفاده از منابع هستند تا اطمینان حاصل شود که تیم های علوم داده با عملکرد و امنیت کار می کنند. آنها همچنین ممکن است مسئول ایجاد و به روزرسانی محیط برای تیم های علوم داده باشند.
مدیران علوم داده: این مدیران نظارت بر تیم علوم داده و کار روزانه خود را دارند. آنها سازندگان تیم هستند که می توانند توسعه تیم را با برنامه ریزی و نظارت بر پروژه متعادل سازند.

علم داده و یادگیری ماشین

یادگیری ماشین و آمار بخشی از علوم داده است. کلمه یادگیری در یادگیری ماشین بدان معنی است که الگوریتم ها برای تنظیم دقیق برخی از مدل ها یا پارامترهای الگوریتم به برخی از داده ها، که به عنوان یک مجموعه آموزشی استفاده می شود، بستگی دارد. این شامل بسیاری از تکنیک ها مانند رگرسیون و خوشه بندی نظارت شده است. اما همه تکنیک ها در این دسته جای نمی گیرند. به عنوان مثال، خوشه بندی بدون نظارت - یک تکنیک آماری و دانش داده ها - با هدف شناسایی خوشه ها و ساختارهای خوشه ای بدون هیچگونه دانش یا مجموعه آموزشی قبلی، به منظور کمک به الگوریتم طبقه بندی است. یک انسان برای برچسب زدن خوشه های یافت شده مورد نیاز است. بعضی از تکنیک ها ترکیبی هستند، مانند طبقه بندی نیمه نظارت. برخی از تکنیک های تشخیص الگوی یا تخمین چگالی در این دسته قرار دارند.

علم داده بسیار بیشتر از یادگیری ماشین است. در علم داده، داده ها ممکن است از یک ماشین یا فرآیند مکانیکی حاصل شود (داده های نظرسنجی می توانند به صورت دستی جمع آوری شوند، آزمایشات بالینی شامل یک نوع خاص از داده های کوچک است) و ممکن است هیچ ارتباطی با یادگیری نداشته باشد. اما تفاوت اصلی در این واقعیت است که علم داده کل طیف پردازش داده ها را پوشش می دهد، نه فقط جنبه های الگوریتمی یا آماری و به طور خاص، دانش داده ها را نیز در بر می گیرد.

یکپارچه سازی داده ها
معماری توزیع شده
یادگیری ماشین خودکار
تجسم داده ها
داشبورد و BI
مهندسی داده
استقرار در حالت تولید
تصمیم گیری های خودکار و محور

البته در بسیاری از سازمان ها، دانشمندان داده تنها روی یک بخش از این فرآیند تمرکز می کنند. دانش داده در درجه اول برای تصمیم گیری و پیش بینی استفاده از آنالیزهای پیش بینی، تجزیه و تحلیل تجربی (پیش بینی به علاوه علم تصمیم) و یادگیری ماشین استفاده می شود.

یادگیری ماشینی برای ساخت پیش بینی: اگر داده های مبادله ای از یک شرکت مالی دارید و برای تعیین روند آینده نیاز به ساختن یک مدل دارید، الگوریتم های یادگیری ماشین بهترین شرط بندی هستند. این تحت الگوی یادگیری نظارت شده است. به این دلیل تحت نظارت گفته می شود زیرا شما از قبل داده هایی دارید که می توانید ماشین های خود را آموزش دهید. به عنوان مثال، یک مدل کشف تقلب با استفاده از سابقه تاریخی خریدهای تقلب قابل آموزش است.

یادگیری ماشینی برای کشف الگو: اگر پارامترهایی را ندارید که بتوانید پیش بینی های لازم را انجام دهید، باید الگوهای پنهان موجود در مجموعه داده را پیدا کنید تا بتوانید پیش بینی های معنی دار کنید. این چیزی نیست جز مدل نظارت نشده زیرا شما هیچ برچسب از پیش تعریف شده برای گروه بندی ندارید. متداول ترین الگوریتم مورد استفاده برای کشف الگوی، خوشه بندی است.

نظرتون درباره این نوشته چیه؟ عالیه بد نیست خوب نبود