آنچه در این صفحه می خوانیم:
- آموزش آمار
- مراحل معمولی روش های آماری
- آمار و برنامه نویسی
- بهترین راه برای یادگیری آمار برای علم داده
- سخن پایانی
آموزش آمار
آمار در انواع کاربردهای علمی و تجاری استفاده می شود. آمار به ما دانش دقیق تری می دهد که به ما در تصمیم گیری بهتر کمک می کند.آمار می تواند بر پیش بینی هایی در مورد آنچه در آینده اتفاق می افتد تمرکز کند. همچنین می تواند بر توضیح چگونگی ارتباط چیزهای مختلف تمرکز کند. توضیحات آماری خوب برای پیش بینی نیز مفید است.
آمار حوزه وسیعی است که در بسیاری از صنایع کاربرد دارد.
ویکی پدیا آن را مطالعه جمع آوری، تجزیه و تحلیل، تفسیر، ارائه و سازماندهی داده ها تعریف می کند. بنابراین، نباید تعجب آور باشد که دانشمندان داده باید آمار را بدانند. به عنوان مثال، تجزیه و تحلیل داده ها حداقل به آمار توصیفی و نظریه احتمال نیاز دارد. این مفاهیم به شما کمک می کند تا از داده ها تصمیمات تجاری بهتری بگیرید. مفاهیم کلیدی شامل توزیع احتمال، اهمیت آماری، آزمون فرضیه و رگرسیون است. علاوه بر این، یادگیری ماشین نیاز به درک تفکر بیزی دارد. تفکر بیزی فرآیند بهروزرسانی باورها با جمعآوری دادههای اضافی است و موتور بسیاری از مدلهای یادگیری ماشین است. مفاهیم کلیدی عبارتند از احتمال شرطی، پیشین و پسین و حداکثر احتمال.
مراحل معمولی روش های آماری
مراحل معمولی عبارتند از:
- جمع آوری اطلاعات
- توصیف و تجسم داده ها
- نتیجه گیری
مهم است که هر سه مرحله را برای هر سؤالی که می خواهیم در مورد آن اطلاعات بیشتری داشته باشیم، در نظر داشته باشیم. دانستن اینکه کدام نوع داده در دسترس است می تواند به شما بگوید به چه نوع سؤالاتی می توانید با روش های آماری پاسخ دهید. دانستن اینکه به چه سؤالاتی میخواهید پاسخ دهید میتواند به شما کمک کند به چه نوع دادههایی نیاز دارید. ممکن است داده های زیادی در دسترس باشد، و دانستن اینکه روی چه چیزی تمرکز کنید مهم است.
جمع آوری اطلاعات
جمع آوری داده ها اولین گام در تجزیه و تحلیل آماری است.مثلاً بگویید که می خواهید در مورد همه مردم فرانسه چیزی بدانید.پس از آن جمعیت تمام مردم فرانسه است. برای جمعآوری اطلاعات در مورد همه اعضای یک جمعیت (مثلاً تمام 67 میلیون نفری که در فرانسه زندگی میکنند) تلاش زیادی میشود. جمع آوری گروه کوچکتری از آن جمعیت و تجزیه و تحلیل آن اغلب بسیار ساده تر است. به این نمونه می گویند. یک نمونه نماینده خوب برای روش های آماری بسیار مهم است.
توصیف و تجسم داده ها
اطلاعات (داده ها) از نمونه یا جمعیت شما را می توان با نمودارها تجسم کرد یا با اعداد خلاصه کرد. این اطلاعات کلیدی را به روشی ساده تر از نگاه کردن به داده های خام نشان می دهد. می تواند به ما در درک نحوه توزیع داده ها کمک کند. نمودارها می توانند توزیع داده ها را به صورت بصری نشان دهند. نمونه هایی از نمودارها عبارتند از:
- هیستوگرام ها
- نمودارهای دایره ای
- نمودارهای میله ای
- توطئه های جعبه
برخی از نمودارها ارتباط نزدیکی با آمار خلاصه عددی دارند. محاسبه آن ها اساس این نمودارها را به ما می دهد. به عنوان مثال، نمودار جعبه ای به صورت بصری ربع های توزیع داده را نشان می دهد. ربع ها داده هایی هستند که به چهار قسمت یا ربع با اندازه مساوی تقسیم می شوند. چارک یکی از انواع آمار خلاصه است.
آمار خلاصه
آمار خلاصه حجم زیادی از اطلاعات را می گیرد و آن را در چند مقدار کلیدی خلاصه می کند. اعداد از داده هایی محاسبه می شوند که شکل توزیع ها را نیز توصیف می کنند. اینها "آمار" فردی هستند. چند نمونه مهم عبارتند از:
- میانگین، میانه و حالت
- برد و محدوده بین چارکی
- ربع ها و صدک ها
- انحراف معیار و واریانس
نتیجه گیری
از آمار حاصل از داده های نمونه برای نتیجه گیری در مورد کل جامعه استفاده می شود. این یک نوع استنتاج آماری است. از تئوری احتمال برای محاسبه این اطمینان استفاده می شود که آن آمارها برای جمعیت نیز اعمال می شود. هنگام استفاده از یک نمونه، همیشه در مورد اینکه داده ها برای جامعه به نظر می رسند، ابهام وجود دارد.عدم قطعیت اغلب به صورت فواصل اطمینان بیان می شود.
فواصل اطمینان روش های عددی برای نشان دادن اینکه چقدر احتمال دارد که مقدار واقعی این آمار در محدوده معینی برای جامعه باشد، هستند. آزمون فرضیه روش دیگری برای بررسی درستی یک جمله در مورد یک جامعه است. به طور دقیق تر، بررسی می کند که چقدر احتمال دارد که یک فرضیه بر اساس داده های نمونه درست باشد.
آمار و برنامه نویسی
تجزیه و تحلیل آماری معمولاً با رایانه انجام می شود. حجم کمی از داده ها را می توان بدون کامپیوتر به خوبی تجزیه و تحلیل کرد.از لحاظ تاریخی، تمام تجزیه و تحلیل داده ها به صورت دستی انجام می شد. وقت گیر و مستعد خطا بود. امروزه معمولاً از برنامه نویسی و نرم افزار برای تجزیه و تحلیل داده ها استفاده می شود.
بهترین راه برای یادگیری آمار برای علم داده
در اینجا 3 مرحله برای یادگیری آمار و احتمال مورد نیاز برای علم داده آورده شده است:
- مفاهیم اصلی آمار - آمار توصیفی، توزیع ها، آزمون فرضیه ها و رگرسیون.
- تفکر بیزی - احتمال شرطی، پیشینیان، پسین ها و حداکثر احتمال.
- مقدمه ای بر یادگیری ماشینی آماری – مفاهیم اولیه ماشین و نحوه تناسب آمار را بیاموزید.
پس از تکمیل این 3 مرحله، شما آماده خواهید بود تا به مشکلات یادگیری ماشینی دشوارتر و کاربردهای رایج دنیای واقعی علم داده حمله کنید.
مرحله 1: مفاهیم اصلی آمار
برای دانستن نحوه یادگیری آمار برای علم داده، مفید است که با بررسی نحوه استفاده از آن شروع کنید. بیایید به چند نمونه از تحلیل ها یا برنامه های کاربردی واقعی که ممکن است به عنوان یک دانشمند داده نیاز به پیاده سازی داشته باشید نگاهی بیندازیم:
طراحی آزمایشی: شرکت شما در حال راه اندازی یک خط محصول جدید است، اما از طریق فروشگاه های خرده فروشی آفلاین به فروش می رسد. شما باید یک تست A/B طراحی کنید که تفاوت ها را در مناطق جغرافیایی کنترل کند. شما همچنین باید تخمین بزنید که چه تعداد فروشگاه را آزمایش کنید تا نتایج آماری قابل توجهی داشته باشید.
مدلسازی رگرسیون: شرکت شما باید تقاضای خطوط تولید جداگانه در فروشگاههای خود را بهتر پیشبینی کند. کم انبار کردن و ذخیره بیش از حد هر دو گران هستند. شما ساخت یک سری مدل های رگرسیون منظم را در نظر بگیرید.
تبدیل داده ها: شما چندین نامزد مدل یادگیری ماشین دارید که در حال آزمایش هستید. تعدادی از آنها توزیع احتمال خاصی از داده های ورودی را فرض می کنند، و شما باید بتوانید آنها را شناسایی کنید و داده های ورودی را به درستی تغییر دهید یا بدانید که چه زمانی می توان مفروضات اساسی را کاهش داد.
یک دانشمند داده هر روز صدها تصمیم می گیرد. آنها از مدل های کوچک مانند نحوه تنظیم یک مدل تا مدل های بزرگ مانند استراتژی تحقیق و توسعه تیم متفاوت هستند.
مرحله 2: تفکر بیزی
در تفکر بیزی، سطح عدم قطعیت قبل از جمع آوری داده ها، احتمال قبلی نامیده می شود. سپس پس از جمعآوری دادهها، به یک احتمال پسین بهروزرسانی میشود. این یک مفهوم اصلی برای بسیاری از مدلهای یادگیری ماشینی است، بنابراین تسلط بر آن مهم است.باز هم، همه این مفاهیم زمانی که آنها را پیاده سازی کنید معنا پیدا می کنند.
مرحله 3: مقدمه ای بر یادگیری ماشین آماری
اگر می خواهید آمار را برای علم داده یاد بگیرید، پس از یادگیری مفاهیم اصلی و تفکر بیزی، راهی بهتر از بازی با مدل های آماری یادگیری ماشینی وجود ندارد. زمینههای آمار و یادگیری ماشین ارتباط نزدیکی دارند و یادگیری ماشینی «آماری» رویکرد اصلی یادگیری ماشین مدرن است. در این مرحله، چند مدل یادگیری ماشینی را از ابتدا پیاده سازی خواهید کرد. این به شما کمک می کند تا درک درستی از مکانیک زیربنایی آنها را باز کنید. در این مرحله، اگر فقط کد را خط به خط کپی کنید، مشکلی ندارد. این به شما کمک می کند تا جعبه سیاه یادگیری ماشین را باز کنید و در عین حال درک خود را از آمار کاربردی مورد نیاز برای علم داده تقویت کنید.
سخن پایانی
در پایان، میتوان گفت که آمار مهم است، زیرا حتماً متوجه شدهاید که نویسندگان معمولاً آماری را اضافه میکنند تا نکته خود را ارزشمندتر و قویتر کنند. این وظیفه را به طور کامل انجام می دهد و شباهت قابل درک از وظیفه ای را که ما به طور منظم انجام می دهیم ارائه می دهد. تکنیک های آماری به ما کمک می کند تا مناطق مختلف را بررسی کنیم، به عنوان مثال، دارو، تجارت، جنبه های مالی، جامعه شناسی و بسیاری موارد دیگر.
انواع مختلفی از اطلاعات هماهنگ شده را با کمک نمودارها، جداول، خطوط کلی و نمودارها در اختیار ما قرار می دهد. امیدواریم که این بحث مفصل در مورد آمار به شما در درک بهتر و رفع تردیدهای خود در مورد آمار کمک کند.