آنچه در این صفحه میخوانید:
- معرفی تحلیل داده
- انواع تحلیل داده
- مراحل تحلیل داده
- روش های تحلیل داده کمی
- تحلیل داده در پایتون
- کاربرد تحلیل داده
معرفی تحلیل داده
تجزیه و تحلیل داده ها فرایندی برای بازرسی، پاکسازی، تبدیل و مدل سازی داده ها با هدف کشف اطلاعات مفید، اطلاع رسانی در مورد نتیجه گیری و حمایت از تصمیم گیری است. تجزیه و تحلیل داده ها دارای چندین جنبه و رویکرد است که شامل تکنیک های متنوعی تحت نام های مختلف است و در حوزه های مختلف اقتصادی، علمی و علوم اجتماعی مورد استفاده قرار می گیرد. در دنیای تجارت امروز، تجزیه و تحلیل داده ها در تصمیم گیری علمی و کمک به کسب و کار موثرتر عمل می کند.
داده کاوی یک تکنیک تجزیه و تحلیل داده خاص است که در مدل سازی و کشف دانش برای اهداف پیش بینی و نه صرفاً توصیفی تمرکز دارد، در حالی که هوش تجاری تجزیه و تحلیل داده ها را که به شدت به تجمیع متکی است، متمرکز می کند و عمدتا بر اطلاعات تجاری متمرکز است. در برنامه های آماری، تجزیه و تحلیل داده ها را می توان به آمار توصیفی، تجزیه و تحلیل داده های اکتشافی (EDA) و تجزیه و تحلیل داده های تأییدی (CDA) تقسیم کرد. EDA در کشف ویژگی های جدید در داده ها متمرکز است در حالی که CDA بر تأیید یا جعل فرضیه های موجود تمرکز دارد. تجزیه و تحلیل پیش بینی، تمرکز بر استفاده از مدل های آماری برای پیش بینی یا طبقه بندی، در حالی که تجزیه و تحلیل متنی از تکنیک های آماری، زبانی و ساختاری برای استخراج و طبقه بندی اطلاعات از منابع متنی، گونه ای از داده های بدون ساختار استفاده می کند. همه موارد فوق انواع مختلفی از تجزیه و تحلیل داده ها است. ادغام داده ها پیشرو در تجزیه و تحلیل داده ها است. اصطلاح تجزیه و تحلیل داده ها گاه به عنوان مترادف برای مدل سازی داده ها (Data visualization) استفاده می شود.
تجزیه و تحلیل داده ها (DA) فرآیند بررسی مجموعه های داده است تا نتیجه های مربوط به اطلاعاتی را که در آنها وجود دارد، به طور فزاینده ای با کمک سیستم ها و نرم افزارهای تخصصی به دست آورد. فن آوری ها و تکنیک های تجزیه و تحلیل داده ها به طور گسترده ای در صنایع تجاری مورد استفاده قرار می گیرند تا سازمان ها بتوانند با اطلاعات کافی موجود تصمیمات کسب و کار بیشتر و بهتری بگیرند و با دانشمندان و محققان مدل های علمی، نظریه ها و فرضیه ها را تایید یا رد کنند. تجزیه و تحلیل داده ها توسط متخصص آمار John Tukey در سال 1961 تعریف شده است.
انواع تحلیل داده
تجزیه و تحلیل داده ها به چهار نوع اساسی تقسیم می شود.
- تجزیه و تحلیل توصیفی آنچه را که طی یک دوره زمانی خاص اتفاق افتاده است، توصیف می کند. آیا تعداد بازدیدها زیاد شده است؟ آیا فروش امسال قوی تر از گذشته است؟
- آنالیزهای تشخیصی بیشتر به دلیل وقوع چیزی تمرکز می کنند. این شامل ورودی های متنوع تر داده و کمی فرضیه است. آیا هوا بر فروش بستنی تأثیر گذاشت؟ آیا این آخرین فعالیت بازاریابی در فروش تأثیر داشته است؟
- تجزیه و تحلیل پیش بینی کننده به سمت آنچه ممکن است در مدت زمان نزدیک اتفاق بیفتد حرکت می کند. آخرین باری که تابستان داغ داشتیم به فروش رسید؟ امسال چند مدل هواشناسی تابستان گرم را پیش بینی می کند؟
- تجزیه و تحلیل تجربی یک دوره عملی را نشان می دهد. اگر احتمال تابستان گرم به طور میانگین اندازه گیری شود از 58٪ پنج مدل آب و هوا بالاتر است، باید یک شیفت عصر را اضافه کنیم و یک مخزن اضافی را برای افزایش بازده اجاره کنیم.
تجزیه و تحلیل داده ها بسیاری از سیستم های کنترل کیفیت در دنیای مالی را شامل می شود. اگر شما به درستی چیزی را اندازه گیری نکنید، خواه از وزن شما باشد یا تعداد نقص در هر میلیون در یک خط تولید، بهینه سازی آن تقریبا غیرممکن است.
مراحل تحلیل داده
تجزیه و تحلیل به شکستن یک کل در اجزای جداگانه آن برای معاینه فردی اشاره دارد. تجزیه و تحلیل داده ها فرایندی برای بدست آوردن داده های خام و تبدیل آن به اطلاعات مفید برای تصمیم گیری توسط کاربران است. داده ها برای پاسخ به سؤالات، آزمون فرضیه ها یا تئوری های رد شده جمع آوری و تجزیه و تحلیل می شوند. آماریست John Tukey تجزیه و تحلیل داده ها را در سال 1961 تعریف کرده است:"روشهایی برای تجزیهوتحلیل دادهها، تکنیکهایی برای تفسیر کردن نتایج حاصل از چنین روشهایی، روشهای برنامهریزی جمعآوری دادهها برای آسانتر ساختن تجزیهوتحلیل دقیقتر و صحیحتر و تمام ماشینآلات و نتایج حاصل از آمار که برای تحلیل کردن دادهها به کار بسته میشود." چندین مرحله وجود دارد که در زیر شرح داده شده است. مراحل تکراری نیز هستند، به این دلیل که بازخورد از مراحل بعدی ممکن است منجر به کار اضافی در مراحل اولیه شود. فریمورک CRISP مورد استفاده در داده کاوی مراحل مشابهی دارد.
الزامات داده
دادهٔ لازم به عنوان ورودی جهت تحلیل، بر اساس پیشنیازهای جهتدار یا مشتریانی که از محصول نهایی تحلیل استفاده میکنند، مشخص شدهاند. ماهیت کلی که بر مبنای آن داده جمعآوری خواهد شد، واحد آزمایشی نامیده میشود (بهطور مثال، یک فرد یا جمعیت). متغیرهای خاص در رابطه با یک جمعیت (بهطور مثال سن یا درآمد) میتواند مشخص شود و به دست آید. دادهها ممکن است عددی یا مطلق باشند.
جمعآوری داده
داده از منابع گوناگون جمعآوری میشود. پیشنیازها میتواند توسط تحلیلگران و متولیان داده وسیله ارتباطی باشد. مثلاً تجهیزات فناوری اطلاعات که در یک سازمان است. همچنین داده میتواند از سنسورهای داخل محیط مانند دوربینهای ترافیک، ماهواره، وسایل ثبت و غیره جمعآوری شود. همچنین میتواند از طریق مصاحبهها، دانلود از منابع آنلاین یا خواندن اسناد به دست آید.
پردازش داده
داده اولیه باید برای تحلیل، فرآوری یا سازماندهی شود. بهطور مثال آنها در فرمت ستونی یا ردیفی در یک جدول قرار میگیرند (یعنی داده ساختاری) که برای تحلیل بیشتر از نرمافزارهای آماری یا اکسل استفاده میکنند.
پاکسازی داده
زمانی که سازماندهی انجام شد، داده ممکن است ناقص، دارای تکرار یا خطا باشد. نیاز به پاکسازی داده هنگام وقوع مشکل در مسیر ورود یا ذخیرهٔ داده معلوم میشود. پاکسازی داده فرایندی برای اصلاح یا جلوگیری از چنین خطاهایی است. اهداف رایج شامل ثبت تطابق، شناسایی عدم دقت داده، کیفیت کلی دادهٔ موجود، حذف دادههای تکراری و تقسیمبندی ستون است. چنین مشکلاتی در داده از طریق روشهای مختلف تحلیلی هم میتواند قابل تشخیص باشد. بهطور مثال با اطلاعات مالی، مجموع متغیرهای مشخص ممکن است با اعدادی که جداگانه به عنوان داده مورد قبول منتشر شده بودند، مقایسه شود. مقادیر غیرعادی بالا یا زیر آستانهٔ مشخص هم باید دوباره بررسی شود. بسته به نوع داده مانند شمارههای تماس، آدرسهای ایمیل، کارمندان و غیره انواع پاکسازی داده وجود دارد. روشهای دادهٔ کمی برای تشخیص دادههای پرت میتواند برای خارج کردن دادههایی که اشتباهاً وارد شده هم استفاده شود. بررسیکنندههای غلط املایی میتواند برای کاهش مقدار کلمات اشتباه تایپ شده به کار رود اما مشکل اینجاست که کلماتی که خودشان درستاند تشخیص داده شود.
تجزیهوتحلیل داده اکتشافی
زمانی که داده پاکسازی شد، میتواند تحلیل شود. برای داده اکتشافی، تحلیلگر ممکن است چندین روش را به کار ببندد تا پیام موجود در داده را بتواند درک کند. خود این بخش میتواند شامل پاکسازی دیگری شود. بنابراین این فعالیتها در ذات خود ممکن است تکرار داشته باشند. آمار توصیفی مانند معدل و میانگین ممکن است برای کمک به فهم آن داده تولید شود. مصورسازی داده نیز به فرمت گرافیکی به کار میرود تا دید بیشتری نسبت به پیامهای درون داده حاصل آید.
مدلسازی و الگوریتم
مدلها یا فرمولهای ریاضی که به آنها الگوریتم گفته میشود، ممکن است بر روی داده به کار بسته شود تا روابط بین متغیرها مانند همبستگی یا نسبت میان علت و معمول شناسایی شود. بهطور کلی، مدلها برای ارزیابی به متغیری مشخص در داده که بر مبنای دیگر متغیرها است، توسعه مییابد که در آن چند خطای باقیمانده بسته به دقت مدل وجود دارد .
محصول داده
محصول داده یک برنامه کامپیوتری است که دادهها را گرفته و خروجی تولید میکند و آنها را به محیط برمیگرداند؛ میتواند برحسب یک مدل یا الگوریتم باشد. برای مثال، برنامهای کاربردی که اطلاعات تاریخچه خرید مشتری را تحلیل میکند و خریدهایی که ممکن است برای آن مشتری مطلوب باشد را پیشنهاد میکند.
ارتباط
هنگامی که دادهها مورد تجزیه و تحلیل است، میتواند به فرمتهای مختلف برای کاربران گزارش شود تا نیازهای آنها حمایت شود. کاربران ممکن است بازخورد دهند که موجب تجزیه و تحلیل اضافی میشود. به این ترتیب، بسیاری از چرخه تحلیلی تکراری است.
هنگام تعیین نحوه انتقال نتایج، تحلیلگر ممکن است که روشهای تجسم داده را برای کمک به شفافیت و کارایی در انتقال پیام به مخاطب در نظر بگیرد. تجسم داده اطلاعات را به صورت جدولها و نمودارها نمایش میدهد تا پیام کلیدی موجود در داده قابل انتقال شود. جدولها برای کاربری که به دنبال اعداد خاصی است کمککننده است در حالی که نمودارها (مثلاً نمودار خطی یا نمودار میلهای) برای توضیح پیامهای کمی کمککننده هستند.
روش های تحلیل داده
اندازه گیری داده های کمی
روش های تحلیل کمی به توانایی شمارش دقیق و تفسیر داده ها بر اساس واقعیت های سخت متکی هستند. سه روش اول برای به روزرسانی بازی تحلیل شما روی داده های کمی متمرکز خواهد شد:
تحلیل رگرسیون: مطالعات رگرسیون هنگامی که نیاز به پیش بینی روندهای آینده دارید، ابزارهای عالی هستند. رگرسیون رابطه بین متغیر وابسته (آنچه می خواهید اندازه گیری کنید) و یک متغیر مستقل (داده ای که برای پیش بینی متغیر وابسته استفاده می کنید) اندازه گیری می کند. در حالی که شما فقط می توانید یک متغیر وابسته داشته باشید، می توانید تعداد تقریباً نامحدود از متغیر های مستقل داشته باشید. رگرسیون همچنین به شما کمک می کند مناطقی را در عملیات خود کشف کنید که با برجسته سازی روندها و روابط بین عوامل می توان بهینه سازی کرد.
آزمون فرضیه: این روش تجزیه و تحلیل همچنین با عنوان "T Testing" شناخته می شود و به شما امکان می دهد داده هایی را که درمورد فرضیه ها و فرضیاتی که درباره عملیات خود انجام داده اید مقایسه کنید. همچنین به شما کمک می کند تا پیش بینی کنید تصمیماتی را که می توانید بگیرید بر سازمان شما تأثیر می گذارد. آزمون T به شما امکان می دهد دو متغیر را برای یافتن یک همبستگی و تصمیم گیری های پایه در یافته ها مقایسه کنید. به عنوان مثال، شما ممکن است فرض کنید که ساعات بیشتری کار معادل بهره وری بالاتر است. قبل از اجرای ساعات کار طولانی تر، مهم است که ارتباط واقعی برای جلوگیری از یک سیاست غیرقانونی برقرار شود.
شبیه سازی مونت کارلو: به عنوان یکی از روشهای رایج برای محاسبه تأثیر متغیرهای غیرقابل پیش بینی بر یک عامل خاص، شبیه سازی های مونت کارلو از مدل سازی احتمال استفاده می کند تا به پیش بینی خطر و عدم اطمینان کمک کند. برای آزمایش یک فرضیه یا سناریو، یک شبیه سازی مونت کارلو از اعداد و داده های تصادفی استفاده می کند تا انواع نتایج احتمالی هر وضعیت را براساس هر نتیجه ای رقم بزند. این یک ابزار فوق العاده مفید در زمینه های مختلفی از جمله مدیریت پروژه، دارایی، مهندسی، لجستیک و موارد دیگر است. با آزمایش انواع امکانات، می توانید درک کنید که متغیرهای تصادفی چگونه می توانند بر برنامه ها و پروژه های شما تأثیر بگذارند.
اندازه گیری داده های کیفی
برخلاف داده های کمی، اطلاعات کیفی نیاز به دور شدن از آمارهای خالص و به سمت رویکردهای ذهنی تر دارد. با این حال، شما هنوز هم می توانید با استفاده از تکنیک های مختلف تجزیه و تحلیل داده ها بسته به خواسته های خود داده های مفید استخراج کنید. دو روش آخر ما روی داده های کیفی متمرکز است:
تحلیل محتوا: این روش به درک کلی مضامین موجود در داده های کیفی کمک می کند. استفاده از تکنیک هایی مانند رمزگذاری رنگ با موضوع ها و ایده های خاص، به تجزیه داده های متنی کمک می کند تا رایج ترین موضوعات را پیدا کنید. تجزیه و تحلیل محتوا می تواند در برخورد با داده هایی مانند بازخورد کاربر، داده های مصاحبه، نظرسنجی های باز و موارد دیگر به خوبی کار کند. این می تواند به شناسایی مهمترین مناطق برای تمرکز بر روی پیشرفت کمک کند.
تحلیل روایت: این نوع تحلیل بر نحوه ارتباط داستان ها و ایده ها در یک شرکت متمرکز است و می تواند در درک بهتر فرهنگ سازمانی به شما کمک کند. این ممکن است شامل تفسیر احساس کارمندان نسبت به شغل خود، نحوه درک مشتری از یک سازمان و نحوه مشاهده فرآیندهای عملیاتی باشد. این می تواند در هنگام ایجاد تغییر در فرهنگ سازمانی یا برنامه ریزی استراتژی های جدید بازاریابی مفید باشد.
هیچ استاندارد طلائی برای تجزیه و تحلیل آماری یا روش صحیحی برای انجام آن وجود ندارد. روشی که شما انتخاب می کنید باید همیشه داده هایی را که جمع آوری کرده اید و نوع بینش هایی که می خواهید استخراج کنید را منعکس کند. مطابقت با داده ها و تجزیه و تحلیل مناسب به کشف بینش بهتر برای بهینه سازی سازمان شما کمک می کند.
تحلیل داده در پایتون
پایتون به عنوان یکی از بهترین ابزارهای علوم داده برای کار داده بزرگ در نظر گرفته شده است. وقتی نیاز به یکپارچه سازی بین تجزیه و تحلیل داده ها و برنامه های وب یا کد آماری با پایگاه داده تولید وجود دارد، پایتون و کلان داده مناسب هستند. با پشتیبانی از کتابخانه پیشرفته، به اجرای الگوریتم های یادگیری ماشین کمک می کند. از این رو، در بسیاری از جنبه های کلان داده، پایتون و کلان داده یکدیگر را تکمیل می کنند. مانند بسیاری از زبان های برنامه نویسی دیگر، این کتابخانه های موجود است که منجر به موفقیت پایتون می شوند: حدود 72000 تا از آنها در فهرست بسته بندی پایتون (PyPI) و به طور مداوم در حال رشد هستند. با استفاده از پایتون که صراحتا دارای یک هسته سبک است، کتابخانه استاندارد با ابزارهایی برای هر نوع کار برنامه نویسی ساخته شده است. Python نرم افزاری رایگان و اوپن است و به تبع آن ، هر کسی می تواند برای گسترش قابلیت های خود، یک بسته کتابخانه بنویسد. Pandas کتابخانه تجزیه و تحلیل داده های Python است که برای همه چیز از واردات داده ها از صفحه گسترده های اکسل گرفته تا پردازش مجموعه ها برای تجزیه و تحلیل سریال های زمانی استفاده می شود. تقریباً هر ابزار کمبود داده مشترک را در نوک انگشتان شما قرار می دهد. این بدان معنی است که پاک سازی اساسی و برخی از دستکاری های پیشرفته را می توان با قاب های داده قدرتمند Pandas انجام داد. Pandas در بالای NumPy ساخته شده است، یکی از اولین کتابخانه ها در پشت داستان موفقیت در علم داده پایتون. عملکردهای NumPy برای تجزیه و تحلیل عددی پیشرفته در Pandas قرار گرفته است.
SciPy معادل علمی NumPy است که ابزار و تکنیکی برای تجزیه و تحلیل داده های علمی ارائه می دهد. Statsmodels روی ابزارهایی برای تجزیه و تحلیل آماری تمرکز دارد. Silk-Learn و PyBrain کتابخانه های یادگیری ماشینی هستند که ماژول هایی را برای ساخت شبکه های عصبی و پردازش داده ها ارائه می دهند.
این ها کتابخانه های مورد علاقه مردم است. سایر كتابخانه های تخصصی عبارتند از:
- SymPy - برای برنامه های آماری
- Shogun ،PyLearn2 و PyMC - برای یادگیری ماشین
- Bokeh ،d3py ،ggplot ،matplotlib ،Plotly ،prettyplotlib و seaborn - برای ترسیم و تجسم
- csvkit ،PyTables ،SQLite3 - برای ذخیره سازی و قالب بندی داده ها
نرم افزارهای رایگان قابل توجه برای تجزیه و تحلیل داده ها شامل موارد زیر است:
- DevInfo - یک سیستم پایگاه داده است که توسط گروه توسعه سازمان ملل برای نظارت و تجزیه و تحلیل توسعه انسانی تأیید شده است.
- ELKI - فریمورک داده کاوی در جاوا با توابع تجسم گرا به داده کاوی
- KNIME - ماینیگ اطلاعات، یک فریمورک تجزیه و تحلیل کاربر پسند و جامع
- Orange- یک ابزار برنامه نویسی بصری شامل تجسم داده های تعاملی و روش هایی برای تجزیه و تحلیل داده های آماری، داده کاوی و یادگیری ماشین
- Pandas - کتابخانه پایتون برای تجزیه و تحلیل داده ها
- PAW - فریمورک تجزیه و تحلیل داده های FORTRAN / C که در CERN تهیه شده است.
- R - یک زبان برنامه نویسی و یک محیط نرم افزاری برای محاسبات آماری و گرافیک
- ROOT - فریمورک تجزیه و تحلیل داده ها ++C در CERN توسعه یافته است.
- SciPy - کتابخانه پایتون برای تجزیه و تحلیل داده ها
کاربرد تحلیل داده
برخی از بخشهایی که استفاده از تجزیه و تحلیل داده ها را پذیرفته اند، شامل صنعت مسافرت و میهمان نوازی هستند، جایی که گردش مالی سریع انجام می شود. این صنعت می تواند داده های مشتری را جمع آوری کرده و بفهمد که مشکلات در صورت وجود، چیست و چگونه آنها را برطرف کرد. بهداشت و درمان استفاده از حجم بالایی از داده های ساختاری و بدون ساختار را انجام می دهد و از آنالیز داده ها برای تصمیم گیری سریع استفاده می کند. به طور مشابه، صنعت خرده فروشی از مقادیر فراوان داده برای پاسخگویی به نیازهای روزافزون خریداران استفاده می کند. خرده فروشان اطلاعاتی که جمع آوری و تجزیه و تحلیل می کنند می تواند به آنها در شناسایی روندها، توصیه محصولات و افزایش سود کمک کند. داده کاوی، تحلیل مقدار زیادی از داده ها برای استخراج الگوهای ناشناخته و جالب از داده ها، داده های غیر معمول و وابستگی ها است. توجه داشته باشید که هدف استخراج الگوها و دانش از مقادیر زیادی داده است و استخراج از خود داده نیست. تجزیه و تحلیل داده ها شامل متد های علوم رایانه ای در مقاطع هوش مصنوعی، یادگیری ماشینی، آمار و سیستم های پایگاه داده می باشد.
برخی از نمونه های هوش تجاری در مورد استفاده امروز:
- تصمیمات عملیاتی یک سازمان مانند قرار دادن محصول و قیمت گذاری
- شناسایی بازارهای جدید، ارزیابی تقاضا و مناسب بودن محصولات برای بخشهای مختلف بازار
- پیش بینی بودجه و گردش
- استفاده از ابزارهای تصویری مانند نقشه های گرما، جداول محوری و نقشه برداری جغرافیایی