تحلیل داده (Data Analysis)

مرتب‌سازی:

تحلیل داده

آنچه در این صفحه میخوانید:

معرفی تحلیل داده
انواع تحلیل داده
مراحل تحلیل داده
روش های تحلیل داده کمی
تحلیل داده در پایتون
کاربرد تحلیل داده

معرفی تحلیل داده

تجزیه و تحلیل داده ها فرایندی برای بازرسی، پاکسازی، تبدیل و مدل سازی داده ها با هدف کشف اطلاعات مفید، اطلاع رسانی در مورد نتیجه گیری و حمایت از تصمیم گیری است. تجزیه و تحلیل داده ها دارای چندین جنبه و رویکرد است که شامل تکنیک های متنوعی تحت نام های مختلف است و در حوزه های مختلف اقتصادی، علمی و علوم اجتماعی مورد استفاده قرار می گیرد. در دنیای تجارت امروز، تجزیه و تحلیل داده ها در تصمیم گیری علمی و کمک به کسب و کار موثرتر عمل می کند.

داده کاوی یک تکنیک تجزیه و تحلیل داده خاص است که در مدل سازی و کشف دانش برای اهداف پیش بینی و نه صرفاً توصیفی تمرکز دارد، در حالی که هوش تجاری تجزیه و تحلیل داده ها را که به شدت به تجمیع متکی است، متمرکز می کند و عمدتا بر اطلاعات تجاری متمرکز است. در برنامه های آماری، تجزیه و تحلیل داده ها را می توان به آمار توصیفی، تجزیه و تحلیل داده های اکتشافی (EDA) و تجزیه و تحلیل داده های تأییدی (CDA) تقسیم کرد. EDA در کشف ویژگی های جدید در داده ها متمرکز است در حالی که CDA بر تأیید یا جعل فرضیه های موجود تمرکز دارد. تجزیه و تحلیل پیش بینی، تمرکز بر استفاده از مدل های آماری برای پیش بینی یا طبقه بندی، در حالی که تجزیه و تحلیل متنی از تکنیک های آماری، زبانی و ساختاری برای استخراج و طبقه بندی اطلاعات از منابع متنی، گونه ای از داده های بدون ساختار استفاده می کند. همه موارد فوق انواع مختلفی از تجزیه و تحلیل داده ها است. ادغام داده ها پیشرو در تجزیه و تحلیل داده ها است. اصطلاح تجزیه و تحلیل داده ها گاه به عنوان مترادف برای مدل سازی داده ها (Data visualization) استفاده می شود.

تجزیه و تحلیل داده ها (DA) فرآیند بررسی مجموعه های داده است تا نتیجه های مربوط به اطلاعاتی را که در آنها وجود دارد، به طور فزاینده ای با کمک سیستم ها و نرم افزارهای تخصصی به دست آورد. فن آوری ها و تکنیک های تجزیه و تحلیل داده ها به طور گسترده ای در صنایع تجاری مورد استفاده قرار می گیرند تا سازمان ها بتوانند با اطلاعات کافی موجود تصمیمات کسب و کار بیشتر و بهتری بگیرند و با دانشمندان و محققان مدل های علمی، نظریه ها و فرضیه ها را تایید یا رد کنند. تجزیه و تحلیل داده ها توسط متخصص آمار John Tukey در سال 1961 تعریف شده است.

انواع تحلیل داده

تجزیه و تحلیل داده ها به چهار نوع اساسی تقسیم می شود.

تجزیه و تحلیل توصیفی آنچه را که طی یک دوره زمانی خاص اتفاق افتاده است، توصیف می کند. آیا تعداد بازدیدها زیاد شده است؟ آیا فروش امسال قوی تر از گذشته است؟
آنالیزهای تشخیصی بیشتر به دلیل وقوع چیزی تمرکز می کنند. این شامل ورودی های متنوع تر داده و کمی فرضیه است. آیا هوا بر فروش بستنی تأثیر گذاشت؟ آیا این آخرین فعالیت بازاریابی در فروش تأثیر داشته است؟
تجزیه و تحلیل پیش بینی کننده به سمت آنچه ممکن است در مدت زمان نزدیک اتفاق بیفتد حرکت می کند. آخرین باری که تابستان داغ داشتیم به فروش رسید؟ امسال چند مدل هواشناسی تابستان گرم را پیش بینی می کند؟
تجزیه و تحلیل تجربی یک دوره عملی را نشان می دهد. اگر احتمال تابستان گرم به طور میانگین اندازه گیری شود از 58٪ پنج مدل آب و هوا بالاتر است، باید یک شیفت عصر را اضافه کنیم و یک مخزن اضافی را برای افزایش بازده اجاره کنیم.

تجزیه و تحلیل داده ها بسیاری از سیستم های کنترل کیفیت در دنیای مالی را شامل می شود. اگر شما به درستی چیزی را اندازه گیری نکنید، خواه از وزن شما باشد یا تعداد نقص در هر میلیون در یک خط تولید، بهینه سازی آن تقریبا غیرممکن است.

مراحل تحلیل داده

تجزیه و تحلیل به شکستن یک کل در اجزای جداگانه آن برای معاینه فردی اشاره دارد. تجزیه و تحلیل داده ها فرایندی برای بدست آوردن داده های خام و تبدیل آن به اطلاعات مفید برای تصمیم گیری توسط کاربران است. داده ها برای پاسخ به سؤالات، آزمون فرضیه ها یا تئوری های رد شده جمع آوری و تجزیه و تحلیل می شوند. آماریست John Tukey تجزیه و تحلیل داده ها را در سال 1961 تعریف کرده است:"روش‌هایی برای تجزیه‌وتحلیل داده‌ها، تکنیک‌هایی برای تفسیر کردن نتایج حاصل از چنین روش‌هایی، روش‌های برنامه‌ریزی جمع‌آوری داده‌ها برای آسان‌تر ساختن تجزیه‌وتحلیل دقیق‌تر و صحیح‌تر و تمام ماشین‌آلات و نتایج حاصل از آمار که برای تحلیل کردن داده‌ها به کار بسته می‌شود." چندین مرحله وجود دارد که در زیر شرح داده شده است. مراحل تکراری نیز هستند، به این دلیل که بازخورد از مراحل بعدی ممکن است منجر به کار اضافی در مراحل اولیه شود. فریمورک CRISP مورد استفاده در داده کاوی مراحل مشابهی دارد.

الزامات داده

دادهٔ لازم به عنوان ورودی جهت تحلیل، بر اساس پیش‌نیازهای جهت‌دار یا مشتریانی که از محصول نهایی تحلیل استفاده می‌کنند، مشخص شده‌اند. ماهیت کلی که بر مبنای آن داده جمع‌آوری خواهد شد، واحد آزمایشی نامیده می‌شود (به‌طور مثال، یک فرد یا جمعیت). متغیرهای خاص در رابطه با یک جمعیت (به‌طور مثال سن یا درآمد) می‌تواند مشخص شود و به دست آید. داده‌ها ممکن است عددی یا مطلق باشند.

جمع‌آوری داده

داده از منابع گوناگون جمع‌آوری می‌شود. پیش‌نیازها می‌تواند توسط تحلیل‌گران و متولیان داده وسیله ارتباطی باشد. مثلاً تجهیزات فناوری اطلاعات که در یک سازمان است. همچنین داده می‌تواند از سنسورهای داخل محیط مانند دوربین‌های ترافیک، ماهواره، وسایل ثبت و غیره جمع‌آوری شود. همچنین می‌تواند از طریق مصاحبه‌ها، دانلود از منابع آنلاین یا خواندن اسناد به دست آید.

پردازش داده

داده اولیه باید برای تحلیل، فرآوری یا سازماندهی شود. به‌طور مثال آن‌ها در فرمت ستونی یا ردیفی در یک جدول قرار می‌گیرند (یعنی داده ساختاری) که برای تحلیل بیشتر از نرم‌افزارهای آماری یا اکسل استفاده می‌کنند.

پاک‌سازی داده

زمانی که سازماندهی انجام شد، داده ممکن است ناقص، دارای تکرار یا خطا باشد. نیاز به پاک‌سازی داده هنگام وقوع مشکل در مسیر ورود یا ذخیرهٔ داده معلوم می‌شود. پاک‌سازی داده فرایندی برای اصلاح یا جلوگیری از چنین خطاهایی است. اهداف رایج شامل ثبت تطابق، شناسایی عدم دقت داده، کیفیت کلی دادهٔ موجود، حذف داده‌های تکراری و تقسیم‌بندی ستون است. چنین مشکلاتی در داده از طریق روش‌های مختلف تحلیلی هم می‌تواند قابل تشخیص باشد. به‌طور مثال با اطلاعات مالی، مجموع متغیرهای مشخص ممکن است با اعدادی که جداگانه به عنوان داده مورد قبول منتشر شده بودند، مقایسه شود. مقادیر غیرعادی بالا یا زیر آستانهٔ مشخص هم باید دوباره بررسی شود. بسته به نوع داده مانند شماره‌های تماس، آدرس‌های ایمیل، کارمندان و غیره انواع پاک‌سازی داده وجود دارد. روش‌های دادهٔ کمی برای تشخیص داده‌های پرت می‌تواند برای خارج کردن داده‌هایی که اشتباهاً وارد شده هم استفاده شود. بررسی‌کننده‌های غلط املایی می‌تواند برای کاهش مقدار کلمات اشتباه تایپ شده به کار رود اما مشکل اینجاست که کلماتی که خودشان درست‌اند تشخیص داده شود.

تجزیه‌وتحلیل داده اکتشافی

زمانی که داده پاک‌سازی شد، می‌تواند تحلیل شود. برای داده اکتشافی، تحلیل‌گر ممکن است چندین روش را به کار ببندد تا پیام موجود در داده را بتواند درک کند. خود این بخش می‌تواند شامل پاک‌سازی دیگری شود. بنابراین این فعالیت‌ها در ذات خود ممکن است تکرار داشته باشند. آمار توصیفی مانند معدل و میانگین ممکن است برای کمک به فهم آن داده تولید شود. مصورسازی داده نیز به فرمت گرافیکی به کار می‌رود تا دید بیشتری نسبت به پیام‌های درون داده حاصل آید.

مدل‌سازی و الگوریتم

مدل‌ها یا فرمول‌های ریاضی که به آن‌ها الگوریتم گفته می‌شود، ممکن است بر روی داده به کار بسته شود تا روابط بین متغیرها مانند همبستگی یا نسبت میان علت و معمول شناسایی شود. به‌طور کلی، مدل‌ها برای ارزیابی به متغیری مشخص در داده که بر مبنای دیگر متغیرها است، توسعه می‌یابد که در آن چند خطای باقی‌مانده بسته به دقت مدل وجود دارد .

محصول داده

محصول داده یک برنامه کامپیوتری است که داده‌ها را گرفته و خروجی تولید می‌کند و آن‌ها را به محیط برمی‌گرداند؛ می‌تواند برحسب یک مدل یا الگوریتم باشد. برای مثال، برنامه‌ای کاربردی که اطلاعات تاریخچه خرید مشتری را تحلیل می‌کند و خریدهایی که ممکن است برای آن مشتری مطلوب باشد را پیشنهاد می‌کند.

ارتباط

هنگامی که داده‌ها مورد تجزیه و تحلیل است، می‌تواند به فرمت‌های مختلف برای کاربران گزارش شود تا نیازهای آن‌ها حمایت شود. کاربران ممکن است بازخورد دهند که موجب تجزیه و تحلیل اضافی می‌شود. به این ترتیب، بسیاری از چرخه تحلیلی تکراری است.

هنگام تعیین نحوه انتقال نتایج، تحلیل‌گر ممکن است که روش‌های تجسم داده را برای کمک به شفافیت و کارایی در انتقال پیام به مخاطب در نظر بگیرد. تجسم داده اطلاعات را به صورت جدول‌ها و نمودارها نمایش می‌دهد تا پیام کلیدی موجود در داده قابل انتقال شود. جدول‌ها برای کاربری که به دنبال اعداد خاصی است کمک‌کننده است در حالی که نمودارها (مثلاً نمودار خطی یا نمودار میله‌ای) برای توضیح پیام‌های کمی کمک‌کننده هستند.

روش های تحلیل داده

اندازه گیری داده های کمی

روش های تحلیل کمی به توانایی شمارش دقیق و تفسیر داده ها بر اساس واقعیت های سخت متکی هستند. سه روش اول برای به روزرسانی بازی تحلیل شما روی داده های کمی متمرکز خواهد شد:

تحلیل رگرسیون: مطالعات رگرسیون هنگامی که نیاز به پیش بینی روندهای آینده دارید، ابزارهای عالی هستند. رگرسیون رابطه بین متغیر وابسته (آنچه می خواهید اندازه گیری کنید) و یک متغیر مستقل (داده ای که برای پیش بینی متغیر وابسته استفاده می کنید) اندازه گیری می کند. در حالی که شما فقط می توانید یک متغیر وابسته داشته باشید، می توانید تعداد تقریباً نامحدود از متغیر های مستقل داشته باشید. رگرسیون همچنین به شما کمک می کند مناطقی را در عملیات خود کشف کنید که با برجسته سازی روندها و روابط بین عوامل می توان بهینه سازی کرد.

آزمون فرضیه: این روش تجزیه و تحلیل همچنین با عنوان "T Testing" شناخته می شود و به شما امکان می دهد داده هایی را که درمورد فرضیه ها و فرضیاتی که درباره عملیات خود انجام داده اید مقایسه کنید. همچنین به شما کمک می کند تا پیش بینی کنید تصمیماتی را که می توانید بگیرید بر سازمان شما تأثیر می گذارد. آزمون T به شما امکان می دهد دو متغیر را برای یافتن یک همبستگی و تصمیم گیری های پایه در یافته ها مقایسه کنید. به عنوان مثال، شما ممکن است فرض کنید که ساعات بیشتری کار معادل بهره وری بالاتر است. قبل از اجرای ساعات کار طولانی تر، مهم است که ارتباط واقعی برای جلوگیری از یک سیاست غیرقانونی برقرار شود.

شبیه سازی مونت کارلو: به عنوان یکی از روشهای رایج برای محاسبه تأثیر متغیرهای غیرقابل پیش بینی بر یک عامل خاص، شبیه سازی های مونت کارلو از مدل سازی احتمال استفاده می کند تا به پیش بینی خطر و عدم اطمینان کمک کند. برای آزمایش یک فرضیه یا سناریو، یک شبیه سازی مونت کارلو از اعداد و داده های تصادفی استفاده می کند تا انواع نتایج احتمالی هر وضعیت را براساس هر نتیجه ای رقم بزند. این یک ابزار فوق العاده مفید در زمینه های مختلفی از جمله مدیریت پروژه، دارایی، مهندسی، لجستیک و موارد دیگر است. با آزمایش انواع امکانات، می توانید درک کنید که متغیرهای تصادفی چگونه می توانند بر برنامه ها و پروژه های شما تأثیر بگذارند.

اندازه گیری داده های کیفی

برخلاف داده های کمی، اطلاعات کیفی نیاز به دور شدن از آمارهای خالص و به سمت رویکردهای ذهنی تر دارد. با این حال، شما هنوز هم می توانید با استفاده از تکنیک های مختلف تجزیه و تحلیل داده ها بسته به خواسته های خود داده های مفید استخراج کنید. دو روش آخر ما روی داده های کیفی متمرکز است:

تحلیل محتوا: این روش به درک کلی مضامین موجود در داده های کیفی کمک می کند. استفاده از تکنیک هایی مانند رمزگذاری رنگ با موضوع ها و ایده های خاص، به تجزیه داده های متنی کمک می کند تا رایج ترین موضوعات را پیدا کنید. تجزیه و تحلیل محتوا می تواند در برخورد با داده هایی مانند بازخورد کاربر، داده های مصاحبه، نظرسنجی های باز و موارد دیگر به خوبی کار کند. این می تواند به شناسایی مهمترین مناطق برای تمرکز بر روی پیشرفت کمک کند.

تحلیل روایت: این نوع تحلیل بر نحوه ارتباط داستان ها و ایده ها در یک شرکت متمرکز است و می تواند در درک بهتر فرهنگ سازمانی به شما کمک کند. این ممکن است شامل تفسیر احساس کارمندان نسبت به شغل خود، نحوه درک مشتری از یک سازمان و نحوه مشاهده فرآیندهای عملیاتی باشد. این می تواند در هنگام ایجاد تغییر در فرهنگ سازمانی یا برنامه ریزی استراتژی های جدید بازاریابی مفید باشد.

هیچ استاندارد طلائی برای تجزیه و تحلیل آماری یا روش صحیحی برای انجام آن وجود ندارد. روشی که شما انتخاب می کنید باید همیشه داده هایی را که جمع آوری کرده اید و نوع بینش هایی که می خواهید استخراج کنید را منعکس کند. مطابقت با داده ها و تجزیه و تحلیل مناسب به کشف بینش بهتر برای بهینه سازی سازمان شما کمک می کند.

تحلیل داده در پایتون

پایتون به عنوان یکی از بهترین ابزارهای علوم داده برای کار داده بزرگ در نظر گرفته شده است. وقتی نیاز به یکپارچه سازی بین تجزیه و تحلیل داده ها و برنامه های وب یا کد آماری با پایگاه داده تولید وجود دارد، پایتون و کلان داده مناسب هستند. با پشتیبانی از کتابخانه پیشرفته، به اجرای الگوریتم های یادگیری ماشین کمک می کند. از این رو، در بسیاری از جنبه های کلان داده، پایتون و کلان داده یکدیگر را تکمیل می کنند. مانند بسیاری از زبان های برنامه نویسی دیگر، این کتابخانه های موجود است که منجر به موفقیت پایتون می شوند: حدود 72000 تا از آنها در فهرست بسته بندی پایتون (PyPI) و به طور مداوم در حال رشد هستند. با استفاده از پایتون که صراحتا دارای یک هسته سبک است، کتابخانه استاندارد با ابزارهایی برای هر نوع کار برنامه نویسی ساخته شده است. Python نرم افزاری رایگان و اوپن است و به تبع آن ، هر کسی می تواند برای گسترش قابلیت های خود، یک بسته کتابخانه بنویسد. Pandas کتابخانه تجزیه و تحلیل داده های Python است که برای همه چیز از واردات داده ها از صفحه گسترده های اکسل گرفته تا پردازش مجموعه ها برای تجزیه و تحلیل سریال های زمانی استفاده می شود. تقریباً هر ابزار کمبود داده مشترک را در نوک انگشتان شما قرار می دهد. این بدان معنی است که پاک سازی اساسی و برخی از دستکاری های پیشرفته را می توان با قاب های داده قدرتمند Pandas انجام داد. Pandas در بالای NumPy ساخته شده است، یکی از اولین کتابخانه ها در پشت داستان موفقیت در علم داده پایتون. عملکردهای NumPy برای تجزیه و تحلیل عددی پیشرفته در Pandas قرار گرفته است.

SciPy معادل علمی NumPy است که ابزار و تکنیکی برای تجزیه و تحلیل داده های علمی ارائه می دهد. Statsmodels روی ابزارهایی برای تجزیه و تحلیل آماری تمرکز دارد. Silk-Learn و PyBrain کتابخانه های یادگیری ماشینی هستند که ماژول هایی را برای ساخت شبکه های عصبی و پردازش داده ها ارائه می دهند.

این ها کتابخانه های مورد علاقه مردم است. سایر كتابخانه های تخصصی عبارتند از:

SymPy - برای برنامه های آماری
Shogun ،PyLearn2 و PyMC - برای یادگیری ماشین
Bokeh ،d3py ،ggplot ،matplotlib ،Plotly ،prettyplotlib و seaborn - برای ترسیم و تجسم
csvkit ،PyTables ،SQLite3 - برای ذخیره سازی و قالب بندی داده ها

نرم افزارهای رایگان قابل توجه برای تجزیه و تحلیل داده ها شامل موارد زیر است:

DevInfo - یک سیستم پایگاه داده است که توسط گروه توسعه سازمان ملل برای نظارت و تجزیه و تحلیل توسعه انسانی تأیید شده است.
ELKI - فریمورک داده کاوی در جاوا با توابع تجسم گرا به داده کاوی
KNIME - ماینیگ اطلاعات، یک فریمورک تجزیه و تحلیل کاربر پسند و جامع
Orange- یک ابزار برنامه نویسی بصری شامل تجسم داده های تعاملی و روش هایی برای تجزیه و تحلیل داده های آماری، داده کاوی و یادگیری ماشین
Pandas - کتابخانه پایتون برای تجزیه و تحلیل داده ها
PAW - فریمورک تجزیه و تحلیل داده های FORTRAN / C که در CERN تهیه شده است.
R - یک زبان برنامه نویسی و یک محیط نرم افزاری برای محاسبات آماری و گرافیک
ROOT - فریمورک تجزیه و تحلیل داده ها ++C در CERN توسعه یافته است.
SciPy - کتابخانه پایتون برای تجزیه و تحلیل داده ها

کاربرد تحلیل داده

برخی از بخشهایی که استفاده از تجزیه و تحلیل داده ها را پذیرفته اند، شامل صنعت مسافرت و میهمان نوازی هستند، جایی که گردش مالی سریع انجام می شود. این صنعت می تواند داده های مشتری را جمع آوری کرده و بفهمد که مشکلات در صورت وجود، چیست و چگونه آنها را برطرف کرد. بهداشت و درمان استفاده از حجم بالایی از داده های ساختاری و بدون ساختار را انجام می دهد و از آنالیز داده ها برای تصمیم گیری سریع استفاده می کند. به طور مشابه، صنعت خرده فروشی از مقادیر فراوان داده برای پاسخگویی به نیازهای روزافزون خریداران استفاده می کند. خرده فروشان اطلاعاتی که جمع آوری و تجزیه و تحلیل می کنند می تواند به آنها در شناسایی روندها، توصیه محصولات و افزایش سود کمک کند. داده کاوی، تحلیل مقدار زیادی از داده ها برای استخراج الگوهای ناشناخته و جالب از داده ها، داده های غیر معمول و وابستگی ها است. توجه داشته باشید که هدف استخراج الگوها و دانش از مقادیر زیادی داده است و استخراج از خود داده نیست. تجزیه و تحلیل داده ها شامل متد های علوم رایانه ای در مقاطع هوش مصنوعی، یادگیری ماشینی، آمار و سیستم های پایگاه داده می باشد.

برخی از نمونه های هوش تجاری در مورد استفاده امروز:

تصمیمات عملیاتی یک سازمان مانند قرار دادن محصول و قیمت گذاری
شناسایی بازارهای جدید، ارزیابی تقاضا و مناسب بودن محصولات برای بخشهای مختلف بازار
پیش بینی بودجه و گردش
استفاده از ابزارهای تصویری مانند نقشه های گرما، جداول محوری و نقشه برداری جغرافیایی

نظرتون درباره این نوشته چیه؟ عالیه بد نیست خوب نبود