آنچه در این صفحه می خوانید:
معرفی پانداس (Pandas)
در برنامه نویسی رایانه، pandas یک کتابخانه نرم افزاری است که برای زبان برنامه نویسی پایتون برای دستکاری و تحلیل داده ها نوشته شده است. به طور خاص، ساختار داده و عملیات را برای دستکاری جداول عددی و سری های زمانی ارائه می دهد. این نرم افزار رایگان است که تحت مجوز BSD منتشر شده است. این نام از اصطلاح "panel data" گرفته شده است، اصطلاح اقتصاد سنجی برای مجموعه داده ها که شامل مشاهدات در طی دوره های زمانی مختلف برای افراد مشابه است. بسته pandas مهمترین ابزار در دسترس دانشمندان و تحلیلگران داده است که امروز در پایتون کار می کنند. ابزار قدرتمند یادگیری ماشین و ابزارهای ویژوال سازی ممکن است توجه همه را به خود جلب کند، اما پانداس ستون فقرات اکثر پروژه های داده است.
کاربرد پانداس (Pandas)
پانداس کاربردهای زیادی دارند که ممکن است به جای آنچه می تواند انجام دهد، لیست کارهایی که نمی توانند انجام دهند منطقی باشد. این ابزار در اصل خانه داده شما است. از طریق پانداس، با تمیز کردن، تبدیل و تجزیه و تحلیل آن با اطلاعات خود آشنا می شوید. به عنوان مثال، می خواهید یک مجموعه داده ذخیره شده در CSV در رایانه خود را کشف کنید. پاندا داده ها را از آن CSV در DataFrame استخراج می کند. یک جدول، اساساً، سپس به شما امکان می دهد کارهایی مانند:
- آمار را محاسبه کنید و به سؤالات مربوط به داده ها پاسخ دهید، مانند میانگین، حداکثر یا حداقل هر ستون چیست؟
- آیا ستون A با ستون B ارتباط دارد؟
- توزیع داده ها در ستون C چگونه به نظر می رسد؟
- داده ها را با انجام کارهایی مانند از بین بردن مقادیر از دست رفته و فیلتر کردن سطرها یا ستون ها بر اساس برخی معیارها، پاک کنید.
- داده ها را با کمک Matplotlib ویژوال سازی کنید. Plot بار ها، خطوط، هیستوگرام، حباب ها و موارد دیگر.
- داده های تمیز و تبدیل شده را به CSV، پرونده یا پایگاه داده دیگر برگردانید.
قبل از اینکه به مدل سازی یا ویژوال سازی های پیچیده بپردازید، باید درک درستی از ماهیت مجموعه داده ها و پانداس داشته باشید بهترین راه برای انجام این کار است. پاندا ها عمدتاً در قالب فریم داده برای یادگیری ماشین استفاده می شوند. پاندا اجازه وارد کردن داده از قالب های مختلف فایل مانند CSV ،Excel و غیره را می دهد. كتابخانه پانداس نه تنها جزء ابزار اصلی اطلاعات داده ها است، بلكه در رابطه با سایر كتابخانه های آن مجموعه نیز مورد استفاده قرار می گیرد. Pandas در بالای بسته NumPy ساخته شده است، به این معنی که ساختار زیادی از NumPy در پانداس استفاده شده یا همانند سازی می شود. داده ها در پاندا ها اغلب برای تغذیه تجزیه و تحلیل آماری در SciPy، ترسیم توابع از Matplotlib و الگوریتم های یادگیری ماشین در Scikit-Learn استفاده می شود. Jupyter Notebooks برای انجام اکتشاف و مدل سازی داده ها، محیط مناسبی را برای استفاده از پاندا ارائه می دهند، اما پاندا ها را می توان به راحتی در ویرایشگر متن نیز استفاده کرد. Jupyter Notebooks به ما امکان اجرای کد را در یک سلول خاص بر خلاف اجرای کل پرونده می دهند. این کار زمان زیادی را در هنگام کار با مجموعه داده های بزرگ و تحولات پیچیده صرفه جویی می کند. نوت بوک ها همچنین روشی آسان برای ویژوال سازی تصاویر داده ها و طرح های پانداس را ارائه می دهند.
ویژگی های پانداس (Pandas)
- شی DataFrame برای دستکاری داده با نمایه سازی یکپارچه
- ابزاری برای خواندن و نوشتن داده ها بین ساختار داده های حافظه و قالب های مختلف فایل
- هم ترازی داده ها و مدیریت یکپارچه داده های از دست رفته
- طراحی مجدد و محور کردن مجموعه داده ها
- برش مبتنی بر برچسب، نمایه سازی فانتزی و زیر مجموعه مجموعه داده های بزرگ
- درج ستون و حذف ستون ساختار داده
- گروه بندی شده توسط موتور اجازه می دهد تا عملیات تقسیم-کاربرد-ترکیب را روی مجموعه داده ها انجام دهد.
- ادغام و پیوستن به مجموعه داده ها
- نمایه سازی محور سلسله مراتبی برای کار با داده های با ابعاد زیاد در یک ساختار داده با ابعاد کم
- قابلیت های سری زمانی شامل تولید دامنه تاریخ و تبدیل فرکانس، آمار پنجره در حال حرکت، حرکت رگرسیون خطی پنجره، تغییر تاریخ.
- تصفیه داده را فراهم می کند.
این کتابخانه برای عملکرد بسیار بهینه شده است، با مسیرهای کد بحرانی که به زبان پایتون و Cython یا C نوشته شده است.