با افزایش مقدار داده های در دسترس عموم و افزایش توجه به داده های متنی بدون ساختار، درک نحوه تمیز کردن، پردازش و تجزیه و تحلیل داده های متنی فوق العاده ارزشمند شده است. اگر شما تجربه های در مورد Python دارید و به پردازش زبان طبیعی (NLP) علاقه مند هستید، این دوره می تواند دانش شما را برای مقابله با مشکلات پیچیده با استفاده از یادگیری ماشین افزایش دهد. مربی Derek Jedamski خلاصه ای سریع از مبانی پردازش زبان طبیعی (NLP) شامل : تکنیک های تمیز کردن و بردارسازی داده های پیشرفته را توضیح می دهد و سپس به طبقه بندی های یادگیری ماشین با جزئیات بیشتری می پردازد. در این مرحله، مربی نحوه ی ساختن  دو نوع مختلف از مدل های یادگیری ماشین و همچنین نحوه ارزیابی و آزمایش تغییرات این مدل ها را نشان می دهد.

سرفصل ها:

  • NLP و NLTK چیست؟
  • استفاده از عبارات منظم
  • استفاده از stemming و lemmatizing
  • روش های بردارسازی داده های خام
  • ساخت و ارزیابی طبقه بندی های یادگیری ماشینی
  • مقدمه:
  • مبانی NLP
  • NLP و NLTK چیست؟
  • تنظیم و نظارت NLTK
  • خواندن داده های متنی
  • بررسی مجموعه داده ها
  • عبارات منظم چیست؟
  • یادگیری نحوه استفاده از عبارات منظم
  • جایگزین بیان منظم
  • ماشین آموزش pipeline
  • پیاده سازی: حذف نشانه ها
  • پیاده سازی: Tokenization
  • پیاده سازی: حذف stop words
  • تمیز کردن داده های تکمیلی
  • معرفی  stemming
  • استفاده از stemming
  • معرفی lemmatizing
  • استفاده از lemmatizing
  • تصویر برداری از داده های خام
  • معرفی بردارسازی
  • تعداد بردارسازی
  • N-gram vectorizing
  • وزن عکس فراوانی سند
  • مهندسی ساختار
  • معرفی مهندسی ساختار
  • ایجاد ساختار
  • ارزیابی ساختار
  • شناسایی ساختارها برای تغییر شکل
  • تغییر قدرت Box-Cox
  • ساختن طبقه بندی آموزش های ماشینی
  • معیارهای ارزیابی و اعتبارسنجی
  • معرفی جنگل (forest) رندم
  • ساختن یک مدل جنگل رندم
  • جنگل رندم با مجموعه ی holdout test
  • مدل جنگل رندم با جستجوی شبکه ای
  • ارزیابی عملکرد مدل جنگل رندم
  • معرفی ارتقای گرادیان
  • جستجوی شبکه ای ارتقای گرادیان
  • ارزیابی عملکرد مدل ارتقای گرادیان
  • انتخاب مدل: Data prep
  • انتخاب مدل: نتایج
  • نتیجه
  • مراحل بعدی