coursera روش های یادگیری مبتنی بر نمونه (Mitalearn-330205)

  • مدت زمان: 3 ساعت 1 دقیقه
  • انتشار: 23 June 2026
  • مدرس: Martha White,Adam White
  • سطح: متوسط
  • محتوا‌ها: 53
  • زیرنویس فارسی دارد
درباره این دوره:

در این دوره، با چندین الگوریتم آشنا خواهید شد که می توانند سیاست های نزدیک به بهینه را بر اساس تعامل آزمون و خطا با محیط بیاموزند --- یادگیری از تجربه خود عامل. یادگیری از تجربه واقعی قابل توجه است زیرا نیازی به دانش قبلی در مورد پویایی محیط ندارد، اما هنوز می تواند به رفتار مطلوب دست یابد. ما روش های مونت کارلو ساده اما قدرتمند و روش های یادگیری تفاوت زمانی از جمله یادگیری Q را پوشش خواهیم داد. ما این دوره را با بررسی اینکه چگونه می‌توانیم بهترین‌ها را از هر دو دنیا بدست آوریم، به پایان می‌رسانیم: الگوریتم‌هایی که می‌توانند برنامه‌ریزی مبتنی بر مدل (مشابه برنامه‌نویسی پویا) و به‌روزرسانی‌های تفاوت زمانی را برای تسریع اساسی یادگیری ترکیب کنند. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاوت زمانی و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربه نمونه برداری شده درک کنید. - درک اهمیت اکتشاف، هنگام استفاده از تجربه نمونه برداری شده به جای برنامه نویسی پویا در یک مدل - ارتباط بین Monte Carlo و Dynamic Programming و TD را درک کنید. - پیاده سازی و اعمال الگوریتم TD، برای تخمین توابع مقدار - پیاده سازی و اعمال Expected Sarsa و Q-Learning (دو روش TD برای کنترل) - تفاوت بین کنترل در سیاست و خارج از سیاست را درک کنید - درک برنامه ریزی با تجربه شبیه سازی شده (بر خلاف استراتژی های برنامه ریزی کلاسیک) - یک رویکرد مبتنی بر مدل برای RL به نام Dyna پیاده سازی کنید که از تجربه شبیه سازی شده استفاده می کند - یک مطالعه تجربی برای مشاهده بهبود کارایی نمونه در هنگام استفاده از Dyna انجام دهید
  • محتوا

    • Announcements
  • Content

    • Sample-based Learning Methods