روش های یادگیری مبتنی بر نمونه
(Mitalearn-330205)
- Duration: 3 hours 1 minutes
- Release date: 23 June 2026
- Author: Martha White,Adam White
- Level: متوسط
- Contents: 53
- Has Caption in Persian
درباره این دوره:
در این دوره، با چندین الگوریتم آشنا خواهید شد که می توانند سیاست های نزدیک به بهینه را بر اساس تعامل آزمون و خطا با محیط بیاموزند --- یادگیری از تجربه خود عامل. یادگیری از تجربه واقعی قابل توجه است زیرا نیازی به دانش قبلی در مورد پویایی محیط ندارد، اما هنوز می تواند به رفتار مطلوب دست یابد. ما روش های مونت کارلو ساده اما قدرتمند و روش های یادگیری تفاوت زمانی از جمله یادگیری Q را پوشش خواهیم داد. ما این دوره را با بررسی اینکه چگونه میتوانیم بهترینها را از هر دو دنیا بدست آوریم، به پایان میرسانیم: الگوریتمهایی که میتوانند برنامهریزی مبتنی بر مدل (مشابه برنامهنویسی پویا) و بهروزرسانیهای تفاوت زمانی را برای تسریع اساسی یادگیری ترکیب کنند. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاوت زمانی و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربه نمونه برداری شده درک کنید. - درک اهمیت اکتشاف، هنگام استفاده از تجربه نمونه برداری شده به جای برنامه نویسی پویا در یک مدل - ارتباط بین Monte Carlo و Dynamic Programming و TD را درک کنید. - پیاده سازی و اعمال الگوریتم TD، برای تخمین توابع مقدار - پیاده سازی و اعمال Expected Sarsa و Q-Learning (دو روش TD برای کنترل) - تفاوت بین کنترل در سیاست و خارج از سیاست را درک کنید - درک برنامه ریزی با تجربه شبیه سازی شده (بر خلاف استراتژی های برنامه ریزی کلاسیک) - یک رویکرد مبتنی بر مدل برای RL به نام Dyna پیاده سازی کنید که از تجربه شبیه سازی شده استفاده می کند - یک مطالعه تجربی برای مشاهده بهبود کارایی نمونه در هنگام استفاده از Dyna انجام دهید
Related Skills
Content
Announcements
Content
Sample-based Learning Methods
