پیش بینی و کنترل با تقریب تابع
(Mitalearn-330222)
- Duration: 3 hours 48 minutes
- Release date: 23 June 2026
- Author: Martha White,Adam White
- Level: متوسط
- Contents: 54
- Has Caption in Persian
درباره این دوره:
در این دوره یاد خواهید گرفت که چگونه مسائل را با فضاهای بزرگ، با ابعاد بالا و بالقوه بی نهایت حل کنید. خواهید دید که تخمین توابع ارزش را می توان به عنوان یک مشکل یادگیری تحت نظارت --- تقریب عملکرد --- به شما امکان می دهد تا نمایندگانی را بسازید که با دقت تعادل و تبعیض را به منظور حداکثر رساندن پاداش تعادل برقرار کنید. ما این سفر را با بررسی اینکه چگونه روشهای ارزیابی خطمشی یا پیشبینی ما مانند مونت کارلو و TD را میتوان به تنظیمات تقریب تابع گسترش داد، آغاز خواهیم کرد. شما در مورد تکنیک های ساخت ویژگی برای RL و یادگیری نمایش از طریق شبکه های عصبی و backprop یاد خواهید گرفت. ما این دوره را با یک فرو رفتن عمیق در روشهای گرادیان سیاست به پایان میرسانیم. راهی برای یادگیری مستقیم سیاست ها بدون یادگیری تابع ارزش. در این دوره شما دو وظیفه کنترل حالت پیوسته را حل می کنید و مزایای روش های گرادیان خط مشی را در یک محیط کنش پیوسته بررسی می کنید. پیش نیازها: این دوره به شدت مبتنی بر مبانی دوره های 1 و 2 است و فراگیران باید قبل از شروع این دوره این موارد را تکمیل کرده باشند. همچنین زبان آموزان باید با احتمالات و انتظارات، جبر خطی پایه، حساب دیفرانسیل و انتگرال، پایتون 3.0 (حداقل 1 سال) و پیاده سازی الگوریتم ها از کد شبه راحت باشند. در پایان این دوره، شما قادر خواهید بود: - درک نحوه استفاده از رویکردهای یادگیری نظارت شده برای تقریبی توابع ارزش درک اهداف برای پیش بینی (تخمین ارزش) تحت تقریب تابع -اجرای TD با تقریب تابع (تجمع حالت)، در محیطی با فضای حالت نامحدود (فضای حالت پیوسته) - درک رویکردهای مبتنی بر شبکه های عصبی ثابت و شبکه های عصبی برای ساخت ویژگی پیاده سازی TD با تقریب تابع شبکه عصبی در یک محیط حالت پیوسته -در هنگام حرکت به سمت تقریب تابع، مشکلات جدید در اکتشاف را درک کنید -تضاد فرمولهای مشکل با تخفیف برای کنترل در مقابل فرمولبندی مشکل پاداش متوسط -پیاده سازی Sarsa و Q-Learning مورد انتظار با تقریب تابع در یک کار کنترل حالت مستمر - درک اهداف برای برآورد مستقیم خط مشی ها (اهداف شیب سیاست) - یک روش گرادیان خط مشی (به نام Actor-Critic) روی یک محیط حالت گسسته پیاده سازی کنید
Related Skills
Content
Announcements
Content
Prediction and Control with Function Approximation
