درس: پیش بینی و کنترل با تقریب تابع

پیش بینی و کنترل با تقریب تابع (Mitalearn-330222)

مدت زمان: 3 ساعت 48 دقیقه
انتشار: 23 June 2026

مدرس: Martha White,Adam White
سطح: متوسط
محتوا‌ها: 54
زیرنویس فارسی دارد

درباره این دوره:

در این دوره یاد خواهید گرفت که چگونه مسائل را با فضاهای بزرگ، با ابعاد بالا و بالقوه بی نهایت حل کنید. خواهید دید که تخمین توابع ارزش را می توان به عنوان یک مشکل یادگیری تحت نظارت --- تقریب عملکرد --- به شما امکان می دهد تا نمایندگانی را بسازید که با دقت تعادل و تبعیض را به منظور حداکثر رساندن پاداش تعادل برقرار کنید. ما این سفر را با بررسی اینکه چگونه روش‌های ارزیابی خط‌مشی یا پیش‌بینی ما مانند مونت کارلو و TD را می‌توان به تنظیمات تقریب تابع گسترش داد، آغاز خواهیم کرد. شما در مورد تکنیک های ساخت ویژگی برای RL و یادگیری نمایش از طریق شبکه های عصبی و backprop یاد خواهید گرفت. ما این دوره را با یک فرو رفتن عمیق در روش‌های گرادیان سیاست به پایان می‌رسانیم. راهی برای یادگیری مستقیم سیاست ها بدون یادگیری تابع ارزش. در این دوره شما دو وظیفه کنترل حالت پیوسته را حل می کنید و مزایای روش های گرادیان خط مشی را در یک محیط کنش پیوسته بررسی می کنید. پیش نیازها: این دوره به شدت مبتنی بر مبانی دوره های 1 و 2 است و فراگیران باید قبل از شروع این دوره این موارد را تکمیل کرده باشند. همچنین زبان آموزان باید با احتمالات و انتظارات، جبر خطی پایه، حساب دیفرانسیل و انتگرال، پایتون 3.0 (حداقل 1 سال) و پیاده سازی الگوریتم ها از کد شبه راحت باشند. در پایان این دوره، شما قادر خواهید بود: - درک نحوه استفاده از رویکردهای یادگیری نظارت شده برای تقریبی توابع ارزش درک اهداف برای پیش بینی (تخمین ارزش) تحت تقریب تابع -اجرای TD با تقریب تابع (تجمع حالت)، در محیطی با فضای حالت نامحدود (فضای حالت پیوسته) - درک رویکردهای مبتنی بر شبکه های عصبی ثابت و شبکه های عصبی برای ساخت ویژگی پیاده سازی TD با تقریب تابع شبکه عصبی در یک محیط حالت پیوسته -در هنگام حرکت به سمت تقریب تابع، مشکلات جدید در اکتشاف را درک کنید -تضاد فرمول‌های مشکل با تخفیف برای کنترل در مقابل فرمول‌بندی مشکل پاداش متوسط -پیاده سازی Sarsa و Q-Learning مورد انتظار با تقریب تابع در یک کار کنترل حالت مستمر - درک اهداف برای برآورد مستقیم خط مشی ها (اهداف شیب سیاست) - یک روش گرادیان خط مشی (به نام Actor-Critic) روی یک محیط حالت گسسته پیاده سازی کنید

مهارت‌های مرتبط

محتوا
- Announcements
Content
- Prediction and Control with Function Approximation

پیش بینی و کنترل با تقریب تابع (Mitalearn-330222)

مهارت‌های مرتبط

محتوا

Content