تصمیم گیری و یادگیری تقویتی
(Mitalearn-308734)
- مدت زمان: 5 ساعت 4 دقیقه
- انتشار: 23 June 2026
- مدرس: Tony Dear
- سطح: متوسط
- محتواها: 59
- زیرنویس فارسی دارد
درباره این دوره:
این دوره مقدمه ای بر تصمیم گیری متوالی و یادگیری تقویتی است. ما با بحث در مورد نظریه مطلوبیت شروع می کنیم تا یاد بگیریم که چگونه ترجیحات را می توان برای تصمیم گیری نشان داد و مدل سازی کرد. ما ابتدا مسائل تصمیم گیری ساده را به عنوان مشکلات راهزن چند مسلح مدل می کنیم و چندین رویکرد را برای ارزیابی بازخورد مورد بحث قرار می دهیم. سپس مسائل تصمیمگیری را بهعنوان فرآیندهای تصمیمگیری مارکوف محدود (MDP) مدلسازی میکنیم و راهحلهای آنها را از طریق الگوریتمهای برنامهنویسی پویا مورد بحث قرار میدهیم. ما مفهوم مشاهده پذیری جزئی در مسائل واقعی را که توسط POMDP مدل شده و سپس با روش های برنامه ریزی آنلاین حل شده است، لمس می کنیم. در نهایت، مسئله یادگیری تقویتی را معرفی می کنیم و دو پارادایم را مورد بحث قرار می دهیم: روش های مونت کارلو و یادگیری تفاوت زمانی. ما دوره را با یادآوری اینکه چگونه این دو پارادایم بر روی طیفی از روشهای تفاوت زمانی n مرحلهای قرار دارند، به پایان میرسانیم. تاکید بر الگوریتم ها و مثال ها بخش کلیدی این دوره خواهد بود.
مهارتهای مرتبط
محتوا
Announcements
Content
Decision Making and Reinforcement Learning
