درس: تصمیم گیری و یادگیری تقویتی

تصمیم گیری و یادگیری تقویتی (Mitalearn-308734)

مدت زمان: 5 ساعت 4 دقیقه
انتشار: 23 June 2026

مدرس: Tony Dear
سطح: متوسط
محتوا‌ها: 59
زیرنویس فارسی دارد

درباره این دوره:

این دوره مقدمه ای بر تصمیم گیری متوالی و یادگیری تقویتی است. ما با بحث در مورد نظریه مطلوبیت شروع می کنیم تا یاد بگیریم که چگونه ترجیحات را می توان برای تصمیم گیری نشان داد و مدل سازی کرد. ما ابتدا مسائل تصمیم گیری ساده را به عنوان مشکلات راهزن چند مسلح مدل می کنیم و چندین رویکرد را برای ارزیابی بازخورد مورد بحث قرار می دهیم. سپس مسائل تصمیم‌گیری را به‌عنوان فرآیندهای تصمیم‌گیری مارکوف محدود (MDP) مدل‌سازی می‌کنیم و راه‌حل‌های آن‌ها را از طریق الگوریتم‌های برنامه‌نویسی پویا مورد بحث قرار می‌دهیم. ما مفهوم مشاهده پذیری جزئی در مسائل واقعی را که توسط POMDP مدل شده و سپس با روش های برنامه ریزی آنلاین حل شده است، لمس می کنیم. در نهایت، مسئله یادگیری تقویتی را معرفی می کنیم و دو پارادایم را مورد بحث قرار می دهیم: روش های مونت کارلو و یادگیری تفاوت زمانی. ما دوره را با یادآوری اینکه چگونه این دو پارادایم بر روی طیفی از روش‌های تفاوت زمانی n مرحله‌ای قرار دارند، به پایان می‌رسانیم. تاکید بر الگوریتم ها و مثال ها بخش کلیدی این دوره خواهد بود.

مهارت‌های مرتبط

محتوا
- Announcements
Content
- Decision Making and Reinforcement Learning

تصمیم گیری و یادگیری تقویتی (Mitalearn-308734)

مهارت‌های مرتبط

محتوا

Content