Enrolment options

Coursera / Machine Learning

تصمیم گیری و یادگیری تقویتی (Mitalearn-308734)

درباره این دوره:

این دوره مقدمه ای بر تصمیم گیری متوالی و یادگیری تقویتی است. ما با بحث در مورد نظریه مطلوبیت شروع می کنیم تا یاد بگیریم که چگونه ترجیحات را می توان برای تصمیم گیری نشان داد و مدل سازی کرد. ما ابتدا مسائل تصمیم گیری ساده را به عنوان مشکلات راهزن چند مسلح مدل می کنیم و چندین رویکرد را برای ارزیابی بازخورد مورد بحث قرار می دهیم. سپس مسائل تصمیم‌گیری را به‌عنوان فرآیندهای تصمیم‌گیری مارکوف محدود (MDP) مدل‌سازی می‌کنیم و راه‌حل‌های آن‌ها را از طریق الگوریتم‌های برنامه‌نویسی پویا مورد بحث قرار می‌دهیم. ما مفهوم مشاهده پذیری جزئی در مسائل واقعی را که توسط POMDP مدل شده و سپس با روش های برنامه ریزی آنلاین حل شده است، لمس می کنیم. در نهایت، مسئله یادگیری تقویتی را معرفی می کنیم و دو پارادایم را مورد بحث قرار می دهیم: روش های مونت کارلو و یادگیری تفاوت زمانی. ما دوره را با یادآوری اینکه چگونه این دو پارادایم بر روی طیفی از روش‌های تفاوت زمانی n مرحله‌ای قرار دارند، به پایان می‌رسانیم. تاکید بر الگوریتم ها و مثال ها بخش کلیدی این دوره خواهد بود.
Guests cannot access this course. Please log in.