coursera تصمیم گیری و یادگیری تقویتی (Mitalearn-308734)

  • Duration: 5 hours 4 minutes
  • Release date: 23 June 2026
  • Author: Tony Dear
  • Level: متوسط
  • Contents: 59
  • Has Caption in Persian
درباره این دوره:

این دوره مقدمه ای بر تصمیم گیری متوالی و یادگیری تقویتی است. ما با بحث در مورد نظریه مطلوبیت شروع می کنیم تا یاد بگیریم که چگونه ترجیحات را می توان برای تصمیم گیری نشان داد و مدل سازی کرد. ما ابتدا مسائل تصمیم گیری ساده را به عنوان مشکلات راهزن چند مسلح مدل می کنیم و چندین رویکرد را برای ارزیابی بازخورد مورد بحث قرار می دهیم. سپس مسائل تصمیم‌گیری را به‌عنوان فرآیندهای تصمیم‌گیری مارکوف محدود (MDP) مدل‌سازی می‌کنیم و راه‌حل‌های آن‌ها را از طریق الگوریتم‌های برنامه‌نویسی پویا مورد بحث قرار می‌دهیم. ما مفهوم مشاهده پذیری جزئی در مسائل واقعی را که توسط POMDP مدل شده و سپس با روش های برنامه ریزی آنلاین حل شده است، لمس می کنیم. در نهایت، مسئله یادگیری تقویتی را معرفی می کنیم و دو پارادایم را مورد بحث قرار می دهیم: روش های مونت کارلو و یادگیری تفاوت زمانی. ما دوره را با یادآوری اینکه چگونه این دو پارادایم بر روی طیفی از روش‌های تفاوت زمانی n مرحله‌ای قرار دارند، به پایان می‌رسانیم. تاکید بر الگوریتم ها و مثال ها بخش کلیدی این دوره خواهد بود.
  • Content

    • Announcements
  • Content

    • Decision Making and Reinforcement Learning