Course catalog

Categories

Showing 1-4 of 4 items.

coursera پیش بینی و کنترل با تقریب تابع (Mitalearn-330222)

  • 3 hours 48 minutes
  • متوسط
  • Release date: 23 June 2026
  • Author: Martha White,Adam White
درباره این دوره:

در این دوره یاد خواهید گرفت که چگونه مسائل را با فضاهای بزرگ، با ابعاد بالا و بالقوه بی نهایت حل کنید. خواهید دید که تخمین توابع ارزش را می توان به عنوان یک مشکل یادگیری تحت نظارت --- تقریب عملکرد --- به شما امکان می دهد تا نمایندگانی را بسازید که با دقت تعادل و تبعیض را به منظور حداکثر رساندن پاداش تعادل برقرار کنید. ما این سفر را با بررسی اینکه چگونه روش‌های ارزیابی خط‌مشی یا پیش‌بینی ما مانند مونت کارلو و TD را می‌توان به تنظیمات تقریب تابع گسترش داد، آغاز خواهیم کرد. شما در مورد تکنیک های ساخت ویژگی برای RL و یادگیری نمایش از طریق شبکه های عصبی و backprop یاد خواهید گرفت. ما این دوره را با یک فرو رفتن عمیق در روش‌های گرادیان سیاست به پایان می‌رسانیم. راهی برای یادگیری مستقیم سیاست ها بدون یادگیری تابع ارزش. در این دوره شما دو وظیفه کنترل حالت پیوسته را حل می کنید و مزایای روش های گرادیان خط مشی را در یک محیط کنش پیوسته بررسی می کنید. پیش نیازها: این دوره به شدت مبتنی بر مبانی دوره های 1 و 2 است و فراگیران باید قبل از شروع این دوره این موارد را تکمیل کرده باشند. همچنین زبان آموزان باید با احتمالات و انتظارات، جبر خطی پایه، حساب دیفرانسیل و انتگرال، پایتون 3.0 (حداقل 1 سال) و پیاده سازی الگوریتم ها از کد شبه راحت باشند. در پایان این دوره، شما قادر خواهید بود: - درک نحوه استفاده از رویکردهای یادگیری نظارت شده برای تقریبی توابع ارزش درک اهداف برای پیش بینی (تخمین ارزش) تحت تقریب تابع -اجرای TD با تقریب تابع (تجمع حالت)، در محیطی با فضای حالت نامحدود (فضای حالت پیوسته) - درک رویکردهای مبتنی بر شبکه های عصبی ثابت و شبکه های عصبی برای ساخت ویژگی پیاده سازی TD با تقریب تابع شبکه عصبی در یک محیط حالت پیوسته -در هنگام حرکت به سمت تقریب تابع، مشکلات جدید در اکتشاف را درک کنید -تضاد فرمول‌های مشکل با تخفیف برای کنترل در مقابل فرمول‌بندی مشکل پاداش متوسط -پیاده سازی Sarsa و Q-Learning مورد انتظار با تقریب تابع در یک کار کنترل حالت مستمر - درک اهداف برای برآورد مستقیم خط مشی ها (اهداف شیب سیاست) - یک روش گرادیان خط مشی (به نام Actor-Critic) روی یک محیط حالت گسسته پیاده سازی کنید

coursera روش های یادگیری مبتنی بر نمونه (Mitalearn-330205)

  • 3 hours 1 minutes
  • متوسط
  • Release date: 23 June 2026
  • Author: Martha White,Adam White
درباره این دوره:

در این دوره، با چندین الگوریتم آشنا خواهید شد که می توانند سیاست های نزدیک به بهینه را بر اساس تعامل آزمون و خطا با محیط بیاموزند --- یادگیری از تجربه خود عامل. یادگیری از تجربه واقعی قابل توجه است زیرا نیازی به دانش قبلی در مورد پویایی محیط ندارد، اما هنوز می تواند به رفتار مطلوب دست یابد. ما روش های مونت کارلو ساده اما قدرتمند و روش های یادگیری تفاوت زمانی از جمله یادگیری Q را پوشش خواهیم داد. ما این دوره را با بررسی اینکه چگونه می‌توانیم بهترین‌ها را از هر دو دنیا بدست آوریم، به پایان می‌رسانیم: الگوریتم‌هایی که می‌توانند برنامه‌ریزی مبتنی بر مدل (مشابه برنامه‌نویسی پویا) و به‌روزرسانی‌های تفاوت زمانی را برای تسریع اساسی یادگیری ترکیب کنند. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاوت زمانی و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربه نمونه برداری شده درک کنید. - درک اهمیت اکتشاف، هنگام استفاده از تجربه نمونه برداری شده به جای برنامه نویسی پویا در یک مدل - ارتباط بین Monte Carlo و Dynamic Programming و TD را درک کنید. - پیاده سازی و اعمال الگوریتم TD، برای تخمین توابع مقدار - پیاده سازی و اعمال Expected Sarsa و Q-Learning (دو روش TD برای کنترل) - تفاوت بین کنترل در سیاست و خارج از سیاست را درک کنید - درک برنامه ریزی با تجربه شبیه سازی شده (بر خلاف استراتژی های برنامه ریزی کلاسیک) - یک رویکرد مبتنی بر مدل برای RL به نام Dyna پیاده سازی کنید که از تجربه شبیه سازی شده استفاده می کند - یک مطالعه تجربی برای مشاهده بهبود کارایی نمونه در هنگام استفاده از Dyna انجام دهید

coursera مبانی یادگیری تقویتی (Mitalearn-330052)

  • 3 hours 51 minutes
  • متوسط
  • Release date: 23 June 2026
  • Author: Martha White,Adam White
درباره این دوره:

یادگیری تقویتی زیرشاخه یادگیری ماشینی است، اما یک فرمالیسم با هدف کلی برای تصمیم گیری خودکار و هوش مصنوعی نیز هست. این دوره شما را با تکنیک های یادگیری آماری آشنا می کند که در آن یک عامل به صراحت اقداماتی انجام می دهد و با جهان تعامل دارد. درک اهمیت و چالش های عوامل یادگیری که تصمیم گیری می کنند امروزه از اهمیت حیاتی برخوردار است، زیرا شرکت های بیشتری به عوامل تعاملی و تصمیم گیری هوشمند علاقه مند هستند. این دوره شما را با اصول یادگیری تقویتی آشنا می کند. وقتی این دوره را تمام کردید، خواهید داشت: - رسمی کردن مشکلات به عنوان فرآیندهای تصمیم مارکوف - روش های اولیه اکتشاف و معاوضه اکتشاف / بهره برداری را بدانید - درک توابع ارزش، به عنوان یک ابزار همه منظوره برای تصمیم گیری بهینه - بدانید که چگونه برنامه نویسی پویا را به عنوان یک رویکرد راه حل کارآمد برای یک مشکل کنترل صنعتی پیاده سازی کنید این دوره مفاهیم کلیدی یادگیری تقویتی، زیربنای الگوریتم های کلاسیک و مدرن در RL را به شما آموزش می دهد. پس از اتمام این دوره، می توانید از RL برای مشکلات واقعی استفاده کنید، جایی که MDP را دارید یا می توانید مشخص کنید. این اولین دوره تخصصی آموزش تقویتی است.

coursera یک سیستم آموزشی کامل تقویتی (Capstone) (Mitalearn-330443)

  • 2 hours 35 minutes
  • متوسط
  • Release date: 23 June 2026
  • Author: Martha White,Adam White
درباره این دوره:

در این دوره نهایی، دانش خود را از دوره های 1، 2 و 3 برای پیاده سازی یک راه حل کامل RL برای یک مشکل گرد هم می آورید. این سنگ بنا به شما اجازه می دهد تا ببینید که چگونه هر جزء --- فرمول بندی مسئله، انتخاب الگوریتم، انتخاب پارامتر و طراحی نمایش --- در یک راه حل کامل با هم تطبیق می یابد و چگونه می توانید انتخاب های مناسب را هنگام استقرار RL در دنیای واقعی انجام دهید. این پروژه از شما می خواهد که هم محیط را برای تحریک مشکل خود پیاده سازی کنید و هم یک عامل کنترل با تقریب تابع شبکه عصبی. علاوه بر این، شما یک مطالعه علمی در مورد سیستم یادگیری خود انجام خواهید داد تا توانایی خود را برای ارزیابی استحکام عوامل RL توسعه دهید. برای استفاده از RL در دنیای واقعی، ضروری است که (الف) مسئله را به‌عنوان یک MDP به‌طور مناسب رسمی‌سازی کنید، (ب) الگوریتم‌های مناسب را انتخاب کنید، (ج) شناسایی کنید که چه انتخاب‌هایی در پیاده‌سازی شما تأثیرات زیادی بر عملکرد خواهند داشت و (د) اعتبارسنجی رفتار مورد انتظار الگوریتم های شما این سنگ بنا برای هر کسی که قصد دارد از RL برای حل مشکلات واقعی استفاده کند ارزشمند است. برای موفقیت در این دوره، باید دوره های 1، 2 و 3 این تخصص یا معادل آن را گذرانده باشید. در پایان این دوره، شما قادر خواهید بود: تکمیل یک راه حل RL برای یک مسئله، شروع از فرمول بندی مسئله، انتخاب الگوریتم مناسب و پیاده سازی و مطالعه تجربی تا اثربخشی راه حل.