Course catalog
Categories
Showing 1-4 of 4 items.
پیش بینی و کنترل با تقریب تابع
(Mitalearn-330222)
- 3 hours 48 minutes
- متوسط
- Release date: 23 June 2026
- Author: Martha White,Adam White
درباره این دوره:
در این دوره یاد خواهید گرفت که چگونه مسائل را با فضاهای بزرگ، با ابعاد بالا و بالقوه بی نهایت حل کنید. خواهید دید که تخمین توابع ارزش را می توان به عنوان یک مشکل یادگیری تحت نظارت --- تقریب عملکرد --- به شما امکان می دهد تا نمایندگانی را بسازید که با دقت تعادل و تبعیض را به منظور حداکثر رساندن پاداش تعادل برقرار کنید. ما این سفر را با بررسی اینکه چگونه روشهای ارزیابی خطمشی یا پیشبینی ما مانند مونت کارلو و TD را میتوان به تنظیمات تقریب تابع گسترش داد، آغاز خواهیم کرد. شما در مورد تکنیک های ساخت ویژگی برای RL و یادگیری نمایش از طریق شبکه های عصبی و backprop یاد خواهید گرفت. ما این دوره را با یک فرو رفتن عمیق در روشهای گرادیان سیاست به پایان میرسانیم. راهی برای یادگیری مستقیم سیاست ها بدون یادگیری تابع ارزش. در این دوره شما دو وظیفه کنترل حالت پیوسته را حل می کنید و مزایای روش های گرادیان خط مشی را در یک محیط کنش پیوسته بررسی می کنید. پیش نیازها: این دوره به شدت مبتنی بر مبانی دوره های 1 و 2 است و فراگیران باید قبل از شروع این دوره این موارد را تکمیل کرده باشند. همچنین زبان آموزان باید با احتمالات و انتظارات، جبر خطی پایه، حساب دیفرانسیل و انتگرال، پایتون 3.0 (حداقل 1 سال) و پیاده سازی الگوریتم ها از کد شبه راحت باشند. در پایان این دوره، شما قادر خواهید بود: - درک نحوه استفاده از رویکردهای یادگیری نظارت شده برای تقریبی توابع ارزش درک اهداف برای پیش بینی (تخمین ارزش) تحت تقریب تابع -اجرای TD با تقریب تابع (تجمع حالت)، در محیطی با فضای حالت نامحدود (فضای حالت پیوسته) - درک رویکردهای مبتنی بر شبکه های عصبی ثابت و شبکه های عصبی برای ساخت ویژگی پیاده سازی TD با تقریب تابع شبکه عصبی در یک محیط حالت پیوسته -در هنگام حرکت به سمت تقریب تابع، مشکلات جدید در اکتشاف را درک کنید -تضاد فرمولهای مشکل با تخفیف برای کنترل در مقابل فرمولبندی مشکل پاداش متوسط -پیاده سازی Sarsa و Q-Learning مورد انتظار با تقریب تابع در یک کار کنترل حالت مستمر - درک اهداف برای برآورد مستقیم خط مشی ها (اهداف شیب سیاست) - یک روش گرادیان خط مشی (به نام Actor-Critic) روی یک محیط حالت گسسته پیاده سازی کنید
Related Skills
روش های یادگیری مبتنی بر نمونه
(Mitalearn-330205)
- 3 hours 1 minutes
- متوسط
- Release date: 23 June 2026
- Author: Martha White,Adam White
درباره این دوره:
در این دوره، با چندین الگوریتم آشنا خواهید شد که می توانند سیاست های نزدیک به بهینه را بر اساس تعامل آزمون و خطا با محیط بیاموزند --- یادگیری از تجربه خود عامل. یادگیری از تجربه واقعی قابل توجه است زیرا نیازی به دانش قبلی در مورد پویایی محیط ندارد، اما هنوز می تواند به رفتار مطلوب دست یابد. ما روش های مونت کارلو ساده اما قدرتمند و روش های یادگیری تفاوت زمانی از جمله یادگیری Q را پوشش خواهیم داد. ما این دوره را با بررسی اینکه چگونه میتوانیم بهترینها را از هر دو دنیا بدست آوریم، به پایان میرسانیم: الگوریتمهایی که میتوانند برنامهریزی مبتنی بر مدل (مشابه برنامهنویسی پویا) و بهروزرسانیهای تفاوت زمانی را برای تسریع اساسی یادگیری ترکیب کنند. در پایان این دوره شما قادر خواهید بود: - یادگیری تفاوت زمانی و مونت کارلو را به عنوان دو استراتژی برای تخمین توابع ارزش از تجربه نمونه برداری شده درک کنید. - درک اهمیت اکتشاف، هنگام استفاده از تجربه نمونه برداری شده به جای برنامه نویسی پویا در یک مدل - ارتباط بین Monte Carlo و Dynamic Programming و TD را درک کنید. - پیاده سازی و اعمال الگوریتم TD، برای تخمین توابع مقدار - پیاده سازی و اعمال Expected Sarsa و Q-Learning (دو روش TD برای کنترل) - تفاوت بین کنترل در سیاست و خارج از سیاست را درک کنید - درک برنامه ریزی با تجربه شبیه سازی شده (بر خلاف استراتژی های برنامه ریزی کلاسیک) - یک رویکرد مبتنی بر مدل برای RL به نام Dyna پیاده سازی کنید که از تجربه شبیه سازی شده استفاده می کند - یک مطالعه تجربی برای مشاهده بهبود کارایی نمونه در هنگام استفاده از Dyna انجام دهید
Related Skills
مبانی یادگیری تقویتی
(Mitalearn-330052)
- 3 hours 51 minutes
- متوسط
- Release date: 23 June 2026
- Author: Martha White,Adam White
درباره این دوره:
یادگیری تقویتی زیرشاخه یادگیری ماشینی است، اما یک فرمالیسم با هدف کلی برای تصمیم گیری خودکار و هوش مصنوعی نیز هست. این دوره شما را با تکنیک های یادگیری آماری آشنا می کند که در آن یک عامل به صراحت اقداماتی انجام می دهد و با جهان تعامل دارد. درک اهمیت و چالش های عوامل یادگیری که تصمیم گیری می کنند امروزه از اهمیت حیاتی برخوردار است، زیرا شرکت های بیشتری به عوامل تعاملی و تصمیم گیری هوشمند علاقه مند هستند. این دوره شما را با اصول یادگیری تقویتی آشنا می کند. وقتی این دوره را تمام کردید، خواهید داشت: - رسمی کردن مشکلات به عنوان فرآیندهای تصمیم مارکوف - روش های اولیه اکتشاف و معاوضه اکتشاف / بهره برداری را بدانید - درک توابع ارزش، به عنوان یک ابزار همه منظوره برای تصمیم گیری بهینه - بدانید که چگونه برنامه نویسی پویا را به عنوان یک رویکرد راه حل کارآمد برای یک مشکل کنترل صنعتی پیاده سازی کنید این دوره مفاهیم کلیدی یادگیری تقویتی، زیربنای الگوریتم های کلاسیک و مدرن در RL را به شما آموزش می دهد. پس از اتمام این دوره، می توانید از RL برای مشکلات واقعی استفاده کنید، جایی که MDP را دارید یا می توانید مشخص کنید. این اولین دوره تخصصی آموزش تقویتی است.
Related Skills
یک سیستم آموزشی کامل تقویتی (Capstone)
(Mitalearn-330443)
- 2 hours 35 minutes
- متوسط
- Release date: 23 June 2026
- Author: Martha White,Adam White
درباره این دوره:
در این دوره نهایی، دانش خود را از دوره های 1، 2 و 3 برای پیاده سازی یک راه حل کامل RL برای یک مشکل گرد هم می آورید. این سنگ بنا به شما اجازه می دهد تا ببینید که چگونه هر جزء --- فرمول بندی مسئله، انتخاب الگوریتم، انتخاب پارامتر و طراحی نمایش --- در یک راه حل کامل با هم تطبیق می یابد و چگونه می توانید انتخاب های مناسب را هنگام استقرار RL در دنیای واقعی انجام دهید. این پروژه از شما می خواهد که هم محیط را برای تحریک مشکل خود پیاده سازی کنید و هم یک عامل کنترل با تقریب تابع شبکه عصبی. علاوه بر این، شما یک مطالعه علمی در مورد سیستم یادگیری خود انجام خواهید داد تا توانایی خود را برای ارزیابی استحکام عوامل RL توسعه دهید. برای استفاده از RL در دنیای واقعی، ضروری است که (الف) مسئله را بهعنوان یک MDP بهطور مناسب رسمیسازی کنید، (ب) الگوریتمهای مناسب را انتخاب کنید، (ج) شناسایی کنید که چه انتخابهایی در پیادهسازی شما تأثیرات زیادی بر عملکرد خواهند داشت و (د) اعتبارسنجی رفتار مورد انتظار الگوریتم های شما این سنگ بنا برای هر کسی که قصد دارد از RL برای حل مشکلات واقعی استفاده کند ارزشمند است. برای موفقیت در این دوره، باید دوره های 1، 2 و 3 این تخصص یا معادل آن را گذرانده باشید. در پایان این دوره، شما قادر خواهید بود: تکمیل یک راه حل RL برای یک مسئله، شروع از فرمول بندی مسئله، انتخاب الگوریتم مناسب و پیاده سازی و مطالعه تجربی تا اثربخشی راه حل.