مبانی علم داده های مقیاس پذیر
(Mitalearn-328335)
- Duration: 1 hours 49 minutes
- Release date: 23 June 2026
- Author: Romeo Kienzler
- Level: مناسب همه
- Contents: 33
- Has Caption in Persian
درباره این دوره:
آپاچی اسپارک استاندارد واقعی برای پردازش داده در مقیاس بزرگ است. این اولین دوره از یک سری دوره ها به سمت تخصص IBM Advanced Data Science است. ما قویاً معتقدیم که برای موفقیت در شروع یادگیری یک پلتفرم علم داده مقیاسپذیر بسیار مهم است زیرا محدودیتهای حافظه و CPU برای ساختن مدلهای پیشرفته یادگیری ماشینی عامل محدودکننده هستند. در این دوره ما اصول Apache Spark را با استفاده از پایتون و pyspark به شما آموزش می دهیم. ما Apache Spark را در دو هفته اول معرفی خواهیم کرد و یاد خواهیم گرفت که چگونه از آن برای محاسبه وظایف اولیه اکتشافی و پیش پردازش داده در دو هفته گذشته استفاده کنیم. از طریق این تمرین شما همچنین با اساسی ترین معیارهای آماری و فناوری های تجسم داده ها آشنا می شوید. این به شما دانش کافی برای به عهده گرفتن نقش یک مهندس داده در هر محیط مدرن می دهد. اما به شما مبنایی برای پیشبرد حرفه خود به سمت علم داده نیز می دهد. لطفاً به برنامه درسی تخصصی کامل نگاهی بیندازید: https://www.coursera.org/specializations/advanced-data-science-ibm اگر این دوره را بگذرانید و گواهی دوره Coursera را دریافت کنید، یک IBM دیجیتال نیز کسب خواهید کرد. نشان برای کسب اطلاعات بیشتر در مورد نشان های دیجیتال IBM پیوند ibm.biz/badging را دنبال کنید. پس از تکمیل این دوره، شما قادر خواهید بود: • توضیح دهید که چگونه معیارهای آماری اساسی برای آشکار کردن الگوهای موجود در داده ها استفاده می شود. • شناسایی تکنیک های مفید برای کار با داده های بزرگ مانند روش های کاهش ابعاد و انتخاب ویژگی • استفاده از ابزارهای پیشرفته و کتابخانه های نموداری برای: o بهبود کارایی تجزیه و تحلیل داده های بزرگ با تجزیه و تحلیل موازی و پارتیشن بندی o تجسم داده ها به صورت تعدادی دو بعدی و فرمت های سه بعدی (Box Plot، Run Chart، Scatter Plot، Pareto Chart، و Multidimensional Scaling) برای تکمیل موفقیت آمیز دوره، پیش نیازهای زیر توصیه می شود: • مهارت های برنامه نویسی اولیه در پایتون • ریاضی پایه • SQL پایه (شما می توانید آن را به راحتی دریافت کنید. از https://www.coursera.org/learn/sql-data-science در صورت نیاز) برای تکمیل این دوره از فناوری های زیر استفاده می شود: (این فناوری ها در دوره در صورت لزوم معرفی شده اند بنابراین هیچ دانش قبلی وجود ندارد. لازم است.) • نوت بوک های Jupyter (به صورت رایگان توسط IBM Watson Studio برای شما آورده شده است) • ApacheSpark (به صورت رایگان توسط IBM Watson Studio برای شما آورده شده است) • Python گزارش شده است که برخی از مطالب این دوره بسیار پیشرفته است. بنابراین اگر شما هم همین احساس را دارید، لطفا قبل از شروع این دوره ابتدا به مطالب زیر نگاهی بیندازید، گزارش شده است که این واقعا کمک می کند. البته می توانید ابتدا این دوره را امتحان کنید و سپس در صورت نیاز دوره ها/مواد زیر را بگذرانید. این برنامه رایگان است... https://cognitiveclass.ai/learn/spark https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/f8982db1-5e55-46d6-a272-fd11b670be38/view?access3311a945333333333333333333333333333333333333333333694=533311a9455 b3eae2a99e0dc923ec0775d891c31c5bbbc68 این دوره چهار هفته طول می کشد، 4-6 ساعت در هفته
Related Skills
Content
Announcements
Content
Fundamentals of Scalable Data Science