Course catalog
Categories
Cloud Hadoop: Scaling Apache Spark
(Mitalearn-171748)
- 3 hours 16 minutes
- مبتدی
- Update date: 21 June 2026
- Author: Lynn Langit
آپاچی هادوپ و اسپارک این امکان را فراهم میکنند که بینشهای تجاری واقعی را از دادههای بزرگ ایجاد کنید. ابر آمازون خانه طبیعی این مجموعه ابزار قدرتمند است که خدمات متنوعی را برای اجرای گردشهای کاری پردازش داده در مقیاس بزرگ ارائه میکند. در این دوره آموزشی با معمار کلان داده لین لنگیت یاد بگیرید که گردش های کاری Apache Hadoop و Spark خود را در AWS پیاده سازی کنید. با استفاده از ماشینهای مجازی با EC2، خوشههای Spark مدیریتشده با EMR یا کانتینرهایی با EKS، گزینههای استقرار را برای مشاغل مقیاس تولید کاوش کنید. یاد بگیرید که چگونه خوشه های Hadoop و کارهای Spark را با Databricks پیکربندی و مدیریت کنید و از Python یا زبان برنامه نویسی انتخابی خود برای وارد کردن داده ها و اجرای کارها استفاده کنید. به علاوه، نحوه استفاده از کتابخانههای Spark را برای یادگیری ماشینی، ژنومیک و استریم بیاموزید. هر درس به شما کمک می کند بفهمید کدام گزینه استقرار برای حجم کاری شما بهترین است.
Related Skills
Databricks Certified Data Engineer Associate Cert Prep: 2 ELT با Spark SQL و Python
(Mitalearn-395621)
- 28 minutes
- مناسب همه
- Release date: 23 January 2024
- Author: Noah Gift
آزمون گواهینامه Databricks Certified Data Engineer Associate توانایی شما را در استفاده از پلتفرم Databricks Lakehouse برای تکمیل وظایف اولیه مهندسی داده ارزیابی می کند. همچنین توانایی شما را در استفاده از Apache Spark SQL و Python برای انجام وظایف ETL معماری multihop که به صورت تدریجی دادههای جدید را از منابع مختلف داده پردازش میکند تا برنامههای تحلیلی و داشبورد در Lakehouse را تقویت کند، ارزیابی میکند.
در این دوره، مربی Noah Gift آموزش عملی و عملی در مورد مفاهیم اصلی و مهارت های تحت پوشش در بخش دوم امتحان ارائه می دهد: ELT با اسپارک آپاچی. اصول تبدیل داده ها را با Apache Spark، از جمله نحوه نصب و استفاده از IntelliJ برای Databricks با Go، Databricks CLI، Databricks برای RStudio، Notebooks، پشتیبانی چند زبانه، Databricks Repos و موارد دیگر را بررسی کنید.
Related Skills
آموزش ضروری Apache Spark: مهندسی داده های بزرگ
(Mitalearn-411346)
- 1 hours 4 minutes
- مناسب همه
- Release date: 21 June 2026
- Author: Kumaran Ponnambalam
مهندسی داده ها پایه و اساس ساخت و ساز برنامه های کاربردی علوم داده در دنیای جدید داده های بزرگ است. مهندسی داده ها برای ساخت خطوط لوله و شبکه های داده برای پخش ، پردازش و ذخیره داده ها نیاز به ترکیب چندین فناوری داده بزرگ دارد. این دوره بر ساختن راه حل های تمام عیار که Apache Spark را با سایر ابزارهای داده بزرگ برای ایجاد خطوط لوله داده نهایی به پایان می رساند ، متمرکز شده است. مربی Kumaran Ponnambalam با تعریف مهندسی داده ها ، کارکردهای آن و مفاهیم آن آغاز می شود. در مرحله بعد ، Kumaran به این نتیجه می رسد که قابلیت های جرقه ای مانند پردازش موازی ، برنامه های اجرای ، گزینه های مدیریت دولت و یادگیری ماشین با عصاره ، تبدیل ، بار (ETL) چگونه است. او شما را به موارد و فرآیندهای استفاده از پردازش دسته ای و همچنین خطوط لوله پردازش در زمان واقعی معرفی می کند. پس از طی کردن چندین روش مفید ، کوماران با یک پروژه تمرینی پایان به پایان نتیجه می گیرد.
Related Skills
آموزش ضروری آپاچی اسپارک
(Mitalearn-107845)
- 1 hours 27 minutes
- متوسط
- Release date: 21 June 2026
- Author: Ben Sullins
آپاچی اسپارک یک پلتفرم قدرتمند است که راه های جدیدی را برای ذخیره و استفاده از داده های بزرگ در اختیار کاربران قرار می دهد. در این دوره آموزشی، با Spark به سرعت عمل کنید و کشف کنید که چگونه از این موتور پردازش محبوب برای ارائه بینش مؤثر و جامع در مورد داده های خود استفاده کنید. مربی بن سالینز یک نمای کلی از پلتفرم ارائه می دهد و به اجزای مختلف سازنده آپاچی اسپارک می پردازد. او نحوه تجزیه و تحلیل دادهها را در Spark با استفاده از PySpark و Spark SQL نشان میدهد، الگوریتمهای یادگیری ماشین در حال اجرا را با استفاده از Mlib بررسی میکند، نحوه ایجاد یک برنامه تحلیل جریانی با استفاده از Spark Streaming و موارد دیگر را نشان میدهد.
Related Skills
تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark
(Mitalearn-442847)
- 51 minutes
- مناسب همه
- Release date: 21 June 2026
- Author: Kumaran Ponnambalam
Apache Hadoop پیشگام در دنیای فناوری های کلان داده بود و همچنان در ذخیره سازی کلان داده های سازمانی پیشتاز است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را ارائه می دهد. هنگامی که با هم استفاده می شود، سیستم فایل توزیع شده Hadoop (HDFS) و Spark می توانند یک راه اندازی واقعا مقیاس پذیر برای تجزیه و تحلیل داده های بزرگ ارائه دهند. در این دوره، کوماران پونامبالام، متخصص تجزیه و تحلیل داده، به شما نشان می دهد که چگونه از این دو فناوری برای ایجاد خطوط لوله تجزیه و تحلیل داده مقیاس پذیر و بهینه استفاده کنید. کاوش راه هایی برای بهینه سازی مدل سازی و ذخیره سازی داده ها در HDFS؛ بحث در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark. و نکات قابل اجرا برای بهینه سازی پردازش داده ها در Spark را مرور کنید. به علاوه، یک پروژه مورد استفاده را تکمیل کنید که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.
Related Skills
تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark
(Mitalearn-169470)
- 1 hours 1 minutes
- متوسط
- Release date: 24 February 2020
- Author: Kumaran Ponnambalam
Apache Hadoop پیشگام در دنیای فناوری های کلان داده بود و همچنان در ذخیره سازی کلان داده های سازمانی پیشرو است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را ارائه می دهد. هنگامی که با هم استفاده می شود، سیستم فایل توزیع شده Hadoop (HDFS) و Spark می توانند یک تنظیم تجزیه و تحلیل داده های بزرگ واقعا مقیاس پذیر را ارائه دهند. در این دوره آموزشی، یاد بگیرید که چگونه از این دو فناوری برای ایجاد خطوط لوله تجزیه و تحلیل داده مقیاس پذیر و بهینه استفاده کنید. مربی کوماران پونامبالام راههایی را برای بهینهسازی مدلسازی و ذخیرهسازی داده در HDFS بررسی میکند. در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark صحبت می کند. و نکاتی را برای بهینه سازی پردازش داده ها در Spark ارائه می دهد. به علاوه، او یک پروژه مورد استفاده ارائه می دهد که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.
Related Skills
مقدمه ای بر Spark SQL و DataFrames
(Mitalearn-157162)
- 1 hours 54 minutes
- متوسط
- Update date: 21 June 2026
- Author: Dan Sullivan
DataFrames، یک ساختار داده پرکاربرد در Apache Spark را کاوش کنید. DataFrames به توسعه دهندگان Spark اجازه می دهد تا عملیات داده های رایج مانند فیلتر کردن و تجمیع و همچنین تجزیه و تحلیل داده های پیشرفته را روی مجموعه های بزرگ داده های توزیع شده انجام دهند. با اضافه شدن Spark SQL، توسعه دهندگان به زبان جستجوی محبوب تر و قدرتمندتر از DataFrames API داخلی دسترسی دارند. در این دوره، مدرس دن سالیوان نحوه انجام عملیات اساسی - بارگیری، فیلتر کردن، و جمع آوری داده ها در DataFrames - با API و SQL و همچنین تکنیک های پیشرفته تری را که به راحتی در SQL انجام می شود را نشان می دهد. در این بخش از دوره، Dan نحوه اتصال داده ها، حذف موارد تکراری و مقابله با مقادیر null یا NA را توضیح می دهد. دروس با سه مثال عمیق از استفاده از DataFrames برای علم داده به پایان می رسد: تجزیه و تحلیل داده های اکتشافی، تجزیه و تحلیل سری های زمانی، و یادگیری ماشین.