Course catalog

Cloud Hadoop: Scaling Apache Spark (Mitalearn-171748)

3 hours 16 minutes
مبتدی
Update date: 21 June 2026
Author: Lynn Langit

درباره این دوره:

آپاچی هادوپ و اسپارک این امکان را فراهم می‌کنند که بینش‌های تجاری واقعی را از داده‌های بزرگ ایجاد کنید. ابر آمازون خانه طبیعی این مجموعه ابزار قدرتمند است که خدمات متنوعی را برای اجرای گردش‌های کاری پردازش داده در مقیاس بزرگ ارائه می‌کند. در این دوره آموزشی با معمار کلان داده لین لنگیت یاد بگیرید که گردش های کاری Apache Hadoop و Spark خود را در AWS پیاده سازی کنید. با استفاده از ماشین‌های مجازی با EC2، خوشه‌های Spark مدیریت‌شده با EMR یا کانتینرهایی با EKS، گزینه‌های استقرار را برای مشاغل مقیاس تولید کاوش کنید. یاد بگیرید که چگونه خوشه های Hadoop و کارهای Spark را با Databricks پیکربندی و مدیریت کنید و از Python یا زبان برنامه نویسی انتخابی خود برای وارد کردن داده ها و اجرای کارها استفاده کنید. به علاوه، نحوه استفاده از کتابخانه‌های Spark را برای یادگیری ماشینی، ژنومیک و استریم بیاموزید. هر درس به شما کمک می کند بفهمید کدام گزینه استقرار برای حجم کاری شما بهترین است.

Related Skills

Databricks Certified Data Engineer Associate Cert Prep: 2 ELT با Spark SQL و Python (Mitalearn-395621)

28 minutes
مناسب همه
Release date: 23 January 2024
Author: Noah Gift

درباره این دوره:

آزمون گواهینامه Databricks Certified Data Engineer Associate توانایی شما را در استفاده از پلتفرم Databricks Lakehouse برای تکمیل وظایف اولیه مهندسی داده ارزیابی می کند. همچنین توانایی شما را در استفاده از Apache Spark SQL و Python برای انجام وظایف ETL معماری multihop که به صورت تدریجی داده‌های جدید را از منابع مختلف داده پردازش می‌کند تا برنامه‌های تحلیلی و داشبورد در Lakehouse را تقویت کند، ارزیابی می‌کند.

در این دوره، مربی Noah Gift آموزش عملی و عملی در مورد مفاهیم اصلی و مهارت های تحت پوشش در بخش دوم امتحان ارائه می دهد: ELT با اسپارک آپاچی. اصول تبدیل داده ها را با Apache Spark، از جمله نحوه نصب و استفاده از IntelliJ برای Databricks با Go، Databricks CLI، Databricks برای RStudio، Notebooks، پشتیبانی چند زبانه، Databricks Repos و موارد دیگر را بررسی کنید.

Related Skills

Apache Spark Databricks Products Data Engineering Python (Programming Language)

آموزش ضروری Apache Spark: مهندسی داده های بزرگ (Mitalearn-411346)

1 hours 4 minutes
مناسب همه
Release date: 21 June 2026
Author: Kumaran Ponnambalam

درباره این دوره:

مهندسی داده ها پایه و اساس ساخت و ساز برنامه های کاربردی علوم داده در دنیای جدید داده های بزرگ است. مهندسی داده ها برای ساخت خطوط لوله و شبکه های داده برای پخش ، پردازش و ذخیره داده ها نیاز به ترکیب چندین فناوری داده بزرگ دارد. این دوره بر ساختن راه حل های تمام عیار که Apache Spark را با سایر ابزارهای داده بزرگ برای ایجاد خطوط لوله داده نهایی به پایان می رساند ، متمرکز شده است. مربی Kumaran Ponnambalam با تعریف مهندسی داده ها ، کارکردهای آن و مفاهیم آن آغاز می شود. در مرحله بعد ، Kumaran به این نتیجه می رسد که قابلیت های جرقه ای مانند پردازش موازی ، برنامه های اجرای ، گزینه های مدیریت دولت و یادگیری ماشین با عصاره ، تبدیل ، بار (ETL) چگونه است. او شما را به موارد و فرآیندهای استفاده از پردازش دسته ای و همچنین خطوط لوله پردازش در زمان واقعی معرفی می کند. پس از طی کردن چندین روش مفید ، کوماران با یک پروژه تمرینی پایان به پایان نتیجه می گیرد.

Related Skills

Data Engineering Data Pipelines Apache Spark Big Data

آموزش ضروری آپاچی اسپارک (Mitalearn-107845)

1 hours 27 minutes
متوسط
Release date: 21 June 2026
Author: Ben Sullins

درباره این دوره:

آپاچی اسپارک یک پلتفرم قدرتمند است که راه های جدیدی را برای ذخیره و استفاده از داده های بزرگ در اختیار کاربران قرار می دهد. در این دوره آموزشی، با Spark به سرعت عمل کنید و کشف کنید که چگونه از این موتور پردازش محبوب برای ارائه بینش مؤثر و جامع در مورد داده های خود استفاده کنید. مربی بن سالینز یک نمای کلی از پلتفرم ارائه می دهد و به اجزای مختلف سازنده آپاچی اسپارک می پردازد. او نحوه تجزیه و تحلیل داده‌ها را در Spark با استفاده از PySpark و Spark SQL نشان می‌دهد، الگوریتم‌های یادگیری ماشین در حال اجرا را با استفاده از Mlib بررسی می‌کند، نحوه ایجاد یک برنامه تحلیل جریانی با استفاده از Spark Streaming و موارد دیگر را نشان می‌دهد.

Related Skills

Apache Spark Big Data

تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark (Mitalearn-442847)

51 minutes
مناسب همه
Release date: 21 June 2026
Author: Kumaran Ponnambalam

درباره این دوره:

Apache Hadoop پیشگام در دنیای فناوری های کلان داده بود و همچنان در ذخیره سازی کلان داده های سازمانی پیشتاز است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را ارائه می دهد. هنگامی که با هم استفاده می شود، سیستم فایل توزیع شده Hadoop (HDFS) و Spark می توانند یک راه اندازی واقعا مقیاس پذیر برای تجزیه و تحلیل داده های بزرگ ارائه دهند. در این دوره، کوماران پونامبالام، متخصص تجزیه و تحلیل داده، به شما نشان می دهد که چگونه از این دو فناوری برای ایجاد خطوط لوله تجزیه و تحلیل داده مقیاس پذیر و بهینه استفاده کنید. کاوش راه هایی برای بهینه سازی مدل سازی و ذخیره سازی داده ها در HDFS؛ بحث در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark. و نکات قابل اجرا برای بهینه سازی پردازش داده ها در Spark را مرور کنید. به علاوه، یک پروژه مورد استفاده را تکمیل کنید که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.

Related Skills

Data Engineering Big Data Analytics Apache Spark Hadoop

تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark (Mitalearn-169470)

1 hours 1 minutes
متوسط
Release date: 24 February 2020
Author: Kumaran Ponnambalam

درباره این دوره:

Apache Hadoop پیشگام در دنیای فناوری های کلان داده بود و همچنان در ذخیره سازی کلان داده های سازمانی پیشرو است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را ارائه می دهد. هنگامی که با هم استفاده می شود، سیستم فایل توزیع شده Hadoop (HDFS) و Spark می توانند یک تنظیم تجزیه و تحلیل داده های بزرگ واقعا مقیاس پذیر را ارائه دهند. در این دوره آموزشی، یاد بگیرید که چگونه از این دو فناوری برای ایجاد خطوط لوله تجزیه و تحلیل داده مقیاس پذیر و بهینه استفاده کنید. مربی کوماران پونامبالام راه‌هایی را برای بهینه‌سازی مدل‌سازی و ذخیره‌سازی داده در HDFS بررسی می‌کند. در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark صحبت می کند. و نکاتی را برای بهینه سازی پردازش داده ها در Spark ارائه می دهد. به علاوه، او یک پروژه مورد استفاده ارائه می دهد که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.

Related Skills

Apache Spark Big Data Analytics Hadoop Hadoop Administration

مقدمه ای بر Spark SQL و DataFrames (Mitalearn-157162)

1 hours 54 minutes
متوسط
Update date: 21 June 2026
Author: Dan Sullivan

درباره این دوره:

DataFrames، یک ساختار داده پرکاربرد در Apache Spark را کاوش کنید. DataFrames به توسعه دهندگان Spark اجازه می دهد تا عملیات داده های رایج مانند فیلتر کردن و تجمیع و همچنین تجزیه و تحلیل داده های پیشرفته را روی مجموعه های بزرگ داده های توزیع شده انجام دهند. با اضافه شدن Spark SQL، توسعه دهندگان به زبان جستجوی محبوب تر و قدرتمندتر از DataFrames API داخلی دسترسی دارند. در این دوره، مدرس دن سالیوان نحوه انجام عملیات اساسی - بارگیری، فیلتر کردن، و جمع آوری داده ها در DataFrames - با API و SQL و همچنین تکنیک های پیشرفته تری را که به راحتی در SQL انجام می شود را نشان می دهد. در این بخش از دوره، Dan نحوه اتصال داده ها، حذف موارد تکراری و مقابله با مقادیر null یا NA را توضیح می دهد. دروس با سه مثال عمیق از استفاده از DataFrames برای علم داده به پایان می رسد: تجزیه و تحلیل داده های اکتشافی، تجزیه و تحلیل سری های زمانی، و یادگیری ماشین.

Related Skills

SQL Data Management Apache Spark

ilearn

Course catalog

Categories

Cloud Hadoop: Scaling Apache Spark (Mitalearn-171748)

Related Skills

Databricks Certified Data Engineer Associate Cert Prep: 2 ELT با Spark SQL و Python (Mitalearn-395621)

Related Skills

آموزش ضروری Apache Spark: مهندسی داده های بزرگ (Mitalearn-411346)

Related Skills

آموزش ضروری آپاچی اسپارک (Mitalearn-107845)

Related Skills

تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark (Mitalearn-442847)

Related Skills

تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark (Mitalearn-169470)

Related Skills

مقدمه ای بر Spark SQL و DataFrames (Mitalearn-157162)

Related Skills