Course catalog

Categories

Showing 1-7 of 7 items.

linkedin Cloud Hadoop: Scaling Apache Spark (Mitalearn-171748)

  • 3 hours 16 minutes
  • مبتدی
  • Update date: 21 June 2026
  • Author: Lynn Langit
درباره این دوره:

آپاچی هادوپ و اسپارک این امکان را فراهم می‌کنند که بینش‌های تجاری واقعی را از داده‌های بزرگ ایجاد کنید. ابر آمازون خانه طبیعی این مجموعه ابزار قدرتمند است که خدمات متنوعی را برای اجرای گردش‌های کاری پردازش داده در مقیاس بزرگ ارائه می‌کند. در این دوره آموزشی با معمار کلان داده لین لنگیت یاد بگیرید که گردش های کاری Apache Hadoop و Spark خود را در AWS پیاده سازی کنید. با استفاده از ماشین‌های مجازی با EC2، خوشه‌های Spark مدیریت‌شده با EMR یا کانتینرهایی با EKS، گزینه‌های استقرار را برای مشاغل مقیاس تولید کاوش کنید. یاد بگیرید که چگونه خوشه های Hadoop و کارهای Spark را با Databricks پیکربندی و مدیریت کنید و از Python یا زبان برنامه نویسی انتخابی خود برای وارد کردن داده ها و اجرای کارها استفاده کنید. به علاوه، نحوه استفاده از کتابخانه‌های Spark را برای یادگیری ماشینی، ژنومیک و استریم بیاموزید. هر درس به شما کمک می کند بفهمید کدام گزینه استقرار برای حجم کاری شما بهترین است.

linkedin Databricks Certified Data Engineer Associate Cert Prep: 2 ELT با Spark SQL و Python (Mitalearn-395621)

  • 28 minutes
  • مناسب همه
  • Release date: 23 January 2024
  • Author: Noah Gift
درباره این دوره: 

 

آزمون گواهینامه Databricks Certified Data Engineer Associate توانایی شما را در استفاده از پلتفرم Databricks Lakehouse برای تکمیل وظایف اولیه مهندسی داده ارزیابی می کند. همچنین توانایی شما را در استفاده از Apache Spark SQL و Python برای انجام وظایف ETL معماری multihop که به صورت تدریجی داده‌های جدید را از منابع مختلف داده پردازش می‌کند تا برنامه‌های تحلیلی و داشبورد در Lakehouse را تقویت کند، ارزیابی می‌کند.

در این دوره، مربی Noah Gift آموزش عملی و عملی در مورد مفاهیم اصلی و مهارت های تحت پوشش در بخش دوم امتحان ارائه می دهد: ELT با اسپارک آپاچی. اصول تبدیل داده ها را با Apache Spark، از جمله نحوه نصب و استفاده از IntelliJ برای Databricks با Go، Databricks CLI، Databricks برای RStudio، Notebooks، پشتیبانی چند زبانه، Databricks Repos و موارد دیگر را بررسی کنید.


linkedin آموزش ضروری Apache Spark: مهندسی داده های بزرگ (Mitalearn-411346)

  • 1 hours 4 minutes
  • مناسب همه
  • Release date: 21 June 2026
  • Author: Kumaran Ponnambalam
درباره این دوره:

مهندسی داده ها پایه و اساس ساخت و ساز برنامه های کاربردی علوم داده در دنیای جدید داده های بزرگ است. مهندسی داده ها برای ساخت خطوط لوله و شبکه های داده برای پخش ، پردازش و ذخیره داده ها نیاز به ترکیب چندین فناوری داده بزرگ دارد. این دوره بر ساختن راه حل های تمام عیار که Apache Spark را با سایر ابزارهای داده بزرگ برای ایجاد خطوط لوله داده نهایی به پایان می رساند ، متمرکز شده است. مربی Kumaran Ponnambalam با تعریف مهندسی داده ها ، کارکردهای آن و مفاهیم آن آغاز می شود. در مرحله بعد ، Kumaran به این نتیجه می رسد که قابلیت های جرقه ای مانند پردازش موازی ، برنامه های اجرای ، گزینه های مدیریت دولت و یادگیری ماشین با عصاره ، تبدیل ، بار (ETL) چگونه است. او شما را به موارد و فرآیندهای استفاده از پردازش دسته ای و همچنین خطوط لوله پردازش در زمان واقعی معرفی می کند. پس از طی کردن چندین روش مفید ، کوماران با یک پروژه تمرینی پایان به پایان نتیجه می گیرد.

linkedin آموزش ضروری آپاچی اسپارک (Mitalearn-107845)

  • 1 hours 27 minutes
  • متوسط
  • Release date: 21 June 2026
  • Author: Ben Sullins
درباره این دوره:

آپاچی اسپارک یک پلتفرم قدرتمند است که راه های جدیدی را برای ذخیره و استفاده از داده های بزرگ در اختیار کاربران قرار می دهد. در این دوره آموزشی، با Spark به سرعت عمل کنید و کشف کنید که چگونه از این موتور پردازش محبوب برای ارائه بینش مؤثر و جامع در مورد داده های خود استفاده کنید. مربی بن سالینز یک نمای کلی از پلتفرم ارائه می دهد و به اجزای مختلف سازنده آپاچی اسپارک می پردازد. او نحوه تجزیه و تحلیل داده‌ها را در Spark با استفاده از PySpark و Spark SQL نشان می‌دهد، الگوریتم‌های یادگیری ماشین در حال اجرا را با استفاده از Mlib بررسی می‌کند، نحوه ایجاد یک برنامه تحلیل جریانی با استفاده از Spark Streaming و موارد دیگر را نشان می‌دهد.

linkedin تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark (Mitalearn-442847)

  • 51 minutes
  • مناسب همه
  • Release date: 21 June 2026
  • Author: Kumaran Ponnambalam
درباره این دوره:

Apache Hadoop پیشگام در دنیای فناوری های کلان داده بود و همچنان در ذخیره سازی کلان داده های سازمانی پیشتاز است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را ارائه می دهد. هنگامی که با هم استفاده می شود، سیستم فایل توزیع شده Hadoop (HDFS) و Spark می توانند یک راه اندازی واقعا مقیاس پذیر برای تجزیه و تحلیل داده های بزرگ ارائه دهند. در این دوره، کوماران پونامبالام، متخصص تجزیه و تحلیل داده، به شما نشان می دهد که چگونه از این دو فناوری برای ایجاد خطوط لوله تجزیه و تحلیل داده مقیاس پذیر و بهینه استفاده کنید. کاوش راه هایی برای بهینه سازی مدل سازی و ذخیره سازی داده ها در HDFS؛ بحث در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark. و نکات قابل اجرا برای بهینه سازی پردازش داده ها در Spark را مرور کنید. به علاوه، یک پروژه مورد استفاده را تکمیل کنید که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.

linkedin تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark (Mitalearn-169470)

  • 1 hours 1 minutes
  • متوسط
  • Release date: 24 February 2020
  • Author: Kumaran Ponnambalam
درباره این دوره: 

 Apache Hadoop پیشگام در دنیای فناوری های کلان داده بود و همچنان در ذخیره سازی کلان داده های سازمانی پیشرو است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را ارائه می دهد. هنگامی که با هم استفاده می شود، سیستم فایل توزیع شده Hadoop (HDFS) و Spark می توانند یک تنظیم تجزیه و تحلیل داده های بزرگ واقعا مقیاس پذیر را ارائه دهند. در این دوره آموزشی، یاد بگیرید که چگونه از این دو فناوری برای ایجاد خطوط لوله تجزیه و تحلیل داده مقیاس پذیر و بهینه استفاده کنید. مربی کوماران پونامبالام راه‌هایی را برای بهینه‌سازی مدل‌سازی و ذخیره‌سازی داده در HDFS بررسی می‌کند. در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark صحبت می کند. و نکاتی را برای بهینه سازی پردازش داده ها در Spark ارائه می دهد. به علاوه، او یک پروژه مورد استفاده ارائه می دهد که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.

linkedin مقدمه ای بر Spark SQL و DataFrames (Mitalearn-157162)

  • 1 hours 54 minutes
  • متوسط
  • Update date: 21 June 2026
  • Author: Dan Sullivan
درباره این دوره:

DataFrames، یک ساختار داده پرکاربرد در Apache Spark را کاوش کنید. DataFrames به توسعه دهندگان Spark اجازه می دهد تا عملیات داده های رایج مانند فیلتر کردن و تجمیع و همچنین تجزیه و تحلیل داده های پیشرفته را روی مجموعه های بزرگ داده های توزیع شده انجام دهند. با اضافه شدن Spark SQL، توسعه دهندگان به زبان جستجوی محبوب تر و قدرتمندتر از DataFrames API داخلی دسترسی دارند. در این دوره، مدرس دن سالیوان نحوه انجام عملیات اساسی - بارگیری، فیلتر کردن، و جمع آوری داده ها در DataFrames - با API و SQL و همچنین تکنیک های پیشرفته تری را که به راحتی در SQL انجام می شود را نشان می دهد. در این بخش از دوره، Dan نحوه اتصال داده ها، حذف موارد تکراری و مقابله با مقادیر null یا NA را توضیح می دهد. دروس با سه مثال عمیق از استفاده از DataFrames برای علم داده به پایان می رسد: تجزیه و تحلیل داده های اکتشافی، تجزیه و تحلیل سری های زمانی، و یادگیری ماشین.