Course catalog

Course duration

Course provider

Topic

Categories

Showing 1-9 of 9 items.

datacamp پاک کردن اطلاعات با PySpark (Mitalearn-402064)

  • 50 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Mike Metzger
درباره این دوره:

کار با داده ها مشکل است - کار با میلیون ها یا حتی میلیاردها ردیف بدتر است. آیا مقداری کد پردازش داده که روی یک لپ تاپ با داده های نسبتاً بکر نوشته شده بود دریافت کردید؟ به احتمال زیاد شما مسئول انتقال یک فرآیند داده اولیه از نمونه اولیه به تولید شده اید. ممکن است با مجموعه داده‌های دنیای واقعی، با فیلدهای گمشده، قالب‌بندی عجیب و غریب و داده‌های بزرگ‌تر کار کرده باشید. حتی اگر همه اینها برای شما جدید باشد، این دوره به شما کمک می کند تا آنچه را که برای آماده سازی فرآیندهای داده با استفاده از Python با Apache Spark لازم است را بیاموزید. اصطلاحات، روش‌ها و برخی از بهترین روش‌ها را برای ایجاد یک پلت فرم پردازش داده کارآمد، قابل نگهداری و قابل درک می‌آموزید.

datacamp ساخت موتورهای پیشنهادی با PySpark (Mitalearn-405124)

  • 50 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Jamen Long
درباره این دوره:

این دوره به شما نشان می دهد که چگونه موتورهای توصیه را با استفاده از حداقل مربعات متناوب در PySpark بسازید. با استفاده از مجموعه داده محبوب MovieLens و مجموعه داده میلیون آهنگ، این دوره شما را گام به گام از طریق شهود الگوریتم حداقل مربعات متناوب و همچنین کد آموزش، آزمایش و پیاده‌سازی مدل‌های ALS بر روی انواع مختلف داده‌های مشتری، راهنمایی می‌کند.

datacamp مبانی کلان داده با PySpark (Mitalearn-400925)

  • 1 hours 9 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Upendra Kumar Devisetty
درباره این دوره:

در چند سال گذشته سر و صدای زیادی در مورد Big Data وجود داشته است و در نهایت برای بسیاری از شرکت ها به جریان اصلی تبدیل شده است. اما این کلان داده چیست؟ این دوره اصول Big Data را از طریق PySpark پوشش می دهد. Spark یک چارچوب "محاسبات خوشه ای سریع رعد و برق" برای داده های بزرگ است. این یک موتور پلت فرم پردازش داده کلی را ارائه می دهد و به شما امکان می دهد برنامه ها را تا 100 برابر سریعتر در حافظه یا 10 برابر سریعتر روی دیسک نسبت به Hadoop اجرا کنید. شما از PySpark، یک بسته Python برای برنامه نویسی Spark و کتابخانه های قدرتمند و سطح بالاتر آن مانند SparkSQL، MLlib (برای یادگیری ماشین) استفاده خواهید کرد. کارهای ویلیام شکسپیر را بررسی خواهید کرد، داده های Fifa 2018 را تجزیه و تحلیل خواهید کرد و بر روی مجموعه داده های ژنومی خوشه بندی خواهید کرد. در پایان این دوره، شما درک عمیقی از PySpark و کاربرد آن در تجزیه و تحلیل کلی داده های بزرگ به دست خواهید آورد.

datacamp مقدمه ای بر PySpark (Mitalearn-399242)

  • 49 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Ben Schmidt
درباره این دوره:

این دوره برای مهندسان داده، دانشمندان داده و متخصصان یادگیری ماشین طراحی شده است که به دنبال کار با مجموعه داده های بزرگ با استفاده از PySpark هستند. شما سرعت و مقیاس‌پذیری Apache Spark را بررسی خواهید کرد، یاد خواهید گرفت که جلسات Spark ایجاد کنید، با RDD کار کنید و DataFrames را از طریق تمرین‌های عملی دستکاری کنید. این دوره همچنین PySpark SQL را پوشش می دهد و به شما یاد می دهد که چگونه داده ها را با SQL جستجو کنید، طرحواره ها و انواع داده های پیچیده را مدیریت کنید و عملکرد را در محیط های توزیع شده بهینه کنید. در پایان، مهارت‌های اساسی برای پردازش و تجزیه و تحلیل کلان داده‌ها را خواهید داشت که زمینه را برای برنامه‌های کاربردی پیشرفته مانند یادگیری ماشین و تجزیه و تحلیل داده‌های بزرگ فراهم می‌کند.

datacamp مقدمه ای بر Spark SQL در پایتون (Mitalearn-403458)

  • 1 hours 5 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Mark Plutowski
درباره این دوره:

اگر با SQL آشنایی دارید و چیزهای خوبی در مورد Apache Spark شنیده اید، این دوره برای شما مناسب است. Apache Spark یک چارچوب محاسباتی برای پردازش داده های بزرگ است و Spark SQL جزء Apache Spark است. این دوره چهار ساعته به شما نشان می دهد که چگونه با استفاده از ویژگی های پیشرفته SQL، مانند توابع پنجره، Spark را به سطح جدیدی از سودمندی ببرید.

در طول چهار فصل، از Spark SQL برای تجزیه و تحلیل داده‌های سری زمانی، استخراج رایج‌ترین کلمات از یک سند متنی، ایجاد مجموعه ویژگی‌ها از متن زبان طبیعی و استفاده از آنها برای پیش‌بینی آخرین کلمه در جمله با استفاده از رگرسیون لجستیک استفاده می‌کنید.

شما با ایجاد و جست‌وجوی یک جدول SQL در Spark و همچنین یادگیری نحوه استفاده از توابع پنجره SQL برای انجام مجموع‌های در حال اجرا، تفاوت‌های در حال اجرا و سایر عملیات‌ها شروع می‌کنید.

در مرحله بعد، نحوه استفاده از تابع پنجره در Spark SQL را برای پردازش زبان طبیعی، از جمله استفاده از تجزیه و تحلیل پنجره متحرک برای یافتن توالی کلمات رایج، بررسی خواهید کرد.

در فصل 3، نحوه استفاده از SQL Spark UI را برای ذخیره سازی مناسب DataFrames و جداول SQL قبل از کاوش در بهترین شیوه ها برای ورود به Spark، خواهید آموخت.

در نهایت، شما از تمام مهارت‌هایی که تاکنون آموخته‌اید برای بارگیری و نشانه‌گذاری متن خام قبل از استخراج دنباله‌های کلمه استفاده می‌کنید. سپس از رگرسیون لجستیک برای طبقه بندی متن استفاده می کنید و از داده های خام زبان طبیعی برای آموزش یک طبقه بندی متن استفاده می کنید.

این دوره معرفی کاملی از Spark SQL ارائه می‌کند، و در پایان، شما اصول اولیه را کاملاً درک خواهید کرد و خواهید فهمید که Spark چگونه قدرت محاسبات توزیع‌شده را با سهولت استفاده از Python و SQL ترکیب می‌کند.

datacamp مقدمه ای بر Spark with sparklyr در R (Mitalearn-405668)

  • 4 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Richie Cotton
درباره این دوره:

R عمدتاً برای کمک به نوشتن کد تجزیه و تحلیل داده ها به سرعت و خوانا بهینه شده است. Apache Spark برای تجزیه و تحلیل سریع مجموعه داده های عظیم طراحی شده است. بسته sparklyr به شما امکان می دهد کد dplyr R را بنویسید که روی یک کلاستر Spark اجرا می شود و بهترین های هر دو دنیا را در اختیار شما قرار می دهد. این دوره به شما می آموزد که چگونه Spark DataFrames را با استفاده از رابط dplyr و رابط بومی Spark و همچنین استفاده از تکنیک های یادگیری ماشینی دستکاری کنید. در طول دوره، مجموعه داده میلیون آهنگ را کاوش خواهید کرد.

datacamp مهندسی ویژگی با PySpark (Mitalearn-403186)

  • 52 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: John Hogue
درباره این دوره:

دنیای واقعی کثیف است و وظیفه شما این است که آن را درک کنید. مجموعه داده‌های اسباب‌بازی مانند MTCars و Iris نتیجه مراقبت و تمیز کردن دقیق هستند، حتی بنابراین داده‌ها باید تبدیل شوند تا برای الگوریتم‌های یادگیری ماشین قدرتمند برای استخراج معنا، پیش‌بینی، طبقه‌بندی یا خوشه‌بندی مفید باشند. این دوره جزئیات مهمی را پوشش می دهد که دانشمندان داده 70 تا 80 درصد از زمان خود را صرف آن می کنند. جدال داده ها و مهندسی ویژگی ها با بزرگ‌تر شدن اندازه مجموعه داده‌ها، بیایید از PySpark برای کاهش اندازه این مشکل Big Data استفاده کنیم!

datacamp یادگیری ماشین با PySpark (Mitalearn-402013)

  • 1 hours 23 minutes
  • مناسب همه
  • Release date: 28 June 2026
  • Author: Andrew Collier
درباره این دوره:

Spark یک ابزار قدرتمند و همه منظوره برای کار با Big Data است. Spark به طور شفاف توزیع وظایف محاسباتی را در یک خوشه انجام می دهد. این بدان معنی است که عملیات سریع است، اما همچنین به شما امکان می دهد به جای نگرانی در مورد جزئیات فنی، روی تجزیه و تحلیل تمرکز کنید. در این دوره شما یاد خواهید گرفت که چگونه داده ها را به Spark وارد کنید و سپس به سه الگوریتم اصلی یادگیری ماشین اسپارک بپردازید: رگرسیون خطی، رگرسیون لجستیک / طبقه بندی کننده ها، و ایجاد خطوط لوله. در طول مسیر، مجموعه داده بزرگی از تاخیرهای پرواز و پیام های متنی هرزنامه را تجزیه و تحلیل خواهید کرد. با این پیش زمینه، شما آماده خواهید بود که از قدرت Spark استفاده کنید و آن را در پروژه های یادگیری ماشین خود به کار ببرید!

coursera یادگیری ماشینی مقیاس پذیر روی داده های بزرگ با استفاده از اسپارک آپاچی (Mitalearn-333843)

  • 2 hours 28 minutes
  • متوسط
  • Release date: 23 June 2026
  • Author: Romeo Kienzler
درباره این دوره:

این دوره شما را با مهارت‌های مقیاس‌بندی وظایف علم داده و یادگیری ماشین (ML) در مجموعه‌های کلان داده با استفاده از اسپارک آپاچی توانمند می‌سازد. بیشتر کارهای یادگیری ماشین در دنیای واقعی شامل مجموعه داده های بسیار بزرگی است که فراتر از محدودیت های CPU، حافظه و ذخیره سازی یک کامپیوتر است. Apache Spark یک چارچوب متن باز است که از محاسبات خوشه ای و ذخیره سازی توزیع شده برای پردازش مجموعه داده های بسیار بزرگ به شیوه ای کارآمد و مقرون به صرفه استفاده می کند. بنابراین دانش کاربردی کار با Apache Spark یک دارایی عالی و تمایز بالقوه برای یک مهندس یادگیری ماشین است. پس از اتمام این دوره، شما قادر خواهید بود: - درک عملی Apache Spark را به دست آورید و از آن برای حل مشکلات یادگیری ماشینی که شامل داده های کوچک و بزرگ هستند استفاده کنید. - درک نحوه نوشتن کد موازی که قادر به اجرا بر روی هزاران CPU است. - از خوشه های محاسباتی در مقیاس بزرگ برای اعمال الگوریتم های یادگیری ماشین بر روی پتابایت داده با استفاده از Apache SparkML Pipelines استفاده کنید. - حذف خطاهای خارج از حافظه ایجاد شده توسط چارچوب های یادگیری ماشین سنتی، زمانی که داده ها در حافظه اصلی رایانه جا نمی شوند. - هزاران مدل مختلف ML را به صورت موازی آزمایش کنید تا بهترین عملکرد را پیدا کنید - تکنیکی که توسط بسیاری از کاگلرهای موفق استفاده می شود. - (اختیاری) دستورات SQL را با استفاده از Apache SparkSQL و Apache Spark DataFrame API روی مجموعه داده های بسیار بزرگ اجرا کنید. برای یادگیری تکنیک های یادگیری ماشینی برای کار با Big Data که توسط شرکت هایی مانند Alibaba، Apple، Amazon، Baidu، eBay، IBM، NASA، Samsung، SAP، TripAdvisor، Yahoo!، Zalando و بسیاری دیگر با موفقیت به کار گرفته شده اند، اکنون ثبت نام کنید. توجه: در طول دوره بدون پرداخت هزینه در کلاستر Apache Spark که توسط IBM ارائه شده است، کارهای یادگیری ماشین را بصورت دستی تمرین خواهید کرد و پس از آن می توانید به استفاده از آن ادامه دهید. پیش نیازها: - برنامه نویسی پایه پایتون - یادگیری ماشین اولیه (فیلم های معرفی اختیاری در این دوره نیز ارائه شده است) - مهارت های اولیه SQL برای محتوای اختیاری دوره های زیر قبل از شرکت در این کلاس توصیه می شود (مگر اینکه قبلاً مهارت داشته باشید) https://www.coursera.org/learn/python-for-applied-data-science یا مشابه https://www.coursera.org/learn/machine-learning-with-python یا مشابه https://www.coursera.org/learn/sql-data-science برای سخنرانی های اختیاری

Suggestions