Enrolment options

Datacamp / Spark

مقدمه ای بر Spark SQL در پایتون (Mitalearn-403458)

درباره این دوره:

اگر با SQL آشنایی دارید و چیزهای خوبی در مورد Apache Spark شنیده اید، این دوره برای شما مناسب است. Apache Spark یک چارچوب محاسباتی برای پردازش داده های بزرگ است و Spark SQL جزء Apache Spark است. این دوره چهار ساعته به شما نشان می دهد که چگونه با استفاده از ویژگی های پیشرفته SQL، مانند توابع پنجره، Spark را به سطح جدیدی از سودمندی ببرید.

در طول چهار فصل، از Spark SQL برای تجزیه و تحلیل داده‌های سری زمانی، استخراج رایج‌ترین کلمات از یک سند متنی، ایجاد مجموعه ویژگی‌ها از متن زبان طبیعی و استفاده از آنها برای پیش‌بینی آخرین کلمه در جمله با استفاده از رگرسیون لجستیک استفاده می‌کنید.

شما با ایجاد و جست‌وجوی یک جدول SQL در Spark و همچنین یادگیری نحوه استفاده از توابع پنجره SQL برای انجام مجموع‌های در حال اجرا، تفاوت‌های در حال اجرا و سایر عملیات‌ها شروع می‌کنید.

در مرحله بعد، نحوه استفاده از تابع پنجره در Spark SQL را برای پردازش زبان طبیعی، از جمله استفاده از تجزیه و تحلیل پنجره متحرک برای یافتن توالی کلمات رایج، بررسی خواهید کرد.

در فصل 3، نحوه استفاده از SQL Spark UI را برای ذخیره سازی مناسب DataFrames و جداول SQL قبل از کاوش در بهترین شیوه ها برای ورود به Spark، خواهید آموخت.

در نهایت، شما از تمام مهارت‌هایی که تاکنون آموخته‌اید برای بارگیری و نشانه‌گذاری متن خام قبل از استخراج دنباله‌های کلمه استفاده می‌کنید. سپس از رگرسیون لجستیک برای طبقه بندی متن استفاده می کنید و از داده های خام زبان طبیعی برای آموزش یک طبقه بندی متن استفاده می کنید.

این دوره معرفی کاملی از Spark SQL ارائه می‌کند، و در پایان، شما اصول اولیه را کاملاً درک خواهید کرد و خواهید فهمید که Spark چگونه قدرت محاسبات توزیع‌شده را با سهولت استفاده از Python و SQL ترکیب می‌کند.

Guests cannot access this course. Please log in.