Databricks – Data Preparation for Machine Learning

kod szkolenia: DBX-MLPREP / PL DL 1d

To intensywne, jednodniowe szkolenie jest skierowane do osób, które znają już środowisko Databricks i chcą uporządkować oraz pogłębić umiejętności przygotowywania danych pod uczenie maszynowe. W czasie kursu uczestnicy nauczą się wykonywać eksploracyjną analizę danych, radzić sobie z brakami i zmiennymi kategorycznymi, standaryzować cechy, tworzyć złożone pipeline’y transformacyjne oraz logować i wersjonować wyniki w MLflow i Feature Store.

promocja

Termin

tryb Distance Learning

poziom Średnio zaawansowany

czas trwania 1 dzień | 8h| 30.03

+ 23% VAT (2 214,00 PLN brutto)

Poprzednia najniższa cena:

tryb Distance Learning

poziom Średnio zaawansowany

czas trwania 1 dzień | 8h| 19.06

2 000,00 PLN + 23% VAT (2 460,00 PLN brutto)

Poprzednia najniższa cena:

tryb Distance Learning

poziom Średnio zaawansowany

czas trwania 1 dzień | 8h| 20.11

2 000,00 PLN + 23% VAT (2 460,00 PLN brutto)

Poprzednia najniższa cena:

Szkolenie jest adresowane do:

Data scientistów i inżynierów ML, którzy chcą nauczyć się właściwego przygotowania danych do modeli.
Zespołów projektujących pipeline’y ML oraz specjalistów MLOps, którzy zarządzają jakością i logiką danych.
Inżynierów danych i DataOps odpowiedzialnych za przygotowanie zestawów danych do uczenia i wdrażania modeli.
Uczestników znających Databricks (SQL/PySpark) i podstawy modelowania ML, chcących rozszerzyć warsztat o zaawansowane przygotowanie danych.

Solidny fundament data preparation: uczestnicy zgłębią EDA, imputację, kodowanie i standaryzację oraz nauczą się tworzyć modularne pipeline’y transformacyjne z wykorzystaniem Spark MLlib.
Integracja z MLflow i Feature Store: ćwiczenia pokazujące logowanie metryk, hiperparametrów i modeli w MLflow oraz tworzenie i rejestrację zestawów cech w Feature Store, co zapewnia spójność między treningiem a serwowaniem modeli.
Modularne podejście do danych: szkolenie pokazuje, jak łączyć DataFrames, Delta Lake, MLflow i Feature Store w jednym procesie, co ułatwia implementację modeli ML.
Kompleksowa inżynieria cech: uczestnicy poznają techniki ekstrakcji, selekcji i tworzenia nowych cech, w tym użycie funkcji okienkowych i VectorAssemblera.

1.Eksploracja danych (EDA):

- Użycie polecenia display, summary i profile do eksploracji rozkładów i zależności.
- Tworzenie wizualizacji w notebookach Databricks; identyfikacja odstających obserwacji.

2.Podział danych:

- Podział na zbiory treningowe, walidacyjne i testowe; losowy i warstwowy sampling.
- Cross‑validation i koncepcja time‑based split.

3.Imputacja brakujących wartości:

- Metody usuwania braków (dropna) i uzupełniania (fillna).
- Użycie klasy Imputer z MLlib do zastępowania wartości średnią/medianą oraz tworzenia flag braków.

4.Kodowanie i transformacja cech:

- Kodowanie kategorii za pomocą StringIndexer i OneHotEncoder; wprowadzenie do kodowania docelowego.
- Skalowanie zmiennych numerycznych przy użyciu StandardScaler, MinMaxScaler i RobustScaler.
- Funkcje okienkowe (window functions): lag, lead, row_number, rolling average dla tworzenia cech sekwencyjnych.

5.Feature engineering i selekcja:

- Różnica między ekstrakcją cech a selekcją; tworzenie nowych zmiennych przez agregacje, transformacje logarytmiczne, interakcje.
- Łączenie zmiennych w wektor za pomocą VectorAssembler

6.Budowa pipeline’ów ML:

- Definiowanie etapów Pipeline (imputacja, kodowanie, skalowanie, model).
- Dopasowanie modeli i ewaluacja; logowanie metryk, hiperparametrów i modeli w MLflow.

7.Feature Store & MLflow:

- Tworzenie i rejestrowanie tabel cech w Databricks Feature Store; utrzymanie wersji i udostępnianie cech dla wielu modeli.
- Zastosowanie mlflow.log_model i mlflow.register_model do śledzenia eksperymentów oraz gwarancja spójności między treningiem a serwowaniem modeli.

8.Dobre praktyki i testowanie:

- Projektowanie modularnych notebooków oraz wykorzystanie testów jednostkowych dla funkcji transformacyjnych.
- Dokumentowanie pipeline’ów, monitorowanie jakości danych i zarządzanie lineage.

Uczestnik powinien znać podstawowe koncepcje uczenia maszynowego (np. regresja i klasyfikacja), posługiwać się PySpark lub SQL oraz mieć doświadczenie w pracy z danymi. Zaleca się ukończenie modułu Data Engineering lub posiadanie równoważnych umiejętności

* dostęp do portalu słuchacza Altkom Akademii

Produkt zawiera

Czas trwania: 1 dzień / 8h

Wykład (30%) – teoria i pokaz przykładów przygotowania danych, w tym EDA, transformacje, logowanie w MLflow i zarządzanie cechami w Feature Store.
Warsztaty (30%) – praktyczne ćwiczenia z imputacji, kodowania, standaryzacji oraz budowy pipeline’u ML z wykorzystaniem CrossValidator/TrainValidationSplit.
Ćwiczenia (40%) – pełny proces przygotowania danych, logowania pipeline’u w MLflow oraz rejestracji cech w Feature Store.

Główne narzędzia: Databricks, PySpark, Delta Lake, Spark MLlib, MLflow, Feature Store, Unity Catalog

Wykład: polski
Materiały: angielski

Szkolenie nie zawiera formalnego egzaminu. Po ukończeniu kursu zaleca się podejście do egzaminu Databricks Certified Machine Learning Associate jako kolejny krok rozwojowy.

Databricks – Data Preparation for Machine Learning

Databricks Data Transformation

Databricks (Explorer) Data Exploration

Databricks Fundamentals

Databricks Lakehouse Architecture

Databricks – Data Preparation for Machine Learning

Databricks:Data Engineering Associate

AI & ML development with Databricks

SAP Fieldglass: Integration Fundamentals

VMware Cloud Director: Deploy, Configure, Manage [V10.6]

FRIS - Badanie diagnostyczne i sesja indywidualna

SAP Java Process Integration

Understanding Cisco Collaboration Foundations v2.0

Security/Warsztaty z wybranych elementów bezpieczeństwa IT

Implement Real-Time Intelligence with Microsoft Fabric

SAP HANA Using Monitoring and Performance Tools

Reactive programming in JavaScript with the use of RxJS

CPENT AI : Certified Penetration Testing Professional v2