Databricks:Data Engineering Associate
kod szkolenia: DBX-DEA / PL DL 3d
To intensywne, trzydniowe szkolenie prowadzi uczestników przez pełny proces pracy inżyniera danych na platformie Databricks. Łącząc treści z modułów Fundamentals, Lakehouse i Data Transformation, uczestnicy nauczą się importować i eksplorować dane, budować multi‑etapowe pipeline’y w architekturze Medallion oraz projektować zaawansowane przetwarzanie i automatyzację z użyciem Delta Live Tables. Program od początku przygotowuje do egzaminu Databricks Certified Data Engineer Associate, dlatego obejmuje zarówno podstawy pracy z Data Intelligence Platform, jak i zagadnienia związane z governance, jakością danych i orkiestracją zadań.
-
Inżynierowie danych przygotowujący się do egzaminu Data Engineer Associate.
-
Analitycy danych i zespoły BI przenoszące przetwarzanie do Databricks.
-
Data scientistci, którzy potrzebują zautomatyzowanych pipeline’ów i czystych, ustrukturyzowanych danych.
-
Osoby odpowiedzialne za projektowanie i standaryzację przetwarzania danych (lakehouse, medallion).
-
Pełne zrozumienie platformy Databricks Data Intelligence: workspace, klastry, DBFS, Repos i Workflows.
-
Umiejętność wczytywania i oczyszczania danych z różnych formatów (CSV, JSON, Parquet) przy użyciu SQL i PySpark.
-
Poznanie architektury Lakehouse i warstw Medallion (Bronze, Silver, Gold) oraz projektowanie linii przetwarzania.
-
Opanowanie operacji na Delta Lake: ACID, time travel, merge, update, delete, vacuum, optimize, zorder.
-
Budowa modularnych pipeline’ów transformacyjnych z użyciem funkcji okienkowych, DML/DDL oraz logiki warunkowej.
-
Automatyzacja przetwarzania dzięki Delta Live Tables (DLT) i Databricks Workflows oraz parametryzacja zadań.
-
Wprowadzenie do Unity Catalog, Data Governance i Delta Sharing dla zapewnienia bezpieczeństwa, kontroli dostępu i jakości danych.
-
Dzień 1 – Fundamentals & Exploration
• Wprowadzenie do platformy: workspace, klastry, DBFS, Repos, Rejestr funkcji (Repos)
• Import danych z CSV, JSON i Parquet: read.format, inferSchema, nagłówki, delimitery; typy danych i casty
• Eksploracja i wizualizacja danych: display(), show(), describe(), summary(); tworzenie statystyk i wykresów w GUI
• Czyszczenie danych: usuwanie duplikatów (dropDuplicates, distinct), obsługa wartości null (dropna, fillna), rzutowanie i transformacje logiczne (when, otherwise)
• Podstawowe transformacje w SQL i PySpark: select, withColumn, filter, groupBy, orderBy, agg
• Tworzenie widoków tymczasowych i praca z SQL w notebooku (createOrReplaceTempView)
• Wstęp do Workflows: tworzenie prostych zadań, planowanie i uruchamianie cykliczne -
Dzień 2 – Lakehouse & Delta Lake
• Architektura Lakehouse i warstwy Medallion (Bronze → Silver → Gold); strategie projektowe i best practices
• Delta Lake: ACID, enforcement i evolucja schematu, time travel, MERGE INTO, UPDATE, DELETE, CLONE
• Batch vs streaming load: COPY INTO, Auto Loader, structured streaming (readStream, writeStream), trigger times
• Budowa pipeline’ów Bronze → Silver → Gold: przetwarzanie surowych danych, czyszczenie, standaryzacja i agregacje
• Operacje DDL i DML na tabelach Delta; różnice między tabelami managed i external
• Optymalizacja zapytań: partycjonowanie, OPTIMIZE, ZORDER BY, VACUUM, analiza planu wykonania
• Wprowadzenie do Unity Catalog i podstaw zarządzania danymi: katalogi, metastore, uprawnienia, lineage
Dzień 3 – Data Transformation & Delta Live Tables
• Zaawansowane transformacje: tworzenie cech binarnych, tekstowych i numerycznych; wykorzystanie funkcji warunkowych (case when, when/otherwise)
• Funkcje okienkowe: lag, lead, row_number, rank, rolling average; tworzenie cech czasowych i sekwencyjnych
• Modularne pipeline’y w notebookach: struktura kodu (load → transform → save), parametryzacja i uruchamianie z dbutils.notebook.run()
• Przetwarzanie Silver → Gold: reguły transformacji, agregacji i czyszczenia; reużywalność i separacja logiki transformacyjnej
• Delta Live Tables (DLT): tworzenie i deklaracja pipeline’ów (CREATE LIVE TABLE), zarządzanie DAG‑ami i harmonogramami, parametryzacja, expectations jako testy jakości danych
• Orkiestracja w Databricks Workflows: multi‑task jobs, parametry wejściowe, alerty i monitorowanie
• Data Governance & Quality: Unity Catalog (rol-based access control, metastore), Delta Sharing, linega danych, cost considerations; implementacja audit logów i testów jakości
• Dobre praktyki: testowanie kodu transformacyjnego, modularność notebooków, dokumentacja i wersjonowanie repozytoriów
-
Podstawowa umiejętność pracy z plikami danych (CSV, JSON, Excel).
-
Podstawowa znajomość pojęć relacyjnych (kolumna, rekord, typ danych).
-
Znajomość SQL i/lub Pythona na poziomie podstawowym jest zalecana, ale nie wymagana.
-
Doświadczenie w pracy z Databricks (co najmniej 6 miesięcy) ułatwi udział w warsztatach, ale nie jest wymagane.
* dostęp do portalu słuchacza Altkom Akademii
Produkt zawiera
Wykład (30 %) – wprowadzenie do platformy, architektury Lakehouse i zagadnień transformacji danych
Warsztaty (30 %) – projektowanie i implementacja pipeline’ów w notebookach oraz Workflows
Ćwiczenia (40 %) – praktyczne zadania w SQL, PySpark, Delta Lake, Auto Loader, DLT
Główne narzędzia: Databricks Data Intelligence Platform, SQL, PySpark, Delta Lake, Auto Loader, Unity Catalog, Delta Live Tables, Databricks Workflows, notebooks
Wykład: polski
Materiały: angielski
Szkolenie nie zawiera formalnego egzaminu. Jego celem jest przygotowanie uczestników do certyfikacji Databricks Certified Data Engineer Associate; udział w szkoleniu wraz z samodzielnym utrwaleniem materiału znacząco zwiększa szanse na pozytywny wynik egzaminu.
Szkolenie nie zawiera formalnego egzaminu. Jego celem jest przygotowanie uczestników do certyfikacji Databricks Certified Data Engineer Associate; udział w szkoleniu wraz z samodzielnym utrwaleniem materiału znacząco zwiększa szanse na pozytywny wynik egzaminu.
