Databricks: Mosaic AI i RAG na Databricks

kod szkolenia: DBX-AI / PL DL 1d

Szkolenie DBX-AI to praktyczne wprowadzenie do budowania produkcyjnych rozwiązań generatywnej AI na platformie Databricks z użyciem Mosaic AI. Uczestnicy budują end-to-end pipeline RAG (Retrieval-Augmented Generation): od podziału dokumentów produktowych na fragmenty i generowania embeddingów, przez tworzenie indeksu wektorowego w Vector Search, po uruchomienie chatbotu opartego na modelu językowym z ewaluacją odpowiedzi w MLflow

Szkolenie przeznaczone jest dla:

Inżynierów danych i inżynierów ML chcących budować rozwiązania oparte na dużych modelach językowych i wyszukiwaniu semantycznym
Programistów aplikacji AI zainteresowanych integracją LLM z danymi firmowymi (asystenci dokumentacyjni, chatboty Q&A, wyszukiwarki semantyczne)
Specjalistów MLOps odpowiedzialnych za wdrażanie i monitorowanie pipeline’ów AI w produkcji

Projektowanie i implementacja pipeline’u RAG: podział dokumentów, generowanie embeddingów, Vector Search i serwowanie modelu językowego
Tworzenie i zarządzanie indeksem wektorowym w Databricks Vector Search z automatyczną synchronizacją z tabelą Delta
Wdrożenie łańcucha RAG na Serverless Model Serving z rejestracją w Unity Catalog Model Registry
Ewaluacja jakości odpowiedzi RAG za pomocą MLflow Evaluate z metrykami trafności, ugruntowania i recall kontekstu
Śledzenie wywołań modeli językowych i kroków retrieval w pipeline’ach agentic z MLflow Tracing

Moduł 1 – Mosaic AI: ekosystem i architektura RAG

Komponenty Mosaic AI: Model Serving, Vector Search, AI Playground i Agent Framework – gdzie co stosować i jak współdziałają
Wybór modelu do zadania: modele podstawowe Databricks (Foundation Models API), modele osadzeń oraz zewnętrzne modele językowe przez Model Serving
AI Playground: interaktywne testowanie modeli i inżynieria promptów przed wdrożeniem pipeline’u
Architektura RAG na Databricks: przepływ od dokumentu przez wyszukiwanie wektorowe do odpowiedzi modelu językowego

Moduł 2 – Przygotowanie dokumentów: chunking i embeddingi

Strategie podziału dokumentów na fragmenty: stały rozmiar, podział zdaniowy i semantyczny z nakładaniem – wpływ na jakość wyszukiwania
Wzbogacanie fragmentów metadanymi: kategoryzacja, tagi produktowe i atrybuty do filtrowania hybrydowego
Generowanie embeddingów z Foundation Models API: wybór modelu osadzeń i jego wpływ na wymiarowość i jakość wyszukiwania semantycznego
Zarządzanie tabelą Delta z fragmentami i wektorami osadzeń jako podstawą indeksu wektorowego

Warsztat 1 – Korpus dokumentów: chunking i generowanie embeddingów

Uczestnicy przetwarzają dokumenty produktowe RetailHub: dzielą je na fragmenty wybraną strategią, wzbogacają metadanymi i generują embeddingi z Foundation Models API. Efektem jest tabela Delta z fragmentami i wektorami gotowa do zaindeksowania w Vector Search.

Moduł 3 – Databricks Vector Search: indeksowanie i wyszukiwanie

Typy indeksów Vector Search: Delta Sync Index z automatyczną synchronizacją oraz Direct Access Index – kiedy wybrać który
Tworzenie indeksu wektorowego, zarządzanie stanem synchronizacji i monitorowanie wydajności w UI
Wyszukiwanie podobieństwa: miara kosinusowa, iloczyn skalarny i przybliżone wyszukiwanie sąsiadów – różnice w zachowaniu
Filtrowanie hybrydowe: wyszukiwanie wektorowe z warunkami na metadanych fragmentów

Moduł 4 – Pipeline RAG: retrieval, augmentacja i serwowanie modelu

Budowanie łańcucha RAG: zapytanie użytkownika → retrieval z Vector Search → wzbogacenie kontekstem → generowanie odpowiedzi przez model językowy
Rejestracja łańcucha RAG w Unity Catalog Model Registry z MLflow Models from Code – wersjonowanie i aliasy
Wdrożenie pipeline’u RAG na Serverless Model Serving – konfiguracja endpointu i obsługa zapytań REST
MLflow Tracing: śledzenie wywołań modeli językowych, kroków retrieval i opóźnień w pipeline’ach agentic

Moduł 5 – Ewaluacja i monitoring RAG

Budowanie zestawu ewaluacyjnego: pytania, oczekiwane odpowiedzi i konteksty referencyjne do pomiaru jakości odpowiedzi
Uruchamianie automatycznej ewaluacji RAG z MLflow Evaluate: metryki trafności odpowiedzi, ugruntowania i recall kontekstu
Inference Tables: automatyczne logowanie zapytań do Delty dla monitorowania dryfu jakości odpowiedzi w produkcji
Databricks Agent Framework: gotowe elementy do budowania agentów konwersacyjnych i orchestracji wieloetapowego rozumowania

Warsztat 2 – Kompletny pipeline RAG: od dokumentów do chatbotu

Uczestnicy finalizują projekt: tworzą indeks wektorowy z korpusu przygotowanego w Warsztacie 1, budują łańcuch RAG, rejestrują go w Unity Catalog Model Registry, wdrażają na Serverless Model Serving i uruchamiają automatyczną ewaluację z MLflow Evaluate. Efektem jest działający chatbot produktowy z pomiarem jakości odpowiedzi.

Ukończone szkolenie DBX-MLPREP (Przygotowanie Danych do Machine Learning) lub równoważna wiedza: Delta Lake, Unity Catalog, MLflow podstawy, Model Serving
Ogólna znajomość pojęcia modelu językowego (LLM) i embeddingu – nie jest wymagane doświadczenie w ich wdrażaniu
Podstawowa znajomość PySpark i Python (poziom skryptowy)

* dostęp do portalu słuchacza Altkom Akademii

Uwaga:W trakcie wybranych szkoleń Akademia zapewnia Uczestnikom dostęp do płatnych narzędzi i usług niezbędnych do realizacji programu szkolenia (w szczególności usług Azure, Fabric oraz innych zasobów chmurowych). Uczestnik zobowiązany jest do korzystania z udostępnionych zasobów wyłącznie w zakresie wynikającym z agendy szkolenia oraz zgodnie z poleceniami trenera. Wykorzystywanie tych zasobów w sposób wykraczający poza zakres szkoleniowy, w szczególności do realizacji projektów prywatnych, testowania dodatkowych usług, modyfikowania konfiguracji środowiska lub podejmowania działań generujących koszty niezwiązane z realizacją ćwiczeń – skutkować będzie obciążeniem Uczestnika kosztami przekraczającymi przewidziany limit, na podstawie wydatków poniesionych przez Akademię (https://www.altkomakademia.pl/ogolne-warunki-uczestnictwa-w-szkoleniach/)

Wykład: polski
Materiały: angielski

Szkolenie nie zawiera formalnego egzaminu. Po ukończeniu kursu zaleca się podejście do egzaminu Databricks Certified Machine Learning Associate lub śledzenie roadmapy Mosaic AI dla dalszego rozwoju.

Databricks: Mosaic AI i RAG na Databricks

Databricks – Data Preparation for Machine Learning

Databricks: Mosaic AI i RAG na Databricks

Databricks:Data Engineering Associate

Wykorzystanie Copilota w aplikacjach pakietu Office

ISTQB® Certified Tester Advanced Level – Test Manager - online

Administering System Center Configuration Manager. Administering Endpoint Configuration Manager

Implement Generative AI engineering with Azure Databricks

Java Persistence API

PowerShell Advanced + AI Automation

SAP S/4HANA Product Engineering Essentials

Purchasing in SAP S/4HANA

Skuteczne szkolenia z wykorzystaniem narzędzi on-line

Analiza danych w Pythonie – poziom podstawowy