Analisi big data con AI per aziende Iskel Travo

Quando le pipeline smettono di funzionare bene

Un sistema di data engineering funziona bene fino a quando i volumi crescono, i formati cambiano o i requisiti aziendali si moltiplicano. A quel punto, l'architettura progettata inizialmente mostra i suoi limiti.

Questo coaching nasce da un problema specifico: come si aggiunge intelligenza artificiale a un sistema dati che già esiste, senza riscrivere tutto da zero.

Orchestrazione e monitoraggio dei modelli AI

Si lavora con Apache Airflow per l'orchestrazione, MLflow per il tracciamento degli esperimenti e strumenti come Great Expectations per la validazione automatica dei dati in input ai modelli.

Una parte rilevante del percorso riguarda il monitoraggio dei modelli in produzione: drift dei dati, degradazione delle performance, gestione dei fallback.

Casi affrontati nelle sessioni

Integrazione di un modello di anomaly detection in una pipeline Kafka
Gestione del versioning dei dataset con DVC
Automazione dei test su trasformazioni dati complesse
Configurazione di alert su metriche di qualità dei dati

Aggiungere un modello di ML a una pipeline mal progettata non risolve il problema: lo complica.

Le sessioni sono tecniche e presuppongono familiarità con Python, SQL avanzato e almeno un orchestratore. Si lavora direttamente sul codice del partecipante quando possibile.

Lavorare con i dati aziendali richiede metodo e strumenti adeguati. Questo percorso mi ha aiutato a capire dove concentrare l'attenzione senza perdere tempo in configurazioni inutili.

— Valentina Furlani, responsabile operations

Programma del percorso

Fase 1 - Audit: Analisi dell'architettura esistente del partecipante. Identificazione dei colli di bottiglia e dei punti di inserimento per componenti AI.

Fase 2 - Design: Progettazione dei pattern di integrazione: batch vs streaming, sincronizzazione modello-pipeline, gestione degli errori.

Fase 3 - Implementazione: Sessioni pratiche su MLflow, Airflow DAG con task ML, validazione dati automatizzata.

Fase 4 - Produzione: Monitoraggio dei modelli, gestione del data drift, documentazione tecnica del sistema.

Formato

Online

Durata

8 settimane

Livello

Avanzato

Posti

Data Engineering con AI per Professionisti

Quando le pipeline smettono di funzionare bene

Orchestrazione e monitoraggio dei modelli AI

Casi affrontati nelle sessioni

Programma del percorso

Inizia il percorso