Analisi big data con AI per aziende Iskel Travo

Quando i dati utili sono nascosti nel testo

Molte aziende raccolgono enormi quantità di testo: email, recensioni, chat di supporto, contratti. Quei dati restano spesso inutilizzati perché non si sa come strutturarli per l-analisi.

Questo coaching affronta il problema dall-angolo tecnico: come si passa da un corpus grezzo di milioni di documenti a informazioni utili e affidabili.

Strumenti e approcci usati

Si lavora con la libreria Hugging Face Transformers per il fine-tuning di modelli BERT e suoi derivati su dati specifici del partecipante. Si usa spaCy per il preprocessing e Elasticsearch per l-indicizzazione e la ricerca semantica.

Una sessione è dedicata alle tecniche di valutazione dei modelli NLP: F1 score, precision e recall su task di classificazione e NER, con esempi pratici su dataset annotati.

Ambiti coperti nel percorso

Classificazione automatica di testo (sentiment, topic, intento)
Estrazione di entità nominali (persone, luoghi, prodotti, date)
Riassunto automatico di documenti lunghi
Ricerca semantica su corpus aziendali con embedding vettoriali
Gestione di testi in italiano con modelli multilingua

Fine-tunare un modello pre-addestrato su dati propri richiede meno dati di quanto si pensi, ma richiede dati puliti e annotati correttamente.

Il percorso presuppone conoscenza di Python e dimestichezza con machine learning di base. Non è adatto a chi è alle prime armi con la programmazione.

Lavorare con i dati aziendali richiede metodo e strumenti adeguati. Questo percorso mi ha aiutato a capire dove concentrare l'attenzione senza perdere tempo in configurazioni inutili.

— Valentina Furlani, responsabile operations

Programma del percorso

Settimana 1: Preprocessing testuale: tokenizzazione, normalizzazione, gestione di lingue miste e rumore nei dati.

Settimana 2-3: Modelli classici per NLP: TF-IDF, Naive Bayes, SVM su testo. Quando usarli al posto dei transformer.

Settimana 4-5: Introduzione ai transformer: architettura BERT, tokenizer, pipeline di Hugging Face. Fine-tuning su task di classificazione.

Settimana 6: Named Entity Recognition con spaCy e modelli pre-addestrati in italiano. Annotazione e valutazione.

Settimana 7: Embedding vettoriali e ricerca semantica con FAISS o Elasticsearch. Differenza tra ricerca lessicale e semantica.

Settimana 8: Progetto applicato su dataset del partecipante. Review tecnica e discussione delle scelte architetturali.

Formato

Online

Durata

8 settimane

Livello

Intermedio / Avanzato

Posti

Analisi del Testo su Larga Scala con NLP e AI

Quando i dati utili sono nascosti nel testo

Strumenti e approcci usati

Ambiti coperti nel percorso

Programma del percorso

Inizia il percorso