Quando i dati utili sono nascosti nel testo
Molte aziende raccolgono enormi quantità di testo: email, recensioni, chat di supporto, contratti. Quei dati restano spesso inutilizzati perché non si sa come strutturarli per l-analisi.
Questo coaching affronta il problema dall-angolo tecnico: come si passa da un corpus grezzo di milioni di documenti a informazioni utili e affidabili.
Strumenti e approcci usati
Si lavora con la libreria Hugging Face Transformers per il fine-tuning di modelli BERT e suoi derivati su dati specifici del partecipante. Si usa spaCy per il preprocessing e Elasticsearch per l-indicizzazione e la ricerca semantica.
Una sessione è dedicata alle tecniche di valutazione dei modelli NLP: F1 score, precision e recall su task di classificazione e NER, con esempi pratici su dataset annotati.
Ambiti coperti nel percorso
- Classificazione automatica di testo (sentiment, topic, intento)
- Estrazione di entità nominali (persone, luoghi, prodotti, date)
- Riassunto automatico di documenti lunghi
- Ricerca semantica su corpus aziendali con embedding vettoriali
- Gestione di testi in italiano con modelli multilingua
Fine-tunare un modello pre-addestrato su dati propri richiede meno dati di quanto si pensi, ma richiede dati puliti e annotati correttamente.
Il percorso presuppone conoscenza di Python e dimestichezza con machine learning di base. Non è adatto a chi è alle prime armi con la programmazione.
Lavorare con i dati aziendali richiede metodo e strumenti adeguati. Questo percorso mi ha aiutato a capire dove concentrare l'attenzione senza perdere tempo in configurazioni inutili.