L’analisi delle notizie. Con l’intelligenza artificiale

L’importanza delle notizie sul web per Cerved

Cerved basa il proprio business su un patrimonio di dati vasto ed eterogeneo. Grazie a questi possiamo comprendere ed analizzare il tessuto socio-economico del Paese, costruire algoritmi e soluzioni innovative per persone e aziende, supportare lo sviluppo economico e diventare un punto di riferimento per il mercato.

Le news del Web rappresentano una nuova fonte di dati su cui costruire valore. Ad esempio, è possibile utilizzare quanto estratto dall’analisi delle notizie per migliorare i report di rischio e monitorare i soggetti economici, oppure approcciare le analisi di settore e mercati finanziari.

All’interno di Cerved, questi dati vengono utilizzati da differenti aree e prodotti:

Cerved Credit Suite con modulo integrativo Database News, permette la ricerca e la lettura agevolata delle notizie raggruppate e taggate con gli eventi rilevati e soggetti coinvolti;
Market Intelligence raggruppa le notizie dividendole per settore, identificati a partire dagli Ateco dei soggetti economici annotati;
prodotti di Business Information per documenti Corporate e Banche in cui si trovano le notizie relative ai soggetti che interessano il cliente finale;
Atoka News, per raccolte di notizie su portafogli selezionati per clienti;
casi d’uso interni, per esempio da parte degli analisti di Cerved Rating Agency che usano uno strumento redazionale per approfondire la situazione di clienti su cui emettere valutazioni.

Machine Learning e analisi dei testi

Il potenziale di raccolta è quindi molto alto e di grande impatto, tuttavia si tratta di un dato particolare e, per poter estrarre da esso le informazioni di nostro interesse, deve essere lavorato: parliamo dunque di analisi di testi non strutturati. Questo tipo di analisi è possibile grazie al progresso tecnologico degli ultimi anni e soprattutto dei passi avanti fatti nell’ambito dell’Intelligenza Artificiale che hanno permesso di processare ed elaborare questo tipo di dato. Attraverso tecniche ed algoritmi di Text Mining e NLP (Natural Language Processing) si possono estrarre quelle informazioni che prima erano ottenibili solo con l’intervento di un esperto.

Inoltre, le tecniche di automazione consentono di processare grandi masse di dati in tempi ridotti, raggiungendo dei volumi di output che sarebbero altrimenti impossibili da ottenere.

In Cerved abbiamo quindi sviluppato una soluzione tecnologica in grado di acquisire le notizie web, che ci vengono fornite da diversi provider, e processarle in maniera automatica in tempo reale, sfruttando algoritmi di Machine Learning. Al termine di questo flusso otteniamo dei dati arricchiti che possono essere utilizzati sia internamente per la creazione di prodotti, sia distribuiti direttamente all’esterno verso i clienti che li richiedono.

Le componenti di Machine Learning sviluppate consentono di:

classificare le notizie secondo differenti criteri: ad esempio selezionare quelle di carattere economico-finanziario e, successivamente, etichettarle secondo l’argomento trattato (es. fusioni tra aziende, reati finanziari, fallimenti, tematiche sindacali e altro);
riconoscere i soggetti economici citati nei testi: annotare le menzioni di aziende all’interno del testo e associarle all’identificativo Cerved il quale ci consente di ottenere di conseguenza anche tutte le altre informazioni in nostro possesso sul soggetto;
identificare il sentiment della notizia: capire se il tono della notizia è positivo-negativo-neutro e anche quanto questo si riflette su eventuali aziende menzionate dall’articolo;
riconoscere le location (città, province ecc.) menzionate nel testo.

Cerved possiede una serie di prerequisiti abilitanti per creare queste soluzioni tecnologiche in cui l’aspetto cruciale sono i dati: per lo sviluppo di questi algoritmi, sono fondamentali i dataset con cui vengono “addestrati” i diversi modelli. In Cerved le notizie web vengono acquisite e processate da anni e, inoltre, molte di queste vengono lavorate quotidianamente da una redazione di esperti che arricchisce il dato grezzo con una serie di informazioni. Questo ha consentito la creazione di grossi dataset che sono stati utilizzati per la costruzione di modelli di Machine Learning. Inoltre, il lavoro della redazione è fondamentale per mantenere aggiornati gli algoritmi e continuare ad evolvere le componenti al fine di ottenere una qualità sempre più alta dell’arricchimento automatico delle notizie.

La soluzione tecnologica sviluppata

La soluzione architetturale realizzata è una pipeline near real-time di arricchimento semantico su testi non strutturati, basata su tecnologie cloud di tipo serverless. L’arricchimento semantico avviene tramite diversi modelli di Machine Learning, alcuni basati su algoritmi di regressione logistica, come ad esempio quelli per la classificazione dei testi, altri più complessi basati su tecniche di Deep Learning per la comprensione del linguaggio naturale, necessaria a risolvere i problemi di riconoscimento delle entità e analisi della sentiment.

L’architettura di arricchimento è stata realizzata in maniera estremamente modulare e le singole componenti sono implementate all’interno di microservizi autonomi e indipendenti. Questi possono evolvere autonomamente senza introdurre nessun tipo di drawback sul sistema globale.

In particolare, ogni microservizio è stato sviluppato in modalità serverless, ovvero sfruttando un tipo di architettura in cui la potenza di calcolo e i servizi di backend sono disponibili on-demand, in modalità pay per use e con la capacità di poter scalare idealmente all’infinito. Si tratta di tecnologie in cui l’utente non si deve preoccupare dell’infrastruttura che è gestita dal cloud vendor. In questo modo è possibile ridurre molti costi di gestione e concentrare le risorse sulle fasi di implementazione del progetto.

La soluzione realizzata è stata pensata per poter arricchire testi in maniera del tutto agnostica dai data provider e per poter essere integrata anche da più stakeholder di business. Questo è stato il driver che ci ha portato a realizzare un’architettura streaming che rendesse disaccoppiati producer e consumer e che ci permettesse di processare flussi di notizie a bassa latenza in near real-time. Inoltre, la soluzione garantisce l’ordinamento delle notizie, caratteristica importante per le analisi a valle del processo, e soprattutto permette il processamento parallelo e scalabile all’aumentare del numero di dati in input.

Questa ambizione tecnica e la vision di business ha permesso di realizzare una soluzione fortemente innovativa, apprezzata dalla stessa AWS che ne ha parlato di recente in uno dei suoi articoli sui Partner Case Success Story (link all’articolo). Infine, parte del team di sviluppo è stato presente come speaker al Codemotion di Milano nella Tech Conference dello scorso novembre (link al talk).

L’importanza del team

Per avere successo nello sviluppo di soluzioni di ML è necessario avere un team trasversale che segua la pratica del MLOps, al fine di avere una stretta collaborazione tra i Data Scientists e le figure più dedite alle attività di Operation. I Data Scientists non sono solo responsabili dello sviluppo di modelli di ML, ma anche dello sviluppo di pipeline di addestramento automatico, avendo cura che questi possano essere facilmente messi in produzione. Gli ML Engineers del team hanno una notevole comprensione di ciò che significa sviluppare modelli ML & AI e lavorano a stretto contatto con DevOps e Data Scientists per distribuire i modelli, assicurare il monitoraggio continuo e il miglioramento dei modelli nel tempo.

Questi principi hanno guidato la creazione di un cross-functional team che fosse in grado di gestire al meglio tutti gli step necessari alla realizzazione. E’stato importante avere a disposizione delle figure con competenze tecniche sia molto verticali su determinate tecnologie ma anche trasversali sulle tematiche di MLOps.

Il coinvolgimento di Data Scientists, Data Engineers / ML Engineers e Data Owners, ha fatto sì che si formasse un team in grado di governare ogni aspetto del progetto end to end, portando Radical Innovation in casa Cerved.

Le evoluzioni

L’obiettivo di Cerved è quello di acquisire sempre più dati, raggiungendo sempre più provider e fonti, espandere la propria offerta con nuove soluzioni tecnologiche. Il continuo lavoro, svolto quotidianamente dagli esperti Cerved, ci consente di mantenere vivi e aggiornati gli algoritmi, lavorando continuativamente sul raffinamento degli stessi, alzando ogni giorno la qualità dei nostri processi e prodotti.

Cerved è una Algo Firm che si pone l’obiettivo di creare nuove soluzioni e nuovo valore attraverso expertise tecnologiche e metodologiche.

Se sei interessato alle nostre soluzioni scrivici

Contatti – Cerved

IMPRESE E MERCATI