BigData, siamo nell’era degli algoritmi

Nei due capitoli precedenti abbiamo raccontato la genesi dei BigData e il ruolo dei sistemi NoSQL.

Negli ultimi anni i livelli di attenzione su nuove tecnologie di gestione dei dati si sono decisamente ridotti. Se nello scorso decennio abbiamo assistito alla guerra tra i sistemi relazionali e sistemi NoSQL, adesso si assiste maggiormente ad un consolidamento delle funzionalità degli stessi, con nuove feature che abilitano o semplificano processi di elaborazione e gestione dei dati.

Sistemi NoSQL come MongoDB, Neo4J, ElasticSearch o Redis ormai sono più che consolidati sul mercato e si sono trasformate in realtà enterprise a tutti gli effetti (alcune anche ormai quotate in borsa) e proseguono il loro consolidamento con l’aggiunta di funzionalità sempre nuove per facilitare l’estrazione del valore

Se negli anni scorsi le aziende hanno fatto una corsa all’accumulo dei dati perché hanno capito che era il nuovo petrolio, adesso il tema dominante è: cosa possiamo fare con questi dati? Qual è il valore che contengono? Quali prodotti, quali decisioni, quali algoritmi possono essere realizzati su di essi?

I Big player

Le grandi realtà della web economy (Google, Facebook, Amazon, Netflix, TikTok, ecc…) hanno costruito business molto floridi raccogliendo BigData di tantissime tipologie e fonti, utilizzando molte delle tecnologie descritte sopra, e hanno trasformato questi dati nel loro petrolio: su di essi sono riusciti a creare un valore incredibile, correlando i dati, eseguendo modelli di analisi complessi, applicando algoritmi di elaborazione statistici e applicando modelli di intelligenza artificiale per scoprire nuove informazioni che solo un approccio di Artificial Intelligence è in grado di scoprire.

L’era dei BigData è praticamente alla sua conclusione nel senso che ormai i BigData sono diventati una commodity: i BigData non sono più un argomento di discussione, tutte le aziende hanno imparato che occorre raccogliere dati e provare a sfruttarli e le tecnologie che ormai abbiamo a disposizione disponibili per tutti, sono in grado di supportare quasi tutti gli use case.

Siamo ormai nell’era degli Algoritmi e il futuro delle aziende e del mercato ormai si gioca sulla capacità di far diventare il petrolio non solo in benzina ma soprattutto in plastica, ovvero in qualcosa di nuovo che cambia definitivamente il mercato.

I big player lo stanno facendo ormai da tempo; e la guerra tecnologica in corso, in questo momento, è proprio quella verso la democratizzazione dell’artificial intelligence, ovvero verso la progettazione e lo sviluppo di funzionalità e soluzioni che abilitano tutti a sfruttare l’AI.

Player del mondo dati come MongoDB, AWS, Neo4J, Azure, Google, solo per citarci alcuni, continuano a rilasciare funzionalità finalizzate a portare la potenza di algoritmi, AI o machine learning a tutti i propri clienti. E il mondo open source è più attivo che mai con vari progetti (H2O, PyTorch, TensorFlow, Caffe, Fast.ai solo per citarne alcuni) che hanno anche anticipato i player enterprise.

Cosa succederà alla fine di questo nuovo capitolo della storia dei BigData? Sarà un’era che ci stupirà come stiamo già vedendo con algoritmi che sfruttano i tanti dati raccolti negli anni come DALL-E e GPT3. E la necessità di definire una nuova etica nella creazione degli algoritmi sarà fondamentale per il futuro delle aziende

Cerved e l’ecosistema di dati

Cerved è una azienda che ha fatto dello sfruttamento dei dati il suo business principale, ancor prima che si parlasse di BigData, di dati come il petrolio o di importanza degli algoritmi.

I dati per Cerved sono sempre stati la materia prima fondamentale su cui abbiamo costruito applicazioni e prodotti per aiutare i nostri clienti a prendere le proprie decisioni sul proprio business per difendersi dai rischi del mercato e per sostenere la crescita.

Se negli anni 2000 abbiamo fatto un uso intenso delle migliori tecnologie in ambito database relazionali (Oracle, SqlServer, MySql, ecc…) all’inizio del decennio successivo abbiamo iniziato a capire sulla nostra pelle quali fossero i problemi dei BigData: i dati continuavano a crescere e avevamo necessità di poter compiere elaborazioni sempre più sofisticate ma veloci.

Pur avendo introdotto una soluzione di datawarehouse per grosse molti di dati come Teradata, ci siamo rapidamente resi conto che avevamo bisogno di tecnologie diverse:

Dal 2012 in poi abbiamo abbracciato fortemente le tecnologie NoSql facendole diventare un cardine della nostra architettura. E lo abbiamo fatto spinti da diverse necessità:

poter avere sistemi fortemente scalabili in base al carico degli utenti
ridurre i costi crescenti e la complessità dei sistemi relazionali
elaborare con efficacia dati di tipologie diverse: dati testuali, dati non strutturati, ecc…
abilitare i data scienti alla analisi e alla elaborazione di grossi volumi di dati
abilitare l’uso di approcci di AI sui dati
eseguire algoritmi di network analysis per analizzare le interrelazioni tra tutte le informazioni
accelerare i processi di insourcing di nuove fonti dati
avere un modello dati in grado di adattarsi più velocemente alla fluidità delle strutture che dati come quelli open o provenienti dal web richiedono ecc…

Oggi, alcune tecnologie dati sono alla base della nostra erogazione verso i clienti e sono abilitanti per costruire algoritmi nuovi e sempre più efficaci, per poter aiutare i nostri clienti nel prendere le giuste decisioni nel proprio business.

Se i database relazionali come Oracle rappresentano comunque la base storica dei nostri dati, ci sono altri sistemi NoSQL rilevantissimi:

MongoDB per abilitare API e processi che richiedono dati complessi disponibili in tempi rapidissimi

Neo4J per poter mappare il tessuto economico italiano e tracciare tutte le relazioni tra gli operatori economici ElasticSearch per poter ricercare velocemente informazioni presenti nei nostri archivi Hadoop e Cloudera per poter supportare la realizzazione di algoritmi che richiedono l’elaborazione massiva di dati o l’applicazione di algoritmi di machine learning ecc… ecc…

La Polyglot Persistence introdotta da Fowler è diventato un design pattern standard nella nostra architettura.

Oggi Cerved può essere considerato una sorta di paradiso per data scientist e data engineer: enormi quantità di dati a disposizione, tecnologie di elaborazione dei dati moderne e stabili, una facilità di creazione di nuove soluzioni abilitati da approcci cloud e devops, un approccio etico all’AI.

I BigData, i NoSql negli scorsi anni ci hanno permesso di aumentare la nostra capacità di raccogliere, gestire ed elaborare i dati. Il nuovo petrolio saranno i nuovi algoritmi che realizzeremo.

Se sei interessato alle nostre soluzioni?

Scrivici

Contatti – Cerved

BIG DATA

IMPRESE E MERCATI

PMI