Una nuova Figura Professionale
Il Data Scientist perchè è una figura tanto richiesta dalle imprese? Da quando i dati sono divenuti il petrolio del XXI secolo è cresciuta la domanda di nuove figure professionali, quali, per l’appunto, il Data Scientist.
Per comprendere meglio l’ambito in cui opera il data scientist e per capire fino in fondo il valore di questa nuova figura, occorre partire dal passato per poi comprendere l’ambito in cui opera e i risvolti in termini di business di questa nuova figura professionale.
Evoluzione Storica
Fino a qualche decennio fa, le imprese, investivano moltissimi soldi nel creare strutture informatiche in grado di immagazzinare dati.
Già negli anni ’90, non a caso, si parlava di ‘data mining’, ovvero, di applicare algoritmi statistici per scoprire strutture di relazione all’interno di data base aziendali, quali, ad esempio i CRM. In quei tempi, il sistema IT delle aziende era concentrato sull’organizzazione omogenea dei dati in strutture relazionali.
Con l’avvento di Internet, e più precisamente dopo il 2000, in seguito allo sviluppo di nuovi linguaggi quali il php e il java, si è capito che il web avrebbe potuto essere una miniera di dati ben più importanti di quelli strutturati e già presenti in azienda.
L’avvento dei social e la diffusione dei dispositivi mobile hanno amplificato la disponibilità dei dati ed hanno richiesto nuove architetture IT che andassero ben oltre i sistemi tradizionali di raccolta ed organizzazione.
Dopo il 2005, nascono nuovi criteri di archiviazione dei dati su nuovi paradigmi come il parallelismo. Molte aziende ‘fiutano’ l’affare da Google ad Amazon e a Microsoft e iniziano a sorgere, oltre alle soluzioni, anche i primi Data Center.
Con l’avvento dei Data Center si apre l’era del Cloud Computing, ovvero, la possibilità data a chiunque di utilizzare potenza di calcolo e storage messe a disposizione da una terza parte.
Non esistono più barriere all’entrata. Basta solo immaginazione e, quindi, ecco che nascono società come Netflix e Spotify, oltre ad applicativi come Fortnite e Maincraft. Tutti accomunati dalla possibilità di far girare algoritmi su piattaforme messe a disposizioni da terzi e permettere a chiunque in tempo reale di utilizzare le singole app.
Le fabbriche dei dati: i Big Data
Le fabbriche, dopo il 2010, iniziano a diventare fabbriche di dati: Dati Social, Dati web, dati dei sensori, dati sui clienti. Una miriade di informazioni messe a disposizione.
Ma la parola Big Data, non deve trarre in inganno. Perché si possa effettivamente parlare di big data, occorrono tre requisiti fondamentali che devono essere veri contemporaneamente.
- Volume: elevata mole di dati da processare: ogni anno vengono prodotti un ammontare tale di dati che se impilati in dvd da 5gb, raggiungerebbero una distanza pari a quella terra-luna (oltre 330mila km di distanza!!)
- Velocità: si stima che ogni giorno una persona produce 12gb di dati
- Varietà: i dati prodotti non sono mai strutturati ma fortemente eterogenei (testo, musica, foto, numeri, etc.).
A questi, nel corso del tempo, se ne sono aggiunti altre due, quali, veracità e valore.
Queste ultime due caratteristiche pongono l’accento sul valore di un progetto di Big Data. Per valerne la pena, occorre che i dati al loro interno abbiano quel giusto valore economico tale da ripagare l’investimento.
Chi, all’interno dell’azienda è chiamato a gestire i progetti di Big Data e, di conseguenza, ad averne una visione di business? Di certo né l’informatico che, classicamente, è colui che organizza le reti aziendali e mette a disposizione il dato e né il manager che non comprende bene la complessità informatica delle strutture dei dati. Eppure, se si unissero queste competenze sarebbe possibile gestire questi progetti.
Ecco quindi che, dal 2010, nasce dentro l’azienda una nuova figura: il data scientist.
Il Data Scientist
Il Data Scientist è uno scienziato dei dati. Diversamente da un ricercatore universitario la cui produzione scientifica, molte volte, è solo di tipo teorica, il data scientist è colui che deve produrre risultati economici a partire dai Big Data.
Ecco dunque perché una delle caratteristiche che assume particolarmente importanza in azienda è il valore dei dati. Non tutti i dati che gravitano in un’azienda possiedono valore in termini di business. Per questo motivo, il data scientist aziendale, deve avere, innanzitutto, ampia conoscenza del ‘dominio’ in cui l’azienda opera.
Oltre la visione di business dell’azienda, il data scientist deve possedere anche forti connotazioni matematiche e di linguaggi di programmazione.
Questi ultimi due aspetti sono molto importanti per la realizzazione di progetti di big data. Tuttavia, se volessimo porre una gerarchia, diremmo che la competenza più importante è la prima: avere una chiara visione del business aziendale è la conditio sine qua non per la realizzazione di ogni progetto.
Cosa è chiamato a fare il data scientist in azienda?
In ultima istanza, si direbbe che questa figura è predisposta a creare sistemi di apprendimento automatico. Ma, di fatto, prima di arrivare a questo traguardo, il data scientist è chiamato continuamente a gestire un insieme di fasi:
- Aggregazione dei dati: molte volte i dati aziendali risiedono in database diversi e diversificati. il primo compito del Data Scientist è quello di costruire delle ‘pipeline’ di connessione dei dati con dei grandi repository dei dati che vengono chiamati data lake.
- Analisi descrittiva dei dati: i dati devono essere continuamente descritti, con funzioni di statistica di base.
- Analisi predittiva: il data scientist, in funzione del dominio di business dell’azienda, prova diversi algoritmi di previsione. Siamo nell’ambito production e in questa fase vengono testate diverse soluzioni.
- Analisi prescrittiva: una volta identificato l’algoritmo migliore mediante il quale realizzare previsioni, vengono generati sistemi automatici di prescrizione. E’ la fase più interessante e propria del machine learning.
- Deploy: in questa fase, il data scientist crea un sistema di reportistica e di visualizzazione del dato in modo da condurre alla comprensione del funzionamento del sistema in real time.
Come misurare il valore di un progetto di Big Data?
Il valore di un progetto di Big Data dipende dall’efficienza che esso produce e dalla redditività che esso apporta. Queste caratteristiche non possono essere generalizzate e dipendono dal contesto in cui esse si trovano.
E’ possibile individuare almeno 4 ambiti aziendali in cui i progetti di Big Data hanno chiaramente dimostrato un elevato tasso di redditività.
- Manutenzione predittiva: tutte le aziende manifatturiere/metallurgiche, oggigiorno, possono beneficiare di sistemi di intelligenza artificiale per evitare problemi di down-time e per anticipare malfunzionamenti produttivi degli impianti.
- Sanità: oggigiorno, utilizzare tecniche di machine learning e artificial intelligence per il benessere delle persone non è una chimera, basta saper usare correttamente gli strumenti e avere senso etico e di sicurezza nell’utilizzo dei dati.
- Digital Marketing: aumentare la user experience degli utenti sul web per generare nuovi profitti.
- Virtual Coach: sempre di più gli schemi delle squadre sportive vengono testati in laboratorio grazie a sistemi di apprendimento automatico.