Big Data e Data Science

Machine Learning: facciamo chiarezza

Il Machine Learning (ML) evoca spesso l’idea di una macchina, o meglio, di un robot in grado di agire, comportarsi e perfino provare emozioni come un essere umano. Chi non ricorda film come Astroboy o, meglio ancora, Matrix dove tutta l’umanità era controllata da un super computer.

Essa è parente stretta dell’Intelligenza Artificiale (AI) ma, a differenza di questa, si concentra prevalentemente sugli algoritmi informatici in grado di realizzare l’apprendimento. Mentre l’Intelligenza Artificiale è di dominio esclusivo dell’informatica e della robotica, il Machine Learning è di dominio della statistica, probabilità e algebra lineare.

Vediamo, allora, di fare un po’ di luce partendo dal passato.

Evoluzione Storica

Il machine learning si sta sviluppando ad altissima velocità e le sue numerosissime applicazioni trovano spazio nei più svariati ambiti cambiando il nostro modo di relazionarci con gli altri esseri umani, con gli oggetti e con i luoghi che abitiamo.

Le auto a guida autonoma potrebbero arrivare a salvarci la vita se pensiamo che, secondo una ricerca condotta negli USA, il 90% degli incidenti stradali può essere riconducibile ad un errore umano.

machine learning e data science

Tuttavia, il Machine Learning, non è una cosa recente. Le sue radici risalgono alla fine degli anni ’50 e i primi che ne parlarono non furono né matematici e né informatici. Fu uno psicologo di nome Rosenblatt che, per la prima volta, nel 1957 introdusse il primo schema di rete neurale basato sul ‘percettrone’.

Ma bisogna aspettare il 2006 quando Geoffrey Hinton, per la prima volta, inizia a parlare di Deep Learning per spiegare i nuovi algoritmi che permettono al computer di “vedere” e distinguere oggetti e testi in immagini e video.

Nel 2010 Microsoft introduce software che possono tenere traccia di 20 caratteristiche umane ad un tasso di 30 volte al secondo, permettendo alle persone di interagire con il computer tramite movimenti e gesti.

Ma le vere e proprie svolte nell’ambito del Machine Learning sono avvenute nell’ultimo decennio:

  • Apple con Siri, Microsoft con Cortana e Amazon con Alexa, hanno introdotto gli assistenti virtuali. Sono servizi che interagiscono direttamente con gli umani, grazie al Natural Language Processing,
  • 2014 con Facebook che riconosce i volti all’interno delle immagini e, progressivamente, suggerisce e condivide le immagini con i tuoi amici presenti nelle tue foto.

Nel 2016 Il gruppo di ricerca “Deep Mind” di Google e Oxford University applicano il Deep Learning ai programmi della BBC per creare un sistema di lettura labiale che è più preciso rispetto a un lettore professionale lipnet.

cortana intelligenza artificiale e machine learning

Alla base del machine learning ci sono i dati

Le applicazioni di machine learning fanno già parte della nostra esperienza quotidiana. Dal riconoscimento facciale alla guida automatica, dai programmi di traduzione simultanea alla classificazione di oggetti, dai sensori alla IoT (Internet of Things) .

La digital transformation rappresenta una grande opportunità per le aziende, ma anche una nuova sfida in termini di gestione, sicurezza delle informazioni e tutela della privacy.

Ma cosa si intende, veramente, per machine learning e come funziona?

Tutto parte dai dati. Una quantità inimmaginabile di dati che, oggigiorno, siamo in grado di maneggiare e utilizzare per fini analitici/gestionali.

D’altronde anche l’uomo processa miriadi di informazioni in base alle quali prende decisioni, giuste o sbagliate che siano. Solo che non ce ne accorgiamo. Dal momento in cui ci alziamo al mattino, al momento in cui decidiamo di ordinare una buona pizza via internet, siamo soggetti a tantissimi stimoli che, in qualche modo, condizionano la nostra percezione e ci inducono a comportarci in una certa maniera.

Nel 2006, ricercatori americani, sono riusciti a quantificare il numero di informazioni che il cervello umano è in grado di archiviare. Ebbene, sono arrivati alla conclusione che è possibile archiviare 1 petabyte, ovvero, 1000 Terabyte. Se volessimo inserirli in cd da 5Gb, otterremmo una colonna di circa 3000Km, più del 50% della distanza che separa New York da Londra.

Fino a qualche anno fa, era inimmaginabile poter processare tutte queste informazioni. Ma dal 2005 le cose sono cambiate. Si è scoperta la possibilità di parallelizzare le informazioni e le potenze di calcolo sono aumentate a dismisura.

Il solo Facebook processa più di 20 Petabyte di informazioni e lo stesso fanno società come Amazon o Microsoft.

La cosa più interessante è che questi colossi dell’informatica mettono a disposizione i loro data center per le aziende, mettendole in condizione di analizzare le proprie informazioni.

Nascono, quindi. le soluzioni cloud e l’implementazione di algoritmi di intelligenza artificiale diventa una realtà.

data centerNell’immagine sopra riportata, ad esempio, ci sono i data center di Amazon. Il vero business di Amazon è quello di mettere a disposizione i data center alle aziende che, in questo modo, possono processare e archiviare i dati in tutta sicurezza attraverso soluzioni cloud.

La sfida aziendale diventa quella di creare un meccanismo che sistematicamente rileva i dati che ruotano attorno ai propri prodotti. Come il cervello umano, allora, i dati vengono acquisiti e processati grazie ad algoritmi di machine learning in grado di far emergere le correlazioni, che altrimenti non si riuscirebbero a cogliere.

Come funziona l’apprendimento?

Il Machine Lerning funziona in base a sistemi di classificazione statistica. Quando si parla di previsione nel ML, si fa riferimento ad un problema di classificazione.

I problemi di classificazione sono all’ordine del giorno. Basta pensare a quanti problemi di classificazione, l’uomo, è chiamato a risolvere ogni giorno. A partire da decidere quali indumenti indossare al mattino a finire con che cosa volere per cena. Sono tutti esempi di problemi di classificazione che dipendono, in qualche modo, dalle nostre condizioni psico-fisiche e anche dalle sollecitazioni esterne che riceviamo dai social network o dalla pubblicità.

Se il problema è la classificazione, allora la statistica può dare un contributo notevole. In statistica, i problemi di classificazione vengono risolti in base a due approcci:

  • supervisionato: esiste una categorizzazione di base formata da una serie di classi. Ad esempio, qualora andassimo a chiedere un prestito bancario, i possibili risultati sono già noti ovvero il cliente che rimborsa il debito oppure il cliente che non rimborsa il debito. La banca, su una serie di informazioni che ci chiederà, deciderà con che probabilità rimborseremo o meno il debito. Tra gli algoritmi maggiormente utilizzati, spiccano il random forest, gli alberi decisionali o i metodi di regressione.
  • non supervisionato: qualora volessimo segmentare la nostra clientela in base ai gusti o in base ai comportamenti di acquisto, non è possibile conoscere a priori la categoria di riferimento. Facebook, per esempio, riesce a definire dei pubblici di persone basandosi sui denominatori comuni, ovvero, sui comportamenti delle persone sui social. Tra gli algoritmi maggiormente utilizzati spiccano le reti neurali, i metodi di clustering gerarchica e i metodi di associazione incentrati su strutture di correlazione. 
  • In entrambi i casi, i metodi di Machine Learning, per funzionare hanno bisogno di dati.

machine-learning

La corsa alla digitalizzazione

Il machine learning crea nuovi modelli di business. Le aziende hanno capito bene questo concetto e, da qualche anno, è cominciata la corsa alla digitalizzazione. Si parla di epoca di trasformazione digitale e di Industry 4.0. Tutte queste parole ruotano attorno alla nuova capacità delle aziende di creare dati.

Anche se le aziende continuano a realizzare prodotti, oggi, il vero valore in grado di modificare il business è la capacità di affiancare al prodotto un sistema di rilevazione dei dati capace di monitorare l’impiego e l’uso del prodotto da parte del cliente. Di conseguenza, le aziende si stanno attrezzando a rispondere a questa nuova sfida.

Ad esempio, può risultare molto vantaggioso inserire un sistema di machine learning in grado di fornire raccomandazioni sul modo migliore di impiegare il prodotto.

La rivoluzione digitale permette di creare più valore in diversi modi: riducendo i costi, personalizzando e migliorando l’esperienza dei consumatori, creando delle piattaforme di integrazione o di servizio. È quindi evidente che coinvolge tutti i settori del business.

I Big Data rappresentano probabilmente il più grande rebus e, allo stesso tempo, l’opportunità più grande per le realtà che sapranno trasformarli in un vantaggio competitivo. Far diventare un’azienda più data centric significa quindi trasformarla e renderla più “intelligente” e competitiva. Ma si tratta anzitutto di un cambio culturale più che di processi.

L’introduzione della figura del data scientist in azienda 

Il rischio più concreto per le aziende è quello di assumere data scientist o analisti di business preparati e di “recluderli” in un ufficio a loro dedicato con computer ultrapotenti e ultraconnessi alla Rete, lasciandoli – però – disconnessi dai responsabili di business dell’azienda. Questo è un punto fondamentale.

I data scientist forniscono le soluzioni su “come” rispondere al meglio a delle domande che vengono dal business: l’uomo non può competere con la macchina (dotata dei giusti algoritmi/ dataset) nell’elaborazione di Big Data. Al contrario, i responsabili e i manager hanno chiare le domande critiche alle quali bisogna dare delle risposte più intelligenti e sono in stretto contatto con la realtà di business.

Conoscono il contesto e sanno navigarlo. Ma i responsabili di business spesso non sono consapevoli delle opportunità offerte dalle tecniche avanzate di Data Analytics per trovare soluzioni più performanti.

E se anche possiedono la curiosità intellettuale e la volontà di innovare in quest’area, non hanno spesso quelle competenze essenziali che sono indispensabili per dialogare nel modo più proficuo con data scientist e analisti.