Data, cosa è?

Data è l’insieme di tecniche e metodologie che hanno per oggetto l’estrazione di informazioni utili da grandi quantità di dati attraverso metodi automatici o semi-automatici e l’utilizzo scientifico, aziendale/industriale o operativo delle stesse.

La statistica può essere definita altrimenti come “estrazione di informazione utile da insiemi di dati”.

Il concetto di data mining è simile, ma con una sostanziale differenza: la statistica permette di elaborare informazioni generali riguardo ad una popolazione (es. percentuali di disoccupazione, nascite), mentre il data mining viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui; ad esempio conoscendo il comportamento medio dei clienti di una compagnia telefonica cerco di prevedere quanto spenderà il cliente medio nell’immediato futuro.

In sostanza il data mining è “l’analisi, da un punto di vista matematico, eseguita su banche dati di grandi dimensioni”, preceduta tipicamente da altre fasi di preparazione/trasformazione/filtraggio dei dati come il data cleaning. Il termine data mining è diventato popolare nei tardi anni novanta come versione abbreviata della definizione appena esposta; oggi il data mining ha una duplice valenza:

  • estrazione, con tecniche analitiche all’avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
  • esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern (schemi o regolarità) significativi.

Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all’individuazione di comportamenti fraudolenti, fino all’ottimizzazione di siti web.

Tra le tecniche maggiormente utilizzate in questo ambito vi sono:

  • Clustering;
  • Reti neurali;
  • Alberi di decisione;
  • Analisi delle associazioni (individuazione dei prodotti acquistati congiuntamente).

Un’altra tecnica molto diffusa per il data mining è l’apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto “con supervisione” (supervised), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti training examples, ovvero “esempi per l’addestramento”. La conoscenza acquisita per apprendimento mediante classificazione può essere rappresentata con un albero di decisione.

L’estrazione dei dati vera e propria giunge quindi al termine di un processo che comporta numerose fasi: 

  • si individuano le fonti di dati; 
  • si crea un unico set di dati aggregati; 
  • si effettua una pre-elaborazione (data cleaning, analisi esplorative, selezione, ecc.);
  • si estraggono i dati con l’algoritmo scelto; 
  • si interpretano e valutano i pattern; 
  • l’ultimo passaggio va dai pattern alla nuova conoscenza così acquisita.

Data management

Ma che cos’è una strategia di data management e come realizzarla? Quali sono gli elementi chiave perché il data management sia davvero efficace? Ecco tutte le ultime novità tecnologiche che supportano le aziende in questo delicato compito, anche se, come si leggerà, per implementare un sistema efficace di gestione dei dati non basta la tecnologia ma servono anche processi, competenze e capacità di governance.Si tratta di un impegno fondamentale per sfruttare appieno la mole crescente di informazioni già presenti in azienda e tutte quelle raccolte via via anche real time che devono essere analizzate per capire i trend di mercato, le esigenze degli interlocutori aziendali e quindi per fornire le risposte più corrette e, soprattutto, le informazioni utili ai decisori aziendali per aumentare le performance.


Cosa sono i Big Data

La definizione big data fa riferimento sia al mondo della statistica sia a quello dell’informatica, indica infatti la raccolta di una tale quantità di dati (caratterizzata da un grande volume, ma anche da ampia varietà) da rendere necessario l’utilizzo di metodi analitici e tecnologie specifiche per essere trattati e fare in modo che vi si estragga valore e conoscenza. Sempre più in informatica il significato di big data si estende alla capacità di mettere in relazione dati eterogenei, strutturati e non strutturati, con l’obiettivo di scoprire legami e correlazioni tra fenomeni diversi per poi compiere previsioni.

Il Big data management non può essere approcciato come in passato, quando le priorità si ‘riducevano’ ad una governance del dato a livello It e alla sua fruizione da parte di alcuni utenti ‘ristretti’.

Le fonti di dati continuano ad evolvere e crescere: ‘ondate’ di nuovi dati continuano a essere generate non solo dalle applicazioni aziendali interne ma da risorse pubbliche (come per esempio il web e i social media), piattaforme mobile, data services e, sempre di più, da cose e sensori (IoT-Internet of Things basti pensare che secondo l’Osservatorio Internet of Things della School of Management del Politecnico di Milano l’adozione dell’IoT in settori come la Smart Home e l’Industrial IoT cresceva nel 2018 rispettivamente del 52% e del 40%, ciò significa che aumenteranno i dati generati dai dispositivi collocati in questi ambiti in maniera esponenziale). “La strategia di Big Data Management non può non tenere conto di questi aspetti, spesso ricondotti alle caratteristiche di volume, velocità e varietà dei Big data in continua crescita ed evoluzione. Per le aziende diventa fondamentale riuscire, secondo una logica di continuous improvement, a identificare le nuove fonti e incorporarle nelle piattaforme di Data management”

Nell’era dei Big data diventa quindi fondamentale riuscire a ‘catturare’ e archiviare tutti i dati utili all’azienda e poiché la loro utilità spesso non è valutabile a priori, diventa una sfida riuscire ad averli tutti a disposizione (alcuni dati che potrebbero risultare irrilevanti nel contesto aziendale attuale, come per esempio i dati mobile dei Gps, potrebbero in realtà essere pertinenti con gli obiettivi di business futuri). “Fino a qualche anno fa gli sforzi e i costi per riuscire a catturare e mantenere tutti questi dati erano eccessivi”, si legge nel report di Forrester, “ma oggi tecnologie innovative e a basso costo come Hadoop hanno reso possibile tale approccio”;

L’’obiettivo della big data analysis non è generare report su ciò che è accaduto ma comprendere come questo possa aiutare a prendere decisioni migliori. Ciò significa cambiare il modello di big data analysis optando per approcci cosiddetti ‘descrittivi’, ‘predittivi’, ‘prescrittivi’, ossia sfruttando la big data analytics attraverso cui generare ‘insights’, conoscenza utile ai processi decisionali (anticipando per esempio i bisogni del cliente conoscendone in real-time preferenze e abitudini). Riuscire in questo obiettivo richiede nuove competenze, a partire dai data scientist; inoltre, significa utilizzare tecniche di intelligenza artificiale, tecnologie analytics big data, algoritmi di machine learning, advanced visualization tools, data mining, riconoscimento di pattern, elaborazione del linguaggio naturale, signal processing e implementare le più avanzate tecnologie hardware per realizzare le piattaforme tecnologiche che cercano di imitare il cervello umano: tutto ciò genera informazioni utili e ‘non scontate’ a sostegno della competitività e redditività aziendali;

rilasciare dati velocemente e liberamente a tutti coloro che hanno necessità: può sembrare un’ovvietà ma sappiamo bene come la storia dell’It abbia dimostrato quanto l’approccio ‘a silos’ valga anche per i dati, spesso risiedenti in database non condivisi e difficili da

integrare.

Tecnologie Big Data:

Hadoop Ecosystem:  È un framework open source per l’elaborazione distribuita di grandi insiemi di dati. È cresciuto abbastanza da contenere un intero ecosistema di software correlati e molte soluzioni commerciali di big data si basano su Hadoop.

NoSQL Databases: I database NoSQL memorizzano dati non strutturati e forniscono prestazioni veloci. Ciò significa che offre flessibilità gestendo un’ampia varietà di tipi di dati a grandi volumi. Alcuni esempi di database NoSQL includono MongoDB, Redis e Cassandra

 Blockchain: Blockchain viene utilizzato principalmente in funzioni di pagamento, l’impegno e può accelerare le transazioni, ridurre le frodi e aumentare la sicurezza finanziaria. È anche la tecnologia del database distribuito che è sotto la valuta Bitcoin.Una scelta eccellente per le applicazioni di Big Data in settori sensibili perché è altamente sicuro.

Business case 

  • An Open Source Approach to Log Analytics with Big Data In the Trenches with Big Data & Search – A Blog and Video Series  Searchtechnologies.com dice: Le aziende avevano usato i registri per Insight molto prima che i big data diventassero la prossima cosa interessante. Ma con la crescita esponenziale dei file di registro, la gestione e l’analisi dei registri sono diventate così scoraggianti da diventare quasi impossibili. In che modo abbiamo sfruttato i big data open source per elaborare oltre 600 GB al giorno per un’analisi dei log più veloce, più accurata e più economica?”
  • Top Five High-Impact Use Cases for Big Data Analytics: “Questo eBook delinea questi casi d’uso e include esempi di clienti reali di come altre organizzazioni hanno utilizzato la soluzione di analisi dei big data di Datameer per sbloccare il valore dei loro dati e consegnare vero valore commerciale.” Da datameer.com


Cloud

In informatica con il termine inglese cloud computing  si indica un paradigma di erogazione di servizi offerti on demand da un fornitore ad un cliente finale attraverso la rete Internet  a partire da un insieme di risorse preesistenti, configurabili e disponibili in remoto sotto forma di architettura distribuita.

Utilizzando varie tipologie di unità di elaborazione (CPU), memorie di massa fisse o mobili come RAM, dischi rigidi interni o esterni, Cd/DVD, chiavi USB eccetera, un computer è in grado di elaborare, archiviare, recuperare programmi e dati.

Nel caso di computer collegati in rete locale (LAN) o geografica (WAN) la possibilità di elaborazione/archiviazione/recupero può essere estesa ad altri computer e dispositivi remoti dislocati sulla rete stessa.

Sfruttando la tecnologia del cloud computing gli utenti collegati ad un cloud provider possono svolgere tutte queste mansioni, anche tramite un semplice internet browser.

Il sistema del cloud computing prevede tre fattori distinti:

  • Fornitore di servizi (cloud provider) – Offre servizi (server virtuali, storage, applicazioni complete (es. cloud database) generalmente secondo un modello “pay-per-use”;
  • Cliente amministratore – Sceglie e configura i servizi offerti dal fornitore, generalmente offrendo un valore aggiunto come ad esempio applicazioni software;
  • Cliente finale – Utilizza i servizi opportunamente configurati dal cliente amministratore.

Nonostante il termine sia piuttosto vago e sembri essere utilizzato in diversi contesti con significati differenti tra loro, si possono distinguere tre tipologie fondamentali di servizi cloud computing:

  • SaaS (Software as a Service) – Consiste nell’utilizzo di programmi installati su un server remoto, cioè fuori dal computer fisico o dalla LAN locale, spesso attraverso un server web. Questo acronimo condivide in parte la filosofia di un termine oggi in disuso, ASP (Application service provider).

Servizi: Microsoft Office 365, G Suite apps, Salesforce

  • DaaS (Data as a Service) – Con questo servizio vengono messi a disposizione via web solamente i dati ai quali gli utenti possono accedere tramite qualsiasi applicazione come se fossero residenti su un disco locale.

Servizi: Xignite, D&B Hoovers

  • HaaS (Hardware as a Service) – Con questo servizio l’utente invia dati a un computer che vengono elaborati da computer messi a disposizione e restituiti all’utente iniziale.

A questi tre principali servizi possono esserne integrati altri:

  • PaaS (Platform as a Service) – Invece che uno o più programmi singoli, viene eseguita in remoto una piattaforma software che può essere costituita da diversi servizi, programmi, librerie, ecc. 

Servizi: Microsoft Azure, AWS Elastic Beanstalk

  • IaaS (Infrastructure as a Service) – Oltre alle risorse virtuali in remoto, vengono messe a disposizione anche risorse hardware, quali server, capacità di rete, sistemi di memoria, archivio e backup. La caratteristica dello IaaS è che le risorse vengono istanziate su richiesta o domanda al momento in cui una piattaforma ne ha bisogno.

Servizi: AWS, Microsoft Azure, Cisco Metacloud

Il termine cloud computing si differenzia però da grid computing che è invece un paradigma orientato al calcolo distribuito e, in generale, richiede che le applicazioni siano progettate in modo specifico.

Business cases: 

  • Cloud-Based Analytics: A Business Case For CFOs: Secondo Digitalistmag.com:! “I progressi tecnologici emergenti derivanti dalla realtà digitale odierna stanno penetrando in tutti i campi aziendali con una velocità impressionante, comprese le operazioni finanziarie. L’analitica basata sul cloud è una delle risorse digitali innovative contemporanee per le operazioni finanziarie che devono essere assimilate nella strategia di qualsiasi operatore del mercato competitivo.”

Creating the Cloud Business Case: Scoprire le leve commerciali fondamentali che AWS offre ai propri clienti; lavorare attraverso un framework per aiutare a identificare i possibili benefici del passaggio al cloud; e delinea i passaggi necessari per creare un  Cloud business case.

Share Post