Video: What is a Data Lake? (Novembre 2024)
La rivoluzione dei Big Data ha ridefinito il modo di lavorare delle imprese; i dati sono alla base di tutto. Non solo strumenti open source come Apache Hadoop e Spark hanno semplificato la raccolta, l'elaborazione e l'archiviazione di grandi quantità di dati in tempo reale, ma gli strumenti di business intelligence (BI) e di visualizzazione dei dati hanno iniziato a aiutarci a grattare la superficie dell'analisi e trasformando tali dati per informare le decisioni aziendali fondamentali.
Sebbene, nonostante la tecnologia Big Data e BI si sia evoluta, abbiamo ancora a che fare con volumi così enormi di dati costantemente composti che trovare i punti giusti da analizzare sembra ancora di immergersi in aghi in un pagliaio infinito. La soluzione? Riprogettare il pagliaio.
Immettere data lake, un nuovo tipo di architettura aziendale basata su cloud che struttura i dati in un modo più scalabile che semplifica la sperimentazione; lo rende più aperto all'esplorazione e alla manipolazione piuttosto che bloccato in schemi e silos rigidi. Nasry Angel, un ricercatore di architettura aziendale presso Forrester Research, ha spiegato perché le aziende stanno abbracciando le architetture di data lake.
"Sembra un cliché, ma quando si pensa a un efficace ambiente di dati moderno, è molto più sperimentale", ha detto Angel. "Devi essere in grado di apprendere velocemente e fallire rapidamente. In passato, la gestione dei dati, soprattutto in un magazzino, riguardava la qualità, fino al punto decimale; assicurandosi che tutto fosse completamente accurato e vero. Si chiama inseguendo un singolo versione della verità. Quindi generare un rapporto perfetto per i pixel e inviarlo a 5.000 utenti.
"Al giorno d'oggi, è un processo più scientifico. Entrate con un'ipotesi sui dati che volete testare e volete essere in grado di giocare con i dati, mescolare e abbinare, per provare cose diverse prima di andare e produrre qualcosa."
Cosa c'è in un Data Lake?
Un lago di dati è un repository di archiviazione. Tuttavia, a differenza di un data warehouse o "data mart", Angel ha spiegato che i data lake sono distribuiti su più nodi anziché nell'ambiente strutturato e fisso di un data warehouse basato su schemi (vedi infografica di seguito).
"Un data lake consente di applicare uno schema quando si scrivono i dati rispetto a un data warehouse che richiede di fare uno schema in lettura. Quindi, in sostanza, un data warehouse richiede di modellare i dati prima di comprenderne il contesto, il che non ha davvero senso ", ha detto Angel.
Fonte: JustOne Database, Inc. (Fare clic sul grafico sopra per vedere a schermo intero.)
"In genere, in un magazzino, ci sono professionisti IT che escono da quelli che pensano siano i migliori modelli di dati e non sono gli eventuali utenti dei dati. Puoi vedere rapidamente come ciò ostacola la produttività e il valore aziendale", ha aggiunto. "In definitiva, tu e gli utenti aziendali dovete essere quelli che prendono decisioni sulla struttura dei dati e, in un lago di dati, è possibile prima esplorare e capire cosa c'è lì e poi capire uno schema per organizzarlo al meglio."
I laghi di dati sono in genere basati su Hadoop e le distribuzioni aziendali di Hadoop come Hortonworks e MapR offrono architetture di data lake. Le aziende possono anche creare data lake utilizzando cloud IaaS (Infrastructure-as-a-Service) tra cui Amazon Web Services (AWS) e Microsoft Azure. Amazon Elastic Compute Cloud (EC2) supporta i data lake mentre Microsoft ha una piattaforma Azure Data Lake dedicata per archiviare e analizzare i dati in tempo reale. Angel ha affermato che i data lake stanno maturando al punto all'interno dello spazio dei Big Data in cui le aziende possono iniziare a investire in essi con ragionevole sicurezza.
"Alcuni anni fa, Hadoop era di gran moda. Ora stiamo arrivando a un punto in cui Hadoop è mercificato", ha detto Angel. "La domanda non è se Hadoop ma quando e cosa ne farai. Quali tipi di applicazioni costruirai su Hadoop una volta che avrai i dati in un luogo comune come un data lake? A questo punto, si tratta di utilizzare i dati per sviluppare applicazioni per soddisfare le esigenze aziendali specifiche."
Costruire in cima a un serbatoio di dati
La parte più eccitante dei Big Data è tutta la possibilità che sblocca. Dopo aver impostato un lago di dati in cui giocare e sperimentare diverse combinazioni di dati e risultati di business, puoi iniziare a sovrapporre tecniche di analisi innovative.
Gli algoritmi di machine learning (ML) stanno già diventando parte del tessuto dell'infrastruttura cloud e i ricercatori migliorano continuamente le tecniche di deep learning e le reti neurali per addestrare macchine e sistemi di dati per riconoscere schemi complessi. L'analisi predittiva viene inserita in un numero sempre maggiore di strumenti dati e piattaforme aziendali, utilizzati per tutto, dal calcolo predittivo e la segmentazione automatizzata per la gestione delle relazioni con i clienti (CRM) all'identificazione delle tendenze del mercato finanziario e alla rilevazione preventiva di guasti meccanici nei macchinari.
Tutto ciò avviene in aggiunta a qualsiasi archivio di dati che la tua azienda sta alimentando e ridimensionando in base alle sue esigenze. Angel ha parlato di alcuni dei casi d'uso del mondo reale in cui ha visto che i laghi dati cambiano il modo in cui le organizzazioni funzionano.
"Lavoravo con una casa editrice che aveva un portafoglio di riviste diverse - avevano una pubblicazione per avvocati, un'altra per ragionieri, un'altra per consulenti, ecc. - e ogni pubblicazione aveva il suo data warehouse. In effetti, ogni pubblicazione aveva il suo silo ", ha spiegato Angel.
"Quindi abbiamo estratto tutti i dati da un magazzino e li abbiamo inseriti in un data lake e il data lake ha permesso loro di vedere attraverso i silos. Sono stati in grado di esplorare i dati e fare il rilevamento dei dati, e ci siamo resi conto che in tutte queste diverse pubblicazioni i clienti di ogni rivista erano interessati alla cybersecurity. I lettori per la cybersecurity erano forti in tutti questi ruoli diversi. Quindi, cosa hanno fatto? Hanno reso la cybersecurity il tema della loro conferenza annuale."
Un altro esempio di cui Angel ha parlato è l'e-commerce. Un altro cliente, un rivenditore di arte online, stava scaricando una tonnellata di informazioni in un lago di dati e usandole non solo come un archivio ma come una sorta di tela per mettere insieme intuizioni commerciali. Il rivenditore ha portato i dati delle transazioni (ordini, fatture, pagamenti, ecc.), I dati clickstream (la successione di clic e pagine di ciascun visitatore del sito Web) e i dati dal data warehouse del rivenditore tutti nel lago, e li hanno usati in concerto per combattere il carrello della spesa abbandono e conversioni.
"Volete costruire sulla cima di un lago di dati e utilizzarlo per formulare analisi aziendali complesse", ha affermato Angel. "Il rivenditore d'arte è stato in grado di guardare i dati clickstream di un cliente e abbinare i clic con i profili dei clienti, quindi utilizzare i dati transazionali per vedere ciò che il cliente ha acquistato in passato e utilizzare tali approfondimenti per eseguire campagne di posta elettronica molto specifiche. Quindi, se un cliente ha abbandonato il loro carrello, il rivenditore potrebbe seguire due ore dopo e dire: "Ti abbiamo visto dare un'occhiata a questo Picasso; ecco il link se vuoi rivederlo."
I data lake sono universalmente applicabili a tutti i tipi di casi d'uso aziendali. Ma, per un Chief Technical Officer (CTO) o Chief Information Security Officer (CISO) che sta valutando la migrazione verso l'architettura, Angel ha sottolineato che i data warehouse non sono ancora obsoleti, non di alcun tratto. Per la maggior parte delle organizzazioni aziendali, sia che si utilizzi un provider cloud o una distribuzione Hadoop personalizzata, le aziende hanno ancora bisogno di entrambi.
I data lake ti danno accesso a intuizioni senza precedenti rimuovendo i limiti dei dati conformi a un particolare schema e offrono un costo totale di proprietà molto più basso dato l'uso di cloud storage flessibile e economico come AWS per ridimensionare su e giù, mentre solo pagando per la potenza di elaborazione effettivamente utilizzata. La gestione di un data warehouse è più costosa e, di conseguenza, rende i professionisti IT più selettivi su quali dati entrano ed escono. Ma per i dati più mission-critical di un'azienda, non è una brutta cosa.
"Il data warehouse presenta vantaggi in termini di sicurezza ed è uno strumento molto semplice per controllare la governance dei dati", ha affermato Angel. "Quindi vuoi ancora conservare le tue informazioni più sensibili nel magazzino, le cose fondamentali per la missione. Ma quando si tratta di nuove opportunità commerciali e di scoprire intuizioni nascoste, vuoi sfruttare un lago di dati."