Video: Big Data e Analisi dei Dati (Novembre 2024)
Abbiamo scritto molto sul ruolo dei dati nelle aziende moderne. Dalle start-up alle piccole e medie imprese (PMI) alle grandi imprese, le analisi e l'analisi dei dati sono più accessibili che mai a aziende di tutte le dimensioni. Ciò è dovuto in parte all'aumento degli strumenti di business intelligence (BI) self-service e di visualizzazione dei dati.
Tuttavia, prima di poter utilizzare gli strumenti di BI o eseguire analisi predittive su un set di dati, ci sono una serie di fattori da eliminare. Si inizia semplicemente con la comprensione di cosa sono i Big Data, cosa non lo è (suggerimento: non una sfera di cristallo) e come gestire l'archiviazione, l'organizzazione, le autorizzazioni e la sicurezza dei dati all'interno dell'architettura dei dati aziendali. È qui che entra in gioco la governance dei dati. I processi attraverso i quali si garantisce la governance all'interno di un'azienda differiscono a seconda di chi si parla. Ma, in sostanza, la governance dei dati riguarda la fiducia e la responsabilità dei dati, unita alle migliori pratiche di sicurezza dei dati.
Ho parlato con Hortonworks e MapR, due dei maggiori fornitori di Hadoop sul mercato. Scott Gnau, Chief Technology Officer di Hortonworks, e Jack Norris, Senior Vice President Data and Applications di MapR, hanno spiegato ciascuno cosa significhi governance dei dati per le loro organizzazioni. Hanno discusso su come affrontare la complessa sfida di garantire la governance dei dati all'interno delle complesse architetture di dati e delle gerarchie organizzative di una grande impresa.
Che cosa è esattamente Data governance e perché ne abbiamo bisogno?
Governance significa assicurarsi che i dati aziendali siano autorizzati, organizzati e autorizzati in un database con il minor numero di errori possibile, mantenendo sia la privacy che la sicurezza. Non è un equilibrio facile da raggiungere, in particolare quando la realtà di dove e come i dati vengono archiviati ed elaborati è costantemente in evoluzione. Norris di MapR ha spiegato perché le aziende devono guardare alla governance dei dati da un livello superiore e concentrarsi sulla pipeline di dati più ampia in gioco.
"Quando inizi a ridimensionare la varietà e la velocità dei Big Data con cui abbiamo a che fare, devi avere la governance dei dati ma è in questo contesto più ampio. Quali sono i dati che hai, chi ha accesso ad essi e come stai gestire il lignaggio di quei dati nel tempo? " disse Norris. "Dal punto di vista della governance dei dati, è possibile avere diverse fasi dei dati esistenti all'interno di un sistema che possono essere snapshot in modo da poter tornare in qualsiasi momento nella pipeline. Si tratta di costruire auditability e controllo degli accessi nella piattaforma di dati per rendere la scoperta e l'analisi dei dati sono trasparenti, sia che tu sia un manager aziendale che guarda set di dati finanziari o uno scienziato che lavora con dati a monte non elaborati ".
Fonte: Rimes. Clicca sull'immagine per la visualizzazione completa.
Gnau di Hortonworks digitò un punto simile. Che si tratti di un data warehouse o di un'architettura data lake, la governance dei dati consiste nel bilanciare forze opposte. Si tratta dell'accesso illimitato ai dati per stimolare l'innovazione e ricavare informazioni dettagliate, autorizzazioni granulari e privacy per proteggere contemporaneamente i dati end-to-end.
"Confronta e contrapponi il vecchio mondo della governance tradizionale nello spazio dati; è stato un po 'più semplice", ha affermato Gnau. "I dati erano ben definiti in base al ruolo lavorativo o all'applicazione. Nel nuovo mondo, ottieni il massimo valore quando i data scientist hanno accesso a quanti più dati possibili e trovare quel mezzo felice è molto importante.
"Sta guidando un paradigma completamente nuovo nel modo in cui è necessario avvicinarsi alla governance", ha aggiunto Gnau. "In questo nuovo mondo, considero argomenti di governance e sicurezza che devono essere affrontati insieme. Molte aziende stanno ancora lottando per spostarsi in tal senso per consentire ai propri data scientist di essere efficaci nel trovare quei nuovi casi d'uso mentre, allo stesso tempo,, capire come gestire la sicurezza, la privacy, la governance, tutte le cose importanti dal punto di vista dei profitti e anche dal punto di vista della reputazione dell'azienda."
In che modo un piano di governance dei dati aziendali dovrebbe comprendere e soddisfare tutte quelle forze opposte? Affrontando metodicamente ogni requisito, un passo alla volta.
Come costruire un piano di governance dei dati
Hortonworks, MapR e Cloudera sono i tre più grandi giocatori indipendenti nello spazio di Hadoop. Le aziende hanno le loro sfere di influenza quando si tratta di governance dei dati. MapR ha pubblicato una serie di white paper sull'argomento e ha sviluppato la governance dei dati in tutta la sua piattaforma di dati convergenti, mentre Hortonworks ha una propria soluzione di sicurezza e governance dei dati e ha co-fondato la Data Governance Initiative (DGI) nel 2015. Ciò ha portato all'apertura -progetto di Apache Atlas che fornisce un framework di governance dei dati aperto per Hadoop.
Ma quando si tratta di come ogni fornitore elabori strategie complete di governance e sicurezza dei dati, Gnau e Norris hanno parlato entrambi in modo simile. Di seguito sono riportati i passaggi combinati che Hortonworks e MapR raccomandano alle aziende di tenere a mente durante la creazione di un piano di governance dei dati.
The Big One: Accesso granulare ai dati e autorizzazione
Entrambe le società concordano sul fatto che non è possibile avere una governance dei dati efficace senza controlli granulari. MapR realizza questo principalmente attraverso le Access Control Expressions (ACE). Come spiegato da Norris, gli ACE utilizzano il raggruppamento e la logica booleana per controllare l'accesso e l'autorizzazione flessibili dei dati, con autorizzazioni basate su ruoli e impostazioni di visibilità.
Ha detto di pensarlo come un modello Gartner. Sull'asse Y all'estremità inferiore vi sono governance rigorosa e bassa agilità, e sull'asse X all'estremità superiore sono maggiore agilità e minore governance.
"A basso livello, proteggi i dati sensibili offuscandoli. In cima, hai contratti confidenziali per data scientist e analisti di BI", ha affermato Norris. "Tendiamo a farlo con funzionalità di mascheramento e diverse visualizzazioni in cui blocchi i dati grezzi nella parte inferiore il più possibile e fornisci gradualmente più accesso fino a quando, nella parte superiore, stai dando agli amministratori una visibilità più ampia. Ma come fai accesso alle persone giuste?
"Se guardi un elenco di controllo degli accessi oggi, dirà qualcosa come" tutti gli ingegneri possono accedervi "", ha aggiunto Norris. "Ma se si desidera che alcuni direttori selezionati di un progetto all'interno dell'IT abbiano accesso o tutti tranne la persona, è necessario creare un gruppo speciale. È un modo eccessivamente complicato e contorto per esaminare l'accesso."
È qui che concede i diritti di accesso a diversi livelli e gruppi, secondo Norris. "Abbiamo combinato gli ACE con i vari modi in cui è possibile accedere ai dati - attraverso file, tabelle, flussi, ecc. - e implementato le viste senza copie separate dei dati. Quindi stiamo fornendo Viste sugli stessi dati grezzi e Viste può avere diversi livelli di accesso. Ciò ti offre una sicurezza più integrata e più diretta."
Hortonworks gestisce l'accesso granulare in modo simile. Integrando Apache Atlas per la governance e Apache Ranger, Gnau ha affermato che la società gestisce l'autorizzazione a livello aziendale attraverso un unico pannello di vetro. La chiave, ha affermato, è la capacità di concedere contestualmente l'accesso al database e su specifici tag di metadati utilizzando criteri basati su tag.
"Una volta che qualcuno è nel database, si tratta di guidarli attraverso i dati a cui dovrebbero avere accesso rilevante", ha detto Gnau. "Le politiche di sicurezza di Ranger a livello di oggetto, a grana fine e ovunque nel mezzo possono gestirlo. Legare quella sicurezza alla governance è dove le cose diventano davvero interessanti.
"Per scalare organizzazioni di grandi dimensioni, è necessario integrare tali ruoli con la governance e la codifica dei metadati", ha aggiunto Gnau. "Se eseguo l'accesso da Singapore, forse ci sono regole diverse basate sulle leggi locali sulla privacy o sulla strategia aziendale. Una volta che un'azienda definisce, imposta e comprende tali regole da una prospettiva olistica dall'alto verso il basso, è possibile separare l'accesso in base a set di regole specifiche durante l'esecuzione di tutto all'interno della piattaforma principale ".
Fonte: IBM Big Data & Analytics Hub. Clicca sull'immagine per la visualizzazione completa.
2. Sicurezza perimetrale, protezione dei dati e autenticazione integrata
La governance non avviene senza la sicurezza degli endpoint. Gnau ha affermato che è importante costruire un buon perimetro e un firewall attorno ai dati che si integrano con i sistemi e gli standard di autenticazione esistenti. Norris ha convenuto che, per quanto riguarda l'autenticazione, è importante che le aziende si sincronizzino con sistemi collaudati.
"Sotto l'autenticazione, si tratta di come integrarsi con LDAP, Active Directory e servizi di directory di terze parti", ha affermato Norris. "Supportiamo anche il nome utente e le password Kerberos. L'importante non è creare un'intera infrastruttura separata, ma è il modo in cui si integra con la struttura esistente e si fa leva sui sistemi come Kerberos."
3. Crittografia e tokenizzazione dei dati
Il passaggio successivo dopo aver protetto il perimetro e autenticato tutto l'accesso granulare ai dati che stai concedendo: assicurati che i file e le informazioni di identificazione personale (PII) siano crittografati e tokenizzati da un capo all'altro attraverso la tua pipeline di dati. Gnau ha discusso di come Hortonworks protegge i dati PII.
"Una volta superato il perimetro e aver accesso al sistema, essere in grado di proteggere i dati PII è estremamente importante", ha affermato Gnau. "È necessario crittografare e tokenizzare tali dati in modo che, indipendentemente da chi possa accedervi, possano eseguire le analisi necessarie senza esporre nessuno di tali dati PII lungo la linea."
Per quanto riguarda l'accesso sicuro ai dati crittografati sia in movimento che a riposo, Norris di MapR ha spiegato che è importante tenere a mente anche casi di utilizzo come backup e disaster recovery (DR). Ha discusso un concetto dei volumi logici di MapR, che può applicare politiche di governance a un cluster crescente di file e directory.
"Al livello più basso, MapR ha progettato la replica WAN per DR e snapshot coerenti nel tempo su tutti i dati che possono essere impostati a frequenze diverse per directory o volume", ha affermato Norris. "È più ampio della semplice governance dei dati. Puoi avere un cluster fisico con le directory, e quindi il concetto di volume logico è un'unità di gestione davvero interessante e un modo per raggruppare le cose controllando la protezione e la frequenza dei dati. È un'altra freccia nei dati dell'amministratore IT faretra di governance ".
4. Controllo costante e analisi
Guardando il quadro di governance più ampio, sia Hortonworks che MapR hanno affermato che la strategia non funziona senza audit. Quel livello di visibilità e responsabilità in ogni fase del processo è ciò che consente all'IT di "governare" effettivamente i dati anziché semplicemente impostare politiche e controlli di accesso e sperare nel meglio. È anche il modo in cui le aziende possono mantenere aggiornate le proprie strategie in un ambiente in cui il modo in cui vediamo i dati e le tecnologie che utilizziamo per gestirli e analizzarli stanno cambiando ogni giorno.
"L'ultimo pezzo di una moderna strategia di governance è la registrazione e il monitoraggio", ha affermato Gnau. "Siamo nell'infanzia di Big Data e IoT ed è fondamentale essere in grado di tracciare l'accesso e riconoscere i modelli nei dati in modo che, poiché la strategia deve essere aggiornata, siamo in anticipo sulla curva."
Norris ha affermato che il controllo e l'analisi possono essere semplici come il monitoraggio dei file JSON (JavaScript Object Notation). Non tutti i dati valgono la pena di essere monitorati e analizzati, ma la tua azienda non saprà mai quale - fino a quando non identifichi una visione che cambia il gioco o si verifica una crisi e devi eseguire una pista di controllo.
"Ogni file di registro JSON è aperto per l'analisi e abbiamo Apache Drill per eseguire query sui file JSON con gli schemi, quindi non è un passaggio IT manuale per impostare l'analisi dei metadati", ha affermato Norris. "Quando includi tutti gli eventi di accesso ai dati e ogni azione amministrativa, esiste una vasta gamma di analisi possibili."
5. Un'architettura di dati unificata
In definitiva, il responsabile della tecnologia o l'amministratore IT che sovrintende a una strategia di governance dei dati aziendali dovrebbe pensare ai dettagli di accesso granulare, autenticazione, sicurezza, crittografia e controllo. Ma il responsabile della tecnologia o l'amministratore IT non dovrebbero fermarsi qui; piuttosto, quella persona dovrebbe anche pensare a come ciascuno di questi componenti si inserisce nella loro più grande architettura di dati. Dovrebbe anche pensare a come quell'infrastruttura deve essere scalabile e sicura, dalla raccolta e archiviazione dei dati fino alla BI, all'analisi e ai servizi di terze parti. Gnau ha affermato che la governance dei dati riguarda sia il ripensamento della strategia e dell'esecuzione che la tecnologia stessa.
" Va oltre un unico vetro o una raccolta di regole di sicurezza", ha dichiarato Gnau. "È un'unica architettura in cui crei questi ruoli e questi si sincronizzano su tutta la piattaforma e in tutti gli strumenti che ti vengono offerti. La bellezza dell'infrastruttura governata in modo sicuro è l'agilità con cui vengono creati nuovi metodi. A ogni livello della piattaforma, o persino in un ambiente cloud ibrido, hai un unico punto di riferimento per capire come hai implementato le tue regole. Tutti i dati passano attraverso questo livello di sicurezza e governance ".