Video: 10 Best Data Science Startups to Work for in 2020 (Novembre 2024)
Ogni azienda desidera raccogliere reperti di business intelligence (BI), quanti più dati possono essere messi a disposizione da dirigenti, esperti di marketing e ogni altro dipartimento dell'organizzazione. Ma una volta che hai quei dati, la difficoltà non sta solo nell'analizzare l'enorme lago di dati per trovare le informazioni chiave per cui stai cercando (senza essere inondato dall'enorme volume di informazioni) ma anche proteggere tutti quei dati.
Pertanto, mentre il reparto IT aziendale e i data scientist eseguono algoritmi di analisi predittiva, visualizzazioni dei dati e impiegano un arsenale di altre tecniche di analisi dei dati sui Big Data raccolti, la tua azienda deve assicurarsi che non vi siano perdite o punti deboli nel serbatoio.
A tal fine, la Cloud Security Alliance (CSA) ha recentemente pubblicato The Big Data Security and Privacy Handbook: 100 Best Practices in Big Data Security and Privacy. Il lungo elenco di best practice è suddiviso in 10 categorie, quindi abbiamo ridotto le best practice a 10 suggerimenti per aiutare il reparto IT a bloccare i dati aziendali chiave. Questi suggerimenti utilizzano un arsenale di tecniche di archiviazione, crittografia, governance, monitoraggio e sicurezza dei dati.
1. Salvaguardare i quadri di programmazione distribuita
I quadri di programmazione distribuita come Hadoop costituiscono una parte enorme delle moderne distribuzioni di Big Data, ma presentano un serio rischio di perdita di dati. Vengono inoltre forniti i cosiddetti "mappatori non attendibili" o dati provenienti da più origini che possono produrre risultati aggregati soggetti a errori.
Il CSA raccomanda che le organizzazioni stabiliscano innanzitutto la fiducia utilizzando metodi come l'autenticazione Kerberos garantendo al contempo la conformità a politiche di sicurezza predefinite. Quindi, "identificare" i dati disaccoppiando tutte le informazioni di identificazione personale (PII) dai dati per garantire che la privacy personale non sia compromessa. Da lì, autorizzi l'accesso ai file con criteri di sicurezza predefiniti e quindi assicurati che il codice non attendibile non perda informazioni attraverso le risorse di sistema utilizzando il controllo di accesso obbligatorio (MAC) come lo strumento Sentry in Apache HBase. Successivamente, la parte difficile è finita poiché tutto ciò che resta da fare è proteggersi dalla perdita di dati con una manutenzione regolare. Il reparto IT dovrebbe controllare i nodi e i mapper di lavoro nel cloud o nell'ambiente virtuale e tenere d'occhio i nodi falsi e i duplicati alterati dei dati.
2. Proteggi i tuoi dati non relazionali
Database non relazionali come NoSQL sono comuni ma sono vulnerabili ad attacchi come l'iniezione NoSQL; il CSA elenca una serie di contromisure per proteggersi da questo. Inizia con la crittografia o l'hashing delle password e assicurati di garantire la crittografia end-to-end crittografando i dati inattivi utilizzando algoritmi come AES (Advanced Encrypith Standard), RSA e Secure Hash Algorithm 2 (SHA-256). Anche la crittografia Transport Layer Security (TLS) e Secure Socket Layer (SSL) sono utili.
Oltre a queste misure fondamentali, oltre a livelli come la codifica dei dati e la sicurezza a livello di oggetto, è anche possibile proteggere i dati non relazionali utilizzando quelli che sono chiamati moduli di autenticazione collegabili (PAM); questo è un metodo flessibile per autenticare gli utenti assicurandosi di registrare le transazioni usando uno strumento come il registro NIST. Infine, c'è quello che viene chiamato metodi di fuzzing, che espongono lo scripting cross-site e iniettano vulnerabilità tra NoSQL e il protocollo HTTP utilizzando l'input automatico di dati a livello di protocollo, nodo dati e applicazione della distribuzione.
3. Archiviazione sicura dei dati e registri delle transazioni
La gestione dello storage è una parte fondamentale dell'equazione di sicurezza dei Big Data. Il CSA consiglia di utilizzare digest dei messaggi firmati per fornire un identificatore digitale per ogni file o documento digitale e utilizzare una tecnica chiamata repository di dati non attendibili (SUNDR) per rilevare modifiche non autorizzate dei file da parte di agenti server dannosi.
Il manuale elenca anche una serie di altre tecniche, tra cui revoca e rotazione delle chiavi, schemi di crittografia broadcast e basati su criteri e gestione dei diritti digitali (DRM). Tuttavia, non vi è alcun sostituto per la semplice creazione di un proprio archivio cloud sicuro sull'infrastruttura esistente.
4. Filtro endpoint e convalida
La sicurezza degli endpoint è fondamentale e la tua organizzazione può iniziare utilizzando certificati attendibili, eseguendo test delle risorse e collegando alla rete solo dispositivi fidati utilizzando una soluzione di gestione dei dispositivi mobili (MDM) (oltre al software di protezione antivirus e malware). Da lì, è possibile utilizzare tecniche di rilevamento statistico della somiglianza e tecniche di rilevamento anomalo per filtrare input dannosi, proteggendosi dagli attacchi Sybil (ovvero un'entità mascherata da identità multiple) e dagli attacchi di spoofing ID.
5. Conformità in tempo reale e monitoraggio della sicurezza
La conformità è sempre un mal di testa per le aziende, e ancora di più quando si ha a che fare con un diluvio costante di dati. È meglio affrontarlo direttamente con analisi e sicurezza in tempo reale a tutti i livelli dello stack. Il CSA raccomanda alle organizzazioni di applicare l'analisi dei Big Data utilizzando strumenti come Kerberos, Secure Shell (SSH) e Internet Protocol Security (IPsec) per gestire i dati in tempo reale.
Una volta fatto ciò, è possibile estrarre eventi di registrazione, distribuire sistemi di sicurezza front-end come router e firewall a livello di applicazione e iniziare a implementare controlli di sicurezza in tutto lo stack a livello di cloud, cluster e applicazione. Il CSA avverte inoltre le aziende di diffidare degli attacchi di evasione che tentano di aggirare l'infrastruttura dei Big Data e di quelli che vengono chiamati attacchi di "avvelenamento dei dati" (ovvero dati falsi che ingannano il sistema di monitoraggio).
6. Preservare la privacy dei dati
Mantenere la privacy dei dati in set in continua crescita è davvero difficile. Il CSA ha affermato che la chiave deve essere "scalabile e compostabile" implementando tecniche come la privacy differenziale - massimizzando l'accuratezza delle query minimizzando l'identificazione dei record - e la crittografia omomorfa per archiviare ed elaborare le informazioni crittografate nel cloud. Oltre a ciò, non lesinare sulle graffette: il CSA raccomanda di integrare la formazione sulla consapevolezza dei dipendenti che si concentra sulle normative sulla privacy attuali e di essere sicuro di mantenere l'infrastruttura software utilizzando meccanismi di autorizzazione. Infine, le migliori pratiche incoraggiano a implementare quella che viene chiamata "composizione dei dati che preservano la privacy", che controlla la perdita di dati da più database rivedendo e monitorando l'infrastruttura che collega i database insieme.
7. Crittografia dei big data
La crittografia matematica non è passata di moda; infatti, è diventato molto più avanzato. Costruendo un sistema per cercare e filtrare i dati crittografati, come il protocollo di ricerca simmetrica crittografata (SSE), le aziende possono effettivamente eseguire query booleane su dati crittografati. Dopo l'installazione, CSA consiglia una varietà di tecniche crittografiche.
La crittografia relazionale consente di confrontare i dati crittografati senza condividere le chiavi di crittografia abbinando identificatori e valori di attributo. La crittografia basata sull'identità (IBE) semplifica la gestione delle chiavi nei sistemi a chiave pubblica consentendo la crittografia del testo in chiaro per una determinata identità. La crittografia basata sugli attributi (ABE) può integrare i controlli di accesso in uno schema di crittografia. Infine, esiste la crittografia convergente, che utilizza le chiavi di crittografia per aiutare i provider di cloud a identificare i dati duplicati.
8. Controllo granulare degli accessi
Il controllo dell'accesso riguarda due aspetti fondamentali secondo il CSA: limitare l'accesso degli utenti e garantire l'accesso degli utenti. Il trucco è costruire e attuare una politica che scelga quella giusta in ogni dato scenario. Per impostare i controlli di accesso granulari, CSA ha una serie di suggerimenti rapidi:
Normalizza elementi mutabili e denormalizza elementi immutabili,
Tenere traccia dei requisiti di segretezza e garantire una corretta attuazione
Mantenere le etichette di accesso,
Traccia dati amministrativi,
Utilizzare Single Sign-On (SSO) e
Utilizzare uno schema di etichettatura per mantenere una corretta federazione dei dati.
9. Audit, Audit, Audit
Il controllo granulare è un must nella sicurezza dei Big Data, in particolare dopo un attacco al tuo sistema. Il CSA raccomanda che le organizzazioni creino una visione coerente dell'audit in seguito a qualsiasi attacco e assicurino di fornire una traccia di audit completa garantendo al contempo un facile accesso a tali dati al fine di ridurre i tempi di risposta agli incidenti.
Anche l'integrità e la riservatezza delle informazioni di audit sono essenziali. Le informazioni di audit devono essere archiviate separatamente e protette con controlli granulari sull'accesso degli utenti e un monitoraggio regolare. Assicurati di mantenere separati i tuoi Big Data e i dati di controllo e abilita tutte le registrazioni necessarie durante l'impostazione del controllo (al fine di raccogliere ed elaborare le informazioni più dettagliate possibili). Un livello di controllo open source o uno strumento di orchestrazione delle query come ElasticSearch possono semplificare le operazioni.
10. Provenienza dei dati
La provenienza dei dati può significare una serie di cose diverse a seconda di chi chiedi. Ma a cosa si riferisce il CSA sono i metadati di provenienza generati dalle applicazioni Big Data. Questa è un'altra categoria di dati che necessita di una protezione significativa. Il CSA raccomanda innanzitutto di sviluppare un protocollo di autenticazione dell'infrastruttura che controlli l'accesso, impostando al contempo aggiornamenti periodici dello stato e verificando continuamente l'integrità dei dati utilizzando meccanismi come checksum.
Inoltre, il resto delle migliori pratiche del CSA per la provenienza dei dati fa eco al resto del nostro elenco: implementare controlli di accesso granulari dinamici e scalabili e implementare metodi di crittografia. Non esiste un trucco segreto per garantire la sicurezza dei Big Data in tutta l'organizzazione e tutti i livelli dello stack dell'infrastruttura e delle applicazioni. Quando si tratta di lotti di dati così vasti, solo uno schema di sicurezza IT esaurientemente completo e un buy-in da parte dell'intera azienda daranno alla tua organizzazione le migliori possibilità di mantenere gli ultimi 0 e 1 al sicuro.