Sommario:
Video: Microservices, la risposta che forse cercavi! (Novembre 2024)
I dati e la business intelligence (BI) sono le due facce della stessa medaglia. I progressi nell'archiviazione, nell'elaborazione e nell'analisi hanno democratizzato i dati al punto in cui non è necessario essere un professionista del database o uno scienziato di dati per lavorare con enormi set di dati e ottenere approfondimenti. C'è ancora una curva di apprendimento, ma la BI self-service e gli strumenti di visualizzazione dei dati stanno ridefinendo il modo in cui le aziende sfruttano tutti i dati raccolti in analisi utilizzabili. Tuttavia, c'è una differenza tra una BI o una società di database che si occupa di analisi avanzate e un database di intelligenza artificiale (AI) appositamente progettato per la formazione di machine learning (ML) e modelli di deep learning.
Gli algoritmi ML sono stati tessuti nel tessuto di gran parte del software di oggi. Le esperienze dei consumatori si fondono con l'IA attraverso assistenti virtuali e, nei software aziendali, ci sono esempi come Salesforce Einstein che agiscono come un livello intelligente sotto l'intero portafoglio di gestione delle relazioni con i clienti (CRM) dell'azienda. I giganti della tecnologia, tra cui Google e Microsoft, stanno spingendo ulteriormente il nostro futuro intelligente, non solo con la ricerca, ma riscrivendo il modo in cui la loro tecnologia funziona da zero con l'IA.
Una delle sfide con la macchina per l'allenamento e i modelli di apprendimento profondo è il volume di dati e la potenza di elaborazione di cui hai bisogno per formare una rete neurale, ad esempio, sul riconoscimento di schemi complessi in campi come la classificazione delle immagini o l'elaborazione del linguaggio naturale (PNL). Quindi, i database AI stanno iniziando a comparire sul mercato come un modo per ottimizzare il processo di apprendimento e formazione AI per le aziende. Abbiamo parlato con Kinetica, fornitore di database relazionale con accelerazione GPU, che ha creato un proprio database AI, e l'esperto di BI e Pam Baker residente di PCMag per demistificare cos'è un database AI e come funziona rispetto ai database tradizionali. Ancora più importante, abbiamo chiesto il loro aiuto per ordinare attraverso l'hype e le parole di marketing per determinare se questa tecnologia emergente abbia o meno un valore commerciale reale.
Cosa sono i database AI?
La natura in rapida evoluzione dello spazio AI può rendere difficile stabilire la terminologia. Spesso senti termini come ML, apprendimento profondo e intelligenza artificiale usati in modo intercambiabile quando, in realtà, stanno ancora sviluppando tecniche sotto l'ombrello più ampio dell'IA. In quanto tale, Baker ha affermato che esistono due definizioni molto diverse di ciò che un database di intelligenza artificiale dipende da con chi si parla: uno pratico e l'altro più semplice.
"Esiste una sorta di ampio consenso nel settore sul fatto che un database di intelligenza artificiale sarebbe uno che funzionerebbe completamente su query in linguaggio naturale. L'interfaccia utente sarebbe tale da non dover fare affidamento su termini di ricerca e frasi chiave per trovare le informazioni necessarie, consentendo all'utente di convocare set di dati con la PNL ", ha affermato Baker. "Potresti fare una discussione molto limitata sul fatto che IBM Watson possa porre query in linguaggio naturale al sistema, ma devi essere già connesso ai dati e scegliere tu stesso i dati. Quindi, proprio ora, quella definizione è un tratto."
La definizione più pratica, e l'oggetto di questo spiegatore, sta essenzialmente usando un database appositamente costruito per accelerare l'addestramento del modello ML. Numerose aziende tecnologiche stanno già sviluppando chip AI dedicati per alleviare il pesante carico di elaborazione di nuovi prodotti hardware mentre i fornitori implementano più funzionalità basate su AI che richiedono una notevole potenza di calcolo. Dal lato dei dati, l'utilizzo di un database AI può aiutarti a contrastare meglio il volume, la velocità e le complesse sfide di governance e gestione dei dati associate alla formazione ML e ai modelli di deep learning per risparmiare tempo e ottimizzare le risorse.
Credito immagine: Todd Jaquith su Futurism.com. Fare clic per espandere l'infografica completa
"In questo momento ci sono molti sforzi per accelerare l'allenamento ML attraverso diverse tattiche", ha spiegato Baker. "Uno è quello di separare l'infrastruttura dai ricercatori dell'IA che eseguono la codifica, in modo che le funzioni automatizzate gestiscano l'infrastruttura e formino il modello ML. Quindi, invece di spendere qualcosa come tre mesi, potresti guardare 30 giorni o 30 minuti."
Kinetica suddivide l'idea in una piattaforma di database integrata ottimizzata per la modellazione ML e deep learning. Il database AI combina data warehousing, analisi avanzate e visualizzazioni in un database in memoria. Mate Radalj, vicepresidente e principale ingegnere informatico del gruppo Advanced Technology di Kinetica, ha spiegato che un database di intelligenza artificiale dovrebbe essere in grado di inserire, esplorare, analizzare e visualizzare contemporaneamente dati complessi e rapidi in millisecondi. L'obiettivo è ridurre i costi, generare nuovi ricavi e integrare i modelli ML in modo che le aziende possano prendere decisioni più efficienti e basate sui dati.
"Un database AI è un sottoinsieme di un database generale", ha affermato Radalj. "In questo momento, i database AI sono molto popolari. Ma molte soluzioni utilizzano componenti distribuiti. Spark, MapReduce e HDFS girano sempre avanti e indietro anziché in memoria. Non hanno la confluenza di fattori come il nostro database, che è stato creato da zero con CPU e GPU strettamente integrate su un'unica piattaforma. Il vantaggio di alto livello per noi è il provisioning più rapido e un footprint hardware inferiore della formazione basata su modelli, con una rapida inversione di tendenza e analisi integrate nella stessa piattaforma."
Come funziona un database AI
Esistono numerosi esempi di database AI in pratica. Microsoft Batch AI offre un'infrastruttura basata su cloud per la formazione di deep learning e modelli ML in esecuzione su GPU Microsoft Azure. La società ha anche il suo prodotto Azure Data Lake per rendere più semplice per le aziende e i data scientist elaborare e analizzare i dati attraverso un'architettura distribuita.
Un altro esempio è l'approccio AutoML di Google, che sta fondamentalmente riprogettando il modo in cui i modelli ML vengono addestrati. Google AutoML automatizza la progettazione del modello ML per generare nuove architetture di reti neurali basate su set di dati particolari, quindi testare e iterare su quelle migliaia di volte per codificare sistemi migliori. In effetti, l'IA di Google ora può creare modelli migliori dei ricercatori umani.
"Guarda Google AutoML: ML che scrive codice ML in modo da non aver nemmeno bisogno di persone", ha dichiarato Baker. "Questo ti dà un'idea di quale estrema differenza ci sia in ciò che i venditori stanno facendo. Alcuni stanno cercando di far passare analisi avanzate come ML - e non lo è. E altri stanno facendo ML a un livello così avanzato che va oltre ciò che la maggior parte le imprese possono capire al momento ".
Poi c'è Kinetica. La startup con sede a San Francisco, che ha raccolto $ 63 milioni di finanziamenti in capitale di rischio (VC), fornisce un database SQL ad alte prestazioni ottimizzato per un rapido inserimento e analisi dei dati. Kinetica è ciò che Radalj ha descritto come un database distribuito in maniera massiccia in parallelo (MPP) e una piattaforma di elaborazione in cui ogni nodo dispone di dati in memoria, CPU e GPU collocati nello spazio.
Ciò che rende un database AI diverso da un database tradizionale, ha spiegato Radalj, si riduce a tre elementi fondamentali:
- Inserimento accelerato di dati,
- Co-località di dati in memoria (elaborazione parallela tra i nodi del database) e
- Una piattaforma comune per data scientist, ingegneri del software e amministratori di database per iterare e testare i modelli più rapidamente e applicare i risultati direttamente all'analisi.
Per tutti gli esperti di formazione sui modelli non di database e AI che leggono questo, Radalj ha scomposto ciascuno di questi tre elementi chiave e ha spiegato come il database AI si lega a un valore aziendale tangibile. La disponibilità e l'ingestione dei dati sono fondamentali, ha affermato, poiché la capacità di elaborare i dati di streaming in tempo reale consente alle aziende di agire rapidamente su approfondimenti basati sull'intelligenza artificiale.
"Abbiamo un cliente al dettaglio che desidera monitorare i tassi di vendita per negozio, ogni cinque minuti", ha affermato Radalj. "Volevamo utilizzare l'intelligenza artificiale per prevedere, in base alle ultime ore di dati storici, se devono reintegrare l'inventario e ottimizzare quel processo. Ma per fare ciò il rifornimento dell'inventario basato su macchine richiede il supporto di 600-1200 query al secondo. sei un database SQL e un database AI, quindi possiamo ingerire i dati a quel ritmo. Il nostro raggiungimento di quella missione aziendale ha portato a un'applicazione che ha generato un ROI maggiore ".
Baker ha convenuto che ML richiede una grande quantità di dati, quindi la sua rapida immissione sarebbe molto importante per un database AI. Il secondo fattore, il concetto di "co-località di dati in memoria", richiede un po 'più di spiegazione. Un database in memoria archivia i dati nella memoria principale anziché in un archivio separato. Lo fa per elaborare le query più rapidamente, in particolare nei database di analisi e BI. Per co-località, Radalj ha spiegato che Kinetica non separa i nodi di calcolo CPU e GPU rispetto ai nodi di archiviazione.
Di conseguenza, il database AI supporta l'elaborazione parallela, che imita la capacità del cervello umano di elaborare più stimoli, pur rimanendo distribuito su un'infrastruttura di database scalabile. Ciò impedisce un ingombro hardware maggiore, derivante da ciò che Radalj chiamava "data shipping" o dalla necessità di inviare i dati avanti e indietro tra i diversi componenti del database.
"Alcune soluzioni utilizzano un orchestratore come IBM Symphony per pianificare il lavoro su vari componenti, mentre Kinetica sottolinea la spedizione delle funzioni rispetto a risorse localizzate, con un'ottimizzazione avanzata per ridurre al minimo la spedizione dei dati", ha affermato Radalj. "Tale co-località si presta a prestazioni e throughput superiori, in particolare per query pesanti altamente simultanee su grandi set di dati."
In termini di hardware del database effettivo, Kinetica è partner di Nvidia, che ha una gamma in espansione di GPU AI e sta esplorando opportunità con Intel. Radalj ha anche affermato che la società sta tenendo d'occhio l'hardware AI emergente e l'infrastruttura basata su cloud come le unità di elaborazione tensor di Google (TPU).
Infine, c'è l'idea di un processo di formazione unificato per i modelli. Un database AI è efficace solo se i vantaggi di una più rapida assunzione ed elaborazione servono obiettivi più grandi e orientati al business per le attività di ML e deep learning di un'azienda. Radalj si riferisce al database AI di Kinetica come "piattaforma di pipeline modello" che esegue l'hosting di modelli basato sulla scienza dei dati.
Tutto ciò si presta a test e iterazioni più rapidi per sviluppare modelli ML più accurati. Su questo punto, Baker ha affermato che collaborare in modo unificato può aiutare tutti gli ingegneri e i ricercatori che lavorano per addestrare un modello ML o di apprendimento profondo iterare più velocemente combinando ciò che funziona, invece di reinventare continuamente tutte le fasi del processo di formazione. Radalj ha affermato che l'obiettivo è quello di creare un flusso di lavoro in cui l'immissione, lo streaming e l'interrogazione batch più rapidi generano risultati del modello che possono essere immediatamente applicati alla BI.
"Scienziati, ingegneri informatici e amministratori di database dispongono di un'unica piattaforma in cui è possibile delineare in modo chiaro il lavoro sulla scienza dei dati stessa, la scrittura di programmi software, i modelli di dati SQL e le query", ha affermato Radalj. "Le persone lavorano in modo più pulito insieme in quei vari domini quando si tratta di una piattaforma comune. L'obiettivo più spesso che con l'esecuzione di ML e deep learning è, si desidera utilizzare i risultati di ciò - i coefficienti e le variabili - in combinazione con l'analisi e usa l'output per cose come il punteggio o per prevedere qualcosa di utile ".
Hype o realtà?
Il valore di fondo di un database AI, almeno nel modo in cui Kinetica lo definisce, è nell'ottimizzazione delle risorse di calcolo e del database. Questo, a sua volta, ti consente di creare modelli ML e di apprendimento profondo migliori, addestrarli più velocemente ed efficientemente e mantenere una linea diretta su come quell'IA verrà applicata alla tua attività.
Radalj ha dato l'esempio di una società di gestione della flotta o di autotrasporti. In questo caso, un database AI potrebbe elaborare enormi flussi di informazioni in tempo reale da una flotta di veicoli. Quindi, modellando i dati geospaziali e combinandoli con le analisi, il database potrebbe reindirizzare dinamicamente i camion e ottimizzare i percorsi.
"È più facile eseguire rapidamente il provisioning, il prototipo e il test. La parola" modellazione "è diffusa nell'intelligenza artificiale, ma si tratta di scorrere diversi approcci: più dati, meglio è, eseguirli ancora e ancora, testare, confrontare e inventando i migliori modelli ", ha detto Radalj. "Le reti neurali hanno dato vita perché ci sono più dati che mai. E stiamo imparando ad essere in grado di calcolarlo."
In definitiva, il database di Kinetica e la piattaforma di pipeline modello condivisi sono solo un approccio in uno spazio che può significare molte cose diverse a seconda di chi si chiede. Baker ha affermato che la sfida per l'acquirente in un mercato ancora in evoluzione e sperimentale è capire esattamente cosa sta lanciando un fornitore di database AI.
"Come concetto di business, deep learning, ML e tutto ciò è un concetto solido. Ciò che stiamo elaborando sono questioni tecnologiche che sono risolvibili, anche se non le abbiamo ancora risolte", ha affermato Baker. "Questo non vuol dire che questo è uno spazio maturo perché non lo è sicuramente. Direi 'acquirente stai attento' perché qualcosa lanciato come ML può o non può essere. Potrebbe essere solo un'analisi avanzata della varietà del giardino."
Per quanto riguarda il fatto che i database AI siano tutti hype in questo momento o che rappresentino una tendenza importante per dove stanno andando gli affari, Baker ha detto che è un po 'di entrambi. Ha detto che i Big Data, come termine di marketing, ora non sono più favorevoli. Baker ha affermato che esiste ora una certa convergenza di mercato tra analisi avanzate basate sui dati e algoritmi di apprendimento profondo e ML vero. Indipendentemente dal fatto che si tratti di un database per la modellistica ML o degli IA autocoscienti inventati dalla cultura pop, tutto inizia e finisce con i dati.
"I dati verranno utilizzati negli affari fino allo scadere del tempo; è fondamentale per fare affari", ha affermato Baker. "Quando parli in termini di fantascienza, l'intelligenza artificiale è un'intelligenza auto-realizzata. È allora che inizi a parlare di singolarità e robot che conquistano il mondo. Che accada o no, non lo so. Me ne vado. quello a Stephen Hawking ".