Sommario:
Video: La semplificazione in croce (Novembre 2024)
Google ha ora aggiunto funzionalità di machine learning (ML) a Google BigQuery, l'offerta di database cloud su scala ridotta di petabyte (PB) dell'azienda. Ora soprannominata BigQuery ML, la nuova versione consente di utilizzare semplici istruzioni SQL (Structured Query Language) per creare e distribuire modelli ML per analisi predittive.
Non sono solo buone notizie per i data scientist che usano Google. È anche utile per gli operatori aziendali interessati a migliorare le proprie capacità di analisi dei dati perché aggiunge un concorrente più efficace a un elenco piuttosto piccolo di fornitori in grado di offrire questo livello di sofisticazione tramite il cloud. Gli altri due nomi più noti sono il servizio di database relazionale di Amazon e il servizio SQL di Azure di Microsoft, e puoi trovarne di più nella nostra recente raccolta di servizi di database di cloud.
La rovina di tutti i venditori e acquirenti di prodotti di dati è sempre stata la carenza di competenze. Ciò è stato particolarmente vero per coloro che sono interessati all'ML e all'analisi predittiva, dal momento che queste discipline richiedono spesso la conoscenza di nuove tecnologie e linguaggi di interrogazione.
"Per ogni scienziato di dati, ci sono centinaia di analisti che lavorano con i dati e la maggior parte utilizza SQL", ha detto a PCMag Sudhir Hasbe, direttore della gestione dei prodotti di Google Cloud. Qualcosa doveva dare se il potere di un esercito di analisti di dati dovesse essere stappato dal collo di bottiglia creato da troppo pochi e troppo sovraccarichi data scientist.
La risposta di Google a questo dilemma è a dir poco notevole. Mentre ML è una tendenza in voga e si presenta in prodotti di ogni genere ovunque, è ancora saldamente il territorio dei data scientist. Molti venditori hanno fatto progressi nel semplificare la tecnologia, ma la brutta verità è che puoi semplificarla molto ed è ancora troppo difficile da usare per oltre il 99% della popolazione umana. Tuttavia, dobbiamo essere in grado di usarlo perché ML può fare di più e farlo più velocemente di un gruppo di umani super-intelligenti.
Google sta piantando ML all'interno di Google BigQuery in modo che risieda più vicino ai dati. L'applicazione porterà le funzionalità ML più velocemente rispetto ai modelli ML tradizionali, in parte perché l'analisi dei dati può essere eseguita alla fonte. Ora in versione beta, BigQuery ML consente agli analisti (e ai data scientist) di eseguire analisi predittive come la previsione delle vendite e la creazione di segmenti di clienti in cima ai dati in cui sono archiviati. Questo da solo è un aggiornamento rispettabile e notevole.
Tuttavia, Google si è spinto oltre aggiungendo una funzionalità che consente agli analisti di dati di utilizzare semplici istruzioni SQL per creare e distribuire modelli ML. Al momento, le opzioni sono la regressione lineare e i modelli di regressione logistica per l'analisi predittiva in quanto sono i due modelli più comunemente utilizzati.
Ecco un'illustrazione fornita da Google per dimostrare come gli analisti di dati utilizzerebbero questa funzionalità:
Google prevede di aggiungere più opzioni ML a questa funzionalità nel tempo, secondo Hasbe. "Abbiamo bisogno di sentire dai nostri clienti quali modelli vogliono che aggiungiamo, in modo da fornire prima quelli più utili", ha affermato.
Altri aggiornamenti di Google BigQuery
In cima all'elenco sostanziale degli aggiornamenti dopo ML ci sono una capacità di clustering, i sistemi di informazione geografica BigQuery (BigQuery GIS), un nuovo connettore dati di Fogli Google e un nuovo connettore dati di Fogli Google.
Il clustering è anche in versione beta e consente la creazione di tabelle cluster in uno spostamento di ottimizzazione dei dati che raggruppa le righe con chiavi cluster simili. Ciò riduce i costi poiché migliora le prestazioni e consente a Google BigQuery di addebitare all'utente solo i dati scansionati anziché l'intera tabella o partizione.
BigQuery GIS è attualmente in alpha e viene utilizzato per l'analisi dei dati geospaziali. Mentre il team di Google Cloud ha collaborato con Google Earth Engine per creare BigQuery GIS, devi portare i tuoi dati geospaziali sul tavolo. Questo non è un problema in e in diversi settori, tra cui sistemi di auto connesse, Internet delle cose (IoT), produzione, vendita al dettaglio, città intelligenti e telematica. Per non parlare delle agenzie governative che vanno dall'Agenzia per la protezione ambientale (EPA) e dalla National Geospatial-Intelligence Agency all'amministrazione nazionale oceanica e atmosferica (NOAA) e tutte le filiali militari, ovviamente.
BigQuery GIS utilizza la libreria S2, che ora ha oltre un miliardo di utenti attraverso una varietà di prodotti come Google Earth Engine e Google Maps. Se hai bisogno di più dati geospaziali, il governo federale ne condivide un'enorme quantità su GeoPlatform.
È probabile che un nuovo connettore di dati di Fogli Google soddisfi molti analisti di dati semplicemente perché è così pratico per l'uso quotidiano. Puoi accedere a Google BigQuery da Fogli Google (programma per fogli di calcolo) e utilizzare strumenti di Fogli Google come Explore, che è uno strumento combinato di collaborazione, visualizzazione dei dati e query in linguaggio naturale.
Google BigQuery ora ha anche una nuova interfaccia utente (UI) anche in versione beta. Uno degli elementi più interessanti è la funzionalità di visualizzazione con un clic, supportata da Google Data Studio. Tutto sommato, è un grande giro di aggiornamenti per un servizio già elegante. Questi aggiornamenti verranno testati nel prossimo round delle revisioni della soluzione Database-as-a-Service (DBaaS) di PCMag, dopo che i bug saranno stati risolti e che i prodotti saranno passati oltre i rispettivi stati alpha e beta.
PCMag EIC Dan Costa discute il futuro dei dati: