Video: PERCHÈ ACQUISTARE UN ASSISTENTE VOCALE? | GOOGLE HOME & ALEXA (Novembre 2024)
Gli Assistenti intelligenti - Siri, Google Now, Cortana e simili - sono passati da curiosità e trucchi da salotto solo pochi anni fa a strumenti essenziali che molte persone usano nella loro vita quotidiana. La scorsa settimana, sono passato all'Intelligent Assistants Conference di New York, presentato da Opus Research, e sono rimasto colpito dal progresso che il software sta facendo in una varietà di settori, incluso il progresso delle società finanziarie, assicurative e mediche nella costruzione di agenti specifici.
Il fondatore di Opus Research Dan Miller ha spiegato che molte delle tecnologie di base, come il riconoscimento vocale, sono in circolazione da oltre 20 anni. Sebbene abbia recentemente visto alcuni grandi miglioramenti, piuttosto che una rivoluzione, ha detto "siamo su un percorso evolutivo", con molti prodotti in un continuum con capacità diverse. Ha notato che ci sono centinaia di assistenti intelligenti aziendali che possono essere utilizzati per una semplice conversazione testuale in inglese semplice utilizzando un set di dati fisso e per cose come la navigazione di un sito Web o una FAQ. All'altra estremità dello spettro, ci sono probabilmente solo poche dozzine di "app dinamiche, dal sentimento umano" che sono più sensibili alla conversazione e al contesto.
Miller ha indicato le domande che hanno vinto premi alla conferenza. Julie di Amtrak ha iniziato come agente di servizi telefonici interattivi a risposta vocale anni fa, ma ora si è evoluto in un agente che lavora sul sito Web per guidare i viaggiatori attraverso Amtrak.com, basato su un agente di Next IT. Telefonica Mexico ha un agente di nome Nico che ha un avatar e fornisce anche supporto via Twitter e Facebook, basato sulla piattaforma di AgentBot. ING Netherlands ha Inge, un'app che ti consente di controllare il saldo del tuo conto bancario o trasferire denaro tramite la voce, utilizzando la tecnologia vocale biometrica di Nuance, per autenticare la tua identità.
Le menzioni d'onore includono le applicazioni sanitarie, come un'app che ti aiuta a scegliere un piano sanitario. Altre applicazioni di cui ho sentito parlare allo show includono Domino's Pizza, che ha un'app chiamata Dom che ti consente di usare la voce per ordinare la pizza; e BMW, che ha un agente virtuale come parte del suo braccio di finanziamento automatico Up2drive.
Brett Beraneck di Nuance ha parlato di come i progressi nelle reti neurali di apprendimento profondo hanno migliorato cose come la comprensione del linguaggio naturale e il riconoscimento vocale, e come questo si sta ora riunendo per consentire molto più interesse nel campo. L'assistente Nina di Nuance è stato un primo esempio e da allora è cresciuto fino a molte applicazioni specifiche, che vanno dai sistemi interattivi di risposta vocale delle compagnie assicurative alle app per lo shopping. Ognuna di queste applicazioni ha una personalità diversa, a seconda di ciò che sta cercando di aiutarti.
Una grande novità di cui ha discusso è stata la biometria vocale, in cui la tua voce sostituisce una password. Ha parlato di come aziende come ING in Europa stanno sviluppando agenti che non solo usano il riconoscimento vocale e l'elaborazione del linguaggio naturale, ma stanno anche iniziando a usare la voce per riconoscere la persona che chiama. Ha detto che questo era sia più sicuro che più naturale di una password tradizionale.
Mentre studi recenti hanno temuto che le registrazioni vocali potrebbero ingannare tali sistemi, Nuance ha osservato che la tecnologia di oggi include funzionalità volte a rilevare anomalie dalla voce registrata e ha indicato altri studi che hanno assunto un punto di vista diverso. Inoltre, ha affermato, i progettisti possono utilizzare diversi livelli di biometria vocale per diverse funzioni, come l'utilizzo di un semplice riconoscimento per controllare il saldo di un conto o la richiesta di ripetere una sequenza casuale di parole per significativi trasferimenti di denaro.
La biometria vocale sembra certamente guadagnare un po 'di trazione. Al Gartner Symposium della scorsa settimana, una sessione sui "casi di clienti interessanti" nei servizi finanziari includeva un'app Citibank che utilizzava questa funzione.
MyWave ha un assistente chiamato Frank, che dovrebbe essere abilitato da più aziende per permetterti di interagire con loro in un modo più colloquiale, piuttosto che avere ogni azienda a svilupparsi. I primi usi includono una banca della Nuova Zelanda e un'app chiamata Saveawatt progettata per aiutarti a scegliere il tuo fornitore di energia elettrica.
Il CEO Geraldine McBride ha spiegato che la società sta cercando di creare assistenti che colmino il divario tra i clienti e le app di servizio, con quelle che chiama "relazioni gestite dai clienti" o CMR, una svolta nelle tradizionali applicazioni CRM. Una grande differenza, ha detto, è che il cliente è responsabile di tutti i suoi dati, piuttosto che dell'azienda.
Un'altra società relativamente nuova, Expect Labs ha un prodotto chiamato MindMeld che funziona come backend per un numero di aziende che vogliono offrire un'interfaccia vocale per sostituire le interfacce tradizionali e gestire domande e risposte. Questo potrebbe essere usato per una varietà di applicazioni, come guardare programmi TV semplicemente chiedendo il nome e facendo in modo che il sistema esegua la query su più sistemi. (Amazon TV Fire ha alcune di queste funzionalità, ma non è integrato con il set-top box via cavo, mentre uno degli investitori in Expect Labs è la società via cavo Liberty Global.)
Il CEO Tim Tuttle ha spiegato che MindMeld tende a utilizzare il riconoscimento vocale già disponibile nella maggior parte dei dispositivi e si concentra invece sulla comprensione del linguaggio naturale e sulla costruzione di un grafico di conoscenza delle informazioni disponibili. Ha affermato che l'azienda sta cercando di ridimensionare il sistema in modo da includere più informazioni da più fonti e di abbattere le gerarchie di diverse categorie di informazioni che fanno parte della maggior parte di tali sistemi. Comprendere veramente le domande significa essere in grado di capire l'intento in una varietà di categorie, ha detto.
Una cosa che ho sentito da un certo numero di partecipanti sono state le statistiche che suggeriscono che circa il 10 percento di tutte le ricerche sul Web ora vengono eseguite tramite agenti di intelligence. (Il pioniere dell'IA Andrew Ng ha affermato che questo era vero per la ricerca vocale a Baidu l'anno scorso e diverse persone hanno affermato che questo era vero anche su Google, ma non ho sentito nessuna conferma diretta.)
Guardando al futuro, Miller di Opus Research ha affermato che c'è ancora molto lavoro da fare. L'accuratezza di base dei sistemi ha molto margine di miglioramento, in particolare nel passaggio da ciò che dici a ciò che intendi a cosa fare di conseguenza. Durante la conferenza ha menzionato un discorso del CEO di Xerox PARC Stephen Hoover, che ha affermato che oggi i sistemi sono ora accurati fino al 90% nel capire cosa intendiamo, ma che il 10% è ancora un problema perché è ciò che la maggior parte delle persone ricorda quando si tratta un sistema. E Miller ha detto che c'è spazio per una migliore personalizzazione, perché se il sistema sa con chi sta parlando, può dare risultati migliori. Ad esempio, ha notato che Facebook sa chi sta usando il sistema perché hai effettuato l'accesso; e ha affermato che farlo senza problemi con più agenti diventerà più importante.
È certamente una categoria affascinante, e mi aspetto che tutti passeremo molto più tempo a parlare con i nostri telefoni e computer e interagire con agenti che non sono abbastanza umani. Trovo questa una delle tendenze più intriganti nell'informatica di questi giorni.