Sommario:
Video: Le 10 MIGLIORI FUNZIONI E SKILL per AMAZON ALEXA che (forse) non conosci! (Novembre 2024)
Un dispositivo Amazon Echo ha recentemente registrato la conversazione privata di un utente e lo ha inviato a uno dei suoi contatti a loro insaputa e senza il loro consenso. Questo (di nuovo) solleva preoccupazioni sulla sicurezza e la privacy degli altoparlanti intelligenti. Come più tardi divenne evidente, però, lo strano comportamento di Alexa non faceva parte di un sinistro complotto di spionaggio - piuttosto, fu causato da una serie di fallimenti collegati attribuiti al modo in cui funziona l'oratore intelligente.
Lo scenario è un caso limite, il tipo di incidente che si verifica molto raramente. Ma è anche uno studio interessante sui limiti della tecnologia dell'intelligenza artificiale che alimenta l'eco e altri cosiddetti dispositivi "intelligenti".
Troppa dipendenza dal cloud
Per comprendere i comandi vocali, altoparlanti intelligenti come Echo e Google Home si basano su algoritmi di apprendimento profondo, che richiedono una vasta potenza di elaborazione. Poiché non dispongono delle risorse di elaborazione per eseguire l'attività localmente, devono inviare i dati ai server cloud del produttore, dove gli algoritmi AI trasformano i dati vocali in testo ed elaborano i comandi.
Ma gli altoparlanti intelligenti non possono inviare tutto ciò che ascoltano ai loro server cloud, perché ciò richiederebbe al produttore di archiviare quantità eccessive di dati sui loro server, la maggior parte dei quali sarebbe inutile. La registrazione e l'archiviazione accidentale di conversazioni private che si svolgono nelle case degli utenti costituirebbe anche una sfida per la privacy e potrebbe mettere in difficoltà i produttori, in particolare con le nuove normative sulla privacy dei dati che impongono gravi restrizioni su come le aziende tecnologiche archiviano e utilizzano i dati.
Ecco perché gli altoparlanti intelligenti sono progettati per essere attivati dopo che l'utente ha emesso una parola sveglia come "Alexa" o "Ehi Google". Solo dopo aver ascoltato la parola sveglia iniziano a inviare l'ingresso audio dei loro microfoni al cloud per l'analisi e l'elaborazione.
Mentre questa funzionalità migliora la privacy, presenta le sue sfide, come ha evidenziato il recente incidente di Alexa.
"Se la parola - o qualcosa che suona in modo molto simile - viene inviata a metà di una conversazione, Alexa non avrà nessuno dei precedenti contesti", afferma Joshua March, CEO di Conversocial. "A quel punto, è estremamente difficile ascoltare i comandi relativi alle competenze che hai impostato (come la loro app di messaggistica). Per la maggior parte, la privacy è notevolmente migliorata limitando il contesto a cui Alexa sta prestando attenzione (come non sta registrando o ascoltando nessuna delle tue normali conversazioni), anche se in questo caso è fallito ".
I progressi nel edge computing potrebbero aiutare ad alleviare questo problema. Mentre l'intelligenza artificiale e l'apprendimento approfondito si fanno strada in sempre più dispositivi e applicazioni, alcuni produttori di hardware hanno creato processori specializzati per eseguire attività di intelligenza artificiale senza fare troppo affidamento sulle risorse cloud. I processori Edge AI possono aiutare i dispositivi come Echo a comprendere meglio ed elaborare le conversazioni senza violare la privacy degli utenti inviando tutti i dati sul cloud.
Contesto e intento
Oltre a ricevere pezzi audio disparati e frammentati, l'IA di Amazon fatica a comprendere le sfumature della conversazione umana.
"Mentre negli ultimi anni ci sono stati enormi progressi nell'apprendimento profondo, che ha permesso al software di comprendere parole e immagini meglio che mai, ci sono ancora molti limiti", afferma March. "Mentre gli assistenti vocali sono in grado di riconoscere le parole che stai dicendo, non hanno necessariamente alcun tipo di reale comprensione del significato o delle intenzioni dietro di esso. Il mondo è un posto complesso, ma ogni sistema di IA oggi è in grado di gestire solo casi d'uso specifici e ristretti."
Ad esempio, noi umani abbiamo molti modi per determinare se una frase è diretta verso di noi, come il tono della voce, o seguendo i segnali visivi - diciamo, la direzione che l'oratore sta guardando.
Al contrario, Alexa presume che sia il destinatario di qualsiasi frase che contiene la parola "A". Questo è il motivo per cui gli utenti spesso lo attivano accidentalmente.
Parte del problema è che esageriamo le capacità delle attuali applicazioni AI, spesso mettendole alla pari o al di sopra della mente umana e riponendo troppa fiducia in esse. Ecco perché siamo sorpresi quando falliscono in modo spettacolare.
"Parte del problema qui è che il termine 'AI' è stato commercializzato in modo così aggressivo che i consumatori hanno riposto una quantità immeritata di fiducia nei prodotti con questo termine ad essi legato", afferma Pascal Kaufmann, neuroscienziato e fondatore di Starmind. "Questa storia illustra che Alexa ha molte capacità e una comprensione relativamente limitata di come e quando dovrebbero essere applicate in modo appropriato."
Gli algoritmi di apprendimento profondo tendono a fallire quando affrontano impostazioni che si discostano dai dati e dagli scenari per cui sono stati addestrati. "Una delle caratteristiche distintive dell'IA a livello umano sarà la competenza autosufficiente e una vera comprensione dei contenuti", afferma Kaufmann. "Questa è una parte cruciale nel ritenere davvero un'intelligenza artificiale" intelligente "e vitale per il suo sviluppo. La creazione di assistenti digitali autocoscienti, che portano con sé una piena comprensione della natura umana, segnerà la loro trasformazione da una divertente novità a una vera attrezzo utile."
Ma la creazione di un'intelligenza artificiale a livello umano, definita anche AI generale, è più facile a dirsi che a farsi. Per molti decenni, abbiamo pensato che fosse dietro l'angolo, solo per essere sconcertati mentre i progressi tecnologici hanno dimostrato quanto sia complicata la mente umana. Molti esperti ritengono che inseguire l'IA generale sia inutile.
Nel frattempo, l'intelligenza artificiale ridotta (come vengono descritte le attuali tecnologie di intelligenza artificiale) presenta ancora molte opportunità e può essere riparata per evitare di ripetere errori. Per essere chiari, il deep learning e il machine learning sono ancora nascenti e aziende come Amazon aggiornano costantemente i loro algoritmi AI per affrontare i casi limite ogni volta che si verificano.
Cosa dobbiamo fare
"Questo è un campo giovane ed emergente. La comprensione del linguaggio naturale è soprattutto agli inizi, quindi c'è molto che possiamo fare qui", afferma Eric Moller, CTO di Atomic X.
Moller ritiene che gli algoritmi AI di analisi vocale possano essere sintonizzati per comprendere meglio intonazione e inflessione. "Usare la parola 'Alexa' in una frase più ampia suona diverso da una chiamata o un comando. Alexa non dovrebbe svegliarsi perché hai detto quel nome di passaggio", dice Moller. Con una formazione sufficiente, l'IA dovrebbe essere in grado di distinguere quali toni specifici sono diretti verso l'altoparlante intelligente.
Le aziende tecnologiche possono anche addestrare la loro intelligenza artificiale per essere in grado di distinguere quando riceve rumori di sottofondo invece di essere parlati direttamente. "Le chiacchiere di sottofondo hanno una 'firma' uditiva unica che gli umani sono molto bravi a capire e a mettere a punto selettivamente. Non c'è motivo per cui non possiamo addestrare i modelli di intelligenza artificiale a fare lo stesso", dice Moller.
Per precauzione, gli assistenti di IA dovrebbero valutare l'impatto delle decisioni che stanno prendendo e coinvolgere le decisioni umane nei casi in cui vogliono fare qualcosa che è potenzialmente sensibile. I produttori dovrebbero introdurre maggiori garanzie nelle loro tecnologie per impedire che informazioni sensibili vengano inviate senza il consenso esplicito e chiaro dell'utente.
"Sebbene Amazon abbia riferito che Alexa ha tentato di confermare l'azione che ha interpretato, alcune azioni devono essere gestite con più attenzione e mantenute secondo uno standard più elevato di conferma dell'intenzione dell'utente", afferma Sagi Eliyahi, CEO di Tonkean. "Gli umani hanno gli stessi problemi di riconoscimento vocale, a volte richieste mishearing. A differenza di Alexa, tuttavia, è più probabile che un essere umano confermi assolutamente di comprendere una richiesta poco chiara e, soprattutto, di valutare la probabilità di una richiesta rispetto alle richieste passate."
Nel frattempo…
Mentre le aziende tecnologiche mettono a punto le loro applicazioni AI per ridurre gli errori, gli utenti dovranno prendere la decisione definitiva su quanto vogliono essere esposti ai potenziali errori che i loro dispositivi basati sull'intelligenza artificiale potrebbero fare.
"Queste storie mostrano un conflitto con la quantità di dati che le persone sono disposte a condividere contro la promessa di nuove tecnologie di intelligenza artificiale", afferma Doug Rose, esperto di scienza dei dati e autore di numerosi libri sull'IA e sul software. "Potresti prendere in giro Siri per essere lento. Ma il modo migliore per lei di raggiungere una maggiore intelligenza è invadere le nostre conversazioni private. Quindi una domanda chiave nel prossimo decennio o giù di lì è quanto consentiremo a questi agenti di intelligenza artificiale di sbirciare nel nostro comportamento ?"
"Quale famiglia metterebbe un assistente umano nel soggiorno e lascerebbe che quella persona ascolti ogni tipo di conversazione per tutto il tempo?" dice Kaufmann, il neuroscienziato di Starmind. "Dovremmo almeno applicare gli stessi standard ai cosiddetti dispositivi" AI "(se non superiori) che applichiamo anche agli esseri umani intelligenti quando si tratta di privacy, segretezza o affidabilità."