
Apple ha addestrato la sua IA ad ascoltare come un clinico
Apple ha presentato un nuovo studio che promette di rivoluzionare il modo in cui l’intelligenza artificiale comprende il linguaggio umano, spostando l’attenzione non solo su cosa viene detto, ma su come viene detto. Una sfida complessa che potrebbe avere implicazioni enormi per l’accessibilità e la diagnosi clinica. Ecco perché.
L’innovativa ricerca di Apple per addestrare l’Intelligenza artificiale
Il cuore della ricerca è un framework basato su sette Dimensioni della Qualità Vocale (Voice Quality Dimensions, VQD), una serie di tratti interpretativi come l’intelligibilità, la durezza della voce, la monotonia del tono o la presenza di affanno. Sono gli stessi parametri che utilizzano i logopedisti per valutare il parlato di pazienti affetti da condizioni neurologiche come Parkinson, SLA o paralisi cerebrale. Per la prima volta, anche le macchine stanno imparando a riconoscerli.
Ora l’IA comprende anche il tono e classifica la voce che ascolta
Tradizionalmente, i modelli vocali sono stati addestrati su voci sane, con un linguaggio fluente e regolare. Ma questo approccio esclude chi ha un modo di parlare diverso. Ed è proprio in questa “zona d’ombra” che il colosso di Cupertino ha scelto di intervenire. Utilizzando un ampio dataset pubblico contenente registrazioni vocali atipiche, i ricercatori hanno sviluppato dei cosiddetti “sondatori leggeri”, modelli diagnostici capaci di sovrapporsi ai sistemi vocali esistenti. Invece di cercare di trascrivere le parole, questi strumenti analizzano come suona la voce, classificandola secondo sette parametri fondamentali: intelligibilità, articolazione delle consonanti, asprezza, naturalezza, variazione di volume e tono, e presenza di affanno.
Un passo avanti per diagnosi più rapide
Uno dei risultati più significativi di questo progetto è l’introduzione di un’intelligenza artificiale trasparente che è in grado di spiegare perché una voce viene classificata in un certo modo, indicando i tratti vocali specifici coinvolti. Un passo avanti cruciale non solo per l’accessibilità, ma anche per l’ambito clinico: diagnosi più rapide, screening vocale remoto e monitoraggio dell’evoluzione di patologie neurologiche: tutto potrebbe beneficiare di questa nuova ‘sensibilità digitale’.
Verso una Siri più empatica?
Il team Apple non si è fermato alla voce clinica e ha testato i modelli anche su un database di parlato emozionale, scoprendo che, pur senza un addestramento specifico, l’intelligenza artificiale era in grado di cogliere tratti emotivi come la rabbia, la tristezza o la calma. Un risultato sorprendente, che potrebbe spalancare le porte a una versione di Siri più empatica, attenta al tono e capace di modulare la risposta in base all’umore dell’utente. Insomma: un assistente vocale che capisce non solo cosa gli dite, ma anche come vi sentite mentre lo fate.