"La lingua universale nasce in Rete". BabelNet, il dizionario del sapere

Il progetto creato da Roberto Navigli: web semantico in 272 idiomi

La torre di Babele di Bruegel e, nel riquadro, Roberto Navigli

La torre di Babele di Bruegel e, nel riquadro, Roberto Navigli

Roma, 3 dicembre 2015 - Progetto più ambizioso non c’è: creare un dizionario enciclopedico multilingue, un archivio dinamico delle conoscenze umane organizzato per concetti, più che per parole. Si chiama BabelNet ed è uno strumento che va oltre l’umano, perché è utilizzabile anche dall’intelligenza artificiale, cioè i computer e i robot del futuro, anzi del presente, visto che non stiamo parlando del futuribile ma di un progetto in corso, che racchiude già nel nome il traguardo che insegue. Babel, come la mitica torre della Bibbia, quella che pretendeva di raggiungere il cielo e costò all’umanità la perdita della lingua universale. Net come rete, perché BabelNet si propone, come dice il suo creatore, il professor Roberto Navigli, di "rimettere insieme quei pezzi che causano l’incomprensione fra chi parla le diverse lingue". L’idea, più o meno, è quella di classificare il sapere in milioni di concetti e di associare a ogni concetto le parole-chiave di riferimento, il tutto tradotto in centinaia di lingue diverse. Il risultato è già online (babelnet.org) e sembra al profano un’evoluzione di Google, ma si propone obiettivi ulteriori, rispetto a quelli del motore di ricerca che ha rivoluzionato il modo di vivere dentro la Rete: ad esempio agevolare le traduzioni di testi, le ricerche testuali senza confini linguistici, lo sviluppo di robot e “assistenti” tecnologici. Roberto Navigli insegna al Dipartimento di Informatica della Sapienza e ha creato BabelNet come vincitore di un progetto europeo ERC Starting Grant, che viene assegnato alle idee individuali più originali: si tratta di 1,3 milioni di euro da spendere in cinque anni. 

Professore, per creare il “dizionario universale” non basterebbe fare copia e incolla dai dizionari delle diverse lingue? "Ci vorrebbe un lavoro immane di chissà quanti lessicografi. E non basterebbe, perché ogni dizionario può prevedere per ciascuna parola sfumature diverse di significati nelle varie lingue. Se l’obiettivo è la traducibilità totale, bisogna lavorare sui concetti, altrimenti succede come coi traduttori automatici: tu metti, in inglese, “the mouse ate the cheese” e lui traduce “il mouse ha mangiato il formaggio”".

Perché con BabelNet non succede? "Perché noi creiamo attorno a ogni significato di una parola una mappa concettuale della conoscenza espressa in tutte le lingue, cioè forniamo al computer non solo gli strumenti per capire le singole parole ma anche la possibilità di correlare fra loro i possibili significati. L’associazione di mouse con il verbo mangiare permette a BabelNet di scegliere il significato giusto, cioè topo, e non mouse. E questo nelle 272 lingue disponibili".

Che significa organizzare per concetti? "Facciamo un esempio. Il concetto di automobile. Può essere espresso anche con auto, macchina, vettura, parole che in un dizionario tradizionale sono voci distinte. In inglese avremo car, motocar, automobile. Se va su BalbelNet vede che un’unica voce racchiude le traduzioni in tutte le lingue fornendo le connessioni ad altri concetti".

Si vede una specie di sistema planetario a forma di cono rovesciato con 'automobile' nel punto più profondo e 'ruota' e 'combustione interna' come satelliti che girano intorno. Chi fa questo lavoro di associazione? "Un algoritmo, che in pratica sostituisce i lessicografi e attinge anche da siti “collaborativi” come Wikipedia, Wiktionary e altre piattaforme. C’è naturalmente un problema: l’ambiguità delle parole. BabelNet crea una rete di conoscenze, che è alla base di un potente sistema di disambiguazione, Babelfy, che lavora sui concetti, riducendo l’ambiguità del testo. È un sistema che cerca di imitare il lavoro della nostra mente: dal contesto della frase, siamo sempre in grado di cogliere qual è l’accezione giusta di ogni singola parola". 

Metto su babelfy.org la frase 'Parigi saluta i morti del 13 novembre - Hollande: uccidere è tradire Dio'. "Come vede a ogni parola è associata una definizione e un’immagine. Parigi è anche un film, ma viene scelto il significato di città. Salutare ha varie accezioni: qui si sceglie il saluto d’onore, grazie all’associazione con la parola morti...»

C’è un errore su tradire, dice: 'essere infedele al coniuge'. "Sì, il sistema non è perfetto, diciamo che riesce a fare la scelta giusta nell’85% dei casi".

Come intervenite per rimediare a questi errori? "Con BabelTag, un gioco sviluppato insieme ai miei studenti del corso di laurea in Informatica qui alla Sapienza: una serie di schemi logici che consentono di ridurre gli errori in modo efficace e divertente. Diciamo che ho applicato la “gamification” al mio stesso corso di programmazione. Senza gioco, servirebbe un esercito di lessicografi di cui nessuno dispone".

Qual è la forza del sistema BabelNet-Babelfy? "È l’idea del web semantico, con la traducibilità totale in molte lingue e l’associazione delle parole ai concetti e dei concetti alle immagini. Si può avere di fronte una lingua di cui nemmeno si riconoscono i caratteri e capire di che cosa si sta parlando".

 Tutta la conoscenza è attinta dalla Rete, non si crea così uno squilibrio in funzione di ciò che prevale in Rete e delle lingue più diffuse? "Sì, uno squilibrio può esserci e BabelNet funziona meglio nelle lingue più presenti, come tutti i sistemi del genere. Però ha il vantaggio di non essere 'supervisionato', cioè non è addestrato su esempi in un dominio - la politica, l’economia, l’informatica e così via - come avviene in genere per i sistemi di traduzione e riduzione dell’ambiguità. In questo modo ha un uso più ampio e richiede meno lavoro di implementazione".

A che serve BabelNet? "Naturalmente può essere usato da chiunque in Rete per le proprie ricerche e traduzioni. Quanto alle applicazioni pratiche e commerciali, per ora ci basiamo sulle proposte e le idee che enti e aziende ci stanno prospettando dopo avere assistito ai nostri seminari. Quindi, ad esempio, il supporto ai traduttori, in modo da migliorare tempi e qualità del lavoro. O il confronto semantico di testi disponibili in lingue diverse, come ci è stato chiesto da un’agenzia di brevetti interessata a interpellare banche dati internazionali. O ancora: chiunque debba utilizzare sistemi di indicizzazione avanzati. C’è un grande potenziale anche nelle attività di intelligence".

Che ruolo ha l’intelligenza artificiale? "Fondamentale. Pensiamo alla robotica e alla comunicazione con le macchine: il famoso sistema di “question/answering“ Watson della IBM, capace di rispondere a tutte le domande possibili poste in una lingua umana, è tanto più preciso quanto più è precisa la comprensione della domanda, superando le molte possibili ambiguità... BabelNet può giocare un ruolo chiave".

Quale è il futuro di BabelNet? "Il progetto è quasi concluso. L’obiettivo più ambizioso che stiamo portando avanti consiste nell’uso di reti neurali per classificare automaticamente immagini con concetti. In questi cinque anni hanno lavorato con me circa venti giovani ricercatori. Il nostro sforzo è stato riconosciuto quest’anno con il premio internazionale Meta per il miglior prodotto di linguistica computazionale. Lo sviluppo di BabelNet ora è nelle mani della startup che stiamo creando".