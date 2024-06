C’è un Gpt che parla e pensa in italiano, senza tradurre i testi dall’inglese. È la rivoluzione firmata da iGenius, l’azienda italiana deep-tech che sviluppa tecnologie di AI, fondata da Uljan Sharka. Il nuovo progetto si chiama "Italia", un modello di linguaggio di grandi dimensioni addestrato con fonti native in italiano, rilasciato Open Source con licenza Mit.

"L’Intelligenza Artificiale generativa – spiegano a iGenius – è una rivoluzione sociale, prima ancora che tecnologica. Grazie al suo Dna umanistico, l’Italia ha l’opportunità di promuovere un Rinascimento Digitale, che può dare vita a un nuovo modo di realizzare soluzioni di AI, dove le persone sono al centro".

"Italia" è un modello di linguaggio sviluppato in conformità con le normative europee sull’Intelligenza Artificiale. È stato pensato per aiutare le aziende nell’adozione dell’Intelligenza Artificiale generativa in settori altamente regolamentati, come i servizi finanziari, l’industria e la Pubblica Amministrazione. L’addestramento di "Italia" continuerà anche dopo questo primo rilascio: iGenius sta lavorando a nuove versioni che siano più potenti, accurate e versatili, e a una versione multilingua.

La prima versione di "Italia" è stato sviluppata in 5 mesi dai membri del team iGenius, che dal 2016 lavora nell’ambito dei modelli di linguaggio, ed è stato addestrata sul supercomputer Leonardo, una delle infrastrutture di calcolo più potenti al mondo, gestita dal Consorzio Interuniversitario Cineca. iGenius, inoltre, ha collaborato con Editoriale Nazionale, società del gruppo Monrif che edita le testate Qn, Il Resto del Carlino, La Nazione, Il Giorno e Luce!, per utilizzare l’archivio storico di articoli di stampa come fonte integrativa. La collaborazione proseguirà con l’addestramento delle future versioni di "Italia", per estendere il livello di conoscenza generale del modello.

"Il modello “Italia” – dice Uljan Sharka – è stato addestrato da zero in italiano su oltre mille miliardi di parole, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti da partner commerciali selezionati di iGenius. Per garantire l’integrità etica dei contenuti generati dal modello, sono stati sviluppati dei filtri di sicurezza specifici per la lingua italiana, pensati per rimuovere contenuti sensibili, espliciti e ad alto potenziale di bias, nonché per limitare al massimo l’esposizione di contenuti coperti da copyright".