Italia: Il nostro primo Foundational Large Language Model

iGenius
June 6, 2024
·
3 minuti

Siamo entusiasti di annunciare Italia, il nostro Foundational Large Language Model 100% open source, realizzato in collaborazione con Cineca.

Grazie a questa partnership, abbiamo avuto la possibilità di gestire l’addestramento e il fine-tuning del nostro modello su larga scala con migliaia di GPU, utilizzando il supercomputer Leonardo, una delle infrastrutture di calcolo più avanzate e performanti al mondo.

Il primo modello della nostra serie è Italia 9B, un Foundational LLM con un’architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token.

Italia: un modello preciso, potente e sicuro

Italia 9B è stato addestrato da zero in italiano su migliaia di miliardi di token, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti dai nostri partner commerciali. Addestrato esclusivamente in italiano, senza traduzioni dall’inglese, Italia 9B è in grado di comprendere tutte le sfumature linguistiche e culturali italiane con una precisione senza precedenti.

Abbiamo, inoltre, creato una collaborazione con Editoriale Nazionale, società del gruppo Monrif, per utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il nostro modello.

Grazie a questo prezioso patrimonio di contenuti, saremo in grado di estendere ulteriormente la conoscenza di Italia, arrivando a coprire decenni di storia nazionale e internazionale. Abbiamo intenzione di utilizzare i contenuti ottenuti grazie a questa partnership nelle future versioni di Italia, puntando ad estendere sia il livello di conoscenza generale che le capacità conversazionali del modello.

Per costruire il nostro dataset di addestramento e garantire l'integrità etica dei contenuti generati, abbiamo sviluppato dei filtri di sicurezza specifici per la lingua italiana. Questi filtri rimuovono contenuti sensibili, espliciti e ad alto potenziale di bias dalle nostre sorgenti selezionate.

Questi meccanismi di protezione, uniti all’adozione di tecniche di Data Cleaning all’avanguardia, ci hanno permesso di mitigare l’occorrenza di bias, nonché di limitare le allucinazioni e la generazione di contenuti incoerenti con la conversazione.

La sicurezza dei dati e l'affidabilità delle informazioni sono da sempre una priorità per iGenius. Abbiamo investito nella costruzione di un dataset in italiano di altissima qualità per sviluppare un modello di linguaggio realmente aperto, trasparente e sicuro, in conformità con le normative europee sull’intelligenza artificiale come l’AI Act.

Dal 2016 abbiamo una missione: umanizzare i dati e democratizzare la conoscenza aziendale, rivoluzionando il paradigma storico dell’AI da data-centric a people-centric.

La scelta di sviluppare un modello di linguaggio open source è in perfetta armonia con questo obiettivo, dandoci allo stesso tempo la possibilità di incrementare i livelli di trasparenza, fiducia e sicurezza nei confronti dell’AI da parte delle persone e delle aziende che decidono di adottarla.

Italia: un modello pensato per le aziende

Italia è stato pensato per le aziende che operano in settori altamente regolamentati, come i servizi finanziari o la pubblica amministrazione.

Già nella sua prima versione, si presenta come un LLM unico nel suo genere: nonostante sia un modello a singola specializzazione linguistica, l’elevato numero di parametri unito alla qualità del processo di addestramento, lo rendono la scelta ideale per i casi d’uso più critici del mondo enterprise, dove l’affidabilità dei contenuti generati è di fondamentale importanza.

Come suggerisce il nome, Italia è dotato di un’ottima capacità di formulazione linguistica in italiano. Non si tratta solo del vocabolario o della struttura delle frasi, ma anche della conoscenza culturale e storica del paese. Questo è essenziale per applicazioni che richiedono una padronanza avanzata della lingua italiana.

Oltre ad una spiccata capacità conversazionale, Italia si distingue per l’efficienza con cui è in grado di elaborare le parole italiane.

Grazie ad un Tokenizer proprietario, realizzato da zero dal team iGenius appositamente per questo modello, Italia è in grado di processare e generare token in italiano con performance equivalenti ad un incremento del 60% della sua finestra di contesto.

Tutto questo si traduce in maniera diretta in una notevole efficienza dei costi e delle risorse necessarie per servire il modello, nonché delle sue performance computazionali, entrambe caratteristiche fondamentali per una soluzione di intelligenza artificiale in ambito enterprise.

Crediamo che i modelli di linguaggio specializzati in una singola lingua, come Italia, non possano essere valutati utilizzando sistemi di benchmark incentrati su domande generaliste e, soprattutto, costruiti per l’ecosistema anglofono.

Per questo, stiamo lavorando con istituti italiani di primo livello per sviluppare un sistema di benchmark imparziale, pensato per la valutazione di modelli nativi italiani, che non sia limitato ad argomenti di conoscenza generale, ma contenga riferimenti a casi d’uso reali del mondo aziendale.

Unicorn: come portare l'AI nella tua azienda

Crediamo che Italia sia il primo passo verso un Rinascimento Digitale, che darà vita a un nuovo modo di realizzare soluzioni di intelligenza artificiale, dove sono le persone ad essere al centro e non la tecnologia.

Abbiamo sviluppato e addestrato Italia con una particolare attenzione a ciò di cui le imprese e i professionisti hanno realmente bisogno per integrare l'Intelligenza Artificiale nelle loro attività in modo efficace.

In iGenius, crediamo che ogni organizzazione debba adottare l'AI con soluzioni su misura per i propri bisogni specifici e non attraverso approcci generalisti, mantenendo allo stesso tempo il controllo sui propri dati privati.

Dal 2016, lavoriamo con le aziende per adattare l’intelligenza artificiale alle loro esigenze, partendo sempre dalle reali necessità dei singoli individui, e non dai loro dati.

Lo abbiamo fatto con Crystal, il nostro prodotto di Decision Intelligence per le aziende, che ci ha permesso di comprendere appieno quali siano i problemi che impediscono alle organizzazioni di adottare l’AI in contesti operativi critici e ad alta priorità.

È per questo che abbiamo deciso di dare vita a Unicorn, una nuova linea di business che ha l’obiettivo di supportare le organizzazioni pubbliche e private nell’adozione dell’AI e dei Large Language Model, attraverso la realizzazione di soluzioni su misura per i loro problemi.

Combinando da un lato le capacità di ragionamento di modelli come Italia e dall’altro l’affidabilità dei dati e della conoscenza aziendale, siamo in grado di realizzare delle soluzioni di AI efficaci, sicure e scalabili, in linea con gli standard di qualità dei settori altamente regolamentati.

Per raggiungere questo obiettivo, collaboriamo con partner e system integrator di primo livello, in modo da garantire un’integrazione ottimale delle nostre tecnologie nelle infrastrutture esistenti delle aziende, assicurando supporto continuo e una personalizzazione accurata delle soluzioni.

Questo ci permette di affrontare con massima attenzione le specifiche sfide di ciascun cliente, migliorare l'efficienza operativa e accelerare l'innovazione, mantenendo al contempo elevati livelli di sicurezza e conformità normativa.

Italia è il frutto di un lungo e approfondito lavoro di ricerca e sviluppo, rappresentando solo l’inizio del nostro viaggio nell’innovazione dell’AI.

Stiamo già sviluppando nuove versioni del modello, inclusa una versione multi-lingua che sarà presto disponibile.

Vuoi scaricare Italia 3B? Vai su Hugging Face.

Per rimanere aggiornati sulle novità di Italia e iGenius, iscrivetevi alla nostra Newsletter.

Il Rinascimento Digitale è appena iniziato.

Leggi qui il nostro comunicato stampa ufficiale.

0,55 0,43 0,42 Italia 3B Instruct - v0.1 ARC ITA, 5-shot ITA, 5-shot MMLU ITA, 5-shot HellaSwag
0,38 0,25 Italia 3B Instruct - v0.1 MC2, ITA, 0 shot TruthfulQA MC1, ITA, 0 shot TruthfulQA
0,71 0,42 44,98 Italia 3B Instruct - v0.1 ITA, 0-shot LAMBADA ITA, 0-shot, acc LAMBADA ITA, 0-shot, perplexity XCOPA
Siamo entusiasti di annunciare Italia, il nostro Foundational Large Language Model 100% open source, realizzato da iGenius in collaborazione con Cineca.
Leggi l'articolo
Share this post
en