Cos'è un modello fondativo?
Un modello fondativo è una particolare tipologia di modello di machine learning (ML) che viene addestrato per eseguire una specifica gamma di attività.
Fino a poco tempo fa, i sistemi di intelligenza artificiale (IA) erano strumenti specializzati. Ciò significa che un modello di ML veniva addestrato solo per un'applicazione specifica o un determinato scenario di utilizzo. Il termine modello fondativo è entrato a far parte del lessico comune quando alcuni esperti hanno notato le due tendenze nell'ambito del machine learning indicate di seguito.
- Per eseguire una vasta gamma di attività venivano utilizzate solo poche architetture di deep learning.
- Un modello di IA è in grado di fornire concetti che non erano previsti all'inizio del suo addestramento.
I modelli fondativi, perciò, sono stati programmati per avere una comprensione contestuale generica di andamenti, strutture e rappresentazioni. Questa conoscenza di base della comunicazione e dei diversi schemi e andamenti può essere ulteriormente affinata per eseguire attività specifiche per un dominio in qualsiasi settore.
Come funzionano i modelli fondativi?
Le caratteristiche che definiscono i modelli fondativi e che ne consentono il funzionamento sono due: la capacità di trasferire le informazioni apprese e la scalabilità. La capacità di trasferire le informazioni apprese indica l'abilità di un modello di applicare le conoscenze in una situazione a un'altra e di costituire una sorta di esperienza interna.
La scalabilità invece si riferisce a dei componenti hardware, le unità di elaborazione grafica (GPU), che consentono al modello di eseguire più operazioni allo stesso tempo, ossia di effettuare un'elaborazione in parallelo. Le GPU sono un elemento chiave dell'addestramento e della distribuzione dei modelli di deep learning, compresi i modelli fondativi, perché consentono di elaborare dati ed eseguire calcoli statistici complessi rapidamente.
Deep learning e modelli fondativi
Molti modelli fondativi, specialmente quelli impiegati nell'elaborazione del linguaggio naturale (NLP), nella visione artificiale e nell'elaborazione audio, vengono addestrati utilizzando il deep learning. La tecnologia deep learning sostiene molti (ma non tutti) modelli fondativi ed è stato l'elemento principale che ha contribuito a molti progressi in questo ambito. Il deep learning è anche noto come apprendimento neurale profondo o reti neurali profonde e insegna ai computer a imparare tramite l'osservazione, simulando le modalità di acquisizione delle conoscenze tipiche degli esseri umani
Trasformatori e modelli fondativi
Per quanto non tutti i modelli fondativi utilizzino trasformatori, queste architetture sono state adottate in maniera diffusa per realizzare modelli fondativi che prevedevano la presenza di testo (come ad esempio ChatGPT, BERT e DALL-E 2). I trasformatori migliorano le capacità dei modelli di ML poiché consentono di cogliere relazioni e dipendenze contestuali fra diversi elementi compresi in una sequenza di dati. Inoltre, essendo tipi di reti neurali artificiali (ANN) impiegati nei modelli NLP, non vengono in genere utilizzati per modelli di ML dedicati alla visione artificiale o all'elaborazione vocale.
Scenari di utilizzo per i modelli fondativi
Dopo l'addestramento, il modello fondativo utilizza la conoscenza acquisita dall'enorme pool di dati da cui è stato costituito per supportare la risoluzione dei problemi, capacità che offre vantaggi notevoli alle organizzazioni sotto diversi aspetti. Di seguito un elenco di alcune delle attività generiche svolte da un modello fondativo.
Elaborazione del linguaggio naturale (NLP)
Grazie alla sua capacità di riconoscere contesti, regole grammaticali e strutture linguistiche, un modello fondativo addestrato in ambito NLP è in grado di generare informazioni precise dai dati con cui è stato alimentato. Un ulteriore affinamento di queste capacità consente di associare ai testi analizzati un preciso sentiment (che sia positivo, negativo o neutro) in modo che si possano analizzare in modo costruttivo e produttivo messaggi scritti, come feedback dei clienti, recensioni online o post sui social. L'elaborazione del linguaggio naturale è un ambito ampio, che comprende lo sviluppo e l'applicazione di modelli linguistici di grandi dimensioni (LLM).
Visione artificiale
Quando il modello è in grado di riconoscere forme e caratteristiche di base, può iniziare a identificare anche schemi e motivi precisi. I modelli sviluppati per questo particolare utilizzo, quando affinati, sono in grado di moderare automaticamente i contenuti ed eseguire attività legate al riconoscimento facciale e alla classificazione delle immagini. Partendo dagli schemi e dagli andamenti appresi in precedenza, sono inoltre in grado di generare nuove immagini.
Elaborazione audio/Riconoscimento vocale
Un modello addestrato al riconoscimento fonetico è in grado di estrapolare il significato delle parole pronunciate, per offrire una comunicazione più inclusiva. Assistenti virtuali, supporto multilingue, comandi vocali e funzionalità come quelle che consentono la trascrizione del parlato promuovono sia l'accessibilità che la produttività.
Un'ulteriore ottimizzazione consente di progettare sistemi di machine learning maggiormente specializzati, capaci di soddisfare le esigenze specifiche del settore di riferimento, ad esempio il riconoscimento delle frodi per le istituzioni finanziarie, il sequenziamento del DNA per il settore medico, chatbot per l'assistenza clienti e molto altro.
Esegui la valutazione di AI/ML
Perché i modelli fondativi sono vantaggiosi per le organizzazioni?
I modelli fondativi offrono alle organizzazioni accessibilità e un livello di sofisticazione che sarebbero altrimenti irraggiungibili. Adottando e basandosi sui modelli fondativi le aziende possono superare problemi comuni come quelli indicati di seguito.
Accesso limitato a dati di qualità: i dati su cui si basano sono migliori e più numerosi di quelli a cui si ha solitamente accesso.
Precisione/Performance del modello: offrono un'accuratezza di base che in autonomia si raggiungerebbe in mesi, se non in anni.
Time to value: l'addestramento di un modello di ML richiede tempo e risorse, mentre i modelli fondativi offrono una serie di funzionalità generali, personalizzabili in base alle esigenze specifiche.
Mancanza di talenti: si può approfittare di AI/ML senza dover investire sensibilmente in risorse di data science.
Gestione complessa delle spese: non serve hardware costoso per l'addestramento iniziale. Seppure sia necessario investire nell'ottimizzazione e nella distribuzione del modello finale, questo costituisce solo una minima parte del costo che sarebbe servito per addestrare il modello fondativo da zero.
Quali sono alcune delle sfide dell'adozione dei modelli fondativi?
I modelli fondativi possono certamente essere utilizzati in molti modi utili e innovativi, ma presentano anche una serie di sfide che è bene tenere presenti.
Costi
Sono necessarie molte risorse per sviluppare, addestrare e distribuire sistemi di questo tipo. L'addestramento iniziale richiede un'enorme quantità di dati generici, consuma centinaia di migliaia di GPU e spesso richiede un gruppo dedicato di ingegneri e data scientist esperti in machine learning.
Interpretabilità
In questo ambito, si parla di "scatola nera" quando un programma di IA esegue un'attività all'interno della propria rete neurale, senza renderne chiaro il processo di elaborazione. Ciò porta a uno scenario in cui nessuno, nemmeno i data scientist e gli ingegneri che hanno creato l'algoritmo, è in grado di spiegare esattamente in che modo il modello è arrivato a uno specifico risultato. L'incapacità di interpretare queste scatole nere può causare conseguenze dannose quando vengono impiegate per processi decisionali che comportano rischi elevati, soprattutto in settori quali quello dell'assistenza sanitaria, della giustizia penale e finanziario. Questo effetto si rileva in qualsiasi modello basato su una rete neurale, non solo sui modelli fondativi.
Privacy e sicurezza
Per funzionare, i modelli fondativi devono avere accesso a molte informazioni che spesso includono i dati personali del cliente o dati aziendali proprietari. Si tratta di un aspetto di cui tenere particolarmente conto se il modello che si intende utilizzare è accessibile a un provider di terze parti.
Precisione e bias
Se un modello di deep learning è addestrato a partire da dati contenenti distorsioni in termini statistici o che non forniscono una rappresentazione veritiera della popolazione, il risultato può essere inattendibile. I bias umani esistenti purtroppo vengono spesso trasferiti all'intelligenza artificiale, con il conseguente rischio di algoritmi discriminatori e risultati pregiudiziosi. Per le aziende che usufruiscono dell'IA per migliorare produttività e prestazioni, è quindi essenziale che siano attuate strategie che riducano i bias. Per farlo, sono necessari innanzitutto processi di progettazione inclusivi e una maggiore attenzione alla diversità di rappresentazione all'interno dei dati raccolti.
Il ruolo di Red Hat
Quando si parla di modelli fondativi, Red Hat si impegna a fornire un'infrastruttura per i carichi di lavoro alla base che include l'ambiente adatto all'addestramento, l'adattamento, l'ottimizzazione e l'utilizzo dei modelli.
Leader tra le piattaforme di sviluppo di container ibridi e multicloud, Red Hat® OpenShift® agevola la collaborazione tra data scientist e sviluppatori di software. Distribuisce più rapidamente applicazioni intelligenti in ambienti di cloud ibrido, tra cui data center, edge e multicloud.
Grazie a Red Hat OpenShift Data Science, le organizzazioni hanno accesso a risorse per sviluppare, addestrare, testare e distribuire rapidamente i modelli di ML containerizzati senza dover progettare e adottare un'infrastruttura Kubernetes.
Red Hat OpenShift AI è garanzia di scalabilità per l'addestramento di modelli fondativi con funzionalità di accelerazione delle GPU native di OpenShift, on premise o tramite un servizio cloud. OpenShift AI utilizza inoltre tecnologie come IBM watsonx e Ansible® Lightspeed.
Ansible Lightspeed with IBM Watson Code Assistant è un servizio di intelligenza artificiale generativa, che permette agli sviluppatori di creare contenuti Ansible in modo più efficiente. Agli sviluppatori basta inserire la richiesta di un'attività in inglese e Ansible Lightspeed interagisce con i modelli fondativi di IBM watsonx per generare il codice da utilizzare per la creazione di Ansible Playbook. Installa Ansible Automation Platform on Red Hat OpenShift per rendere meno laboriose le attività di Kubernetes mediante automazione e agenti di orchestrazione.