AI training: Come, dove e quanto…

Ogni cosa é diventata intelligente e anche i frigoriferi sembrano avere cervello oltre che stomaco… Ma come si fa ad avere del software “pensante” e quali sono i modi per allenarlo? E quali sono i costi del training AI? Partiamo dai dataset.

Importanza dei dataset
Costi e risorse
Potenza necessaria
GPU vs CPU
Applicazioni pratiche

L’importanza dei dataset nel training delle AI

Il training di un’AI non è un compito facile. Non è diverso dall’addestrare un nuovo tirocinante: hai bisogno di strutture di riferimento, risorse e, soprattutto, di molte informazioni da assimilare. Nel mondo dell’IA, queste informazioni arrivano sotto forma di dataset. Senza un bel dataset, niente intelligenza. Qui iniziano quelli che sono i costi impliciti o nascosti. I dataset necessari non sono altro che dati precedentemente archiviati. Questo vuol dire che l’energia e il tempo necessari per averli e conservarli sono già stati spesi da qualcuno.

Come vengono selezionati i dataset per il training dell’AI

La selezione dei dataset giusti è fondamentale nel processo di addestramento dell’AI. Questi dataset rappresentano il terreno di formazione su cui l’AI impara a riconoscere schemi e a fare previsioni. Spesso sono selezionati in base alla specificità del problema che l’AI è progettata per risolvere, garantendo che le informazioni contenute siano le più rilevanti possibile.

Per capire meglio, facciamo alcuni esempi.

Il dataset “ImageNet“, ad esempio, è molto popolare nel campo dell’Intelligenza Artificiale per riconoscimento visivo. Questo dataset contiene oltre 14 milioni di immagini categorizzate in circa 20.000 classi diverse, occupando svariate centinaia di gigabyte.
Un altro esempio potrebbe essere il dataset “OpenAI GPT-2“, utilizzato per l’addestramento di modelli di linguaggio. Questo dataset, pesante 40GB, comprende un insieme di testi provenienti da varie fonti su Internet.
Infine, il dataset “Common Crawl” è uno dei più grandi dataset al mondo per l’analisi del linguaggio naturale, con oltre 20 terabyte di dati testuali provenienti da vari siti web.

Le sfide dell’addestramento delle AI: costi e risorse

Come già detto, il costo di un training AI si misura partendo dalla creazione dei dataset. Praticamente abbiamo a che fare con anni e anni di dati raccolti da milioni di utenti su server costantemente in funzione. Quasi impossibile da calcolare. Non bisogna quindi pensare che il trainig dell’AI sia solo costoso al momento di somministrare il materiale al software. Le principali sfide infatti includono i costi elevati delle risorse di calcolo e la necessità di dataset di alta qualità e varietà. Vale a dire, di vecchia data.

E non dimentichiamo il grande investimento di tempo necessario.

I tempi necessari per l’AI training

Il tempo necessario per addestrare un’intelligenza artificiale può variare notevolmente in base alla complessità dei compiti che deve svolgere, alla dimensione del dataset usato e alla potenza del computer utilizzato. Per un algoritmo semplice, l’addestramento può richiedere solo qualche ora. Tuttavia, per i sistemi di intelligenza artificiale più avanzati, come quelli utilizzati in ambito medico o per la guida autonoma, l’addestramento può richiedere settimane, mesi o perfino anni.

E comunque il training dell’AI è un processo iterativo. Ciò significa che l’intelligenza artificiale continua a imparare e a migliorare mano a mano che processa più dati.

La potenza di calcolo necessaria per il training AI

La potenza di calcolo richiesta per addestrare le intelligenze artificiali é qualcosa di veramente impressionante. L’addestramento delle AI infatti, richiede una quantità massiccia e costante di cicli di apprendimento. Ma entriamo nel dettaglio…

Per essere concreti, facciamo subito un esempio pratico:

Aziende come Hugging Face hanno dichiarato che la loro AI, che genera testi, consuma durante l’addestramento, una quantità di energia pari a quella di 40 case (americane) in un anno, ovvero circa 433 megawattora (MWh).

La Scalabilità della Potenza di Calcolo

Il training richiede dunque una potenza di calcolo mai vista prima e questa deve anche essere facilmente scalabile per potersi adattare alle diverse esigenze. All’inizio, infatti, è possibile iniziare ad addestrare un modello di AI utilizzando la potenza di un normale computer. Man mano che l’AI si addestra e si sviluppa, la potenza di calcolo necessaria aumenta in modo esponenziale.

GPU vs CPU: una questione di efficienza

Qui entriamo in un territorio più tecnico. Di solito, per l’addestramento delle AI si utilizzano e GPU (Graphic Processing Units) piuttosto che le CPU (Central Processing Units) più comunemente utilizzate nei computer tradizionali.

La ragione è abbastanza semplice: le GPU sono progettate per gestire calcoli paralleli, il che significa che sono in grado di gestire molteplici attività contemporaneamente. Questa capacità le rende ideali per il complesso lavoro di calcolo richiesto per l’addestramento delle IA.

Pensa alla GPU come a un team di lavoratori che collaborano per terminare un lavoro enorme. Al contrario, la CPU è come un singolo lavoratore estremamente veloce. Se hai un grosso lavoro da fare, un team di lavoratori può completarlo molto più velocemente del lavoratore singolo, non importa quanto sia veloce.

Le applicazioni pratiche dell’addestramento delle intelligenze artificiali

Più una AI è addestrata, più sarà in grado di assolvere compiti complessi e precisi. Vediamo alcuni esempi.

Assistenti di scrittura e AI detector

I primi a utilizzare AI addestrate con i testi sono stati ChatGPT & .Co. In sostanza é già abbastanza facile eseguire un training AI efficiente per avere poi un software che aiuta a scrivere, per esempio. E dopo questo primo passo sono nati anche molti tool per umanizzare un testo AI. Questo perché non sempre i risultati erano perfetti. Di seguito, visto che grazie ai numerosi generatori di testo (ChatGPT, Reword, Contents o Quillbot) i freelancer e gli scrittori che prima si occupavano di scrivere, hanno cominciato a barare e sono nati così anche gli AI detector, come Undetectable, usati ora sia da Amazon e Google, sia da chi commissiona testi per articoli e libri.

Umanizzare un testo scritto dall’AI

La telediagnosi medica

Un’altra area in cui l’addestramento delle AI sta facendo grandi passi avanti è la medicina. Grazie a dataset costituiti da migliaia di immagini mediche annotate, le AI possono ora identificare una vasta gamma di condizioni mediche. Per esempio, possono rilevare tumori al seno nelle mammografie o macchie sospette negli esami della pelle. Veramente una buona soluzione.

Veicoli autonomi

Anche l’industria dei trasporti beneficia dell’addestramento delle AI. Veicoli autonomi, come le auto senza pilota, e ora anche gli eVTOL, utilizzano algoritmi di intelligenza artificiale per apprendere come muoversi in modo sicuro e efficiente. Questi algoritmi necessitano di enormi quantità di dati per essere addestrati, come ad esempio video, mappe in 3D e dati sui modelli di traffico.

Personal Assistant e Chatbot

Infine, anche gli assistenti virtuali e i chatbot si avvalgono dell’addestramento AI. Queste applicazioni possono apprendere dai dati raccolti durante interazioni precedenti, per comprendere meglio le domande degli utenti e fornire risposte più accurate.

Recentemente una compagnia israeliana ha progettato un bot che parla al telefono, usando anche gli intercalare tipicamente umani. Si occupa ovviamente di vendere e prestare assistenza ai clienti.