Vai al contenuto

La rivoluzione dei dati sintetici nel mondo dell’intelligenza artificiale

Capgemini
Oct 23, 2024
capgemini-engineering

Esploriamo il crescente utilizzo dei dati sintetici nell’intelligenza artificiale, evidenziando i loro vantaggi, applicazioni e il futuro mercato.

Il boom dell’intelligenza artificiale (AI) nell’ultimo decennio, in particolare a partire dal 2023, con la diffusione di massa di modelli come Chat GPT, Microsoft Copilot e Google Gemini, ha favorito un’enorme spinta nell’investimento di tecnologie Gen AI based. Secondo il report “Embracing a brighter future: Investment priorities for 2024” del Capgemini Research Institute, molte organizzazioni riconoscono il potenziale dell’AI come strumento per promuovere l’innovazione, la produttività e la crescita dei ricavi. Quasi 9 organizzazioni su 10 prevedono di utilizzare l’intelligenza artificiale generativa entro i prossimi 12-18 mesi. Tale previsione è confermata anche dagli analisti di Gartner, secondo cui entro il 2026 oltre l’80% delle aziende si avvarrà modelli di AI generativa.

Disporre di un ampio bacino di dati di alta qualità per l’addestramento e il test dei modelli di intelligenza artificiale è un fattore di grande importanza in questo contesto di corsa all’innovazione tecnologica. Tuttavia, raccogliere i dati necessari può essere costoso, dispendioso in termini di tempo, presentare problematiche legali, etiche o di privacy. In alcuni casi, i dati potrebbero essere perfino impossibili da acquisire. Ed è qui che entrano in gioco i dati sintetici (in inglese, synthetic data).

Come il nome stesso suggerisce, si tratta di dati generati artificialmente tramite simulazioni e algoritmi, anziché essere raccolti da osservazioni o misurazioni nel mondo reale. I dati sintetici possono quindi essere progettati per replicare specifici scenari e considerare una vasta gamma di variabili: sono quindi estremamente utili per il miglioramento delle prestazioni dell’AI.

I vantaggi dei dati sintetici: i 5 fattori che li rendono utili

I dati sintetici offrono numerosi benefici rispetto ai dati reali.

  1. I dati sintetici fanno fronte alla carenza di dati: in molti ambiti i dati reali sono scarsi o difficili da ottenere, come nel caso di quelli legati a eventi rari o casi limite come anomalie di produzione o situazioni pericolose. I dataset sintetici possono essere creati ad hoc per fornire dati realistici che vanno a colmare queste lacune, migliorando notevolmente l’efficacia degli algoritmi di AI nel riconoscerli.
  2.  I dati sintetici eliminano i bias: i dati reali spesso mancano di variabilità e possono contenere intrinsecamente alcuni pregiudizi (bias): ad esempio, dati raccolti soltanto in specifiche zone del mondo potrebbero contenere bias geografici o culturali. I dati sintetici, al contrario, non sono soggetti a queste limitazioni: combinando migliaia di variazioni contestuali, risultano più equilibrati e rappresentativi di tutti i possibili scenari, migliorando così l’affidabilità e la robustezza dei modelli.
  3. I dati sintetici rispettano la privacy: uno dei vantaggi più significativi è che sono dati completamente nuovi e creati artificialmente, quindi non soggetti al rischio di esporre informazioni sensibili. I dataset sintetici permettono di addestrare i modelli in modo efficace senza compromettere la privacy di alcun individuo e senza dover ricorrere a tecniche di anonimizzazione.
  4. I dati sintetici producono un vantaggio economico: creare dati tramite simulazioni è spesso molto più rapido ed economico rispetto alla raccolta e annotazione manuale di dati reali. Disporre di enormi quantità di dati in tempi brevi riduce i costi e accelera i processi di sviluppo e innovazione.
  5. I dati sintetici sono versatili e riutilizzabili: un generatore di dati è in grado di produrre milioni di combinazioni con la possibilità di modificare qualche parametro per introdurre ulteriore variabilità nel dataset. Inoltre, in caso di simulazioni in ambiente virtuale, a partire da un unico generatore, è possibile simulare una moltitudine di sensori diversi di acquisizione come telecamere, lidar, radar, etc. Infine, lo scenario realizzato può essere utilizzato parallelamente per ulteriori scopi al di là della generazione di dati sintetici, come digital twin o applicazioni XR in real-time.

Come vengono prodotti i dati sintetici?

Gli approcci più diffusi per la generazione di dati sintetici possono essere raggruppati in tre tipologie: simulazioni in ambienti virtuali, modelli di AI generativa e modelli AI basati su distribuzioni statistiche. La scelta della tecnologia migliore per una determinata applicazione dipende dall’ambito di utilizzo, dal tipo di dati sintetici da produrre e dal grado di accuratezza desiderato. Ciò che accomuna tutti questi approcci è la capacità di produrre risultati realistici e significativi.

Motori grafici 3D come Unity, Nvidia Omniverse e Unreal Engine consentono di creare ambienti virtuali 3D molto realistici nei quali è possibile simulare scenari specifici con un elevato livello di dettaglio. Questi software offrono un ambiente di sviluppo flessibile e potente e risultano ideali per una vasta gamma di applicazioni: permettono di controllare ogni aspetto della simulazione, a partire dagli oggetti presenti nella scena, fino alle condizioni di illuminazione e meteorologiche. È perfino possibile simulare eventuali acquisizioni erronee che possono capitare in situazioni reali come occlusioni parziali della visuale o difetti dei sensori di acquisizione.

Questa metodologia permette di creare dati sintetici altamente personalizzati, realistici e robusti, che includono sia dati visivi che dati ausiliari contenenti un’elevata quantità di informazioni. È in grado di replicare scenari complessi e specifici con un alto grado di controllo e affidabilità, requisiti particolarmente ricercati per esempio in ambito manifatturiero.

La Generative Adversarial Networks (GAN)

Le GAN sono modelli AI generativi che coinvolgono due reti neurali: una generativa e una discriminativa. La rete generativa crea nuovi dati a partire da una distribuzione casuale, mentre la rete discriminativa cerca di distinguere tra dati reali e dati generati. Questo processo di competizione continua porta a produrre dati sintetici sempre più realistici. Le GAN sono particolarmente efficaci per generare immagini, video e altri dati visivi complessi.

Le GAN offrono meno controllo sulle condizioni della simulazione e sulle possibilità di personalizzazione e i loro output dipendono molto dai dati reali forniti in partenza. Sono versatili, creative ed efficienti, in grado di generare dati visivi di alta qualità, e quindi scenari realistici complessi (ad esempio situazioni di guida).

Variational Autoencoder (VAE)

Al pari delle GAN, i VAE sono una classe di modelli generativi e sono composti da due reti neurali: un encoder e un decoder. Tuttavia, a differenza dalle GAN, apprendono una rappresentazione della distribuzione probabilistica dei dati che poi usano per generare nuovi campioni. Questo approccio permette di creare dati che mantengono le caratteristiche statistiche fondamentali dei dati originali.

I VAE sono particolarmente utili per generare dati simili tra loro contenenti piccole variazioni, oppure tipologie di dati sintetici in modo controllato, compresi immagini, testi e dati strutturati.

Dati sintetici: casi di studio

L’addestramento di Autonomous Things

L’industria automobilistica e quella robotica beneficiano enormemente dei dati sintetici per l’addestramento e la validazione di apparecchi a guida autonoma, siano essi robot, veicoli o droni. In ambito automotive le simulazioni possono creare una vasta gamma di scenari di guida prevedendo condizioni stradali e meteorologiche diverse, interazioni con altri veicoli e pedoni. Nel caso della robotica, le simulazioni possono includere ambienti di lavoro complessi, interazioni con oggetti e persone, pericolosi incidenti sul lavoro, imprevisti o malfunzionamenti della linea produttiva, navigazione in spazi ristretti o affollati.

Queste simulazioni avanzate permettono di superare le limitazioni dei dati raccolti in ambienti reali, che possono essere incompleti, costosi o troppo pericolosi da ottenere, permettendo ai sistemi autonomi di apprendere e adattarsi anche a situazioni difficilmente replicabili, migliorando la loro capacità di operare in modo sicuro ed efficiente.

Un’azienda automobilistica potrebbe utilizzare dati sintetici per creare milioni di scenari di guida in una città virtuale. Questi scenari includerebbero condizioni di luce variabile, traffico intenso e comportamenti imprevisti dei pedoni. Potrebbe anche acquisire dati provenienti da diversi sensori da installare nel veicolo. Addestrando i veicoli autonomi con questi dati, l’azienda può garantire che i propri algoritmi siano preparati per affrontare anche le situazioni più impreviste.

La quality assurance nella catena produttiva

Nel settore manifatturiero i dati sintetici possono essere utilizzati per addestrare modelli di AI nel rilevamento dei difetti nei prodotti. Creare dataset di difetti rari e variabili può essere difficile e dispendioso con dati reali, ma i dati sintetici possono facilmente simulare questi difetti e produrre milioni di questi dati, migliorando l’accuratezza dei modelli di rilevamento.

Un produttore di elettronica potrebbe generare dati sintetici di schede circuitali con vari tipi di difetti, ad esempio errori nel posizionamento, componenti danneggiate o mancanti. Queste informazioni vengono utilizzate per addestrare un modello di intelligenza artificiale che può rilevare rapidamente e con precisione i difetti durante il processo di produzione, migliorando la qualità del prodotto finale.

Ricerca medica e privacy

La privacy dei pazienti è una delle principali preoccupazioni del settore sanitario nell’utilizzo dei dati, la cui condivisione rischia di sollevare enormi problemi di conformità con le normative. Inoltre, spesso i dataset sanitari sono limitati in termini di varietà e volume, soprattutto per le malattie rare o condizioni poco comuni.

Pertanto, l’utilizzo di dati sintetici è fondamentale per facilitare la condivisione dei dati tra ricercatori e istituzioni senza compromettere la privacy dei pazienti. Inoltre ci permette di disporre di un ampio bacino di dati in grado di sviluppare e affinare nuove tecniche e tecnologie, tra cui nuovi dispositivi medici e modelli di intelligenza artificiale.

Rilevazione di frodi

I dati sintetici offrono vantaggi significativi anche nel settore finanziario, in particolare per la rilevazione delle frodi, la gestione del rischio e l’innovazione dei servizi. Anche in questo ambito garantire la privacy e la conformità normativa sono priorità assolute, che rendono difficile l’utilizzo dei dati reali.

Una banca potrebbe utilizzare dati sintetici per simulare transazioni fraudolente e addestrare modelli di intelligenza artificiale a riconoscerne gli schemi, migliorando così l’efficacia dei sistemi di monitoraggio. Inoltre, questi dati possono accelerare lo sviluppo di nuovi prodotti finanziari, permettendo test rapidi e sicuri senza comportare rischi reali.

Trend e potenziale economico dei dati sintetici

I dati sintetici sono in grado di offrire un supporto che si sta rivelando sempre più importante per l’addestramento e la validazione delle AI. E vista la crescente popolarità di queste ultime, anche l’utilizzo di questi dati ha visto una crescita significativa negli ultimi anni. Al tempo stesso, aumenta il numero di aziende propense a investire nella produzione per sopperire alla crescente necessità di dati.

Non a caso, secondo una previsione di Gartner, già entro la fine del 2024, il 60% dei dati utilizzati per lo sviluppo di progetti di intelligenza artificiale e di analisi sarà generato sinteticamente.

La crescente popolarità dei dati sintetici è evidente anche dall’aumento delle ricerche sul web effettuate sul tema, confermando un sempre maggiore interesse sull’argomento a livello globale.

Questo andamento di espansione del mercato dei dati sintetici sarebbe confermato anche dalla previsione di Gartner secondo cui entro il 2026, il 75% delle aziende utilizzerà l’intelligenza artificiale generativa per creare dati sintetici. Sotto questa spinta positiva, il mercato potrebbe crescere dai 300 milioni di dollari nel 2023 a 2,1 miliardi di dollari entro il 2028, con un tasso annuale composto (CAGR) del 45.7% . In conclusione, i dati sintetici stanno rivoluzionando il panorama dell’intelligenza artificiale, offrendo soluzioni innovative per affrontare le sfide legate alla raccolta dei dati reali, migliorando la qualità, la privacy e l’efficienza dei modelli AI, e aprendo nuove opportunità di sviluppo e applicazione in vari settori industriali.