TL;DR

Il dogma per le aziende AI è che più dati portano a prestazioni migliori, ma in realtà la scala dei dati non è tutto ciò di cui hai bisogno. Dati di alta qualità producono prestazioni migliori rispetto a un dataset più grande di bassa qualità. Produrre dati di alta qualità richiede il filtraggio del rumore, la comprensione dei dati non etichettati e la comprensione di cosa etichettare. Anche l'etichettatura massiva dei dati da parte di piattaforme di annotazione è problematica poiché i loro incentivi sono spesso disallineati e la loro piattaforma è un collo di bottiglia che richiede tempo, è soggetta a errori e costosa. Il modo migliore per migliorare i sistemi AI è comprendere i dati che alimentano i modelli rappresentando intelligentemente i dataset in modo interattivo utilizzando l'apprendimento di rappresentazione auto-supervisionato, la modellazione fondazionale e il filtraggio. Queste pratiche prevengono il rischio di prestazioni scadenti nei sistemi AI e il rischio di generare output dannosi.

Meno è Meglio

La scala dei dati non è tutto ciò di cui hai bisogno. Aumentare ciecamente la dimensione di un dataset durante il pretraining di un modello mette le aziende AI-first a rischio di commettere errori gravi. Addestrare modelli su grandi dataset con una distribuzione sconosciuta porta a comportamenti inaspettati: nella robotica questo potrebbe portare a traiettorie erronee e pericolose, per un'azienda sanitaria a valutazioni del rischio imprecise, e per gli LLM alla generazione di linguaggio dannoso {9}. Su X, Grok ha commesso questo errore, generando linguaggio dannoso nel post ora eliminato mostrato nella Figura 0a. Anche il CEO di xAI ha ammesso che devono essere più "selettivi riguardo ai dati di addestramento, piuttosto che addestrare semplicemente sull'intera internet". Ma come si selezionano correttamente i dati per addestrare e valutare adeguatamente questi modelli? Quali strumenti ci sono là fuori?

La soluzione è rappresentare intelligentemente i dati in una forma interattiva e sufficientemente diversificata semanticamente. Questo approccio aiuta a: 1. creare dataset di addestramento e valutazione sia per il pretraining che per il post-training, 2. identificare lacune nei dati e 3. fare raccomandazioni su come colmare tali lacune (sia acquistando che raccogliendo).

Figure 0a: Examples of an LLM generating harmful speech likely due to existence of similar text in the training data the xAI team used to train Grok.

Figure 0b: Reaction from the xAI CEO after Grok generated harmful speech. The interesting piece is the teams focus on being selective of the training data. Original post from the Grok CEO https://x.com/elonmusk/status/1944132781745090819

Data Flywheels {10} e aziende di annotazione

Nel settore, la maggior parte dei CEO di aziende AI, ricercatori AI e ingegneri sono insoddisfatti delle moderne aziende di annotazione che si integrano nei loro data flywheels.

L'attuale soluzione di riferimento per le aziende AI è accumulare un grande dataset non etichettato per il pretraining (o utilizzare un modello pretrained opensource), quindi etichettare un altro grande dataset specifico per il compito previsto, e infine curare manualmente un training set e un eval set. L'etichettatura è tipicamente esternalizzata ad aziende di annotazione (ScaleAI, SuperAnnotate, Labelbox, ecc.) che si integrano nel data engine. Ma etichettare tutto in un grande dataset non funziona bene perché scalare l'etichettatura dei dati a milioni o miliardi di esempi è soggetto a errori, insostenibilmente costoso e richiede tempo lasciando le aziende AI insoddisfatte. Più importante ancora, il ciclo di etichettatura è un processo senza fine poiché i data flywheels si adattano continuamente a modelli in evoluzione e a più dati raccolti rendendo i requisiti di etichettatura fluidi e mutevoli nel tempo; le aziende di annotazione non riescono a tenere il passo con la velocità dei cambiamenti poiché gli aggiornamenti del modello possono avvenire in settimane mentre l'etichettatura può richiedere mesi.

Il moderno ciclo di etichettatura in un data engine è:

Raccogliere alcuni dati.
Progettare o aggiornare alcune specifiche di etichettatura.
Inviare i dati e le specifiche a qualche azienda di etichettatura (Scale, SuperAnnotate, ecc.). Pagare per l'etichettatura.
Iterare con l'azienda di etichettatura e addestrare il modello.
Osservare i risultati e poi ripetere i passaggi 2-5 indefinitamente.

Ad esempio, un'azienda di guida autonoma potrebbe voler etichettare i segnali di stop ma poi dopo aver etichettato 1 milione di segnali di stop e aver visto i risultati si rendono conto di voler etichettare la "visibilità" del segnale di stop, poi si rendono conto di voler anche etichettare gli alberi che potrebbero circondare i segnali di stop aggiungendo un'etichetta "oscurato". Ora tutti i dati (che sono anche cresciuti nel frattempo poiché le raccolte di dati sono continue) devono essere rietichettati! Il ciclo non finirà mai finché un'azienda sta migliorando il proprio modello!

Meta che spende 14,3 miliardi per una quota del 49% per assumere il CEO di Scale.AI [11] potrebbe essere una delle mosse più rischiose che l'azienda abbia mai fatto a causa di queste difficoltà con le aziende di etichettatura.

Quindi, se addestrare ciecamente su enormi dataset è problematico, e etichettare tutto è difficile, cos'altro dovremmo fare? Dopo aver lavorato su questo problema negli ultimi quattro anni, abbiamo scoperto che la soluzione migliore è rappresentare i dati abbastanza bene da rendere più facile selezionare e comprendere cosa c'è nei nostri dati e come quei dati influenzano i nostri modelli. Dovremmo essere in grado di chattare con i nostri dati in un modo che ci permetta di cercare rapidamente esempi e costruire rapidamente set di valutazione per testare i modelli.

Questo è ciò che stiamo costruendo presso Interpret AI. Stiamo costruendo una piattaforma di introspezione dei dati, una piattaforma di cura dei dati e un marketplace intelligente di dati che consente alle aziende che costruiscono sistemi AI di interagire e comprendere i loro dataset. Immaginiamo un mondo in cui puoi chattare con i tuoi dati usando linguaggio naturale, audio, immagini e video per cercare istanze simili in modo che le aziende possano fidarsi e conoscere i loro dati (o le lacune nei loro dati) che alimentano i loro modelli. (Se qualcosa di tutto ciò risuona con te, sentiti libero di contattarci a ily@interpretai.tech)

Scala ciò che è probabilmente utile per primo

Data flywheels tradizionali

Figure 1a: The traditional data engine powering AI solutions in companies.

Un'azienda ha un'infrastruttura che raccoglie costantemente dati in un dataset (1b). Un team crea quindi sottoinsiemi di dati euristici che si spera, una volta etichettati, miglioreranno il loro modello (1a).
I dati vengono inviati all'azienda di etichettatura (annotazione). L'azienda di etichettatura produce etichette (annotazioni) che vengono poi riviste dal team, il che può richiedere mesi di scambi per convergere.
Il modello AI pretrained viene quindi pretrained.
Il modello pretrained viene quindi fine-tuned utilizzando le etichette dell'azienda di etichettatura.
Il modello finale viene valutato utilizzando il sistema di valutazione dell'azienda, generando metriche.
L'azienda utilizza quindi questo feedback per selezionare eventualmente altri sottoinsiemi di dati, aggiornare i requisiti di etichettatura e/o apportare modifiche al modello. Si noti che a questo punto il sottoinsieme del dataset sta già diventando obsoleto.

Nota: Le metriche possono essere distorte da annotazioni scadenti richiedendo iterazioni costanti da parte del team che sono sia costose che inefficienti in termini di tempo (6).

Figure 1b: A breakdown of the time requirements for different processes in a traditional company’s approach to solutions. Notice that the major bottleneck is getting labels from a labeling company.

Figura 1b: I vincoli temporali e la configurazione del sistema AI di un'azienda tradizionale con tempistiche approssimative per iterare ciascuno di questi elementi indipendentemente. Si noti che con un'azienda di etichettatura nel ciclo, ci vorranno mesi di iterazione per generare etichette che migliorino adeguatamente un modello AI.Vedi Figura 1a per come ciascuno di questi elementi interagisce con un'azienda tradizionale.

Data flywheel di Interpret AI:

Inizia a Conoscere con approfondimenti profondi sui dati

Figure 2a: Interpret’s AI data flywheel & how we provide immediate data insights.

Figura 2a: Data flywheel di Interpret AI.

Raccomandazioni immediate sui sottoinsiemi di dati e suggerimenti di dati migliorati per pretraining e training (1a e 1b rispettivamente).
Il team ora rivede sottoinsiemi di dati significativamente più piccoli suggeriti da Interpret prima di inviarli a un'azienda di etichettatura. Questi sottoinsiemi di dati sono fluidi e vengono continuamente aggiornati man mano che i dati cambiano (Opzionalmente, se un'azienda integra il proprio modello baseline, Interpret AI può fornire maggiori approfondimenti su come i dati influenzano le prestazioni del modello).
Gli scambi con un'azienda di etichettatura vengono accelerati da mesi a settimane ed è significativamente più economico poiché le specifiche di annotazione e la selezione del dataset sono chiare.

Il feedback è focalizzato sul modello (6).
Infine, Interpret AI analizza il tuo spazio dati per fornire approfondimenti su quali dati raccogliere o acquistare per accelerare il miglioramento del modello.

Figure 2b: A breakdown of the time requirements for different processes in using Interpret’s platform. On the left hand side feedback iteration speed in green is accelerated. Notice there is no more bottleneck.

Figura 2b: La figura dimostra come Interpret AI si integra direttamente con i nostri clienti per accelerare l'addestramento del modello, il triage e la comprensione dei dati e la valutazione. Interpret AI fornisce soluzioni per

Comprendere la distribuzione dei dati esistenti.
Identificare le lacune del modello che sono correlate alle lacune dei dati.
Acquistare e curare dati per colmare le lacune dei dati.

Casi d'uso

Collaboriamo con diverse aziende nei settori della robotica, della sanità e degli LLM agentici. Se qualcosa di tutto ciò risuona con te, sentiti libero di contattarci a ily@interpretai.tech

Sanità

HealthCo sta cercando di prevedere il rischio di malattie cardiovascolari per i loro pazienti.

Per l'addestramento

Interpret AI analizza i dati cardiovascolari utilizzando i nostri modelli fondazionali interpret, elaborando EHR, immagini, potenzialmente dati ECG [12] se disponibili.
Interpret AI nota anomalie o "buchi" in HealthCo e descrive la demografia di queste persone (es. donne, di mezza età, senza figli, storicamente prescritte trimetazidina).
Questi record rilevati vengono ulteriormente analizzati da esperti. I dati selezionati possono quindi essere aggiornati, ignorati, utilizzati per aiutare ad acquistare più dati di persone storicamente prescritte trimetazidina, o inviati a un'azienda di etichettatura per annotare questo gruppo specifico.
I dati selezionati vengono quindi utilizzati per addestrare il modello AI di malattie cardiovascolari. Se HealthCo integra il proprio modello cardiovascolare nella piattaforma Interpret, analizziamo ulteriormente dove il modello sta performando male in tempo reale, consentendo un'introspezione immediata.
Questo processo riduce la timeline di addestramento del modello da un ordine di mesi a settimane migliorando rapidamente i sistemi AI e risparmiando costi!

Per la sicurezza

Supponiamo che HealthCo abbia esempi di persone che hanno subito attacchi cardiaci e vogliano analizzare altri EHR di persone simili a questa persona che potrebbero anche essere a rischio

Utilizzando Interpret AI, HealthCo può selezionare esempi di questa persona e cercare un pool correlato di persone, ordinando per confidenza.
Queste persone possono essere contrassegnate come a rischio, identificando rapidamente alcune centinaia di persone a rischio da milioni di record!

Robotica

DriveCo sta costruendo auto da corsa autonome come giocattolo per bambini da usare all'aperto.

Per l'addestramento

Interpret AI analizza le corse raccolte dei dati video delle auto da corsa. Interpret AI fornisce un report sui dati.
Interpret AI nota che la maggior parte dei replay dai video non sono geograficamente diversificati e che ci sono pochi esempi di auto da corsa che guidano all'aperto nei cortili.
Interpret AI raccomanda al team DriveCo di raccogliere più esempi di video all'aperto. Cerchiamo anche di bilanciare il dataset in modo appreso utilizzando il nostro modello fondazionale Interpret AI per alleviare questo squilibrio.
- Senza Interpret AI, DriveCo avrebbe potuto inviare oltre 1000 ore di dati di auto da corsa per etichettare oggetti che non erano necessari! Ora devono etichettare solo 10 ore!

Per la sicurezza

Supponiamo che queste auto da corsa autonome affrontino controlli per la sicurezza dei neonati.

DriveCo può cercare nel proprio database video contenenti "bambino" per vedere se hanno questi dati.
Se DriveCo non ha i dati, questo informa il team di raccoglierli (usando forse bambini finti spero) o questo consente a DriveCo di mostrare ai consumatori e agli investitori che il prodotto è infatti sicuro intorno ai bambini!

Come siamo arrivati qui

Una breve storia sulle etichette e il pretraining

Nel 2015, pre-Transformers, la maggior parte dei modelli era addestrata per risolvere un sottoinsieme molto particolare di problemi: classificazione, segmentazione, rilevamento di oggetti (cioè problemi fondazionali) e altri [1]. I benchmark erano dataset etichettati "abbastanza grandi" nell'ordine di 10k a 1M. {1}

Il pretraining moderno è entrato in scena intorno al 2017 e ha cambiato il gioco. Prendendo in prestito dall'apprendimento di rappresentazione, il pretraining è arrivato come un cambiamento di paradigma fondamentale dove improvvisamente i dataset non etichettati hanno sbloccato enormi guadagni nelle prestazioni del modello. I dataset non etichettati utilizzati per il pretraining rispetto ai loro fratelli etichettati eranomassicci [5]. Questo combinato con altre tecniche e progressi {2} ha portato a modelli fondazionali moderni come CLIP [13], DALL-E [14], DINOv2 [15] e BERT [16] per citarne alcuni.

Poi OpenAI, costruita su una base di transformers, pretraining e progressi nell'apprendimento per rinforzo, ha cambiato il gioco quando hanno rilasciato GPT (generative pre-trained transformer) [6]. Sora [7], DeepSeek [8], Anthropic [9] utilizzano tutti il pretraining su grandi dataset come spina dorsale per i loro modelli performanti. Ma nascosta lì c'è un'osservazione acuta di cui la maggior parte delle persone non sta parlando.

Mentre il pretraining è un buon primo passo, la maggior parte di questi modelli necessita di ulteriore addestramento sopra una base pretrained. Che si tratti di RL o supervised finetuning, i modelli più performanti sono allineati {3} in qualche modo al problema originale. Ma anche il finetuning scala fino a un certo punto, il che significa che migliorare il pretraining è essenziale per le prestazioni future del modello {4}.

Uno degli esempi più convincenti di come integrare correttamente il pretraining e costruire un data flywheel nella letteratura è il labeled data flywheel costruito da Meta in Segment Anything Model (SAM) e SAM v2 [10]. Ma anche in questo esempio, l'etichettatura dei dati è incredibilmente difficile da scalare.

Segment Anything: le innovazioni e il messaggio

TL;DR: Ciò che SAM ci mostra è che l'assicurazione della qualità e la comprensione di cosa c'è nei nostri dati è difficile ma un problema importanteda affrontare. Aggiungere più dati non è necessariamente la risposta.

SAM ha costruito un data flywheel che ha curato un grande dataset etichettato utilizzando un SAM parzialmente addestrato in varie fasi di addestramento con feedback di etichette umane. Il loro approccio illustra il modo corretto di integrare l'etichettatura in una pipeline ma evidenzia anche che anche il giusto data flywheel di etichettatura dei dati è costoso e difficile da scalare. A un certo punto, il dataset cresce sufficientemente grande dove gli umani non possono annotare tutto e quindi richiede qualche altro metodo di introspezione (cioè ciò che Interpret sta costruendo).

Approssimativamente, l'approccio di SAM era [10]

Iniziare con un ViT gerarchico pretrained MAE.
Addestrare SAM su dataset di segmentazione disponibili pubblicamente.
Utilizzare il SAM parzialmente addestrato per generare maschere di segmentazione su un sottoinsieme di dati.
Far raffinare agli umani le previsioni di segmentazione. Quindi utilizzare anche le maschere per addestrare un rilevatore di oggetti per trovare più oggetti e far etichettare agli umani quello.
Ripetere i passaggi 3-4 aumentando gradualmente la dimensione del dataset.
Finire eseguendo su 1 miliardo di immagini per ottenere SA-1B. Utilizzare un team QA per contrassegnare esempi potenzialmente cattivi. Si noti che fornire etichette umane a tutte le 1 miliardo di immagini è incredibilmente difficile.

L'idea è la stessa per SAM 2 che è un modello di segmentazione video, che ha generato il dataset SA-V con 35,5 milioni di maschere su 50,9K video, 53 volte più maschere di qualsiasi dataset di segmentazione video [10].

Si noti, il miglior modello di segmentazione è stato addestrato con dati direttamente correlati al suo compito dove il feedback delle etichette era tutto ben accoppiato in un data flywheel veloce ed efficiente. Il pretraining e poi l'addestramento con una raccolta di dataset di segmentazione open source erano solo il primo e il secondo passo.

Si noti anche che l'etichettatura umana alla fine ha raggiunto un limite; quando il data flywheel ha iniziato a etichettare 1 miliardo di immagini Meta aveva ancora bisogno di eseguire un filtro QA per contrassegnare esempi cattivi. Basandosi sul paper, annotare tutte le 1,1 miliardi di maschere avrebbe richiesto 51k giorni di tempo di annotazione! {5}

Stiamo parlando di Meta ma assumere quello per la maggior parte delle aziende sarebbe egregiamente costoso e irrealizzabile! {6} Etichettare a questa scala è semplicemente difficile!

Reiterando il TL;DR, ciò che SAM ci mostra è che l'assicurazione della qualità e la comprensione di cosa c'è nei nostri dati è difficile ma un problema importante da affrontare. Questo è fondamentalmente il divario che vediamo nel settore oggi: più dati utilizzati per il pretraining o il finetuning non sono necessariamente la risposta. L'approccio giusto identifica dove un modello soffre, comprende perché soffre lì, e poi evidenzia i dati (o le lacune dei dati) rilevanti per il problema, che è ciò che stiamo facendo presso Interpret AI.

Gli obiettivi delle aziende di annotazione non sono necessariamente allineati con i tuoi...

Abbiamo esperienza nel settore in MAANG e il nostro team ha esperienza lavorando con aziende di annotazione come Scale, SuperAnnotate, ecc. Per la maggior parte delle aziende di etichettatura (annotazione), il modello di business è:

Lasciare che le aziende generino le proprie specifiche di etichettatura (annotazione) con forse qualche scambio a seconda della complessità delle etichette.
La maggior parte delle aziende di annotazione ha diversi livelli di annotatori, il pool più grande essendo non esperti che etichettano tutto e il più piccolo essendo esperti nel campo (cioè Dottori). Un'azienda di annotazione quindi raduna un pool di etichettatori umani, tipicamente iniziando con quelli più economici per fare un primo passaggio di bassa qualità.
Gli annotatori quindi etichettano secondo le complesse specifiche di annotazione dell'azienda al meglio delle loro capacità, addebitando per annotazione.
Fornire feedback e aggiornamenti alle annotazioni, possibilmente aggiornando le specifiche di annotazione.

Ci sono quattro problemi principali con questo processo:

le annotazioni non sono coerenti e di solito non sono assegnate agli etichettatori giusti,
l'etichettatura richiede tempo ed è costosa,
il ciclo di feedback per correggere le annotazioni è erroneo, e
le specifiche di annotazione cambiano nel tempo man mano che le prestazioni del modello cambiano.

Affrontando 1., gli etichettatori non sono garantiti di essere adatti al loro compito di etichettatura assegnato e spesso etichettano diversamente dai loro colleghi. Ad esempio, per un'azienda sanitaria se il compito è "Scegli la risposta clinica che diagnostica meglio il paziente" questi etichettatori potrebbero non essere nemmeno dottori adatti al compito! Inoltre, per un'azienda di guida autonoma se il compito è "Disegna bounding box per i segnali di stop" questo include il palo o no? E se è il lato posteriore di un segnale di stop? Diversi annotatori etichetteranno diversamente senza consultarsi tra loro.

Affrontando 2., addebitare per annotazione suona bene in teoria poiché il dogma convenzionale è che più etichette aiutano ma se e solo se l'azienda può permettersi il costo di un numero sufficiente di etichette per aumentare le prestazioni del modello; un numero che è tipicamente sconosciuto. Queste annotazioni avranno anche tipicamente errori che richiedono alle aziende AI di costruire sistemi interni che rivedono le annotazioni il che richiede sia tempo (ordine di mesi) che più denaro.

Affrontando 3., Il ciclo di feedback non è coerente neanche. Tipicamente la responsabilità della verifica delle annotazioni è spinta all'azienda AI, che deve configurare il proprio sistema di monitoraggio interno (già dispendioso in termini di tempo e costoso). Quando un'azienda AI nota un problema di annotazione, le correzioni non sono garantite di provenire dallo stesso annotatore che ha creato l'etichetta problematica e a volte le aziende di annotazione rietichettano l'intero esempio problematico invece di correggerlo il che costa di più. Ad esempio, un'azienda di guida autonoma potrebbe voler etichettare maschere di istanza di semafori e persone. In questo esempio fittizio, il primo annotatore commette un errore e dimentica di etichettare i semafori non rivolti verso la telecamera. L'azienda AI lo contrassegna e lo invia per essere riesaminato ma il modo in cui l'azienda di annotazione lo risolve è inviando l'immagine a un nuovo annotatore che rietichetta tutto da zero! Il secondo annotatore risolve il problema originale ma non etichetta i poliziotti come "persone" e ora emerge un nuovo problema! Vedi Figura 3a e Figura 3b. Questo ciclo ha una probabilità incredibilmente bassa di annotare correttamente gli oggetti correttamente ~61% per 50 etichette {7}.

Figure 3a: First pass by the first annotator who missed the traffic lights that are not facing the camera. (Image from Waymo Open Dataset [17])

Figure 3b: Second pass from the second annotator who got all the traffic lights but didn’t realize that the “people” class included police officers! (Image from Waymo Open Dataset [17])

Essenzialmente, con questo sistema di feedback le etichette che un'azienda di annotazione crea non sono garantite di convergere alle etichette giuste!

Gli incentivi delle aziende AI non sono ben allineati con quelli delle aziende di etichettatura. Le aziende AI vogliono migliorare il loro modello AI e il loro prodotto mentre le aziende di annotazione vogliono etichettare quanti più dati aziendali possibile in modo da poter addebitare per esso.Tu vuoi rendere il tuo modello performante e così dovrebbero le aziende di annotazione.

Affrontando 4., Nel settore (e nella ricerca), quando si cerca di risolvere un problema, ci sono molte possibili soluzioni. Forse il pretraining sull'intera internet migliorerà il tuo LLM, o forse ancorare un LLM addestrando su coppie testo-immagini etichettate aiuterà con il ragionamento LLM, o forse aggiungere chain of thought aiuterà. In altre parole, quando progettiamo sistemi AI dobbiamo provare molte cose diverse in parallelo poiché a volte non è chiaro quale sarà l'approccio migliore. L'etichettatura è una soluzione, il che significa che man mano che comprendiamo meglio il nostro problema la definizione dell'etichetta è soggetta a cambiamenti.

Ad esempio, prendiamo l'etichettatura dei segnali di stop nella guida autonoma; supponiamo che prima etichettiamo i segnali di stop. Notiamo che le prestazioni migliorano quando sappiamo se un segnale di stop è parzialmente ostruito, quindi aggiorniamo le specifiche di annotazione per aggiungere un tag di metadati chiamato "ostruito" più tardi quando il segnale è parzialmente o non visibile. Torniamo quindi a un'azienda di annotazione e chiediamo loro di rietichettare tutti i nostri segnali di stop con questo! Questa "piattaforma di annotazione nel ciclo" significa che ogni esperimento del modello che aggiorna il dataset etichettato è super costoso!

Quindi, ci si potrebbe chiedere, perché i fornitori di etichettatura vengono utilizzati affatto? Per due ragioni: Primo, etichette di alta qualità sui dati aiutano come discusso in precedenza. Infatti, meno dati con etichette di qualità superiore possono superare alcuni di questi grandi modelli pretrained; SAM è un eccellente esempio. Secondo, l'alternativa a non utilizzare un'azienda di annotazione è creare una piattaforma di annotazione interna che è ancora più costosa e richiede tempo, poiché produrre lo stesso volume di etichette degli altri attori può richiedere anni!

Conclusione

Il data flywheel ottimale rappresenta i dati in una forma che è intrinsecamente perspicace e interattiva: dovremmo essere in grado di rilevare anomalie e anche chattare con i nostri dati per raccogliere modelli e approfondimenti interessanti. Questo flywheel dovrebbe migliorare le piattaforme di annotazione concentrandosi su cosa dovrebbe essere etichettato invece di etichettare tutto {8}. E infine, questo data flywheel dovrebbe allinearsi con le prestazioni del modello, legandosi direttamente a qualsiasi problema che la tua azienda AI sta risolvendo.

Il dogma tradizionale è che più dati "funzionano e basta" e a volte il deep learning sembra alchimia. Forse più dati funzioneranno per te nel breve termine ma quando le cose "semplicemente non funzionano" il modo corretto è valutare il fallimento sia nei dati che nel modello e lavorare da lì.

Presso Interpret speriamo di cambiare il paradigma. Se sei interessato, contattaci a ily@interpretai.tech

Footnotes

Back when AlexNet was still a thing circa 2015ish most models for computer vision were trained on a subset of very particular problem types: classification, segmentation, object detection (ie foundation problems) and others like image captioning, scene recognition, pose estimation (see appendix for more details)[1]. Note this was pre “Attention is all you need” when bigrams were a-la-mode. The focus then was model development while benchmarks remained fixed. These benchmarks were “largish” labeled datasets (order of 10k to 1M) that were used to evaluate model performance. Some of the popular CV benchmarks you’re probably familiar with are MNIST, ImageNet, MS COCO, KITTI, Caltech-101 [2]. If you look the largest labeled datasets around this time they were around 1M labels, and that was considered large at the time.
Modern pretraining entered the chat around 2017 and changed the game. Borrowing from representation learning, pretraining came as a fundamental paradigm shift from learning features for only a specific labeled dataset to learning general features on unlabeled data that correlated well with other problems like classification, segmentation, object detection. These datasets compared to their labeled brethern were massive [5]. At the same time, advancements in model training (CUDA optimization which is why NVIDIA hit a 4T market cap), deep learning libraries (tensorflow, pytroch), and new / improved model architectures like Transformers from “Attention Is All You Need” opened up a brand new world. Researchers also noticed that increasing the size of models typically correlated with improved performance on unseen data (from the same data distribution). All of this combined interfaced with modern pretraining algorithms like pretext tasks, contrastive learning, masked label modeling, masked autoencoding (MAE) multimodal modeling [4] unlocking the era of training big models on even massive unlabeled datasets. Ergo, models like CLIP [13], DALL-E [14], DINOv2 [15], BERT [16].
”Alignment” is an overused term I mean alignment in both the “we want our LLM to be helpful not harmful” sense and the “data distribution alignment” sense.
When training / fine-tuning a model, scaling model size correlates with improvement in performance roughly following a power law. In industry, we’re already hitting the peak for model size scaling laws and fine-tuning is giving less and less of an advantage. The next frontier is improving pretraining method to better utilize existing unlabeled datasets.
In the SAM paper, annotations could take 30 seconds (but suppose it took 4 seconds based on the improvements from SAM v2 [10]); reviewing 1.1B masks would’ve required 1,100,000,000 * 4 seconds = ~51,000 days of annotation time!
This is also assuming that the data distribution is stationary (unchanging). If we wanted to increase the labels to a different data distribution (say deep sea diving videos where the semantics & dynamics of objects is different) then finetuning SAM would still require the same data flywheel training process which is also more time and more money.
Suppose that each object has a probability of being mislabeled p=0.01 (ie an annotator labels incorrectly or misses a label once every 100 labels). Assuming 50 objects in a video the probability of succeeding assuming independence is (1 - p)^50 = 61% chance of success! And that’s conservative.
Fundamentally, when AI companies have better clarity on what to label their incentives align with annotation companies.
More and more it is clear very few samples (e.g. thousands) of very high quality data is way better than million of low quality data - this is particularly true in post-traning of LLMs in industry but it is starting to be the focus also of pre-training.
A data flywheel is the loop used to collect data, improve the model, which makes a better product, which then modifies what data to collect and the cycle repeats (for example this image from dataloop.ai https://dataloop.ai/book/the-data-flywheel-effect/). A data engine is the infra for collecting/labeling/evaluating data (for example Scale’s product https://scale.com/data-engine).

Special Thanks

Cameron Tukerman-Lee (also credit for the title)
Gabriele Sorrento
Francesco Pongetti
Lotfi Herzi

Appendix

[1] A more extensive list of popular 2015 foundational problems across different domains so sortof pre multi-modal.
- Computer vision
  - classification
  - segmentation
  - object detection
  - image captioning
  - scene recognition
  - pose estimation
  - Optical Flow Estimation
  - Depth Estimation
  - Face recognition
  - Pose estimation
  - Visual tracking
  - Style transfer
  - Image generation
- Natural Language Processing
  - Machine translation
  - Part of speech tagging
  - Question answering
- Speech Processing
  - Speech recognition
  - Speaker identification
  - Emotion classification
- Time series
- Reinforcement Learning
[2] Popular datasets separated by domain around 2015 Classification: Segmentation: Object Detection: Other Tasks: Depth Estimation: Optical Flow: Pose Estimation: Face Recognition: Video/Action Recognition: Attributes/Multi-label: Reinforcement Learning: Can think of dataset size as number of rollouts.
- ImageNet (ILSVRC 2017) - 1.2M training, 1000 classes - https://www.image-net.org/challenges/LSVRC/2017/index.php
- CIFAR-10/100 - 60K (32x32), 10/100 classes - https://www.cs.toronto.edu/~kriz/cifar.html
- MNIST - 70K handwritten digits - https://www.kaggle.com/datasets/hojjatk/mnist-dataset
- Fashion-MNIST - 70K fashion items - https://github.com/zalandoresearch/fashion-mnist
- SVHN - 600K real world house numbers 10 classes for each digit - http://ufldl.stanford.edu/housenumbers/
- Caltech-101/256 - 9K/30K images 101/256 categories - https://data.caltech.edu/records/mzrjq-6wc02, https://data.caltech.edu/records/nyy15-4j048
- Oxford Flowers 102 - 102 categories - https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Oxford-IIIT Pets - 7.4K images, 37 pet breeds - https://www.robots.ox.ac.uk/~vgg/data/pets/
- Stanford Cars - 16K images, 196 car models - https://www.kaggle.com/datasets/eduardo4jesus/stanford-cars-dataset
- FGVC Aircraft - 10.2K images, 100 aircraft variants - https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/
- Food-101 - 101 food categories - https://www.kaggle.com/datasets/dansbecker/food-101
- CUB-200-2011 - 12K bird images, 200 species - https://www.vision.caltech.edu/datasets/cub_200_2011/
- Stanford Dogs - 20K images, 120 dog breeds - http://vision.stanford.edu/aditya86/ImageNetDogs/
- MIT Indoor Scenes - 15K images, 67 indoor categories - http://web.mit.edu/torralba/www/indoor.html
- PASCAL VOC 2012 - 11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
- MS COCO - 328K images, 80 object classes, 91 stuff categories, 5 captions per image, 250k people with keypoints https://cocodataset.org/
- Cityscapes - 5K fine/25K coarse annotations, 8 classes - https://www.cityscapes-dataset.com/, https://www.cityscapes-dataset.com/dataset-overview/#class-definitions
- ADE20K - 25K images, 150 classes - https://groups.csail.mit.edu/vision/datasets/ADE20K/
- PASCAL Context - 10K images, 459 classes - https://cs.stanford.edu/~roozbeh/pascal-context/
- SBD (Semantic Boundaries) - 11K images from PASCAL - https://paperswithcode.com/dataset/sbd
- NYUDv2 - 1.4K RGB-D images - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- SUN RGB-D - 10K RGB-D images - https://rgbd.cs.princeton.edu/
- KITTI Semantic - http://www.cvlibs.net/datasets/kitti/
- PASCAL VOC 2012 - 10K/11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/
- MS COCO - 328K images, 80 classes, 1.5M instances - https://cocodataset.org/
- KITTI Object - http://www.cvlibs.net/datasets/kitti/
- Open Images (v1 in 2016) - 15.8 images, 6000 classes - https://storage.googleapis.com/openimages/web/index.html
- WIDER Face - 32K images, 393K face annotations - http://shuoyang1213.me/WIDERFACE/
- NYUDv2 - 1.4K RGB-D scenes - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- KITTI Depth- http://www.cvlibs.net/datasets/kitti/
- Make3D - 534 images with depths - http://make3d.cs.cornell.edu/data.html
- Sintel - http://sintel.is.tue.mpg.de/
- KITTI Flow - http://www.cvlibs.net/datasets/kitti/
- Flying Chairs - 22K synthetic pairs - https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html
- Middlebury - Small but precise benchmark - https://vision.middlebury.edu/flow/
- MPII Human Pose - 25K images, 40K people - http://human-pose.mpi-inf.mpg.de/
- FLIC - 5003 images from movies - https://bensapp.github.io/flic-dataset.html
- Leeds Sports Pose - https://www.kaggle.com/datasets/dkrivosic/leeds-sports-pose-lsp
- LFW (Labeled Faces in the Wild) - 13K images, 5.7K people -https://www.kaggle.com/datasets/jessicali9530/lfw-dataset
- CelebA - 200K images, 10K identities - http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- MegaFace - 1M images, 690K identities - http://megaface.cs.washington.edu/
- VGGFace - 2.6K people - https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
- UCF-101 - 13,320 videos, 101 actions - https://www.crcv.ucf.edu/data/UCF101.php
- HMDB-51 - 6800 videos, 51 actions - https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- Sports-1M - 1M YouTube videos, 487 sports - https://cs.stanford.edu/people/karpathy/deepvideo/
- ActivityNet - 20K videos, 200 classes - http://activity-net.org/
- WIDER Attribute - http://mmlab.ie.cuhk.edu.hk/projects/WIDERAttribute.html
- Berkeley Attributes - https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/poselets/
- Classic control tasks
  - OpenAI Gym (cartpole, mountaincar, acrobat, etc). I remember this before chatgpt lol maybe I’m old
  - MuJoCo (Multi-joint dynamics with contact) like the halfcheetah, hopper, humanoid, etc. This was typically done in a physics simulation and was popular for PPO.
- Board games
  - Go
  - Chess
  - PyGame
- TORCS
- Minecraft
- ViZDoom
- Atari 2600 from DeepMind
[3] Scaling Laws Paper, Larger pretrained models paper
- "Scaling Laws for Neural Language Models" by Jared Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level”: https://arxiv.org/abs/2105.06020
[4] Modern pretraining algorithms Pretext Tasks: Contrastive Learning Methods: Masked Modeling: Multimodal Learning:
- Rotation prediction
- Jigsaw puzzles
- Colorization
- Inpainting/Masked patches
- SimCLR (Chen et al., 2020): "A Simple Framework for Contrastive Learning of Visual Representations" [2002.05709] A Simple Framework for Contrastive Learning of Visual Representations
- MoCo v1 & v2 (He et al., 2019/2020): "Momentum Contrast for Unsupervised Visual Representation Learning" [2003.04297] Improved Baselines with Momentum Contrastive Learning
- BYOL (Grill et al., 2020): "Bootstrap Your Own Latent"
- PIRL (Misra & van der Maaten, 2020): "Self-Supervised Learning of Pretext-Invariant Representations" Self-Supervised Learning of Pretext-Invariant Representations
- Masked Language Modeling (MLM): BERT (Devlin et al., 2018)
- Masked Autoencoder (MAE)
- CLIP (Radford et al., 2021): "Learning Transferable Visual Models From Natural Language Supervision" [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
- ALIGN (Jia et al., 2021)
- DALL-E (Ramesh et al., 2021): "Zero-Shot Text-to-Image Generation"
[5] Pretraining datasets
- JFT-300M: google’s internal 300M images psudeo labeled: https://ar5iv.labs.arxiv.org/html/1707.02968 (TO VERIFY)
- LAION-5B: 5.85 billion (image, text) pairs scraped from Common Crawl
- CLIP Training Data: 400M (image, text) pairs https://arxiv.org/abs/2103.00020 (not released)
- Wikipedia: English 20GB
- Kinetics-700: 650k videos (technically has action classes but still used)
[6] Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism https://arxiv.org/abs/2401.02954
[9] Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/abs/2212.08073
[10] Segment anything: https://arxiv.org/abs/2304.02643, SAM 2: Segment Anything In Images & Videos https://arxiv.org/pdf/2408.00714. More details below.
[11] https://techcrunch.com/2025/06/13/new-details-emerge-on-metas-14-3b-deal-for-scale/
[12] https://www.nature.com/articles/s41586-025-09227-0
[13] "Learning Transferable Visual Models From Natural Language Supervision” https://arxiv.org/abs/2103.00020
[14] "Zero-Shot Text-to-Image Generation” https://arxiv.org/abs/2102.12092
[15] "Emerging Properties in Self-Supervised Vision Transformers” https://arxiv.org/abs/2104.14294, "DINOv2: Learning Robust Visual Features without Supervision” https://arxiv.org/abs/2304.07193
[16] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” https://arxiv.org/abs/1810.04805
[17] Waymo E2E Open dataset https://waymo.com/open/data/e2e#camera-data