TL;DR

Dogmen för AI-företag är att mer data leder till bättre prestanda, men i själva verket är dataskala inte allt du behöver. Högkvalitativ data ger bättre prestanda jämfört med en större dataset av låg kvalitet. Att producera högkvalitativ data kräver filtrering genom brus, förståelse för omärkt data och förståelse för vad som ska märkas. Massiv datamärkning av annoteringsplattformar är också problematisk eftersom deras incitament ofta är feljusterade och deras plattform är en flaskhals som är tidskrävande, felbenägen och kostsam. Det bästa sättet att förbättra AI-system är att förstå den data som matar modeller genom att intelligent representera dataset på ett sätt som är interaktivt med hjälp av självövervakad representationsinlärning, grundmodellering och filtrering. Dessa metoder förhindrar risken för dålig prestanda i AI-system och risken för att generera skadliga utdata.

Mindre är mer

Dataskala är inte allt du behöver. Att blint öka storleken på ett dataset medan man förtränar en modell utsätter AI-först-företag för risken att göra allvarliga fel. Att träna modeller på stora dataset med en okänd distribution leder till oväntade beteenden: inom robotik kan detta leda till felaktiga och farliga banor, för ett vårdföretag felaktiga riskbedömningar, och för LLM:er generering av skadligt tal {9}. På X gjorde Grok detta misstag och genererade skadligt tal i det nu raderade inlägget som visas i Figur 0a. Till och med xAI:s VD erkände att de behöver vara mer "selektiva med träningsdata, snarare än att bara träna på hela internet". Men hur väljer man data på rätt sätt för att korrekt träna och utvärdera dessa modeller? Vilka verktyg finns det?

Lösningen är att intelligent representera data i en form som är interaktiv och tillräckligt semantiskt mångsidig. Detta tillvägagångssätt hjälper till att: 1. skapa tränings- och utvärderingsdataset för både förträning och efterträning, 2. identifiera hål i datan och 3. ge rekommendationer om hur man fyller dessa luckor (antingen genom att köpa eller samla in).

Figure 0a: Examples of an LLM generating harmful speech likely due to existence of similar text in the training data the xAI team used to train Grok.

Figure 0b: Reaction from the xAI CEO after Grok generated harmful speech. The interesting piece is the teams focus on being selective of the training data. Original post from the Grok CEO https://x.com/elonmusk/status/1944132781745090819

Datasvänghjul {10} & Annoteringsföretag

I branschen är de flesta VD:ar för AI-företag, AI-forskare och ingenjörer missnöjda med moderna annoteringsföretag som integrerar sig i deras datasvänghjul.

Den nuvarande standardlösningen för AI-företag är att samla ett stort omärkt dataset för förträning (eller använda en öppen källkod förtränad modell), sedan märka ett annat stort dataset specifikt för den avsedda uppgiften, och slutligen handkurera ett träningsset och utvärderingsset. Märkningen outsourcas vanligtvis till annoteringsföretag (ScaleAI, SuperAnnotate, Labelbox, etc.) som integrerar sig i datamotorn. Men att märka allt i ett stort dataset fungerar inte bra eftersom skalning av datamärkning till miljoner eller miljarder exempel är felbenägen, ohållbart kostsam och tidskrävande vilket lämnar AI-företag missnöjda. Ännu viktigare är dock att märkningsloopen är en oändlig process eftersom datasvänghjul kontinuerligt anpassar sig till utvecklande modeller och mer insamlad data vilket gör märkningskrav flytande och föränderliga över tid; annoteringsföretag kan inte hänga med i förändringstakten eftersom modelluppdateringar kan ske på veckor medan märkning kan ta månader.

Den moderna märkningsloopen i en datamotor är:

Samla in lite data.
Designa eller uppdatera någon märkningsspecifikation.
Skicka datan och specifikationen till något märkningsföretag (Scale, SuperAnnotate, etc.). Betala för märkningen.
Iterera med märkningsföretaget och träna modellen.
Observera resultaten och upprepa sedan steg 2-5 på obestämd tid.

Till exempel kan ett autonomt körföretag vilja märka stoppskyltar men efter att ha märkt 1 miljon stoppskyltar och sett resultaten inser de att de vill märka "synligheten" av stoppskylten, sedan inser de att de också vill märka träd som kan omge stoppskyltar och lägga till en "skymd" etikett. Nu behöver all data (som också har vuxit under tiden eftersom datainsamling är kontinuerlig) märkas om! Cykeln kommer aldrig att ta slut medan ett företag förbättrar sin modell!

Metas satsning på 14,3 miljarder dollar för en 49% andel för att anställa VD:n för Scale.AI [11] kan vara ett av de mest riskfyllda drag företaget någonsin gjort på grund av dessa svårigheter med märkningsföretag.

Så om blind träning på enorma dataset är problematisk, och märkning av allt är svårt, vad mer bör vi göra? Efter att ha arbetat med denna fråga de senaste fyra åren fann vi att den bästa lösningen är att representera data tillräckligt bra så att det är lättare att välja och förstå vad som finns i vår data och hur den datan påverkar våra modeller. Vi bör kunna chatta med vår data på ett sätt som låter oss snabbt söka efter exempel och snabbt bygga utvärderingsset för att testa modeller.

Det är vad vi bygger på Interpret AI. Vi bygger en dataintrospektionsplattform, datakureringsplattform och intelligent datamarknadsplats som gör det möjligt för företag som bygger AI-system att interagera med och förstå sina dataset. Vi föreställer oss en värld där du kan chatta med din data med hjälp av naturligt språk, ljud, bild och video för att söka efter liknande instanser så att företag kan lita på och känna till sin data (eller luckorna i sin data) som driver deras modeller. (Om något av detta resonerar med dig, tveka inte att kontakta ily@interpretai.tech)

Skala det som förmodligen är hjälpsamt först

Traditionella datasvänghjul

Figure 1a: The traditional data engine powering AI solutions in companies.

Ett företag har någon infrastruktur som ständigt samlar in data i ett dataset (1b). Ett team skapar sedan heuristiska dataundergrupper som förhoppningsvis när de märks kommer att förbättra deras modell (1a).
Datan skickas till märkningsföretaget (annoteringsföretaget). Märkningsföretaget producerar etiketter (annoteringar) som sedan granskas av teamet, vilket kan ta månader av fram och tillbaka för att konvergera.
AI-modellen förtränas sedan.
Den förtränade modellen finjusteras sedan med hjälp av etiketterna från märkningsföretaget.
Den slutliga modellen utvärderas med hjälp av företagets utvärderingssystem, vilket genererar mätvärden.
Företaget använder sedan denna feedback för att eventuellt välja andra dataundergrupper, uppdatera märkningskraven och/eller göra modelländringar. Observera att vid denna tidpunkt har dataundergruppen redan börjat bli inaktuell.

Obs: Mätvärden kan vara snedvridna av dåliga annoteringar som kräver konstant iteration från teamet som är både kostsam och tidsineffektiv (6).

Figure 1b: A breakdown of the time requirements for different processes in a traditional company’s approach to solutions. Notice that the major bottleneck is getting labels from a labeling company.

Figur 1b: Ett traditionellt företags AI-systems tidsbegränsningar och upplägg med ungefärliga tidslinjer för att iterera var och en av dessa delar oberoende. Lägg märke till att med ett märkningsföretag i loopen kommer det att ta månader av iteration för att generera etiketter som korrekt förbättrar en AI-modell. SeFigur 1a för hur var och en av dessa delar interagerar med ett traditionellt företag.

Interpret AI:s datasvänghjul:

Börja veta med djupa datainsikter

Figure 2a: Interpret’s AI data flywheel & how we provide immediate data insights.

Figur 2a: Interpret AI:s datasvänghjul.

Omedelbara rekommendationer för dataundergrupper och förbättrade dataförslag för förträning och träning (1a respektive 1b).
Teamet granskar nu betydligt mindre dataundergrupper som föreslås av Interpret innan de skickas till ett märkningsföretag. Dessa dataundergrupper är flytande och uppdateras kontinuerligt när datan förändras (Valfritt, om ett företag integrerar sin basmodell kan Interpret AI ge mer insikter om hur datan påverkar modellprestanda).
Fram och tillbaka med ett märkningsföretag accelereras från månader till veckor och är betydligt billigare eftersom annoteringsspecifikationerna och datasetvalet är tydliga.

Feedback är fokuserad på modellen (6).
Slutligen analyserar Interpret AI ditt datautrymme för att ge insikter om vilken data som ska samlas in eller köpas för att accelerera modellförbättring.

Figure 2b: A breakdown of the time requirements for different processes in using Interpret’s platform. On the left hand side feedback iteration speed in green is accelerated. Notice there is no more bottleneck.

Figur 2b: Figuren visar hur Interpret AI direkt integreras med våra kunder för att accelerera modellträning, datasortering och förståelse samt utvärdering. Interpret AI tillhandahåller lösningar för

Förståelse av den befintliga datadistributionen.
Identifiering av modelluckor som korrelerar med databrister.
Köp och kurering av data för att fylla databrister.

Användningsfall

Vi samarbetar med flera företag inom robotik, vård och agentiska LLM-industrier. Om något av dessa resonerar med dig, tveka inte att kontakta ily@interpretai.tech

Vård

HealthCo försöker förutsäga risken för kardiovaskulära sjukdomar för sina patienter.

För träning

Interpret AI analyserar kardiovaskulär data med hjälp av våra interpret-grundmodeller och bearbetar journaler, bilder, potentiellt EKG-data [12] om tillgängligt.
Interpret AI upptäcker anomalier eller "hål" i HealthCo och beskriver demografin för dessa personer (dvs. kvinnor, medelålders, inga barn, historiskt ordinerad trimetazidin).
Dessa upptäckta poster analyseras vidare av experter. Den valda datan kan sedan uppdateras, ignoreras, användas för att hjälpa till att köpa mer data om personer som historiskt ordinerats trimetazidin, eller skickas till ett märkningsföretag för att annotera denna specifika grupp.
Den valda datan används sedan för att träna AI-modellen för kardiovaskulära sjukdomar. Om HealthCo integrerar sin kardiovaskulära modell i Interpret-plattformen analyserar vi vidare var modellen presterar dåligt i realtid, vilket möjliggör omedelbar introspektion.
Denna process minskar modellträningens tidslinje från en storleksordning av månader till veckor, vilket snabbt förbättrar AI-system och sparar kostnader!

För säkerhet

Anta att HealthCo har exempel på personer som har drabbats av hjärtattacker och de vill analysera andra journaler för personer som liknar denna person som också kan vara i riskzonen.

Med hjälp av Interpret AI kan HealthCo välja exempel på denna person och söka efter en relaterad pool av människor, sorterade efter konfidens.
Dessa personer kan flaggas som i riskzonen, vilket snabbt identifierar några hundra personer i riskzonen från miljoner poster!

Robotik

DriveCo bygger autonoma racerbilar som en leksak för barn att leka med utomhus.

För träning

Interpret AI analyserar de insamlade körningarna av racerbilsvideodata. Interpret AI ger en datarapport.
Interpret AI märker att majoriteten av repriser från videorna inte är geografiskt mångsidig och att det finns få exempel på racerbilar som kör utomhus på bakgårdar.
Interpret AI rekommenderar att DriveCo-teamet samlar in fler exempel på utomhusvideor. Vi försöker också balansera datasetet på ett inlärt sätt med hjälp av vår Interpret AI-grundmodell för att lindra denna obalans.
- Utan Interpret AI kan DriveCo ha skickat över 1000 timmar racerbilsdata för märkning av objekt som inte behövdes! Nu behöver de bara märka 10 timmar!

För säkerhet

Anta att dessa autonoma racerbilar möter granskning för spädbarnssäkerhet.

DriveCo kan söka i sin databas efter videor som innehåller "bebis" för att se om de har denna data.
Om DriveCo inte har datan informerar detta teamet om att samla in den (med kanske falska bebisar hoppas jag) eller detta gör det möjligt för DriveCo att visa konsumenter och investerare att produkten faktiskt är säker runt bebisar!

Hur vi kom hit

En kort historia om etiketter och förträning

2015, före Transformers, tränades de flesta modeller för att lösa en mycket specifik delmängd av problem: klassificering, segmentering, objektdetektering (dvs. grundläggande problem) och andra [1]. Riktmärken var "ganska stora" märkta dataset i storleksordningen 10k till 1M. {1}

Modern förträning kom in i bilden runt 2017 och förändrade spelet. Med lån från representationsinlärning kom förträning som ett fundamentalt paradigmskifte där plötsligt omärkta dataset låste upp enorma vinster i modellprestanda. De omärkta dataseten som användes för förträning jämfört med deras märkta motsvarigheter var massiva [5]. Detta kombinerat medandra tekniker och framsteg {2} ledde till moderna grundmodeller som CLIP [13], DALL-E [14], DINOv2 [15] och BERT [16] för att nämna några.

Sedan förändrade OpenAI, byggt på en grund av transformers, förträning och förstärkningsinlärningsframsteg, spelet när de släppte GPT (generativ förtränad transformer) [6]. Sora [7], DeepSeek [8], Anthropic [9] använder alla förträning på stora dataset som ryggraden för sina presterande modeller. Men gömt där finns en skarp observation som de flesta inte pratar om.

Även om förträning är ett bra första steg behöver de flesta av dessa modeller ytterligare träning ovanpå en förtränad bas. Oavsett om detta är RL eller övervakad finjustering är de mest presterande modellerna justerade {3} på något sätt till det ursprungliga problemet. Men även finjustering skalar upp till en viss punkt, vilket betyder att förbättring av förträning är väsentlig för framtida modellprestanda {4}.

Ett av de mest övertygande exemplen på hur man korrekt integrerar förträning och bygger ett datasvänghjul i litteraturen är det märkta datasvänghjulet som byggts av Meta i Segment Anything Model (SAM) och SAM v2 [10]. Men även i detta exempel är datamärkning otroligt svår att skala.

Segment Anything: innovationerna och budskapet

TL;DR: Vad SAM visar oss är att kvalitetssäkring och förståelse för vad som finns i vår data är svårt men ett viktigt problem att ta itumed. Att lägga till mer data är inte nödvändigtvis svaret.

SAM byggde ett datasvänghjul som kurerade ett stort märkt dataset med hjälp av en delvis tränad SAM i olika stadier av träning med mänsklig etikettfeedback. Deras tillvägagångssätt illustrerar det korrekta sättet att integrera märkning i en pipeline men belyser också att även det rätta datamärkningssvänghjulet är kostsamt och utmanande att skala. Vid någon punkt växer datasetet tillräckligt stort där människor inte kan annotera allt och kräver därför någon annan metod för introspektion (dvs. vad Interpret bygger).

Ungefär var SAM:s tillvägagångssätt [10]

Börja med en MAE förtränad hierarkisk ViT.
Träna SAM på offentligt tillgängliga segmenteringsdataset.
Använd den delvis tränade SAM för att generera segmenteringsmasker på en dataundergrupp.
Låt människor förfina segmenteringsprediktionerna. Använd sedan också maskerna för att träna en objektdetektor för att hitta fler objekt och låt människor märka det.
Upprepa steg 3-4 och öka gradvis storleken på datasetet.
Avsluta genom att köra på 1 miljard bilder för att få SA-1B. Använd ett QA-team för att flagga potentiellt dåliga exempel. Lägg märke till att tillhandahålla mänskliga etiketter till alla 1 miljard bilder är otroligt svårt.

Idén är densamma för SAM 2 som är en videosegmenteringsmodell, som genererade SA-V-datasetet med 35,5M masker över 50,9K videor, 53x fler masker än något videosegmenteringsdataset [10].

Lägg märke till att den bästa segmenteringsmodellen tränades med data som direkt relaterar till dess uppgift där etikettfeedbacken var väl kopplad i ett snabbt, effektivt datasvänghjul. Förträning och sedan **träning med en samling av öppen källkod segmenteringsdataset var bara det första och andra steget.

Lägg också märke till att mänsklig märkning så småningom nådde ett tak; när datasvänghjulet började märka 1 miljard bilder behövde Meta fortfarande köra ett QA-filter för att flagga dåliga exempel. Baserat på artikeln skulle annotering av alla 1,1 miljarder masker ha tagit 51k dagar av annoteringstid! {5}

Detta är Meta vi pratar om men att anställa det för de flesta företag skulle vara orimligt dyrt och omöjligt! {6} Märkning i denna skala är helt enkelt svårt!

För att upprepa TL;DR, vad SAM visar oss är att kvalitetssäkring och förståelse för vad som finns i vår data är svårt men ett viktigt problem att ta itu med. Detta är fundamentalt gapet vi ser i branschen idag: mer data som används för förträning eller finjustering är inte nödvändigtvis svaret. Det rätta tillvägagångssättet identifierar var en modell lider, förstår varför den lider där och belyser sedan data (eller databrister) som är relevanta för problemet, vilket är vad vi gör på Interpret AI.

Annoteringsföretagens mål är inte nödvändigtvis i linje med dina...

Vi har branscherfarenhet i MAANG och vårt team har erfarenhet av att arbeta med annoteringsföretag som Scale, SuperAnnotate, etc. För de flesta märkningsföretag (annoteringsföretag) är affärsmodellen:

Låt företag generera sin egen märkningsspecifikation (annoteringsspecifikation) med kanske lite fram och tillbaka beroende på komplexiteten hos etiketterna.
De flesta annoteringsföretag har olika nivåer av annotatörer, den största poolen är icke-experter som märker allt och den minsta är experter inom området (dvs. läkare). Ett annoteringsföretag samlar sedan en pool av mänskliga märkare, vanligtvis börjar med de billigaste för att göra en första genomgång av låg kvalitet.
Annotatörerna märker sedan enligt företagets komplexa annoteringsspecifikation så gott de kan och tar betalt per annotering.
Ge feedback och uppdateringar till annoteringarna, eventuellt uppdatera annoteringsspecifikationen.

Det finns fyra huvudproblem med denna process:

annoteringar är inte konsekventa och tilldelas vanligtvis inte till rätt märkare,
märkningen är tidskrävande och dyr,
feedbackloopen för att korrigera annoteringar är felaktig, och
annoteringsspecifikationer förändras över tid när modellprestanda förändras.

Angående 1., märkare är inte garanterade att vara lämpade för sin tilldelade märkningsuppgift och märker ofta annorlunda än sina kollegor. Till exempel, för ett vårdföretag om uppgiften är "Välj det kliniska svaret som bäst diagnostiserar patienten" kanske dessa märkare inte ens är läkare lämpade för uppgiften! Dessutom, för ett autonomt körföretag om uppgiften är att "Rita begränsningsrutor för stoppskyltar" inkluderar detta stolpen eller inte? Vad händer om det är baksidan av en stoppskylt? Olika annotatörer kommer att märka olika utan att konsultera varandra.

Angående 2., att ta betalt per annotering låter bra i teorin eftersom den konventionella dogmen är att fler etiketter hjälper men om och endast om företaget har råd med kostnaden för ett tillräckligt antal etiketter för att öka modellprestanda; ett antal som vanligtvis är okänt. Dessa annoteringar kommer också vanligtvis att ha fel som kräver att AI-företag bygger interna system som granskar annoteringarna vilket tar både tid (storleksordning månader) och mer pengar.

Angående 3., Feedbackloopen är inte heller konsekvent. Vanligtvis skjuts ansvaret för annoteringsverifiering till AI-företaget, som behöver sätta upp sitt eget interna övervakningssystem (redan tidskrävande och kostsamt). När ett AI-företag märker ett annoteringsproblem är korrigeringar inte garanterade att komma från samma annotatör som skapade den problematiska etiketten och ibland kommer annoteringsföretag att ommärka hela det problematiska exemplet istället för att korrigera det vilket kostar mer. Till exempel kan ett autonomt körföretag vilja märka instansmasker av trafikljus och människor. I detta dummyexempel gör den första annotatören ett misstag och glömmer att märka trafikljus som inte är vända mot kameran. AI-företaget flaggar det och skickar det för att granskas igen men sättet som annoteringsföretaget fixar detta på är genom att skicka bilden till en ny annotatör som ommärker allt från grunden! Den andra annotatören fixar det ursprungliga problemet men märker inte poliser som "människor" och nu uppstår ett nytt problem! Se Figur 3a och Figur 3b. Denna loop har en otroligt låg sannolikhet att korrekt annotera objekt korrekt ~61% för 50 etiketter {7}.

Figure 3a: First pass by the first annotator who missed the traffic lights that are not facing the camera. (Image from Waymo Open Dataset [17])

Figure 3b: Second pass from the second annotator who got all the traffic lights but didn’t realize that the “people” class included police officers! (Image from Waymo Open Dataset [17])

I grund och botten, med detta feedbacksystem är etiketterna som ett annoteringsföretag skapar inte garanterade att konvergera till rätt etiketter!

Incitamenten för AI-företag är inte väl i linje med märkningsföretagens. AI-företag vill förbättra sin AI-modell och sin produkt medan annoteringsföretag vill märka så mycket företagsdata som möjligt så att de kan ta betalt för det.Du vill göra din modell prestanda och det borde annoteringsföretag också.

Angående 4., I branschen (och forskning), när man försöker lösa ett problem finns det många möjliga lösningar. Kanske kommer förträning på hela internet att förbättra din LLM, eller kanske kommer grundning av en LLM genom träning på märkta text-bildpar att hjälpa med LLM-resonemang, eller kanske kommer tillägg av tankekedja att hjälpa. Med andra ord, när vi designar AI-system behöver vi prova många olika saker parallellt eftersom det ibland är oklart vad det bästa tillvägagångssättet kommer att vara. Märkning är en lösning, vilket betyder att när vi bättre förstår vårt problem är etikettdefinitionen föremål för förändring.

Till exempel, ta märkning av stoppskyltar i autonom körning; anta att vi först märker stoppskyltar. Vi märker att prestanda förbättras när vi vet om en stoppskylt är delvis skymd, så vi uppdaterar annoteringsspecifikationen för att lägga till en metadatatagg som heter "skymd" senare när skylten är delvis eller inte synlig. Vi går sedan tillbaka till ett annoteringsföretag och ber dem att ommärka alla våra stoppskyltar med detta! Denna "annoteringsplattform-i-loopen" betyder att varje modellexperiment som uppdaterar det märkta datasetet är superdyrt!

Så man kan undra, varför används märkningsleverantörer överhuvudtaget? Av två skäl: För det första hjälper högkvalitativa etiketter på data som diskuterats tidigare. Faktum är att mindre data med högre kvalitetsetiketter kan överträffa några av dessa stora förtränade modeller; SAM är ett utmärkt exempel. För det andra är alternativet att inte använda ett annoteringsföretag att skapa en intern annoteringsplattform som är ännu dyrare och tidskrävande, eftersom produktion av samma volym etiketter som de andra aktörerna kan ta år!

Slutsats

Det optimala datasvänghjulet representerar data i en form som är inneboende insiktsfull och interaktiv: vi bör kunna upptäcka anomalier och också chatta med vår data för att få intressanta mönster och insikter. Detta svänghjul bör förbättra annoteringsplattformar genom att fokusera på vad som ska märkas istället för att märka allt {8}. Och slutligen bör detta datasvänghjul vara i linje med modellprestanda och koppla direkt till vilket problem ditt AI-företag än löser.

Den traditionella dogmen är att mer data "bara fungerar" och ibland känns djupinlärning som alkemi. Kanske kommer mer data att fungera för dig på kort sikt men när saker "bara inte fungerar" är det korrekta sättet att bedöma misslyckande både i datan och modellen och arbeta därifrån.

På Interpret hoppas vi kunna förändra paradigmet. Om du är intresserad, kontakta oss på ily@interpretai.tech

Footnotes

Back when AlexNet was still a thing circa 2015ish most models for computer vision were trained on a subset of very particular problem types: classification, segmentation, object detection (ie foundation problems) and others like image captioning, scene recognition, pose estimation (see appendix for more details)[1]. Note this was pre “Attention is all you need” when bigrams were a-la-mode. The focus then was model development while benchmarks remained fixed. These benchmarks were “largish” labeled datasets (order of 10k to 1M) that were used to evaluate model performance. Some of the popular CV benchmarks you’re probably familiar with are MNIST, ImageNet, MS COCO, KITTI, Caltech-101 [2]. If you look the largest labeled datasets around this time they were around 1M labels, and that was considered large at the time.
Modern pretraining entered the chat around 2017 and changed the game. Borrowing from representation learning, pretraining came as a fundamental paradigm shift from learning features for only a specific labeled dataset to learning general features on unlabeled data that correlated well with other problems like classification, segmentation, object detection. These datasets compared to their labeled brethern were massive [5]. At the same time, advancements in model training (CUDA optimization which is why NVIDIA hit a 4T market cap), deep learning libraries (tensorflow, pytroch), and new / improved model architectures like Transformers from “Attention Is All You Need” opened up a brand new world. Researchers also noticed that increasing the size of models typically correlated with improved performance on unseen data (from the same data distribution). All of this combined interfaced with modern pretraining algorithms like pretext tasks, contrastive learning, masked label modeling, masked autoencoding (MAE) multimodal modeling [4] unlocking the era of training big models on even massive unlabeled datasets. Ergo, models like CLIP [13], DALL-E [14], DINOv2 [15], BERT [16].
”Alignment” is an overused term I mean alignment in both the “we want our LLM to be helpful not harmful” sense and the “data distribution alignment” sense.
When training / fine-tuning a model, scaling model size correlates with improvement in performance roughly following a power law. In industry, we’re already hitting the peak for model size scaling laws and fine-tuning is giving less and less of an advantage. The next frontier is improving pretraining method to better utilize existing unlabeled datasets.
In the SAM paper, annotations could take 30 seconds (but suppose it took 4 seconds based on the improvements from SAM v2 [10]); reviewing 1.1B masks would’ve required 1,100,000,000 * 4 seconds = ~51,000 days of annotation time!
This is also assuming that the data distribution is stationary (unchanging). If we wanted to increase the labels to a different data distribution (say deep sea diving videos where the semantics & dynamics of objects is different) then finetuning SAM would still require the same data flywheel training process which is also more time and more money.
Suppose that each object has a probability of being mislabeled p=0.01 (ie an annotator labels incorrectly or misses a label once every 100 labels). Assuming 50 objects in a video the probability of succeeding assuming independence is (1 - p)^50 = 61% chance of success! And that’s conservative.
Fundamentally, when AI companies have better clarity on what to label their incentives align with annotation companies.
More and more it is clear very few samples (e.g. thousands) of very high quality data is way better than million of low quality data - this is particularly true in post-traning of LLMs in industry but it is starting to be the focus also of pre-training.
A data flywheel is the loop used to collect data, improve the model, which makes a better product, which then modifies what data to collect and the cycle repeats (for example this image from dataloop.ai https://dataloop.ai/book/the-data-flywheel-effect/). A data engine is the infra for collecting/labeling/evaluating data (for example Scale’s product https://scale.com/data-engine).

Special Thanks

Cameron Tukerman-Lee (also credit for the title)
Gabriele Sorrento
Francesco Pongetti
Lotfi Herzi

Appendix

[1] A more extensive list of popular 2015 foundational problems across different domains so sortof pre multi-modal.
- Computer vision
  - classification
  - segmentation
  - object detection
  - image captioning
  - scene recognition
  - pose estimation
  - Optical Flow Estimation
  - Depth Estimation
  - Face recognition
  - Pose estimation
  - Visual tracking
  - Style transfer
  - Image generation
- Natural Language Processing
  - Machine translation
  - Part of speech tagging
  - Question answering
- Speech Processing
  - Speech recognition
  - Speaker identification
  - Emotion classification
- Time series
- Reinforcement Learning
[2] Popular datasets separated by domain around 2015 Classification: Segmentation: Object Detection: Other Tasks: Depth Estimation: Optical Flow: Pose Estimation: Face Recognition: Video/Action Recognition: Attributes/Multi-label: Reinforcement Learning: Can think of dataset size as number of rollouts.
- ImageNet (ILSVRC 2017) - 1.2M training, 1000 classes - https://www.image-net.org/challenges/LSVRC/2017/index.php
- CIFAR-10/100 - 60K (32x32), 10/100 classes - https://www.cs.toronto.edu/~kriz/cifar.html
- MNIST - 70K handwritten digits - https://www.kaggle.com/datasets/hojjatk/mnist-dataset
- Fashion-MNIST - 70K fashion items - https://github.com/zalandoresearch/fashion-mnist
- SVHN - 600K real world house numbers 10 classes for each digit - http://ufldl.stanford.edu/housenumbers/
- Caltech-101/256 - 9K/30K images 101/256 categories - https://data.caltech.edu/records/mzrjq-6wc02, https://data.caltech.edu/records/nyy15-4j048
- Oxford Flowers 102 - 102 categories - https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Oxford-IIIT Pets - 7.4K images, 37 pet breeds - https://www.robots.ox.ac.uk/~vgg/data/pets/
- Stanford Cars - 16K images, 196 car models - https://www.kaggle.com/datasets/eduardo4jesus/stanford-cars-dataset
- FGVC Aircraft - 10.2K images, 100 aircraft variants - https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/
- Food-101 - 101 food categories - https://www.kaggle.com/datasets/dansbecker/food-101
- CUB-200-2011 - 12K bird images, 200 species - https://www.vision.caltech.edu/datasets/cub_200_2011/
- Stanford Dogs - 20K images, 120 dog breeds - http://vision.stanford.edu/aditya86/ImageNetDogs/
- MIT Indoor Scenes - 15K images, 67 indoor categories - http://web.mit.edu/torralba/www/indoor.html
- PASCAL VOC 2012 - 11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
- MS COCO - 328K images, 80 object classes, 91 stuff categories, 5 captions per image, 250k people with keypoints https://cocodataset.org/
- Cityscapes - 5K fine/25K coarse annotations, 8 classes - https://www.cityscapes-dataset.com/, https://www.cityscapes-dataset.com/dataset-overview/#class-definitions
- ADE20K - 25K images, 150 classes - https://groups.csail.mit.edu/vision/datasets/ADE20K/
- PASCAL Context - 10K images, 459 classes - https://cs.stanford.edu/~roozbeh/pascal-context/
- SBD (Semantic Boundaries) - 11K images from PASCAL - https://paperswithcode.com/dataset/sbd
- NYUDv2 - 1.4K RGB-D images - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- SUN RGB-D - 10K RGB-D images - https://rgbd.cs.princeton.edu/
- KITTI Semantic - http://www.cvlibs.net/datasets/kitti/
- PASCAL VOC 2012 - 10K/11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/
- MS COCO - 328K images, 80 classes, 1.5M instances - https://cocodataset.org/
- KITTI Object - http://www.cvlibs.net/datasets/kitti/
- Open Images (v1 in 2016) - 15.8 images, 6000 classes - https://storage.googleapis.com/openimages/web/index.html
- WIDER Face - 32K images, 393K face annotations - http://shuoyang1213.me/WIDERFACE/
- NYUDv2 - 1.4K RGB-D scenes - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- KITTI Depth- http://www.cvlibs.net/datasets/kitti/
- Make3D - 534 images with depths - http://make3d.cs.cornell.edu/data.html
- Sintel - http://sintel.is.tue.mpg.de/
- KITTI Flow - http://www.cvlibs.net/datasets/kitti/
- Flying Chairs - 22K synthetic pairs - https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html
- Middlebury - Small but precise benchmark - https://vision.middlebury.edu/flow/
- MPII Human Pose - 25K images, 40K people - http://human-pose.mpi-inf.mpg.de/
- FLIC - 5003 images from movies - https://bensapp.github.io/flic-dataset.html
- Leeds Sports Pose - https://www.kaggle.com/datasets/dkrivosic/leeds-sports-pose-lsp
- LFW (Labeled Faces in the Wild) - 13K images, 5.7K people -https://www.kaggle.com/datasets/jessicali9530/lfw-dataset
- CelebA - 200K images, 10K identities - http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- MegaFace - 1M images, 690K identities - http://megaface.cs.washington.edu/
- VGGFace - 2.6K people - https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
- UCF-101 - 13,320 videos, 101 actions - https://www.crcv.ucf.edu/data/UCF101.php
- HMDB-51 - 6800 videos, 51 actions - https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- Sports-1M - 1M YouTube videos, 487 sports - https://cs.stanford.edu/people/karpathy/deepvideo/
- ActivityNet - 20K videos, 200 classes - http://activity-net.org/
- WIDER Attribute - http://mmlab.ie.cuhk.edu.hk/projects/WIDERAttribute.html
- Berkeley Attributes - https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/poselets/
- Classic control tasks
  - OpenAI Gym (cartpole, mountaincar, acrobat, etc). I remember this before chatgpt lol maybe I’m old
  - MuJoCo (Multi-joint dynamics with contact) like the halfcheetah, hopper, humanoid, etc. This was typically done in a physics simulation and was popular for PPO.
- Board games
  - Go
  - Chess
  - PyGame
- TORCS
- Minecraft
- ViZDoom
- Atari 2600 from DeepMind
[3] Scaling Laws Paper, Larger pretrained models paper
- "Scaling Laws for Neural Language Models" by Jared Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level”: https://arxiv.org/abs/2105.06020
[4] Modern pretraining algorithms Pretext Tasks: Contrastive Learning Methods: Masked Modeling: Multimodal Learning:
- Rotation prediction
- Jigsaw puzzles
- Colorization
- Inpainting/Masked patches
- SimCLR (Chen et al., 2020): "A Simple Framework for Contrastive Learning of Visual Representations" [2002.05709] A Simple Framework for Contrastive Learning of Visual Representations
- MoCo v1 & v2 (He et al., 2019/2020): "Momentum Contrast for Unsupervised Visual Representation Learning" [2003.04297] Improved Baselines with Momentum Contrastive Learning
- BYOL (Grill et al., 2020): "Bootstrap Your Own Latent"
- PIRL (Misra & van der Maaten, 2020): "Self-Supervised Learning of Pretext-Invariant Representations" Self-Supervised Learning of Pretext-Invariant Representations
- Masked Language Modeling (MLM): BERT (Devlin et al., 2018)
- Masked Autoencoder (MAE)
- CLIP (Radford et al., 2021): "Learning Transferable Visual Models From Natural Language Supervision" [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
- ALIGN (Jia et al., 2021)
- DALL-E (Ramesh et al., 2021): "Zero-Shot Text-to-Image Generation"
[5] Pretraining datasets
- JFT-300M: google’s internal 300M images psudeo labeled: https://ar5iv.labs.arxiv.org/html/1707.02968 (TO VERIFY)
- LAION-5B: 5.85 billion (image, text) pairs scraped from Common Crawl
- CLIP Training Data: 400M (image, text) pairs https://arxiv.org/abs/2103.00020 (not released)
- Wikipedia: English 20GB
- Kinetics-700: 650k videos (technically has action classes but still used)
[6] Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism https://arxiv.org/abs/2401.02954
[9] Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/abs/2212.08073
[10] Segment anything: https://arxiv.org/abs/2304.02643, SAM 2: Segment Anything In Images & Videos https://arxiv.org/pdf/2408.00714. More details below.
[11] https://techcrunch.com/2025/06/13/new-details-emerge-on-metas-14-3b-deal-for-scale/
[12] https://www.nature.com/articles/s41586-025-09227-0
[13] "Learning Transferable Visual Models From Natural Language Supervision” https://arxiv.org/abs/2103.00020
[14] "Zero-Shot Text-to-Image Generation” https://arxiv.org/abs/2102.12092
[15] "Emerging Properties in Self-Supervised Vision Transformers” https://arxiv.org/abs/2104.14294, "DINOv2: Learning Robust Visual Features without Supervision” https://arxiv.org/abs/2304.07193
[16] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” https://arxiv.org/abs/1810.04805
[17] Waymo E2E Open dataset https://waymo.com/open/data/e2e#camera-data

Datamängd är INTE allt du behöver