TL;DR

O dogma para empresas de IA é que mais dados levam a um melhor desempenho, mas na verdade a escala de dados não é tudo o que você precisa. Dados de alta qualidade geram melhor desempenho em comparação com um conjunto de dados maior de baixa qualidade. Produzir dados de alta qualidade requer filtrar o ruído, entender dados não rotulados e entender o que rotular. A rotulagem massiva de dados por plataformas de anotação também é problemática, pois seus incentivos geralmente estão desalinhados e sua plataforma é um gargalo que consome tempo, é propenso a erros e custoso. A melhor maneira de melhorar sistemas de IA é entender os dados que alimentam os modelos, representando inteligentemente conjuntos de dados de uma forma que seja interativa usando aprendizado de representação auto-supervisionado, modelagem de fundação e filtragem. Essas práticas previnem o risco de desempenho ruim em sistemas de IA e o risco de gerar saídas prejudiciais.

Menos é Mais

A escala de dados não é tudo o que você precisa. Aumentar cegamente o tamanho de um conjunto de dados durante o pré-treinamento de um modelo coloca empresas que priorizam IA em risco de cometer erros graves. Treinar modelos em grandes conjuntos de dados com uma distribuição desconhecida leva a comportamentos inesperados: em robótica isso pode levar a trajetórias errôneas e perigosas, para uma empresa de saúde avaliações de risco imprecisas, e para LLMs geração de discurso prejudicial {9}. No X, o Grok cometeu esse erro, gerando discurso prejudicial na postagem agora excluída mostrada na Figura 0a. Até mesmo o CEO da xAI admitiu que eles precisam ser mais "seletivos sobre dados de treinamento, em vez de apenas treinar em toda a internet". Mas como você seleciona adequadamente os dados para treinar e avaliar adequadamente esses modelos? Quais ferramentas existem?

A solução é representar inteligentemente os dados de uma forma que seja interativa e suficientemente diversa semanticamente. Essa abordagem ajuda: 1. criar conjuntos de dados de treinamento e avaliação tanto para pré-treinamento quanto para pós-treinamento, 2. identificar lacunas nos dados e 3. fazer recomendações sobre como preencher essas lacunas (seja comprando ou coletando).

Figure 0a: Examples of an LLM generating harmful speech likely due to existence of similar text in the training data the xAI team used to train Grok.

Figure 0b: Reaction from the xAI CEO after Grok generated harmful speech. The interesting piece is the teams focus on being selective of the training data. Original post from the Grok CEO https://x.com/elonmusk/status/1944132781745090819

Data Flywheels {10} & Empresas de Anotação

Na indústria, a maioria dos CEOs de empresas de IA, pesquisadores de IA e engenheiros estão insatisfeitos com as empresas de anotação modernas que se integram em seus data flywheels.

A solução atual para empresas de IA é acumular um grande conjunto de dados não rotulados para pré-treinamento (ou usar um modelo pré-treinado de código aberto), depois rotular outro grande conjunto de dados específico para a tarefa pretendida e, finalmente, curar manualmente um conjunto de treinamento e conjunto de avaliação. A rotulagem é tipicamente terceirizada para empresas de anotação (ScaleAI, SuperAnnotate, Labelbox, etc.) que se integram ao motor de dados. Mas rotular tudo em um grande conjunto de dados não funciona bem porque escalar a rotulagem de dados para milhões ou bilhões de exemplos é propenso a erros, insustentavelmente custoso e demorado, deixando as empresas de IA insatisfeitas. Mais importante ainda, o loop de rotulagem é um processo interminável, pois os data flywheels se adaptam continuamente a modelos em evolução e mais dados coletados, tornando os requisitos de rotulagem fluidos e mudando ao longo do tempo; as empresas de anotação não conseguem acompanhar a velocidade das mudanças, pois as atualizações de modelo podem acontecer em semanas, enquanto a rotulagem pode levar meses.

O loop de rotulagem moderno em um motor de dados é:

Coletar alguns dados.
Projetar ou atualizar alguma especificação de rotulagem.
Enviar os dados e a especificação para alguma empresa de rotulagem (Scale, SuperAnnotate, etc.). Pagar pela rotulagem.
Iterar com a empresa de rotulagem e treinar o modelo.
Observar os resultados e então repetir os passos 2-5 indefinidamente.

Por exemplo, uma empresa de direção autônoma pode querer rotular placas de pare, mas depois de rotular 1 milhão de placas de pare e ver os resultados, eles percebem que querem rotular a "visibilidade" da placa de pare, então percebem que também querem rotular árvores que possam estar ao redor das placas de pare, adicionando um rótulo "obstruído". Agora todos os dados (que também cresceram nesse meio tempo, pois as coletas de dados são contínuas) precisam ser rerotulados! O ciclo nunca terminará enquanto uma empresa estiver melhorando seu modelo!

A Meta gastando 14,3B por uma participação de 49% para contratar o CEO da Scale.AI [11] pode ser um dos movimentos mais arriscados que a empresa já fez por causa dessas dificuldades com empresas de rotulagem.

Então, se treinar cegamente em conjuntos de dados enormes é problemático, e rotular tudo é difícil, o que mais devemos fazer? Depois de trabalhar nessa questão nos últimos quatro anos, descobrimos que a melhor solução é representar os dados bem o suficiente para que seja mais fácil selecionar e entender o que está em nossos dados e como esses dados impactam nossos modelos. Devemos ser capazes de conversar com nossos dados de uma forma que nos permita pesquisar rapidamente por exemplos e construir rapidamente conjuntos de avaliação para testar modelos.

É isso que estamos construindo na Interpret AI. Estamos construindo uma plataforma de introspecção de dados, plataforma de curadoria de dados e marketplace inteligente de dados que permite que empresas que constroem sistemas de IA interajam e entendam seus conjuntos de dados. Imaginamos um mundo onde você pode conversar com seus dados usando linguagem natural, áudio, imagem e vídeo para pesquisar instâncias semelhantes, para que as empresas possam confiar e conhecer seus dados (ou as lacunas em seus dados) que estão alimentando seus modelos. (Se algo disso ressoa com você, sinta-se à vontade para entrar em contato com ily@interpretai.tech)

Escale o que provavelmente é útil primeiro

Data flywheels tradicionais

Figure 1a: The traditional data engine powering AI solutions in companies.

Uma empresa tem alguma infraestrutura que está constantemente coletando dados em um conjunto de dados (1b). Uma equipe então cria subconjuntos de dados heurísticos que, esperançosamente, uma vez rotulados, melhorarão seu modelo (1a).
Os dados são enviados para a empresa de rotulagem (anotação). A empresa de rotulagem produz rótulos (anotações) que são então revisados pela equipe, o que pode levar meses de ida e volta para convergir.
O Modelo de IA pré-treinado é então pré-treinado.
O modelo pré-treinado é então ajustado usando os rótulos da empresa de rotulagem
O modelo final é avaliado usando o sistema de avaliação da empresa, gerando métricas.
A empresa então usa esse feedback para possivelmente selecionar outros subconjuntos de dados, atualizar os requisitos de rotulagem e/ou fazer mudanças no modelo. Note que, neste ponto, o subconjunto de dados já está ficando obsoleto.

Nota: As métricas podem ser distorcidas por anotações ruins, exigindo iteração constante da equipe que é tanto custosa quanto ineficiente em termos de tempo (6).

Figure 1b: A breakdown of the time requirements for different processes in a traditional company’s approach to solutions. Notice that the major bottleneck is getting labels from a labeling company.

Figura 1b: Restrições de tempo e configuração do sistema de IA de uma empresa tradicional com cronogramas aproximados para iterar cada uma dessas peças independentemente. Note que com uma empresa de rotulagem no loop, levará meses de iteração para gerar rótulos que melhorem adequadamente um Modelo de IA.Veja a Figura 1a para como cada uma dessas peças interage com uma empresa tradicional.

Data flywheel da Interpret AI:

Comece Sabendo com insights profundos de dados

Figure 2a: Interpret’s AI data flywheel & how we provide immediate data insights.

Figura 2a: Data flywheel da Interpret AI.

Recomendações imediatas de subconjuntos de dados e sugestões aprimoradas de dados para pré-treinamento e treinamento (1a e 1b respectivamente).
A equipe agora revisa subconjuntos significativamente menores de dados sugeridos pela Interpret antes de enviar para uma empresa de rotulagem. Esses subconjuntos de dados são fluidos e são continuamente atualizados conforme os dados mudam (Opcionalmente, se uma empresa integrar seu modelo baseline, a Interpret AI pode fornecer mais insights sobre como os dados impactam o desempenho do modelo).
A ida e volta com uma empresa de rotulagem é acelerada de meses para semanas e é significativamente mais barata, pois as especificações de anotação e a seleção de conjuntos de dados são claras.

O feedback é focado no modelo (6).
Por último, a Interpret AI analisa seu espaço de dados para fornecer insights sobre quais dados coletar ou comprar para acelerar a melhoria do modelo.

Figure 2b: A breakdown of the time requirements for different processes in using Interpret’s platform. On the left hand side feedback iteration speed in green is accelerated. Notice there is no more bottleneck.

Figura 2b: A figura demonstra como a Interpret AI se integra diretamente com nossos clientes para acelerar o treinamento de modelos, triagem e compreensão de dados e avaliação. A Interpret AI fornece soluções para

Entender a distribuição de dados existente.
Identificar lacunas de modelo que estão correlacionadas com lacunas de dados.
Comprar e curar dados para preencher lacunas de dados.

Casos de uso

Colaboramos com várias empresas nos setores de robótica, saúde e LLM agêntico. Se algo disso ressoa com você, sinta-se à vontade para entrar em contato com ily@interpretai.tech

Saúde

A HealthCo está tentando prever o risco de doenças cardiovasculares para seus pacientes.

Para treinamento

A Interpret AI analisa dados cardiovasculares usando nossos modelos de fundação interpret, processando EHRs, imagens, potencialmente dados de ECG [12] se disponíveis.
A Interpret AI nota anomalias ou "buracos" na HealthCo e descreve a demografia dessas pessoas (ou seja, mulher, meia-idade, sem filhos, historicamente prescrita trimetazidina).
Esses registros detectados são posteriormente analisados por especialistas. Os dados selecionados podem então ser atualizados, ignorados, usados para ajudar a comprar mais dados de pessoas historicamente prescritas trimetazidina, ou enviados para uma empresa de rotulagem para anotar este grupo específico.
Os dados selecionados são então usados para treinar o modelo de IA de doenças cardiovasculares. Se a HealthCo integrar seu modelo cardiovascular na plataforma Interpret, então analisamos ainda mais onde o modelo está tendo desempenho ruim em tempo real, permitindo introspecção imediata.
Esse processo reduz o cronograma de treinamento do modelo de uma ordem de meses para semanas, melhorando rapidamente os sistemas de IA e economizando custos!

Para segurança

Suponha que a HealthCo tenha exemplos de pessoas que sofreram ataques cardíacos e eles querem analisar outros EHRs de pessoas que são semelhantes a essa pessoa que também podem estar em risco

Usando a Interpret AI, a HealthCo pode selecionar exemplos dessa pessoa e pesquisar por um grupo relacionado de pessoas, classificando por confiança.
Essas pessoas podem ser sinalizadas como em risco, identificando rapidamente algumas centenas de pessoas em risco de milhões de registros!

Robótica

A DriveCo está construindo carros de corrida autônomos como um brinquedo para crianças brincarem do lado de fora.

Para treinamento

A Interpret AI analisa as corridas coletadas de dados de vídeo de carros de corrida. A Interpret AI fornece um relatório de dados.
A Interpret AI nota que a maioria dos replays dos vídeos não são geograficamente diversos e que há poucos exemplos de carros de corrida dirigindo ao ar livre em quintais.
A Interpret AI recomenda que a equipe DriveCo colete mais exemplos de vídeos ao ar livre. Também tentamos balancear o conjunto de dados de forma aprendida usando nosso modelo de fundação Interpret AI para aliviar esse desequilíbrio.
- Sem a Interpret AI, a DriveCo poderia ter enviado mais de 1000 horas de dados de carros de corrida para rotular objetos que não eram necessários! Agora eles só precisam rotular 10 horas!

Para segurança

Suponha que esses carros de corrida autônomos enfrentem escrutínio quanto à segurança infantil.

A DriveCo pode pesquisar seu banco de dados por vídeos contendo "bebê" para ver se eles têm esses dados.
Se a DriveCo não tiver os dados, isso informa a equipe para coletá-los (usando talvez bebês falsos, espero) ou isso permite que a DriveCo mostre aos consumidores e investidores que o produto é de fato seguro perto de bebês!

Como chegamos aqui

Uma breve história sobre rótulos e pré-treinamento

Em 2015, pré-Transformers, a maioria dos modelos era treinada para resolver um subconjunto muito particular de problemas: classificação, segmentação, detecção de objetos (ou seja, problemas fundamentais) e outros [1]. Os benchmarks eram conjuntos de dados rotulados "grandinhos" na ordem de 10k a 1M. {1}

O pré-treinamento moderno entrou em cena por volta de 2017 e mudou o jogo. Emprestando do aprendizado de representação, o pré-treinamento veio como uma mudança fundamental de paradigma onde, de repente, conjuntos de dados não rotulados desbloquearam enormes ganhos no desempenho do modelo. Os conjuntos de dados não rotulados usados para pré-treinamento em comparação com seus irmãos rotulados erammassivos [5]. Isso combinado com outras técnicas e avanços {2} levou a modelos fundamentais modernos como CLIP [13], DALL-E [14], DINOv2 [15] e BERT [16] para citar alguns.

Então a OpenAI, construída sobre uma fundação de transformers, pré-treinamento e progresso de aprendizado por reforço, mudou o jogo quando lançou o GPT (transformador pré-treinado generativo) [6]. Sora [7], DeepSeek [8], Anthropic [9] todos usam pré-treinamento em grandes conjuntos de dados como a espinha dorsal para seus modelos performáticos. Mas escondida ali está uma observação aguda sobre a qual a maioria das pessoas não está falando.

Embora o pré-treinamento seja um bom primeiro passo, a maioria desses modelos precisa de treinamento adicional em cima de uma base pré-treinada. Seja RL ou ajuste fino supervisionado, os modelos mais performáticos são alinhados {3} de alguma forma ao problema original. Mas mesmo o ajuste fino escala até certo ponto, o que significa que melhorar o pré-treinamento é essencial para o desempenho futuro do modelo {4}.

Um dos exemplos mais convincentes de como integrar adequadamente o pré-treinamento e construir um data flywheel na literatura é o data flywheel rotulado construído pela Meta no Segment Anything Model (SAM) e SAM v2 [10]. Mas mesmo neste exemplo, a rotulagem de dados é incrivelmente difícil de escalar.

Segment Anything: as inovações e a mensagem

TL;DR: O que o SAM nos mostra é que garantia de qualidade e entender o que está em nossos dados é difícil, mas um problema importante aser abordado. Adicionar mais dados não é necessariamente a resposta.

O SAM construiu um data flywheel que curou um grande conjunto de dados rotulados usando um SAM parcialmente treinado em vários estágios de treinamento com feedback de rótulo humano. Sua abordagem ilustra a maneira adequada de integrar rotulagem em um pipeline, mas também destaca que mesmo o data flywheel de rotulagem de dados correto é custoso e desafiador de escalar. Em algum momento, o conjunto de dados cresce suficientemente grande onde os humanos não podem anotar tudo e, portanto, requer algum outro método de introspecção (ou seja, o que a Interpret está construindo).

Grosso modo, a abordagem do SAM foi [10]

Começar com um ViT hierárquico pré-treinado MAE.
Treinar o SAM em conjuntos de dados de segmentação publicamente disponíveis.
Usar o SAM parcialmente treinado para gerar máscaras de segmentação em um subconjunto de dados.
Ter humanos refinando as previsões de segmentação. Então também usar as máscaras para treinar um detector de objetos para encontrar mais objetos e ter humanos rotulando isso.
Repetir os passos 3-4 aumentando gradualmente o tamanho do conjunto de dados
Terminar executando em 1 bilhão de imagens para obter SA-1B. Usar uma equipe de QA para sinalizar exemplos potencialmente ruins. Note que fornecer rótulos humanos para todas as 1 bilhão de imagens é incrivelmente difícil.

A ideia é a mesma para o SAM 2, que é um modelo de segmentação de vídeo, que gerou o conjunto de dados SA-V com 35,5M de máscaras em 50,9K vídeos, 53x mais máscaras do que qualquer conjunto de dados de segmentação de vídeo [10].

Note, o melhor modelo de segmentação foi treinado com dados diretamente relacionados à sua tarefa, onde o feedback de rótulo estava todo bem acoplado em um data flywheel rápido e eficiente. O pré-treinamento e depois **o treinamento com uma coleção de conjuntos de dados de segmentação de código aberto foram apenas o primeiro e o segundo passo.

Note também que a rotulagem humana eventualmente atingiu um teto; quando o data flywheel começou a rotular 1B de imagens, a Meta ainda precisava executar um filtro de QA para sinalizar exemplos ruins. Com base no artigo, anotar todas as 1,1B de máscaras teria levado 51k dias de tempo de anotação! {5}

Estamos falando da Meta, mas contratar isso para a maioria das empresas seria excessivamente caro e inviável! {6} Rotular nessa escala é simplesmente difícil!

Reiterando o TL;DR, o que o SAM nos mostra é que garantia de qualidade e entender o que está em nossos dados é difícil, mas um problema importante a ser abordado. Esta é fundamentalmente a lacuna que vemos na indústria hoje: mais dados usados para pré-treinamento ou ajuste fino não é necessariamente a resposta. A abordagem correta identifica onde um modelo sofre, entende por que ele sofre ali e então destaca dados (ou lacunas de dados) relevantes para o problema, que é o que estamos fazendo na Interpret AI.

Os objetivos das empresas de anotação não estão necessariamente alinhados com os seus...

Temos experiência na indústria em MAANG e nossa equipe tem experiência trabalhando com empresas de anotação como Scale, SuperAnnotate, etc. Para a maioria das empresas de rotulagem (anotação), o modelo de negócio é:

Deixar as empresas gerarem sua própria especificação de rotulagem (anotação) com talvez alguma ida e volta dependendo da complexidade dos rótulos.
A maioria das empresas de anotação tem diferentes níveis de anotadores, sendo o maior grupo os não especialistas que rotulam tudo e o menor sendo especialistas no campo (ou seja, Médicos). Uma empresa de anotação então reúne um grupo de rotuladores humanos, tipicamente começando com os mais baratos para fazer uma primeira passagem de baixa qualidade.
Os anotadores então rotulam de acordo com a especificação de anotação complexa da empresa da melhor forma que podem, cobrando por anotação.
Fornecer feedback e atualizações para as anotações, possivelmente atualizando a especificação de anotação.

Existem quatro problemas principais com este processo:

as anotações não são consistentes e geralmente não são atribuídas aos rotuladores certos,
a rotulagem é demorada e cara,
o loop de feedback para corrigir anotações é errôneo, e
as especificações de anotação mudam ao longo do tempo conforme o desempenho do modelo muda.

Abordando 1., os rotuladores não têm garantia de serem adequados para sua tarefa de rotulagem atribuída e frequentemente rotulam de forma diferente de seus pares. Por exemplo, para uma empresa de saúde, se a tarefa é "Escolha a resposta clínica que melhor diagnostica o paciente", esses rotuladores podem nem mesmo ser médicos adequados para a tarefa! Além disso, para uma empresa de direção autônoma, se a tarefa é "Desenhar caixas delimitadoras para placas de pare", isso inclui o poste ou não? E se for o lado de trás de uma placa de pare? Diferentes anotadores rotularão de forma diferente sem consultar uns aos outros.

Abordando 2., cobrar por anotação parece ótimo em teoria, pois o dogma convencional é que mais rótulos ajudam, mas se e somente se a empresa puder arcar com o custo de um número suficiente de rótulos para aumentar o desempenho do modelo; um número que é tipicamente desconhecido. Essas anotações também tipicamente terão erros que exigem que as empresas de IA construam sistemas internos que revisem as anotações, o que leva tempo (ordem de meses) e mais dinheiro.

Abordando 3., O loop de feedback também não é consistente. Tipicamente, a responsabilidade da verificação de anotação é empurrada para a empresa de IA, que precisa configurar seu próprio sistema de monitoramento interno (já demorado e custoso). Quando uma empresa de IA nota um problema de anotação, as correções não têm garantia de serem do mesmo anotador que criou o rótulo problemático e às vezes as empresas de anotação rerotularão todo o exemplo problemático em vez de corrigi-lo, o que custa mais. Por exemplo, uma empresa de direção autônoma pode querer rotular máscaras de instância de semáforos e pessoas. Neste exemplo fictício, o primeiro anotador comete um erro e esquece de rotular semáforos que não estão voltados para a câmera. A empresa de IA sinaliza isso e envia para ser reavaliado, mas a maneira como a empresa de anotação corrige isso é enviando a imagem para um novo anotador que rerotula tudo do zero! O segundo anotador corrige o problema original, mas não rotula policial como "pessoas" e agora um novo problema emerge! Veja a Figura 3a e a Figura 3b. Este loop tem uma probabilidade incrivelmente baixa de anotar objetos corretamente ~61% para 50 rótulos {7}.

Figure 3a: First pass by the first annotator who missed the traffic lights that are not facing the camera. (Image from Waymo Open Dataset [17])

Figure 3b: Second pass from the second annotator who got all the traffic lights but didn’t realize that the “people” class included police officers! (Image from Waymo Open Dataset [17])

Essencialmente, com este sistema de feedback, os rótulos que uma empresa de anotação cria não têm garantia de convergir para os rótulos corretos!

Os incentivos das empresas de IA não estão bem alinhados com os das empresas de rotulagem. As empresas de IA querem melhorar seu modelo de IA e seu produto, enquanto as empresas de anotação querem rotular o máximo de dados da empresa possível para que possam cobrarpor isso. Você quer tornar seu modelo performático e as empresas de anotação também deveriam.

Abordando 4., Na indústria (e pesquisa), ao tentar resolver um problema, existem muitas soluções possíveis. Talvez o pré-treinamento em toda a internet melhore seu LLM, ou talvez fundamentar um LLM treinando em pares de texto-imagens rotulados ajude no raciocínio do LLM, ou talvez adicionar cadeia de pensamento ajude. Em outras palavras, ao projetar sistemas de IA, precisamos tentar muitas coisas diferentes em paralelo, pois às vezes não está claro qual será a melhor abordagem. A rotulagem é uma solução, o que significa que, à medida que entendemos melhor nosso problema, a definição de rótulo está sujeita a mudanças.

Por exemplo, pegue a rotulagem de placas de pare na direção autônoma; suponha que primeiro rotulemos placas de pare. Notamos que o desempenho melhora quando sabemos se uma placa de pare está parcialmente obstruída, então atualizamos a especificação de anotação para adicionar uma tag de metadados chamada "obstruído" mais tarde quando a placa está parcial ou não visível. Então voltamos a uma empresa de anotação e pedimos que eles rerotulam todas as nossas placas de pare com isso! Esta "plataforma de anotação no loop" significa que cada experimento de modelo que atualiza o conjunto de dados rotulado é super caro!

Então, pode-se perguntar, por que os provedores de rotulagem são usados? Por duas razões: Primeiro, rótulos de alta qualidade em dados realmente ajudam, como discutido anteriormente. Na verdade, menos dados com rótulos de maior qualidade podem superar alguns desses grandes modelos pré-treinados; o SAM sendo um excelente exemplo. Segundo, a alternativa de não usar uma empresa de anotação é criar uma plataforma de anotação interna, que é ainda mais cara e demorada, pois produzir o mesmo volume de rótulos que os outros players pode levar anos!

Conclusão

O data flywheel ideal representa dados de uma forma que é inerentemente perspicaz e interativa: devemos ser capazes de detectar anomalias e também conversar com nossos dados para obter padrões e insights interessantes. Este flywheel deve aprimorar as plataformas de anotação focando no que deve ser rotulado em vez de rotular tudo {8}. E finalmente, este data flywheel deve se alinhar com o desempenho do modelo, vinculando-se diretamente a qualquer problema que sua empresa de IA esteja resolvendo.

O dogma tradicional é que mais dados "simplesmente funcionam" e às vezes o deep learning parece alquimia. Talvez mais dados funcionem para você no curto prazo, mas quando as coisas "simplesmente não funcionam", a maneira adequada é avaliar a falha tanto nos dados quanto no modelo e trabalhar a partir daí.

Na Interpret, esperamos mudar o paradigma. Se você está interessado, entre em contato conosco em ily@interpretai.tech

Footnotes

Back when AlexNet was still a thing circa 2015ish most models for computer vision were trained on a subset of very particular problem types: classification, segmentation, object detection (ie foundation problems) and others like image captioning, scene recognition, pose estimation (see appendix for more details)[1]. Note this was pre “Attention is all you need” when bigrams were a-la-mode. The focus then was model development while benchmarks remained fixed. These benchmarks were “largish” labeled datasets (order of 10k to 1M) that were used to evaluate model performance. Some of the popular CV benchmarks you’re probably familiar with are MNIST, ImageNet, MS COCO, KITTI, Caltech-101 [2]. If you look the largest labeled datasets around this time they were around 1M labels, and that was considered large at the time.
Modern pretraining entered the chat around 2017 and changed the game. Borrowing from representation learning, pretraining came as a fundamental paradigm shift from learning features for only a specific labeled dataset to learning general features on unlabeled data that correlated well with other problems like classification, segmentation, object detection. These datasets compared to their labeled brethern were massive [5]. At the same time, advancements in model training (CUDA optimization which is why NVIDIA hit a 4T market cap), deep learning libraries (tensorflow, pytroch), and new / improved model architectures like Transformers from “Attention Is All You Need” opened up a brand new world. Researchers also noticed that increasing the size of models typically correlated with improved performance on unseen data (from the same data distribution). All of this combined interfaced with modern pretraining algorithms like pretext tasks, contrastive learning, masked label modeling, masked autoencoding (MAE) multimodal modeling [4] unlocking the era of training big models on even massive unlabeled datasets. Ergo, models like CLIP [13], DALL-E [14], DINOv2 [15], BERT [16].
”Alignment” is an overused term I mean alignment in both the “we want our LLM to be helpful not harmful” sense and the “data distribution alignment” sense.
When training / fine-tuning a model, scaling model size correlates with improvement in performance roughly following a power law. In industry, we’re already hitting the peak for model size scaling laws and fine-tuning is giving less and less of an advantage. The next frontier is improving pretraining method to better utilize existing unlabeled datasets.
In the SAM paper, annotations could take 30 seconds (but suppose it took 4 seconds based on the improvements from SAM v2 [10]); reviewing 1.1B masks would’ve required 1,100,000,000 * 4 seconds = ~51,000 days of annotation time!
This is also assuming that the data distribution is stationary (unchanging). If we wanted to increase the labels to a different data distribution (say deep sea diving videos where the semantics & dynamics of objects is different) then finetuning SAM would still require the same data flywheel training process which is also more time and more money.
Suppose that each object has a probability of being mislabeled p=0.01 (ie an annotator labels incorrectly or misses a label once every 100 labels). Assuming 50 objects in a video the probability of succeeding assuming independence is (1 - p)^50 = 61% chance of success! And that’s conservative.
Fundamentally, when AI companies have better clarity on what to label their incentives align with annotation companies.
More and more it is clear very few samples (e.g. thousands) of very high quality data is way better than million of low quality data - this is particularly true in post-traning of LLMs in industry but it is starting to be the focus also of pre-training.
A data flywheel is the loop used to collect data, improve the model, which makes a better product, which then modifies what data to collect and the cycle repeats (for example this image from dataloop.ai https://dataloop.ai/book/the-data-flywheel-effect/). A data engine is the infra for collecting/labeling/evaluating data (for example Scale’s product https://scale.com/data-engine).

Special Thanks

Cameron Tukerman-Lee (also credit for the title)
Gabriele Sorrento
Francesco Pongetti
Lotfi Herzi

Appendix

[1] A more extensive list of popular 2015 foundational problems across different domains so sortof pre multi-modal.
- Computer vision
  - classification
  - segmentation
  - object detection
  - image captioning
  - scene recognition
  - pose estimation
  - Optical Flow Estimation
  - Depth Estimation
  - Face recognition
  - Pose estimation
  - Visual tracking
  - Style transfer
  - Image generation
- Natural Language Processing
  - Machine translation
  - Part of speech tagging
  - Question answering
- Speech Processing
  - Speech recognition
  - Speaker identification
  - Emotion classification
- Time series
- Reinforcement Learning
[2] Popular datasets separated by domain around 2015 Classification: Segmentation: Object Detection: Other Tasks: Depth Estimation: Optical Flow: Pose Estimation: Face Recognition: Video/Action Recognition: Attributes/Multi-label: Reinforcement Learning: Can think of dataset size as number of rollouts.
- ImageNet (ILSVRC 2017) - 1.2M training, 1000 classes - https://www.image-net.org/challenges/LSVRC/2017/index.php
- CIFAR-10/100 - 60K (32x32), 10/100 classes - https://www.cs.toronto.edu/~kriz/cifar.html
- MNIST - 70K handwritten digits - https://www.kaggle.com/datasets/hojjatk/mnist-dataset
- Fashion-MNIST - 70K fashion items - https://github.com/zalandoresearch/fashion-mnist
- SVHN - 600K real world house numbers 10 classes for each digit - http://ufldl.stanford.edu/housenumbers/
- Caltech-101/256 - 9K/30K images 101/256 categories - https://data.caltech.edu/records/mzrjq-6wc02, https://data.caltech.edu/records/nyy15-4j048
- Oxford Flowers 102 - 102 categories - https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Oxford-IIIT Pets - 7.4K images, 37 pet breeds - https://www.robots.ox.ac.uk/~vgg/data/pets/
- Stanford Cars - 16K images, 196 car models - https://www.kaggle.com/datasets/eduardo4jesus/stanford-cars-dataset
- FGVC Aircraft - 10.2K images, 100 aircraft variants - https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/
- Food-101 - 101 food categories - https://www.kaggle.com/datasets/dansbecker/food-101
- CUB-200-2011 - 12K bird images, 200 species - https://www.vision.caltech.edu/datasets/cub_200_2011/
- Stanford Dogs - 20K images, 120 dog breeds - http://vision.stanford.edu/aditya86/ImageNetDogs/
- MIT Indoor Scenes - 15K images, 67 indoor categories - http://web.mit.edu/torralba/www/indoor.html
- PASCAL VOC 2012 - 11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
- MS COCO - 328K images, 80 object classes, 91 stuff categories, 5 captions per image, 250k people with keypoints https://cocodataset.org/
- Cityscapes - 5K fine/25K coarse annotations, 8 classes - https://www.cityscapes-dataset.com/, https://www.cityscapes-dataset.com/dataset-overview/#class-definitions
- ADE20K - 25K images, 150 classes - https://groups.csail.mit.edu/vision/datasets/ADE20K/
- PASCAL Context - 10K images, 459 classes - https://cs.stanford.edu/~roozbeh/pascal-context/
- SBD (Semantic Boundaries) - 11K images from PASCAL - https://paperswithcode.com/dataset/sbd
- NYUDv2 - 1.4K RGB-D images - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- SUN RGB-D - 10K RGB-D images - https://rgbd.cs.princeton.edu/
- KITTI Semantic - http://www.cvlibs.net/datasets/kitti/
- PASCAL VOC 2012 - 10K/11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/
- MS COCO - 328K images, 80 classes, 1.5M instances - https://cocodataset.org/
- KITTI Object - http://www.cvlibs.net/datasets/kitti/
- Open Images (v1 in 2016) - 15.8 images, 6000 classes - https://storage.googleapis.com/openimages/web/index.html
- WIDER Face - 32K images, 393K face annotations - http://shuoyang1213.me/WIDERFACE/
- NYUDv2 - 1.4K RGB-D scenes - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- KITTI Depth- http://www.cvlibs.net/datasets/kitti/
- Make3D - 534 images with depths - http://make3d.cs.cornell.edu/data.html
- Sintel - http://sintel.is.tue.mpg.de/
- KITTI Flow - http://www.cvlibs.net/datasets/kitti/
- Flying Chairs - 22K synthetic pairs - https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html
- Middlebury - Small but precise benchmark - https://vision.middlebury.edu/flow/
- MPII Human Pose - 25K images, 40K people - http://human-pose.mpi-inf.mpg.de/
- FLIC - 5003 images from movies - https://bensapp.github.io/flic-dataset.html
- Leeds Sports Pose - https://www.kaggle.com/datasets/dkrivosic/leeds-sports-pose-lsp
- LFW (Labeled Faces in the Wild) - 13K images, 5.7K people -https://www.kaggle.com/datasets/jessicali9530/lfw-dataset
- CelebA - 200K images, 10K identities - http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- MegaFace - 1M images, 690K identities - http://megaface.cs.washington.edu/
- VGGFace - 2.6K people - https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
- UCF-101 - 13,320 videos, 101 actions - https://www.crcv.ucf.edu/data/UCF101.php
- HMDB-51 - 6800 videos, 51 actions - https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- Sports-1M - 1M YouTube videos, 487 sports - https://cs.stanford.edu/people/karpathy/deepvideo/
- ActivityNet - 20K videos, 200 classes - http://activity-net.org/
- WIDER Attribute - http://mmlab.ie.cuhk.edu.hk/projects/WIDERAttribute.html
- Berkeley Attributes - https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/poselets/
- Classic control tasks
  - OpenAI Gym (cartpole, mountaincar, acrobat, etc). I remember this before chatgpt lol maybe I’m old
  - MuJoCo (Multi-joint dynamics with contact) like the halfcheetah, hopper, humanoid, etc. This was typically done in a physics simulation and was popular for PPO.
- Board games
  - Go
  - Chess
  - PyGame
- TORCS
- Minecraft
- ViZDoom
- Atari 2600 from DeepMind
[3] Scaling Laws Paper, Larger pretrained models paper
- "Scaling Laws for Neural Language Models" by Jared Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level”: https://arxiv.org/abs/2105.06020
[4] Modern pretraining algorithms Pretext Tasks: Contrastive Learning Methods: Masked Modeling: Multimodal Learning:
- Rotation prediction
- Jigsaw puzzles
- Colorization
- Inpainting/Masked patches
- SimCLR (Chen et al., 2020): "A Simple Framework for Contrastive Learning of Visual Representations" [2002.05709] A Simple Framework for Contrastive Learning of Visual Representations
- MoCo v1 & v2 (He et al., 2019/2020): "Momentum Contrast for Unsupervised Visual Representation Learning" [2003.04297] Improved Baselines with Momentum Contrastive Learning
- BYOL (Grill et al., 2020): "Bootstrap Your Own Latent"
- PIRL (Misra & van der Maaten, 2020): "Self-Supervised Learning of Pretext-Invariant Representations" Self-Supervised Learning of Pretext-Invariant Representations
- Masked Language Modeling (MLM): BERT (Devlin et al., 2018)
- Masked Autoencoder (MAE)
- CLIP (Radford et al., 2021): "Learning Transferable Visual Models From Natural Language Supervision" [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
- ALIGN (Jia et al., 2021)
- DALL-E (Ramesh et al., 2021): "Zero-Shot Text-to-Image Generation"
[5] Pretraining datasets
- JFT-300M: google’s internal 300M images psudeo labeled: https://ar5iv.labs.arxiv.org/html/1707.02968 (TO VERIFY)
- LAION-5B: 5.85 billion (image, text) pairs scraped from Common Crawl
- CLIP Training Data: 400M (image, text) pairs https://arxiv.org/abs/2103.00020 (not released)
- Wikipedia: English 20GB
- Kinetics-700: 650k videos (technically has action classes but still used)
[6] Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism https://arxiv.org/abs/2401.02954
[9] Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/abs/2212.08073
[10] Segment anything: https://arxiv.org/abs/2304.02643, SAM 2: Segment Anything In Images & Videos https://arxiv.org/pdf/2408.00714. More details below.
[11] https://techcrunch.com/2025/06/13/new-details-emerge-on-metas-14-3b-deal-for-scale/
[12] https://www.nature.com/articles/s41586-025-09227-0
[13] "Learning Transferable Visual Models From Natural Language Supervision” https://arxiv.org/abs/2103.00020
[14] "Zero-Shot Text-to-Image Generation” https://arxiv.org/abs/2102.12092
[15] "Emerging Properties in Self-Supervised Vision Transformers” https://arxiv.org/abs/2104.14294, "DINOv2: Learning Robust Visual Features without Supervision” https://arxiv.org/abs/2304.07193
[16] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” https://arxiv.org/abs/1810.04805
[17] Waymo E2E Open dataset https://waymo.com/open/data/e2e#camera-data

Escala de dados NÃO é tudo o que você precisa