TL;DR

El dogma para las empresas de IA es que más datos conducen a un mejor rendimiento, pero en realidad la escala de datos no es todo lo que necesitas. Los datos de alta calidad producen un mejor rendimiento en comparación con un conjunto de datos más grande de baja calidad. Producir datos de alta calidad requiere filtrar el ruido, comprender los datos sin etiquetar y entender qué etiquetar. El etiquetado masivo de datos por parte de plataformas de anotación también es problemático ya que sus incentivos a menudo están desalineados y su plataforma es un cuello de botella que consume tiempo, es propenso a errores y costoso. La mejor manera de mejorar los sistemas de IA es comprender los datos que alimentan los modelos representando inteligentemente los conjuntos de datos de una manera que sea interactuable utilizando aprendizaje de representación auto-supervisado, modelado de fundamentos y filtrado. Estas prácticas previenen el riesgo de un rendimiento deficiente en los sistemas de IA y el riesgo de generar resultados dañinos.

Menos es Más

La escala de datos no es todo lo que necesitas. Aumentar ciegamente el tamaño de un conjunto de datos mientras se preentrena un modelo pone a las empresas que priorizan la IA en riesgo de cometer errores graves. Entrenar modelos en grandes conjuntos de datos con una distribución desconocida conduce a comportamientos inesperados: en robótica esto podría llevar a trayectorias erróneas y peligrosas, para una empresa de atención médica evaluaciones de riesgo inexactas, y para LLMs generación de discurso dañino {9}. En X, Grok cometió este error, generando discurso dañino en la publicación ahora eliminada que se muestra en la Figura 0a. Incluso el CEO de xAI admitió que necesitan ser más "selectivos sobre los datos de entrenamiento, en lugar de simplemente entrenar en todo el internet". Pero ¿cómo seleccionas adecuadamente los datos para entrenar y evaluar correctamente estos modelos? ¿Qué herramientas existen?

La solución es representar inteligentemente los datos en una forma que sea interactuable y suficientemente diversa semánticamente. Este enfoque ayuda a: 1. crear conjuntos de datos de entrenamiento y evaluación tanto para el preentrenamiento como para el post-entrenamiento, 2. identificar vacíos en los datos y 3. hacer recomendaciones sobre cómo llenar esos vacíos (ya sea comprando o recolectando).

Figure 0a: Examples of an LLM generating harmful speech likely due to existence of similar text in the training data the xAI team used to train Grok.

Figure 0b: Reaction from the xAI CEO after Grok generated harmful speech. The interesting piece is the teams focus on being selective of the training data. Original post from the Grok CEO https://x.com/elonmusk/status/1944132781745090819

Volantes de Datos {10} y empresas de Anotación

En la industria, la mayoría de los CEOs de empresas de IA, investigadores de IA e ingenieros están insatisfechos con las empresas de anotación modernas que se integran en sus volantes de datos.

La solución actual para las empresas de IA es acumular un gran conjunto de datos sin etiquetar para el preentrenamiento (o usar un modelo preentrenado de código abierto), luego etiquetar otro gran conjunto de datos específico para la tarea prevista, y finalmente curar manualmente un conjunto de entrenamiento y un conjunto de evaluación. El etiquetado generalmente se subcontrata a empresas de anotación (ScaleAI, SuperAnnotate, Labelbox, etc.) que se integran en el motor de datos. Pero etiquetar todo en un gran conjunto de datos no funciona bien porque escalar el etiquetado de datos a millones o miles de millones de ejemplos es propenso a errores, insosteniblemente costoso y consume tiempo, dejando a las empresas de IA insatisfechas. Más importante aún, el ciclo de etiquetado es un proceso interminable ya que los volantes de datos se adaptan continuamente a modelos en evolución y más datos recopilados, haciendo que los requisitos de etiquetado sean fluidos y cambien con el tiempo; las empresas de anotación no pueden mantener el ritmo de los cambios ya que las actualizaciones del modelo pueden ocurrir en semanas mientras que el etiquetado puede tomar meses.

El ciclo de etiquetado moderno en un motor de datos es:

Recopilar algunos datos.
Diseñar o actualizar alguna especificación de etiquetado.
Enviar los datos y la especificación a alguna empresa de etiquetado (Scale, SuperAnnotate, etc.). Pagar por el etiquetado.
Iterar con la empresa de etiquetado y entrenar el modelo.
Observar los resultados y luego repetir los pasos 2-5 indefinidamente.

Por ejemplo, una empresa de conducción autónoma podría querer etiquetar señales de alto pero luego, después de etiquetar 1 millón de señales de alto y ver los resultados, se dan cuenta de que quieren etiquetar la "visibilidad" de la señal de alto, luego se dan cuenta de que también quieren etiquetar los árboles que podrían estar rodeando las señales de alto agregando una etiqueta de "obstruido". ¡Ahora todos los datos (que también han crecido mientras tanto ya que las recopilaciones de datos son continuas) necesitan ser reetiquetados! ¡El ciclo nunca terminará mientras una empresa esté mejorando su modelo!

Que Meta gaste 14.3B por una participación del 49% para contratar al CEO de Scale.AI [11] podría ser uno de los movimientos más arriesgados que la empresa haya hecho debido a estas dificultades con las empresas de etiquetado.

Entonces, si entrenar ciegamente en conjuntos de datos enormes es problemático, y etiquetar todo es difícil, ¿qué más deberíamos hacer? Después de trabajar en este problema durante los últimos cuatro años, encontramos que la mejor solución es representar los datos lo suficientemente bien como para que sea más fácil seleccionar y comprender qué hay en nuestros datos y cómo esos datos impactan nuestros modelos. Deberíamos poder conversar con nuestros datos de una manera que nos permita buscar rápidamente ejemplos y construir rápidamente conjuntos de evaluación para probar modelos.

Eso es lo que estamos construyendo en Interpret AI. Estamos construyendo una plataforma de introspección de datos, plataforma de curación de datos y mercado de datos inteligente que permite a las empresas que construyen sistemas de IA interactuar y comprender sus conjuntos de datos. Imaginamos un mundo donde puedas conversar con tus datos usando lenguaje natural, audio, imagen y video para buscar instancias similares de modo que las empresas puedan confiar y conocer sus datos (o los vacíos en sus datos) que están impulsando sus modelos. (Si algo de esto resuena contigo, no dudes en contactar a ily@interpretai.tech)

Escala lo que probablemente sea útil primero

Volantes de datos tradicionales

Figure 1a: The traditional data engine powering AI solutions in companies.

Una empresa tiene alguna infraestructura que está constantemente recopilando datos en un conjunto de datos (1b). Un equipo luego crea subconjuntos de datos heurísticos que, con suerte, una vez etiquetados mejorarán su modelo (1a).
Los datos se envían a la empresa de etiquetado (anotación). La empresa de etiquetado produce etiquetas (anotaciones) que luego son revisadas por el equipo, lo que puede tomar meses de ida y vuelta para converger.
El Modelo de IA preentrenado es entonces preentrenado.
El modelo preentrenado es luego ajustado finamente usando las etiquetas de la empresa de etiquetado.
El modelo final es evaluado usando el sistema de evaluación de la empresa, generando métricas.
La empresa luego usa esta retroalimentación para posiblemente seleccionar otros subconjuntos de datos, actualizar los requisitos de etiquetado y/o hacer cambios en el modelo. Nótese que para este punto el subconjunto de datos ya está envejeciendo.

Nota: Las métricas pueden estar sesgadas por anotaciones deficientes que requieren iteración constante del equipo que es tanto costosa como ineficiente en tiempo (6).

Figure 1b: A breakdown of the time requirements for different processes in a traditional company’s approach to solutions. Notice that the major bottleneck is getting labels from a labeling company.

Figura 1b: Las restricciones de tiempo y configuración del sistema de IA de una empresa tradicional con cronogramas aproximados para iterar cada una de estas piezas de forma independiente. Nótese que con una empresa de etiquetado en el ciclo, tomará meses de iteración generar etiquetas que mejoren adecuadamente un Modelo de IA.Ver Figura 1a para cómo cada una de estas piezas interactúa con una empresa tradicional.

Volante de datos de Interpret AI:

Comienza Sabiendo con conocimientos profundos de datos

Figure 2a: Interpret’s AI data flywheel & how we provide immediate data insights.

Figura 2a: Volante de datos de Interpret AI.

Recomendaciones inmediatas de subconjuntos de datos y sugerencias de datos mejoradas para preentrenamiento y entrenamiento (1a y 1b respectivamente).
El equipo ahora revisa subconjuntos de datos significativamente más pequeños sugeridos por Interpret antes de enviarlos a una empresa de etiquetado. Estos subconjuntos de datos son fluidos y se actualizan continuamente a medida que los datos cambian (Opcionalmente, si una empresa integra su modelo base, Interpret AI puede proporcionar más información sobre cómo los datos impactan el rendimiento del modelo).
El ida y vuelta con una empresa de etiquetado se acelera de meses a semanas y es significativamente más barato ya que las especificaciones de anotación y la selección del conjunto de datos son claras.

La retroalimentación se centra en el modelo (6).
Por último, Interpret AI analiza tu espacio de datos para proporcionar información sobre qué datos recopilar o comprar para acelerar la mejora del modelo.

Figure 2b: A breakdown of the time requirements for different processes in using Interpret’s platform. On the left hand side feedback iteration speed in green is accelerated. Notice there is no more bottleneck.

Figura 2b: La figura demuestra cómo Interpret AI se integra directamente con nuestros clientes para acelerar el entrenamiento del modelo, la clasificación y comprensión de datos, y la evaluación. Interpret AI proporciona soluciones para

Comprender la distribución de datos existente.
Identificar vacíos del modelo que están correlacionados con vacíos de datos.
Comprar y curar datos para llenar vacíos de datos.

Casos de uso

Colaboramos con varios negocios en las industrias de robótica, atención médica y LLM agénticos. Si algo de esto resuena contigo, no dudes en contactar a ily@interpretai.tech

Atención médica

HealthCo está tratando de predecir el riesgo de enfermedades cardiovasculares para sus pacientes.

Para entrenamiento

Interpret AI analiza datos cardiovasculares usando nuestros modelos de fundamentos interpret, procesando EHRs, imágenes, potencialmente datos de ECG [12] si están disponibles.
Interpret AI nota anomalías o "vacíos" en HealthCo y describe la demografía de estas personas (es decir, mujer, mediana edad, sin hijos, históricamente prescrita trimetazidina).
Estos registros detectados son analizados más a fondo por expertos. Los datos seleccionados pueden entonces ser actualizados, ignorados, usados para ayudar a comprar más datos de personas históricamente prescritas trimetazidina, o enviados a una empresa de etiquetado para anotar este grupo específico.
Los datos seleccionados se usan luego para entrenar el modelo de IA de enfermedades cardiovasculares. Si HealthCo integra su modelo cardiovascular en la plataforma Interpret, entonces analizamos más a fondo dónde el modelo está teniendo un rendimiento deficiente en tiempo real, permitiendo una introspección inmediata.
¡Este proceso reduce el cronograma de entrenamiento del modelo de un orden de meses a semanas mejorando rápidamente los sistemas de IA y ahorrando costos!

Para seguridad

Supongamos que HealthCo tiene ejemplos de personas que han sufrido ataques cardíacos y quieren analizar otros EHRs de personas que son similares a esta persona que también podrían estar en riesgo.

Usando Interpret AI, HealthCo puede seleccionar ejemplos de esta persona y buscar un grupo relacionado de personas, ordenando por confianza.
¡Estas personas pueden ser marcadas como en riesgo, identificando rápidamente unos pocos cientos de personas en riesgo de millones de registros!

Robótica

DriveCo está construyendo autos de carreras autónomos como un juguete para que los niños jueguen afuera.

Para entrenamiento

Interpret AI analiza las ejecuciones recopiladas de datos de video de autos de carreras. Interpret AI proporciona un informe de datos.
Interpret AI nota que la mayoría de las repeticiones de los videos no son geográficamente diversas y que hay pocos ejemplos de autos de carreras conduciendo al aire libre en patios traseros.
Interpret AI recomienda al equipo de DriveCo recopilar más ejemplos de videos al aire libre. También intentamos equilibrar el conjunto de datos de manera aprendida usando nuestro modelo de fundamentos Interpret AI para aliviar este desequilibrio.
- ¡Sin Interpret AI, DriveCo podría haber enviado más de 1000 horas de datos de autos de carreras para etiquetar objetos que no eran necesarios! ¡Ahora solo necesitan etiquetar 10 horas!

Para seguridad

Supongamos que estos autos de carreras autónomos enfrentan escrutinio por la seguridad infantil.

DriveCo puede buscar en su base de datos videos que contengan "bebé" para ver si tienen estos datos.
¡Si DriveCo no tiene los datos, esto informa al equipo que los recopile (usando quizás bebés falsos espero) o esto permite a DriveCo mostrar a los consumidores e inversores que el producto es de hecho seguro alrededor de bebés!

Cómo llegamos aquí

Una breve historia sobre etiquetas y preentrenamiento

En 2015, pre-Transformers, la mayoría de los modelos fueron entrenados para resolver un subconjunto muy particular de problemas: clasificación, segmentación, detección de objetos (es decir, problemas fundamentales) y otros [1]. Los benchmarks eran conjuntos de datos etiquetados "bastante grandes" del orden de 10k a 1M. {1}

El preentrenamiento moderno entró en escena alrededor de 2017 y cambió el juego. Tomando prestado del aprendizaje de representación, el preentrenamiento llegó como un cambio de paradigma fundamental donde de repente los conjuntos de datos sin etiquetar desbloquearon enormes ganancias en el rendimiento del modelo. Los conjuntos de datos sin etiquetar usados para el preentrenamiento en comparación con sus hermanos etiquetadoseran masivos [5]. Esto combinado con otras técnicas y avances {2} condujo a modelos fundamentales modernos como CLIP [13], DALL-E [14], DINOv2 [15], y BERT [16] por nombrar algunos.

Luego OpenAI, construido sobre una base de transformers, preentrenamiento y progreso en aprendizaje por refuerzo, cambió el juego cuando lanzaron GPT (transformador generativo preentrenado) [6]. Sora [7], DeepSeek [8], Anthropic [9] todos usan preentrenamiento en grandes conjuntos de datos como la columna vertebral para sus modelos de alto rendimiento. Pero escondida allí hay una observación aguda de la que la mayoría de la gente no está hablando.

Aunque el preentrenamiento es un buen primer paso, la mayoría de estos modelos necesitan entrenamiento adicional sobre una base preentrenada. Ya sea esto RL o ajuste fino supervisado, los modelos más eficientes están alineados {3} de alguna manera con el problema original. Pero incluso el ajuste fino escala hasta cierto punto, lo que significa que mejorar el preentrenamiento es esencial para el rendimiento futuro del modelo {4}.

Uno de los ejemplos más convincentes de cómo integrar adecuadamente el preentrenamiento y construir un volante de datos en la literatura es el volante de datos etiquetados construido por Meta en Segment Anything Model (SAM) y SAM v2 [10]. Pero incluso en este ejemplo, el etiquetado de datos es increíblemente difícil de escalar.

Segment Anything: las innovaciones y el mensaje

TL;DR: Lo que SAM nos muestra es que el aseguramiento de calidad y comprender qué hay en nuestros datos es difícil pero un problema importantea abordar. Agregar más datos no es necesariamente la respuesta.

SAM construyó un volante de datos que curó un gran conjunto de datos etiquetados usando un SAM parcialmente entrenado en varias etapas de entrenamiento con retroalimentación de etiquetas humanas. Su enfoque ilustra la manera adecuada de integrar el etiquetado en un pipeline pero también destaca que incluso el volante de datos de etiquetado correcto es costoso y desafiante de escalar. En algún momento, el conjunto de datos crece lo suficientemente grande donde los humanos no pueden anotar todo y por lo tanto requiere algún otro método de introspección (es decir, lo que Interpret está construyendo).

Aproximadamente, el enfoque de SAM fue [10]

Comenzar con un ViT jerárquico preentrenado con MAE.
Entrenar SAM en conjuntos de datos de segmentación disponibles públicamente.
Usar el SAM parcialmente entrenado para generar máscaras de segmentación en un subconjunto de datos.
Hacer que los humanos refinen las predicciones de segmentación. Luego también usar las máscaras para entrenar un detector de objetos para encontrar más objetos y hacer que los humanos etiqueten eso.
Repetir los pasos 3-4 aumentando gradualmente el tamaño del conjunto de datos.
Terminar ejecutando en 1 mil millones de imágenes para obtener SA-1B. Usar un equipo de QA para marcar ejemplos potencialmente malos. Nótese que proporcionar etiquetas humanas a todas las 1 mil millones de imágenes es increíblemente difícil.

La idea es la misma para SAM 2 que es un modelo de segmentación de video, que generó el conjunto de datos SA-V con 35.5M máscaras en 50.9K videos, 53 veces más máscaras que cualquier conjunto de datos de segmentación de video [10].

Nótese, el mejor modelo de segmentación fue entrenado con datos directamente relacionados con su tarea donde la retroalimentación de etiquetas estaba toda bien acoplada en un volante de datos rápido y eficiente. El preentrenamiento y luego el entrenamiento con una colección de conjuntos de datos de segmentación de código abierto fueron solo el primer y segundo paso.

También nótese que el etiquetado humano eventualmente alcanzó un techo; cuando el volante de datos comenzó a etiquetar 1B de imágenes, Meta aún necesitaba ejecutar un filtro de QA para marcar ejemplos malos. Según el artículo, ¡anotar todas las 1.1B máscaras habría tomado 51k días de tiempo de anotación! {5}

¡Estamos hablando de Meta pero contratar eso para la mayoría de las empresas sería escandalosamente caro e inviable! {6} ¡Etiquetar a esta escala es simplemente difícil!

Reiterando el TL;DR, lo que SAM nos muestra es que el aseguramiento de calidad y comprender qué hay en nuestros datos es difícil pero un problema importante a abordar. Este es fundamentalmente el vacío que vemos en la industria hoy: más datos usados para preentrenamiento o ajuste fino no es necesariamente la respuesta. El enfoque correcto identifica dónde sufre un modelo, comprende por qué sufre allí, y luego destaca datos (o vacíos de datos) relevantes al problema, que es lo que estamos haciendo en Interpret AI.

Los objetivos de las empresas de anotación no están necesariamente alineados con los tuyos...

Tenemos experiencia en la industria en MAANG y nuestro equipo tiene experiencia trabajando con empresas de anotación como Scale, SuperAnnotate, etc. Para la mayoría de las empresas de etiquetado (anotación), el modelo de negocio es:

Dejar que las empresas generen su propia especificación de etiquetado (anotación) con quizás algo de ida y vuelta dependiendo de la complejidad de las etiquetas.
La mayoría de las empresas de anotación tienen diferentes niveles de anotadores, siendo el grupo más grande los no expertos que etiquetan todo y el más pequeño siendo expertos en el campo (es decir, Doctores). Una empresa de anotación luego organiza un grupo de etiquetadores humanos, típicamente comenzando con los más baratos para hacer una primera pasada de baja calidad.
Los anotadores luego etiquetan según la especificación de anotación compleja de la empresa lo mejor que pueden, cobrando por anotación.
Proporcionar retroalimentación y actualizaciones a las anotaciones, posiblemente actualizando la especificación de anotación.

Hay cuatro problemas principales con este proceso:

las anotaciones no son consistentes y usualmente no se asignan a los etiquetadores correctos,
el etiquetado consume tiempo y es costoso,
el ciclo de retroalimentación para corregir anotaciones es erróneo, y
las especificaciones de anotación cambian con el tiempo a medida que cambia el rendimiento del modelo.

Abordando 1., no se garantiza que los etiquetadores sean adecuados para su tarea de etiquetado asignada y a menudo etiquetan de manera diferente a sus compañeros. Por ejemplo, para una empresa de atención médica si la tarea es "Elegir la respuesta clínica que mejor diagnostica al paciente" ¡estos etiquetadores pueden ni siquiera ser doctores adecuados para la tarea! Además, para una empresa de conducción autónoma si la tarea es "Dibujar cuadros delimitadores para señales de alto" ¿esto incluye el poste o no? ¿Qué pasa si es la parte trasera de una señal de alto? Diferentes anotadores etiquetarán de manera diferente sin consultarse entre sí.

Abordando 2., cobrar por anotación suena genial en teoría ya que el dogma convencional es que más etiquetas ayudan pero si y solo si la empresa puede permitirse el costo de un número suficiente de etiquetas para impulsar el rendimiento del modelo; un número que típicamente es desconocido. Estas anotaciones también típicamente tendrán errores que requieren que las empresas de IA construyan sistemas internos que revisen las anotaciones, lo que toma tanto tiempo (orden de meses) como más dinero.

Abordando 3., El ciclo de retroalimentación tampoco es consistente. Típicamente la responsabilidad de la verificación de anotaciones se empuja a la empresa de IA, que necesita configurar su propio sistema de monitoreo interno (ya consume tiempo y es costoso). Cuando una empresa de IA nota un problema de anotación, no se garantiza que las correcciones sean del mismo anotador que creó la etiqueta problemática y a veces las empresas de anotación reetiquetarán todo el ejemplo problemático en lugar de corregirlo, lo que cuesta más. Por ejemplo, una empresa de conducción autónoma podría querer etiquetar máscaras de instancia de semáforos y personas. En este ejemplo ficticio, el primer anotador comete un error y olvida etiquetar los semáforos que no están mirando hacia la cámara. La empresa de IA lo marca y lo envía para ser revisado nuevamente, pero la forma en que la empresa de anotación lo arregla es enviando la imagen a un nuevo anotador que reetiqueta todo desde cero. El segundo anotador arregla el problema original pero no etiqueta a los policías como "personas" ¡y ahora surge un nuevo problema! Ver Figura 3a y Figura 3b. Este ciclo tiene una probabilidad increíblemente baja de anotar objetos correctamente ~61% para 50 etiquetas {7}.

Figure 3a: First pass by the first annotator who missed the traffic lights that are not facing the camera. (Image from Waymo Open Dataset [17])

Figure 3b: Second pass from the second annotator who got all the traffic lights but didn’t realize that the “people” class included police officers! (Image from Waymo Open Dataset [17])

¡Esencialmente, con este sistema de retroalimentación las etiquetas que crea una empresa de anotación no están garantizadas de converger a las etiquetas correctas!

Los incentivos de las empresas de IA no están bien alineados con los de las empresas de etiquetado. Las empresas de IA quieren mejorar su modelo de IA y su producto mientras que las empresas de anotación quieren etiquetar tantos datos de la empresa como sea posible para poder cobrar por ello.Tú quieres hacer que tu modelo sea eficiente y las empresas de anotación también deberían hacerlo.

Abordando 4., En la industria (e investigación), cuando se trata de resolver un problema, hay muchas soluciones posibles. Quizás el preentrenamiento en todo el internet mejorará tu LLM, o quizás fundamentar un LLM entrenando en pares de texto-imágenes etiquetados ayudará con el razonamiento del LLM, o quizás agregar cadena de pensamiento ayudará. En otras palabras, al diseñar sistemas de IA necesitamos probar muchas cosas diferentes en paralelo ya que a veces no está claro cuál será el mejor enfoque. El etiquetado es una solución, lo que significa que a medida que comprendemos mejor nuestro problema, la definición de etiqueta está sujeta a cambios.

Por ejemplo, tomemos el etiquetado de señales de alto en conducción autónoma; supongamos que primero etiquetamos señales de alto. Notamos que el rendimiento mejora cuando sabemos si una señal de alto está parcialmente obstruida, así que actualizamos la especificación de anotación para agregar una etiqueta de metadatos llamada "obstruido" más adelante cuando la señal está parcial o no visible. ¡Luego volvemos a una empresa de anotación y les pedimos que reetiqueten todas nuestras señales de alto con esto! Esta "plataforma de anotación en el ciclo" significa que cada experimento del modelo que actualiza el conjunto de datos etiquetados es súper costoso.

Entonces, uno puede preguntarse, ¿por qué se usan los proveedores de etiquetado en absoluto? Por dos razones: Primero, las etiquetas de alta calidad en los datos sí ayudan como se discutió anteriormente. De hecho, menos datos con etiquetas de mayor calidad pueden superar a algunos de estos grandes modelos preentrenados; SAM siendo un excelente ejemplo. Segundo, la alternativa a no usar una empresa de anotación es crear una plataforma de anotación interna que es aún más costosa y consume tiempo, ¡ya que producir el mismo volumen de etiquetas que los otros jugadores puede tomar años!

Conclusión

El volante de datos óptimo representa datos en una forma que es inherentemente perspicaz e interactuable: deberíamos poder detectar anomalías y también conversar con nuestros datos para obtener patrones e ideas interesantes. Este volante debería mejorar las plataformas de anotación enfocándose en qué debería ser etiquetado en lugar de etiquetar todo {8}. Y finalmente, este volante de datos debería alinearse con el rendimiento del modelo, vinculándose directamente con cualquier problema que tu empresa de IA esté resolviendo.

El dogma tradicional es que más datos "simplemente funcionan" y a veces el aprendizaje profundo se siente como alquimia. Quizás más datos funcionarán para ti a corto plazo, pero cuando las cosas "simplemente no funcionan" la manera adecuada es evaluar el fracaso tanto en los datos como en el modelo y trabajar desde allí.

En Interpret esperamos cambiar el paradigma. Si estás interesado, contáctanos en ily@interpretai.tech

Footnotes

Back when AlexNet was still a thing circa 2015ish most models for computer vision were trained on a subset of very particular problem types: classification, segmentation, object detection (ie foundation problems) and others like image captioning, scene recognition, pose estimation (see appendix for more details)[1]. Note this was pre “Attention is all you need” when bigrams were a-la-mode. The focus then was model development while benchmarks remained fixed. These benchmarks were “largish” labeled datasets (order of 10k to 1M) that were used to evaluate model performance. Some of the popular CV benchmarks you’re probably familiar with are MNIST, ImageNet, MS COCO, KITTI, Caltech-101 [2]. If you look the largest labeled datasets around this time they were around 1M labels, and that was considered large at the time.
Modern pretraining entered the chat around 2017 and changed the game. Borrowing from representation learning, pretraining came as a fundamental paradigm shift from learning features for only a specific labeled dataset to learning general features on unlabeled data that correlated well with other problems like classification, segmentation, object detection. These datasets compared to their labeled brethern were massive [5]. At the same time, advancements in model training (CUDA optimization which is why NVIDIA hit a 4T market cap), deep learning libraries (tensorflow, pytroch), and new / improved model architectures like Transformers from “Attention Is All You Need” opened up a brand new world. Researchers also noticed that increasing the size of models typically correlated with improved performance on unseen data (from the same data distribution). All of this combined interfaced with modern pretraining algorithms like pretext tasks, contrastive learning, masked label modeling, masked autoencoding (MAE) multimodal modeling [4] unlocking the era of training big models on even massive unlabeled datasets. Ergo, models like CLIP [13], DALL-E [14], DINOv2 [15], BERT [16].
”Alignment” is an overused term I mean alignment in both the “we want our LLM to be helpful not harmful” sense and the “data distribution alignment” sense.
When training / fine-tuning a model, scaling model size correlates with improvement in performance roughly following a power law. In industry, we’re already hitting the peak for model size scaling laws and fine-tuning is giving less and less of an advantage. The next frontier is improving pretraining method to better utilize existing unlabeled datasets.
In the SAM paper, annotations could take 30 seconds (but suppose it took 4 seconds based on the improvements from SAM v2 [10]); reviewing 1.1B masks would’ve required 1,100,000,000 * 4 seconds = ~51,000 days of annotation time!
This is also assuming that the data distribution is stationary (unchanging). If we wanted to increase the labels to a different data distribution (say deep sea diving videos where the semantics & dynamics of objects is different) then finetuning SAM would still require the same data flywheel training process which is also more time and more money.
Suppose that each object has a probability of being mislabeled p=0.01 (ie an annotator labels incorrectly or misses a label once every 100 labels). Assuming 50 objects in a video the probability of succeeding assuming independence is (1 - p)^50 = 61% chance of success! And that’s conservative.
Fundamentally, when AI companies have better clarity on what to label their incentives align with annotation companies.
More and more it is clear very few samples (e.g. thousands) of very high quality data is way better than million of low quality data - this is particularly true in post-traning of LLMs in industry but it is starting to be the focus also of pre-training.
A data flywheel is the loop used to collect data, improve the model, which makes a better product, which then modifies what data to collect and the cycle repeats (for example this image from dataloop.ai https://dataloop.ai/book/the-data-flywheel-effect/). A data engine is the infra for collecting/labeling/evaluating data (for example Scale’s product https://scale.com/data-engine).

Special Thanks

Cameron Tukerman-Lee (also credit for the title)
Gabriele Sorrento
Francesco Pongetti
Lotfi Herzi

Appendix

[1] A more extensive list of popular 2015 foundational problems across different domains so sortof pre multi-modal.
- Computer vision
  - classification
  - segmentation
  - object detection
  - image captioning
  - scene recognition
  - pose estimation
  - Optical Flow Estimation
  - Depth Estimation
  - Face recognition
  - Pose estimation
  - Visual tracking
  - Style transfer
  - Image generation
- Natural Language Processing
  - Machine translation
  - Part of speech tagging
  - Question answering
- Speech Processing
  - Speech recognition
  - Speaker identification
  - Emotion classification
- Time series
- Reinforcement Learning
[2] Popular datasets separated by domain around 2015 Classification: Segmentation: Object Detection: Other Tasks: Depth Estimation: Optical Flow: Pose Estimation: Face Recognition: Video/Action Recognition: Attributes/Multi-label: Reinforcement Learning: Can think of dataset size as number of rollouts.
- ImageNet (ILSVRC 2017) - 1.2M training, 1000 classes - https://www.image-net.org/challenges/LSVRC/2017/index.php
- CIFAR-10/100 - 60K (32x32), 10/100 classes - https://www.cs.toronto.edu/~kriz/cifar.html
- MNIST - 70K handwritten digits - https://www.kaggle.com/datasets/hojjatk/mnist-dataset
- Fashion-MNIST - 70K fashion items - https://github.com/zalandoresearch/fashion-mnist
- SVHN - 600K real world house numbers 10 classes for each digit - http://ufldl.stanford.edu/housenumbers/
- Caltech-101/256 - 9K/30K images 101/256 categories - https://data.caltech.edu/records/mzrjq-6wc02, https://data.caltech.edu/records/nyy15-4j048
- Oxford Flowers 102 - 102 categories - https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Oxford-IIIT Pets - 7.4K images, 37 pet breeds - https://www.robots.ox.ac.uk/~vgg/data/pets/
- Stanford Cars - 16K images, 196 car models - https://www.kaggle.com/datasets/eduardo4jesus/stanford-cars-dataset
- FGVC Aircraft - 10.2K images, 100 aircraft variants - https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/
- Food-101 - 101 food categories - https://www.kaggle.com/datasets/dansbecker/food-101
- CUB-200-2011 - 12K bird images, 200 species - https://www.vision.caltech.edu/datasets/cub_200_2011/
- Stanford Dogs - 20K images, 120 dog breeds - http://vision.stanford.edu/aditya86/ImageNetDogs/
- MIT Indoor Scenes - 15K images, 67 indoor categories - http://web.mit.edu/torralba/www/indoor.html
- PASCAL VOC 2012 - 11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
- MS COCO - 328K images, 80 object classes, 91 stuff categories, 5 captions per image, 250k people with keypoints https://cocodataset.org/
- Cityscapes - 5K fine/25K coarse annotations, 8 classes - https://www.cityscapes-dataset.com/, https://www.cityscapes-dataset.com/dataset-overview/#class-definitions
- ADE20K - 25K images, 150 classes - https://groups.csail.mit.edu/vision/datasets/ADE20K/
- PASCAL Context - 10K images, 459 classes - https://cs.stanford.edu/~roozbeh/pascal-context/
- SBD (Semantic Boundaries) - 11K images from PASCAL - https://paperswithcode.com/dataset/sbd
- NYUDv2 - 1.4K RGB-D images - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- SUN RGB-D - 10K RGB-D images - https://rgbd.cs.princeton.edu/
- KITTI Semantic - http://www.cvlibs.net/datasets/kitti/
- PASCAL VOC 2012 - 10K/11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/
- MS COCO - 328K images, 80 classes, 1.5M instances - https://cocodataset.org/
- KITTI Object - http://www.cvlibs.net/datasets/kitti/
- Open Images (v1 in 2016) - 15.8 images, 6000 classes - https://storage.googleapis.com/openimages/web/index.html
- WIDER Face - 32K images, 393K face annotations - http://shuoyang1213.me/WIDERFACE/
- NYUDv2 - 1.4K RGB-D scenes - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- KITTI Depth- http://www.cvlibs.net/datasets/kitti/
- Make3D - 534 images with depths - http://make3d.cs.cornell.edu/data.html
- Sintel - http://sintel.is.tue.mpg.de/
- KITTI Flow - http://www.cvlibs.net/datasets/kitti/
- Flying Chairs - 22K synthetic pairs - https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html
- Middlebury - Small but precise benchmark - https://vision.middlebury.edu/flow/
- MPII Human Pose - 25K images, 40K people - http://human-pose.mpi-inf.mpg.de/
- FLIC - 5003 images from movies - https://bensapp.github.io/flic-dataset.html
- Leeds Sports Pose - https://www.kaggle.com/datasets/dkrivosic/leeds-sports-pose-lsp
- LFW (Labeled Faces in the Wild) - 13K images, 5.7K people -https://www.kaggle.com/datasets/jessicali9530/lfw-dataset
- CelebA - 200K images, 10K identities - http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- MegaFace - 1M images, 690K identities - http://megaface.cs.washington.edu/
- VGGFace - 2.6K people - https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
- UCF-101 - 13,320 videos, 101 actions - https://www.crcv.ucf.edu/data/UCF101.php
- HMDB-51 - 6800 videos, 51 actions - https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- Sports-1M - 1M YouTube videos, 487 sports - https://cs.stanford.edu/people/karpathy/deepvideo/
- ActivityNet - 20K videos, 200 classes - http://activity-net.org/
- WIDER Attribute - http://mmlab.ie.cuhk.edu.hk/projects/WIDERAttribute.html
- Berkeley Attributes - https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/poselets/
- Classic control tasks
  - OpenAI Gym (cartpole, mountaincar, acrobat, etc). I remember this before chatgpt lol maybe I’m old
  - MuJoCo (Multi-joint dynamics with contact) like the halfcheetah, hopper, humanoid, etc. This was typically done in a physics simulation and was popular for PPO.
- Board games
  - Go
  - Chess
  - PyGame
- TORCS
- Minecraft
- ViZDoom
- Atari 2600 from DeepMind
[3] Scaling Laws Paper, Larger pretrained models paper
- "Scaling Laws for Neural Language Models" by Jared Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level”: https://arxiv.org/abs/2105.06020
[4] Modern pretraining algorithms Pretext Tasks: Contrastive Learning Methods: Masked Modeling: Multimodal Learning:
- Rotation prediction
- Jigsaw puzzles
- Colorization
- Inpainting/Masked patches
- SimCLR (Chen et al., 2020): "A Simple Framework for Contrastive Learning of Visual Representations" [2002.05709] A Simple Framework for Contrastive Learning of Visual Representations
- MoCo v1 & v2 (He et al., 2019/2020): "Momentum Contrast for Unsupervised Visual Representation Learning" [2003.04297] Improved Baselines with Momentum Contrastive Learning
- BYOL (Grill et al., 2020): "Bootstrap Your Own Latent"
- PIRL (Misra & van der Maaten, 2020): "Self-Supervised Learning of Pretext-Invariant Representations" Self-Supervised Learning of Pretext-Invariant Representations
- Masked Language Modeling (MLM): BERT (Devlin et al., 2018)
- Masked Autoencoder (MAE)
- CLIP (Radford et al., 2021): "Learning Transferable Visual Models From Natural Language Supervision" [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
- ALIGN (Jia et al., 2021)
- DALL-E (Ramesh et al., 2021): "Zero-Shot Text-to-Image Generation"
[5] Pretraining datasets
- JFT-300M: google’s internal 300M images psudeo labeled: https://ar5iv.labs.arxiv.org/html/1707.02968 (TO VERIFY)
- LAION-5B: 5.85 billion (image, text) pairs scraped from Common Crawl
- CLIP Training Data: 400M (image, text) pairs https://arxiv.org/abs/2103.00020 (not released)
- Wikipedia: English 20GB
- Kinetics-700: 650k videos (technically has action classes but still used)
[6] Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism https://arxiv.org/abs/2401.02954
[9] Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/abs/2212.08073
[10] Segment anything: https://arxiv.org/abs/2304.02643, SAM 2: Segment Anything In Images & Videos https://arxiv.org/pdf/2408.00714. More details below.
[11] https://techcrunch.com/2025/06/13/new-details-emerge-on-metas-14-3b-deal-for-scale/
[12] https://www.nature.com/articles/s41586-025-09227-0
[13] "Learning Transferable Visual Models From Natural Language Supervision” https://arxiv.org/abs/2103.00020
[14] "Zero-Shot Text-to-Image Generation” https://arxiv.org/abs/2102.12092
[15] "Emerging Properties in Self-Supervised Vision Transformers” https://arxiv.org/abs/2104.14294, "DINOv2: Learning Robust Visual Features without Supervision” https://arxiv.org/abs/2304.07193
[16] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” https://arxiv.org/abs/1810.04805
[17] Waymo E2E Open dataset https://waymo.com/open/data/e2e#camera-data

La escala de datos NO es todo lo que necesitas