TL;DR

Le dogme des entreprises d'IA est que plus de données conduisent à de meilleures performances, mais en réalité l'échelle des données n'est pas tout ce dont vous avez besoin. Des données de haute qualité produisent de meilleures performances comparées à un ensemble de données plus large de faible qualité. Produire des données de haute qualité nécessite de filtrer le bruit, de comprendre les données non étiquetées et de comprendre ce qu'il faut étiqueter. L'étiquetage massif de données par les plateformes d'annotation est également problématique car leurs incitations sont souvent mal alignées et leur plateforme est un goulot d'étranglement qui prend du temps, est sujet aux erreurs et coûteux. La meilleure façon d'améliorer les systèmes d'IA est de comprendre les données alimentant les modèles en représentant intelligemment les ensembles de données d'une manière interactive en utilisant l'apprentissage de représentation auto-supervisé, la modélisation fondamentale et le filtrage. Ces pratiques préviennent le risque de mauvaises performances dans les systèmes d'IA et le risque de générer des résultats nuisibles.

Moins c'est plus

L'échelle des données n'est pas tout ce dont vous avez besoin. Augmenter aveuglément la taille d'un ensemble de données lors du pré-entraînement d'un modèle expose les entreprises axées sur l'IA au risque de commettre des erreurs graves. Entraîner des modèles sur de grands ensembles de données avec une distribution inconnue conduit à des comportements inattendus : en robotique, cela pourrait conduire à des trajectoires erronées et dangereuses, pour une entreprise de santé à des évaluations de risques inexactes, et pour les LLM à la génération de discours nuisibles {9}. Sur X, Grok a commis cette erreur, générant un discours nuisible dans la publication maintenant supprimée montrée dans la Figure 0a. Même le PDG de xAI a admis qu'ils devaient être plus « sélectifs concernant les données d'entraînement, plutôt que de simplement s'entraîner sur l'ensemble d'Internet ». Mais comment sélectionner correctement les données pour entraîner et évaluer correctement ces modèles ? Quels outils sont disponibles ?

La solution est de représenter intelligemment les données sous une forme interactive et suffisamment diverse sémantiquement. Cette approche aide à : 1. créer des ensembles de données d'entraînement et d'évaluation pour le pré-entraînement et le post-entraînement, 2. identifier les lacunes dans les données et 3. faire des recommandations sur la façon de combler ces lacunes (soit en achetant soit en collectant).

Figure 0a: Examples of an LLM generating harmful speech likely due to existence of similar text in the training data the xAI team used to train Grok.

Figure 0b: Reaction from the xAI CEO after Grok generated harmful speech. The interesting piece is the teams focus on being selective of the training data. Original post from the Grok CEO https://x.com/elonmusk/status/1944132781745090819

Volants de données {10} et entreprises d'annotation

Dans l'industrie, la plupart des PDG d'entreprises d'IA, des chercheurs en IA et des ingénieurs sont insatisfaits des entreprises d'annotation modernes qui s'intègrent dans leurs volants de données.

La solution actuelle pour les entreprises d'IA est d'amasser un grand ensemble de données non étiquetées pour le pré-entraînement (ou d'utiliser un modèle pré-entraîné open source), puis d'étiqueter un autre grand ensemble de données spécifique à la tâche prévue, et enfin de créer manuellement un ensemble d'entraînement et un ensemble d'évaluation. L'étiquetage est généralement externalisé à des entreprises d'annotation (ScaleAI, SuperAnnotate, Labelbox, etc.) qui s'intègrent dans le moteur de données. Mais étiqueter tout dans un grand ensemble de données ne fonctionne pas bien car mettre à l'échelle l'étiquetage de données à des millions ou des milliards d'exemples est sujet aux erreurs, d'un coût insoutenable et prend du temps, laissant les entreprises d'IA mécontentes. Plus important encore, la boucle d'étiquetage est un processus sans fin puisque les volants de données s'adaptent continuellement aux modèles en évolution et aux données collectées supplémentaires, rendant les exigences d'étiquetage fluides et changeantes au fil du temps ; les entreprises d'annotation ne peuvent pas suivre la vitesse des changements car les mises à jour de modèles peuvent se produire en quelques semaines tandis que l'étiquetage peut prendre des mois.

La boucle d'étiquetage moderne dans un moteur de données est :

Collecter des données.
Concevoir ou mettre à jour une spécification d'étiquetage.
Envoyer les données et la spécification à une entreprise d'étiquetage (Scale, SuperAnnotate, etc.). Payer pour l'étiquetage.
Itérer avec l'entreprise d'étiquetage et entraîner le modèle.
Observer les résultats puis répéter les étapes 2-5 indéfiniment.

Par exemple, une entreprise de conduite autonome pourrait vouloir étiqueter les panneaux stop mais après avoir étiqueté 1 million de panneaux stop et vu les résultats, ils réalisent qu'ils veulent étiqueter la « visibilité » du panneau stop, puis ils réalisent qu'ils veulent également étiqueter les arbres qui pourraient entourer les panneaux stop en ajoutant une étiquette « obstrué ». Maintenant toutes les données (qui ont également augmenté entre-temps car les collectes de données sont continues) doivent être réétiquetées ! Le cycle ne finira jamais tant qu'une entreprise améliore son modèle !

Meta dépensant 14,3 milliards pour une participation de 49 % pour embaucher le PDG de Scale.AI [11] pourrait être l'un des mouvements les plus risqués que l'entreprise ait jamais fait en raison de ces difficultés avec les entreprises d'étiquetage.

Donc, si s'entraîner aveuglément sur d'énormes ensembles de données est problématique, et étiqueter tout est difficile, que devrions-nous faire d'autre ? Après avoir travaillé sur ce problème pendant les quatre dernières années, nous avons trouvé que la meilleure solution est de représenter les données suffisamment bien pour qu'il soit plus facile de sélectionner et de comprendre ce qui se trouve dans nos données et comment ces données impactent nos modèles. Nous devrions pouvoir dialoguer avec nos données d'une manière qui nous permet de rechercher rapidement des exemples et de construire rapidement des ensembles d'évaluation pour tester les modèles.

C'est ce que nous construisons chez Interpret AI. Nous construisons une plateforme d'introspection de données, une plateforme de curation de données et un marché de données intelligent qui permet aux entreprises construisant des systèmes d'IA d'interagir et de comprendre leurs ensembles de données. Nous envisageons un monde où vous pouvez dialoguer avec vos données en utilisant le langage naturel, l'audio, l'image et la vidéo pour rechercher des instances similaires afin que les entreprises puissent faire confiance et connaître leurs données (ou les lacunes dans leurs données) qui alimentent leurs modèles. (Si quelque chose de tout cela résonne avec vous, n'hésitez pas à nous contacter à ily@interpretai.tech)

Mettre à l'échelle ce qui est probablement utile en premier

Volants de données traditionnels

Figure 1a: The traditional data engine powering AI solutions in companies.

Une entreprise a une infrastructure qui collecte constamment des données dans un ensemble de données (1b). Une équipe crée ensuite des sous-ensembles de données heuristiques qui, une fois étiquetés, amélioreront espérons-le leur modèle (1a).
Les données sont envoyées à l'entreprise d'étiquetage (annotation). L'entreprise d'étiquetage produit des étiquettes (annotations) qui sont ensuite examinées par l'équipe, ce qui peut prendre des mois d'allers-retours pour converger.
Le modèle d'IA pré-entraîné est ensuite pré-entraîné.
Le modèle pré-entraîné est ensuite affiné en utilisant les étiquettes de l'entreprise d'étiquetage.
Le modèle final est évalué en utilisant le système d'évaluation de l'entreprise, générant des métriques.
L'entreprise utilise ensuite ce retour d'information pour éventuellement sélectionner d'autres sous-ensembles de données, mettre à jour les exigences d'étiquetage et/ou apporter des modifications au modèle. Notez qu'à ce stade, le sous-ensemble de données devient déjà obsolète.

Remarque : Les métriques peuvent être faussées par de mauvaises annotations nécessitant une itération constante de l'équipe qui est à la fois coûteuse et inefficace en temps (6).

Figure 1b: A breakdown of the time requirements for different processes in a traditional company’s approach to solutions. Notice that the major bottleneck is getting labels from a labeling company.

Figure 1b : Les contraintes de temps et la configuration du système d'IA d'une entreprise traditionnelle avec des délais approximatifs pour itérer chacune de ces pièces indépendamment. Notez qu'avec une entreprise d'étiquetage dans la boucle, il faudra des mois d'itération pour générer des étiquettes qui améliorent correctement un modèle d'IA. Voirla Figure 1a pour voir comment chacune de ces pièces interagit avec une entreprise traditionnelle.

Volant de données d'Interpret AI :

Commencez à savoir avec des informations approfondies sur les données

Figure 2a: Interpret’s AI data flywheel & how we provide immediate data insights.

Figure 2a : Le volant de données d'Interpret AI.

Recommandations immédiates de sous-ensembles de données et suggestions de données améliorées pour le pré-entraînement et l'entraînement (1a et 1b respectivement).
L'équipe examine maintenant des sous-ensembles de données significativement plus petits suggérés par Interpret avant de les envoyer à une entreprise d'étiquetage. Ces sous-ensembles de données sont fluides et sont continuellement mis à jour à mesure que les données changent (En option, si une entreprise intègre son modèle de base, Interpret AI peut fournir plus d'informations sur la façon dont les données impactent les performances du modèle).
Les allers-retours avec une entreprise d'étiquetage sont accélérés de mois à semaines et sont significativement moins chers car les spécifications d'annotation et la sélection de l'ensemble de données sont claires.

Le retour d'information est concentré sur le modèle (6).
Enfin, Interpret AI analyse votre espace de données pour fournir des informations sur les données à collecter ou à acheter pour accélérer l'amélioration du modèle.

Figure 2b: A breakdown of the time requirements for different processes in using Interpret’s platform. On the left hand side feedback iteration speed in green is accelerated. Notice there is no more bottleneck.

Figure 2b : La figure démontre comment Interpret AI s'intègre directement avec nos clients pour accélérer l'entraînement du modèle, le tri et la compréhension des données, et l'évaluation. Interpret AI fournit des solutions pour

Comprendre la distribution de données existante.
Identifier les lacunes du modèle qui sont corrélées avec les lacunes de données.
Acheter et organiser des données pour combler les lacunes de données.

Cas d'usage

Nous collaborons avec plusieurs entreprises dans les secteurs de la robotique, de la santé et des LLM agentiques. Si quelque chose de tout cela résonne avec vous, n'hésitez pas à nous contacter à ily@interpretai.tech

Santé

HealthCo essaie de prédire le risque de maladies cardiovasculaires pour leurs patients.

Pour l'entraînement

Interpret AI analyse les données cardiovasculaires en utilisant nos modèles fondamentaux interpret, traitant les DSE, les images, potentiellement les données ECG [12] si disponibles.
Interpret AI remarque des anomalies ou des « trous » dans HealthCo et décrit la démographie de ces personnes (c'est-à-dire femmes, d'âge moyen, sans enfants, historiquement prescrites de la trimétazidine).
Ces dossiers détectés sont ensuite analysés par des experts. Les données sélectionnées peuvent ensuite être mises à jour, ignorées, utilisées pour aider à acheter plus de données de personnes historiquement prescrites de la trimétazidine, ou envoyées à une entreprise d'étiquetage pour annoter ce groupe spécifique.
Les données sélectionnées sont ensuite utilisées pour entraîner le modèle d'IA de maladies cardiovasculaires. Si HealthCo intègre leur modèle cardiovasculaire dans la plateforme Interpret, nous analysons davantage où le modèle performe mal en temps réel, permettant une introspection immédiate.
Ce processus réduit le calendrier d'entraînement du modèle d'un ordre de mois à semaines, améliorant rapidement les systèmes d'IA et économisant des coûts !

Pour la sécurité

Supposons que HealthCo ait des exemples de personnes qui ont subi des crises cardiaques et qu'ils veulent analyser d'autres DSE de personnes qui sont similaires à cette personne et qui pourraient également être à risque.

En utilisant Interpret AI, HealthCo peut sélectionner des exemples de cette personne et rechercher un groupe de personnes apparentées, en triant par confiance.
Ces personnes peuvent être signalées comme à risque, identifiant rapidement quelques centaines de personnes à risque parmi des millions de dossiers !

Robotique

DriveCo construit des voitures de course autonomes comme jouet pour que les enfants jouent dehors.

Pour l'entraînement

Interpret AI analyse les courses collectées de données vidéo de voitures de course. Interpret AI fournit un rapport de données.
Interpret AI remarque que la majorité des replays des vidéos ne sont pas géographiquement diversifiés et qu'il y a peu d'exemples de voitures de course conduisant à l'extérieur dans les arrière-cours.
Interpret AI recommande à l'équipe DriveCo de collecter plus d'exemples de vidéos extérieures. Nous essayons également d'équilibrer l'ensemble de données de manière apprise en utilisant notre modèle fondamental Interpret AI pour atténuer ce déséquilibre.
- Sans Interpret AI, DriveCo aurait pu envoyer plus de 1000 heures de données de voitures de course pour étiqueter des objets qui n'étaient pas nécessaires ! Maintenant ils n'ont besoin d'étiqueter que 10 heures !

Pour la sécurité

Supposons que ces voitures de course autonomes fassent l'objet d'un examen minutieux pour la sécurité des nourrissons.

DriveCo peut rechercher dans leur base de données des vidéos contenant « bébé » pour voir s'ils ont ces données.
Si DriveCo n'a pas les données, cela informe l'équipe de les collecter (en utilisant peut-être de faux bébés j'espère) ou cela permet à DriveCo de montrer aux consommateurs et aux investisseurs que le produit est en fait sûr autour des bébés !

Comment nous en sommes arrivés là

Une brève histoire sur les étiquettes et le pré-entraînement

En 2015, avant les Transformers, la plupart des modèles étaient entraînés pour résoudre un sous-ensemble très particulier de problèmes : classification, segmentation, détection d'objets (c'est-à-dire problèmes fondamentaux) et autres [1]. Les benchmarks étaient des ensembles de données étiquetés « assez grands » de l'ordre de 10k à 1M. {1}

Le pré-entraînement moderne est entré en scène vers 2017 et a changé la donne. Empruntant à l'apprentissage de représentation, le pré-entraînement est venu comme un changement de paradigme fondamental où soudainement les ensembles de données non étiquetés ont débloqué d'énormes gains de performance du modèle. Les ensembles de données non étiquetés utilisés pour le pré-entraînement comparés à leurs homologues étiquetés étaient massifs[5]. Ceci combiné avec d'autres techniques et avancées {2} a conduit aux modèles fondamentaux modernes comme CLIP [13], DALL-E [14], DINOv2 [15], et BERT [16] pour n'en nommer que quelques-uns.

Puis OpenAI, construit sur une fondation de transformers, de pré-entraînement et de progrès en apprentissage par renforcement, a changé la donne lorsqu'ils ont publié GPT (generative pre-trained transformer) [6]. Sora [7], DeepSeek [8], Anthropic [9] utilisent tous le pré-entraînement sur de grands ensembles de données comme colonne vertébrale pour leurs modèles performants. Mais caché là-dedans se trouve une observation aiguë dont la plupart des gens ne parlent pas.

Bien que le pré-entraînement soit une bonne première étape, la plupart de ces modèles nécessitent un entraînement supplémentaire en plus d'une base pré-entraînée. Que ce soit du RL ou de l'affinage supervisé, les modèles les plus performants sont alignés {3} d'une manière ou d'une autre au problème original. Mais même l'affinage se met à l'échelle jusqu'à un certain point, ce qui signifie qu'améliorer le pré-entraînement est essentiel pour les performances futures du modèle {4}.

L'un des exemples les plus convaincants de la façon de bien intégrer le pré-entraînement et de construire un volant de données dans la littérature est le volant de données étiquetées construit par Meta dans Segment Anything Model (SAM) et SAM v2 [10]. Mais même dans cet exemple, l'étiquetage de données est incroyablement difficile à mettre à l'échelle.

Segment Anything : les innovations et le message

TL;DR : Ce que SAM nous montre, c'est que l'assurance qualité et la compréhension de ce qui se trouve dans nos données sont difficiles mais constituent un problème importantà résoudre. Ajouter plus de données n'est pas nécessairement la réponse.

SAM a construit un volant de données qui a organisé un grand ensemble de données étiquetées en utilisant un SAM partiellement entraîné à différentes étapes de l'entraînement avec un retour d'étiquetage humain. Leur approche illustre la bonne façon d'intégrer l'étiquetage dans un pipeline mais souligne également que même le bon volant d'étiquetage de données est coûteux et difficile à mettre à l'échelle. À un certain point, l'ensemble de données devient suffisamment grand pour que les humains ne puissent pas tout annoter et nécessite donc une autre méthode d'introspection (c'est-à-dire ce qu'Interpret construit).

Grosso modo, l'approche de SAM était [10]

Commencer avec un ViT hiérarchique pré-entraîné MAE.
Entraîner SAM sur des ensembles de données de segmentation accessibles au public.
Utiliser le SAM partiellement entraîné pour générer des masques de segmentation sur un sous-ensemble de données.
Faire affiner les prédictions de segmentation par des humains. Utiliser ensuite également les masques pour entraîner un détecteur d'objets pour trouver plus d'objets et faire étiqueter cela par des humains.
Répéter les étapes 3-4 en augmentant progressivement la taille de l'ensemble de données.
Terminer en exécutant sur 1 milliard d'images pour obtenir SA-1B. Utiliser une équipe AQ pour signaler les exemples potentiellement mauvais. Notez que fournir des étiquettes humaines à toutes les 1 milliard d'images est incroyablement difficile.

L'idée est la même pour SAM 2 qui est un modèle de segmentation vidéo, qui a généré l'ensemble de données SA-V avec 35,5 millions de masques sur 50,9K vidéos, 53 fois plus de masques que n'importe quel ensemble de données de segmentation vidéo [10].

Notez, le meilleur modèle de segmentation a été entraîné avec des données directement liées à sa tâche où le retour d'étiquetage était bien couplé dans un volant de données rapide et efficace. Le pré-entraînement puis l'entraînement avec une collection d'ensembles de données de segmentation open source n'étaient que la première et la deuxième étape.

Notez également que l'étiquetage humain a finalement atteint un plafond ; lorsque le volant de données a commencé à étiqueter 1 milliard d'images, Meta devait encore exécuter un filtre AQ pour signaler les mauvais exemples. D'après l'article, annoter tous les 1,1 milliard de masques aurait pris 51k jours de temps d'annotation ! {5}

C'est de Meta dont nous parlons mais embaucher cela pour la plupart des entreprises serait scandaleusement coûteux et irréalisable ! {6} L'étiquetage à cette échelle est tout simplement difficile !

Réitérant le TL;DR, ce que SAM nous montre, c'est que l'assurance qualité et la compréhension de ce qui se trouve dans nos données sont difficiles mais constituent un problème important à résoudre. C'est fondamentalement l'écart que nous voyons dans l'industrie aujourd'hui : plus de données utilisées pour le pré-entraînement ou l'affinage n'est pas nécessairement la réponse. La bonne approche identifie où un modèle souffre, comprend pourquoi il souffre là, puis met en évidence les données (ou les lacunes de données) pertinentes au problème, ce que nous faisons chez Interpret AI.

Les objectifs des entreprises d'annotation ne sont pas nécessairement alignés avec les vôtres…

Nous avons une expérience industrielle dans les MAANG et notre équipe a de l'expérience de travail avec des entreprises d'annotation comme Scale, SuperAnnotate, etc. Pour la plupart des entreprises d'étiquetage (annotation), le modèle commercial est :

Laisser les entreprises générer leur propre spécification d'étiquetage (annotation) avec peut-être quelques allers-retours selon la complexité des étiquettes.
La plupart des entreprises d'annotation ont différents niveaux d'annotateurs, le plus grand groupe étant des non-experts qui étiquetent tout et le plus petit étant des experts dans le domaine (c'est-à-dire des médecins). Une entreprise d'annotation rassemble ensuite un groupe d'étiqueteurs humains, commençant généralement par les moins chers pour faire un premier passage de faible qualité.
Les annotateurs étiquetent ensuite selon la spécification d'annotation complexe de l'entreprise du mieux qu'ils peuvent, facturant par annotation.
Fournir des retours et des mises à jour aux annotations, éventuellement en mettant à jour la spécification d'annotation.

Il y a quatre problèmes principaux avec ce processus :

les annotations ne sont pas cohérentes et ne sont généralement pas attribuées aux bons étiqueteurs,
l'étiquetage prend du temps et est coûteux,
la boucle de retour pour corriger les annotations est erronée, et
les spécifications d'annotation changent au fil du temps à mesure que les performances du modèle changent.

Abordant 1., les étiqueteurs ne sont pas garantis d'être adaptés à leur tâche d'étiquetage assignée et étiquetent souvent différemment de leurs pairs. Par exemple, pour une entreprise de santé si la tâche est « Choisir la réponse clinique qui diagnostique le mieux le patient », ces étiqueteurs peuvent même ne pas être des médecins adaptés à la tâche ! De plus, pour une entreprise de conduite autonome si la tâche est de « Dessiner des boîtes englobantes pour les panneaux stop », cela inclut-il le poteau ou non ? Et si c'est l'arrière d'un panneau stop ? Différents annotateurs étiquetteront différemment sans se consulter.

Abordant 2., facturer par annotation semble génial en théorie car le dogme conventionnel est que plus d'étiquettes aident mais si et seulement si l'entreprise peut se permettre le coût d'un nombre suffisant d'étiquettes pour améliorer les performances du modèle ; un nombre qui est généralement inconnu. Ces annotations auront également généralement des erreurs qui nécessitent que les entreprises d'IA construisent des systèmes internes qui examinent les annotations, ce qui prend à la fois du temps (ordre de mois) et plus d'argent.

Abordant 3., La boucle de retour n'est pas cohérente non plus. Généralement, la responsabilité de la vérification des annotations est poussée vers l'entreprise d'IA, qui doit mettre en place son propre système de surveillance interne (déjà chronophage et coûteux). Lorsqu'une entreprise d'IA remarque un problème d'annotation, les corrections ne sont pas garanties d'être du même annotateur qui a créé l'étiquette problématique et parfois les entreprises d'annotation réétiquetteront l'exemple problématique entier au lieu de le corriger, ce qui coûte plus cher. Par exemple, une entreprise de conduite autonome pourrait vouloir étiqueter des masques d'instance de feux de circulation et de personnes. Dans cet exemple factice, le premier annotateur fait une erreur et oublie d'étiqueter les feux de circulation ne faisant pas face à la caméra. L'entreprise d'IA le signale et l'envoie pour être réexaminé mais la façon dont l'entreprise d'annotation corrige cela est en envoyant l'image à un nouvel annotateur qui réétiquette tout à partir de zéro ! Le deuxième annotateur corrige le problème original mais n'étiquette pas les policiers comme « personnes » et maintenant un nouveau problème émerge ! Voir Figure 3a et Figure 3b. Cette boucle a une probabilité incroyablement faible d'annoter correctement les objets correctement ~61% pour 50 étiquettes {7}.

Figure 3a: First pass by the first annotator who missed the traffic lights that are not facing the camera. (Image from Waymo Open Dataset [17])

Figure 3b: Second pass from the second annotator who got all the traffic lights but didn’t realize that the “people” class included police officers! (Image from Waymo Open Dataset [17])

Essentiellement, avec ce système de retour, les étiquettes qu'une entreprise d'annotation crée ne sont pas garanties de converger vers les bonnes étiquettes !

Les incitations des entreprises d'IA ne sont pas bien alignées avec celles des entreprises d'étiquetage. Les entreprises d'IA veulent améliorer leur modèle d'IA et leur produit tandis que les entreprises d'annotation veulent étiqueter autant de données d'entreprise que possible pour pouvoir les facturer. Vousvoulez rendre votre modèle performant et les entreprises d'annotation devraient le faire aussi.

Abordant 4., Dans l'industrie (et la recherche), lorsqu'on essaie de résoudre un problème, il existe de nombreuses solutions possibles. Peut-être que le pré-entraînement sur l'ensemble d'Internet améliorera votre LLM, ou peut-être que l'ancrage d'un LLM en s'entraînant sur des paires texte-images étiquetées aidera au raisonnement du LLM, ou peut-être que l'ajout de chaîne de pensée aidera. En d'autres termes, lors de la conception de systèmes d'IA, nous devons essayer beaucoup de choses différentes en parallèle car parfois il n'est pas clair quelle sera la meilleure approche. L'étiquetage est une solution, ce qui signifie qu'à mesure que nous comprenons mieux notre problème, la définition de l'étiquette est sujette à changement.

Par exemple, prenons l'étiquetage des panneaux stop dans la conduite autonome ; supposons que nous étiquetons d'abord les panneaux stop. Nous remarquons que les performances s'améliorent lorsque nous savons si un panneau stop est partiellement obstrué, donc nous mettons à jour la spécification d'annotation pour ajouter une balise de métadonnées appelée « obstrué » plus tard lorsque le panneau est partiellement ou non visible. Nous retournons ensuite à une entreprise d'annotation et leur demandons de réétiqueter tous nos panneaux stop avec cela ! Cette « plateforme d'annotation dans la boucle » signifie que chaque expérience de modèle qui met à jour l'ensemble de données étiqueté est super coûteuse !

Donc, on peut se demander, pourquoi les fournisseurs d'étiquetage sont-ils utilisés du tout ? Pour deux raisons : Premièrement, des étiquettes de haute qualité sur les données aident effectivement comme discuté précédemment. En fait, moins de données avec des étiquettes de meilleure qualité peuvent surpasser certains de ces grands modèles pré-entraînés ; SAM étant un excellent exemple. Deuxièmement, l'alternative à ne pas utiliser une entreprise d'annotation est de créer une plateforme d'annotation interne qui est encore plus coûteuse et chronophage, car produire le même volume d'étiquettes que les autres acteurs peut prendre des années !

Conclusion

Le volant de données optimal représente les données sous une forme qui est intrinsèquement perspicace et interactive : nous devrions pouvoir détecter des anomalies et également dialoguer avec nos données pour recueillir des modèles et des informations intéressants. Ce volant devrait améliorer les plateformes d'annotation en se concentrant sur ce qui devrait être étiqueté au lieu d'étiqueter tout {8}. Et enfin, ce volant de données devrait s'aligner avec les performances du modèle, se liant directement à quel que soit le problème que votre entreprise d'IA résout.

Le dogme traditionnel est que plus de données « fonctionnent tout simplement » et parfois l'apprentissage profond ressemble à de l'alchimie. Peut-être que plus de données fonctionneront pour vous à court terme mais quand les choses « ne fonctionnent tout simplement pas », la bonne façon est d'évaluer l'échec à la fois dans les données et le modèle et de travailler à partir de là.

Chez Interpret, nous espérons changer le paradigme. Si vous êtes intéressé, contactez-nous à ily@interpretai.tech

Footnotes

Back when AlexNet was still a thing circa 2015ish most models for computer vision were trained on a subset of very particular problem types: classification, segmentation, object detection (ie foundation problems) and others like image captioning, scene recognition, pose estimation (see appendix for more details)[1]. Note this was pre “Attention is all you need” when bigrams were a-la-mode. The focus then was model development while benchmarks remained fixed. These benchmarks were “largish” labeled datasets (order of 10k to 1M) that were used to evaluate model performance. Some of the popular CV benchmarks you’re probably familiar with are MNIST, ImageNet, MS COCO, KITTI, Caltech-101 [2]. If you look the largest labeled datasets around this time they were around 1M labels, and that was considered large at the time.
Modern pretraining entered the chat around 2017 and changed the game. Borrowing from representation learning, pretraining came as a fundamental paradigm shift from learning features for only a specific labeled dataset to learning general features on unlabeled data that correlated well with other problems like classification, segmentation, object detection. These datasets compared to their labeled brethern were massive [5]. At the same time, advancements in model training (CUDA optimization which is why NVIDIA hit a 4T market cap), deep learning libraries (tensorflow, pytroch), and new / improved model architectures like Transformers from “Attention Is All You Need” opened up a brand new world. Researchers also noticed that increasing the size of models typically correlated with improved performance on unseen data (from the same data distribution). All of this combined interfaced with modern pretraining algorithms like pretext tasks, contrastive learning, masked label modeling, masked autoencoding (MAE) multimodal modeling [4] unlocking the era of training big models on even massive unlabeled datasets. Ergo, models like CLIP [13], DALL-E [14], DINOv2 [15], BERT [16].
”Alignment” is an overused term I mean alignment in both the “we want our LLM to be helpful not harmful” sense and the “data distribution alignment” sense.
When training / fine-tuning a model, scaling model size correlates with improvement in performance roughly following a power law. In industry, we’re already hitting the peak for model size scaling laws and fine-tuning is giving less and less of an advantage. The next frontier is improving pretraining method to better utilize existing unlabeled datasets.
In the SAM paper, annotations could take 30 seconds (but suppose it took 4 seconds based on the improvements from SAM v2 [10]); reviewing 1.1B masks would’ve required 1,100,000,000 * 4 seconds = ~51,000 days of annotation time!
This is also assuming that the data distribution is stationary (unchanging). If we wanted to increase the labels to a different data distribution (say deep sea diving videos where the semantics & dynamics of objects is different) then finetuning SAM would still require the same data flywheel training process which is also more time and more money.
Suppose that each object has a probability of being mislabeled p=0.01 (ie an annotator labels incorrectly or misses a label once every 100 labels). Assuming 50 objects in a video the probability of succeeding assuming independence is (1 - p)^50 = 61% chance of success! And that’s conservative.
Fundamentally, when AI companies have better clarity on what to label their incentives align with annotation companies.
More and more it is clear very few samples (e.g. thousands) of very high quality data is way better than million of low quality data - this is particularly true in post-traning of LLMs in industry but it is starting to be the focus also of pre-training.
A data flywheel is the loop used to collect data, improve the model, which makes a better product, which then modifies what data to collect and the cycle repeats (for example this image from dataloop.ai https://dataloop.ai/book/the-data-flywheel-effect/). A data engine is the infra for collecting/labeling/evaluating data (for example Scale’s product https://scale.com/data-engine).

Special Thanks

Cameron Tukerman-Lee (also credit for the title)
Gabriele Sorrento
Francesco Pongetti
Lotfi Herzi

Appendix

[1] A more extensive list of popular 2015 foundational problems across different domains so sortof pre multi-modal.
- Computer vision
  - classification
  - segmentation
  - object detection
  - image captioning
  - scene recognition
  - pose estimation
  - Optical Flow Estimation
  - Depth Estimation
  - Face recognition
  - Pose estimation
  - Visual tracking
  - Style transfer
  - Image generation
- Natural Language Processing
  - Machine translation
  - Part of speech tagging
  - Question answering
- Speech Processing
  - Speech recognition
  - Speaker identification
  - Emotion classification
- Time series
- Reinforcement Learning
[2] Popular datasets separated by domain around 2015 Classification: Segmentation: Object Detection: Other Tasks: Depth Estimation: Optical Flow: Pose Estimation: Face Recognition: Video/Action Recognition: Attributes/Multi-label: Reinforcement Learning: Can think of dataset size as number of rollouts.
- ImageNet (ILSVRC 2017) - 1.2M training, 1000 classes - https://www.image-net.org/challenges/LSVRC/2017/index.php
- CIFAR-10/100 - 60K (32x32), 10/100 classes - https://www.cs.toronto.edu/~kriz/cifar.html
- MNIST - 70K handwritten digits - https://www.kaggle.com/datasets/hojjatk/mnist-dataset
- Fashion-MNIST - 70K fashion items - https://github.com/zalandoresearch/fashion-mnist
- SVHN - 600K real world house numbers 10 classes for each digit - http://ufldl.stanford.edu/housenumbers/
- Caltech-101/256 - 9K/30K images 101/256 categories - https://data.caltech.edu/records/mzrjq-6wc02, https://data.caltech.edu/records/nyy15-4j048
- Oxford Flowers 102 - 102 categories - https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Oxford-IIIT Pets - 7.4K images, 37 pet breeds - https://www.robots.ox.ac.uk/~vgg/data/pets/
- Stanford Cars - 16K images, 196 car models - https://www.kaggle.com/datasets/eduardo4jesus/stanford-cars-dataset
- FGVC Aircraft - 10.2K images, 100 aircraft variants - https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/
- Food-101 - 101 food categories - https://www.kaggle.com/datasets/dansbecker/food-101
- CUB-200-2011 - 12K bird images, 200 species - https://www.vision.caltech.edu/datasets/cub_200_2011/
- Stanford Dogs - 20K images, 120 dog breeds - http://vision.stanford.edu/aditya86/ImageNetDogs/
- MIT Indoor Scenes - 15K images, 67 indoor categories - http://web.mit.edu/torralba/www/indoor.html
- PASCAL VOC 2012 - 11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
- MS COCO - 328K images, 80 object classes, 91 stuff categories, 5 captions per image, 250k people with keypoints https://cocodataset.org/
- Cityscapes - 5K fine/25K coarse annotations, 8 classes - https://www.cityscapes-dataset.com/, https://www.cityscapes-dataset.com/dataset-overview/#class-definitions
- ADE20K - 25K images, 150 classes - https://groups.csail.mit.edu/vision/datasets/ADE20K/
- PASCAL Context - 10K images, 459 classes - https://cs.stanford.edu/~roozbeh/pascal-context/
- SBD (Semantic Boundaries) - 11K images from PASCAL - https://paperswithcode.com/dataset/sbd
- NYUDv2 - 1.4K RGB-D images - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- SUN RGB-D - 10K RGB-D images - https://rgbd.cs.princeton.edu/
- KITTI Semantic - http://www.cvlibs.net/datasets/kitti/
- PASCAL VOC 2012 - 10K/11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/
- MS COCO - 328K images, 80 classes, 1.5M instances - https://cocodataset.org/
- KITTI Object - http://www.cvlibs.net/datasets/kitti/
- Open Images (v1 in 2016) - 15.8 images, 6000 classes - https://storage.googleapis.com/openimages/web/index.html
- WIDER Face - 32K images, 393K face annotations - http://shuoyang1213.me/WIDERFACE/
- NYUDv2 - 1.4K RGB-D scenes - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- KITTI Depth- http://www.cvlibs.net/datasets/kitti/
- Make3D - 534 images with depths - http://make3d.cs.cornell.edu/data.html
- Sintel - http://sintel.is.tue.mpg.de/
- KITTI Flow - http://www.cvlibs.net/datasets/kitti/
- Flying Chairs - 22K synthetic pairs - https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html
- Middlebury - Small but precise benchmark - https://vision.middlebury.edu/flow/
- MPII Human Pose - 25K images, 40K people - http://human-pose.mpi-inf.mpg.de/
- FLIC - 5003 images from movies - https://bensapp.github.io/flic-dataset.html
- Leeds Sports Pose - https://www.kaggle.com/datasets/dkrivosic/leeds-sports-pose-lsp
- LFW (Labeled Faces in the Wild) - 13K images, 5.7K people -https://www.kaggle.com/datasets/jessicali9530/lfw-dataset
- CelebA - 200K images, 10K identities - http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- MegaFace - 1M images, 690K identities - http://megaface.cs.washington.edu/
- VGGFace - 2.6K people - https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
- UCF-101 - 13,320 videos, 101 actions - https://www.crcv.ucf.edu/data/UCF101.php
- HMDB-51 - 6800 videos, 51 actions - https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- Sports-1M - 1M YouTube videos, 487 sports - https://cs.stanford.edu/people/karpathy/deepvideo/
- ActivityNet - 20K videos, 200 classes - http://activity-net.org/
- WIDER Attribute - http://mmlab.ie.cuhk.edu.hk/projects/WIDERAttribute.html
- Berkeley Attributes - https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/poselets/
- Classic control tasks
  - OpenAI Gym (cartpole, mountaincar, acrobat, etc). I remember this before chatgpt lol maybe I’m old
  - MuJoCo (Multi-joint dynamics with contact) like the halfcheetah, hopper, humanoid, etc. This was typically done in a physics simulation and was popular for PPO.
- Board games
  - Go
  - Chess
  - PyGame
- TORCS
- Minecraft
- ViZDoom
- Atari 2600 from DeepMind
[3] Scaling Laws Paper, Larger pretrained models paper
- "Scaling Laws for Neural Language Models" by Jared Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level”: https://arxiv.org/abs/2105.06020
[4] Modern pretraining algorithms Pretext Tasks: Contrastive Learning Methods: Masked Modeling: Multimodal Learning:
- Rotation prediction
- Jigsaw puzzles
- Colorization
- Inpainting/Masked patches
- SimCLR (Chen et al., 2020): "A Simple Framework for Contrastive Learning of Visual Representations" [2002.05709] A Simple Framework for Contrastive Learning of Visual Representations
- MoCo v1 & v2 (He et al., 2019/2020): "Momentum Contrast for Unsupervised Visual Representation Learning" [2003.04297] Improved Baselines with Momentum Contrastive Learning
- BYOL (Grill et al., 2020): "Bootstrap Your Own Latent"
- PIRL (Misra & van der Maaten, 2020): "Self-Supervised Learning of Pretext-Invariant Representations" Self-Supervised Learning of Pretext-Invariant Representations
- Masked Language Modeling (MLM): BERT (Devlin et al., 2018)
- Masked Autoencoder (MAE)
- CLIP (Radford et al., 2021): "Learning Transferable Visual Models From Natural Language Supervision" [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
- ALIGN (Jia et al., 2021)
- DALL-E (Ramesh et al., 2021): "Zero-Shot Text-to-Image Generation"
[5] Pretraining datasets
- JFT-300M: google’s internal 300M images psudeo labeled: https://ar5iv.labs.arxiv.org/html/1707.02968 (TO VERIFY)
- LAION-5B: 5.85 billion (image, text) pairs scraped from Common Crawl
- CLIP Training Data: 400M (image, text) pairs https://arxiv.org/abs/2103.00020 (not released)
- Wikipedia: English 20GB
- Kinetics-700: 650k videos (technically has action classes but still used)
[6] Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism https://arxiv.org/abs/2401.02954
[9] Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/abs/2212.08073
[10] Segment anything: https://arxiv.org/abs/2304.02643, SAM 2: Segment Anything In Images & Videos https://arxiv.org/pdf/2408.00714. More details below.
[11] https://techcrunch.com/2025/06/13/new-details-emerge-on-metas-14-3b-deal-for-scale/
[12] https://www.nature.com/articles/s41586-025-09227-0
[13] "Learning Transferable Visual Models From Natural Language Supervision” https://arxiv.org/abs/2103.00020
[14] "Zero-Shot Text-to-Image Generation” https://arxiv.org/abs/2102.12092
[15] "Emerging Properties in Self-Supervised Vision Transformers” https://arxiv.org/abs/2104.14294, "DINOv2: Learning Robust Visual Features without Supervision” https://arxiv.org/abs/2304.07193
[16] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” https://arxiv.org/abs/1810.04805
[17] Waymo E2E Open dataset https://waymo.com/open/data/e2e#camera-data

Le volume de données n'est PAS tout ce dont vous avez besoin