TL;DR

Das Dogma für KI-Unternehmen besagt, dass mehr Daten zu besserer Leistung führen, aber tatsächlich ist Datenskalierung nicht alles, was man braucht. Hochwertige Daten liefern eine bessere Leistung im Vergleich zu einem größeren Datensatz mit niedriger Qualität. Die Produktion hochwertiger Daten erfordert das Filtern von Rauschen, das Verstehen unbeschrifteter Daten und das Verstehen dessen, was beschriftet werden soll. Massive Datenbeschriftung durch Annotationsplattformen ist ebenfalls problematisch, da deren Anreize oft nicht übereinstimmen und ihre Plattform ein Engpass ist, der zeitaufwändig, fehleranfällig und kostspielig ist. Der beste Weg zur Verbesserung von KI-Systemen besteht darin, die Daten zu verstehen, die Modelle speisen, indem Datensätze auf intelligente Weise dargestellt werden, die durch selbstüberwachtes Repräsentationslernen, Foundation-Modellierung und Filterung interagierbar sind. Diese Praktiken verhindern das Risiko schlechter Leistung in KI-Systemen und das Risiko der Generierung schädlicher Ausgaben.

Weniger ist mehr

Datenskalierung ist nicht alles, was man braucht. Die blinde Vergrößerung eines Datensatzes während des Vortrainings eines Modells setzt KI-First-Unternehmen dem Risiko schwerwiegender Fehler aus. Das Training von Modellen auf großen Datensätzen mit unbekannter Verteilung führt zu unerwartetem Verhalten: In der Robotik könnte dies zu fehlerhaften und gefährlichen Trajektorien führen, für ein Gesundheitsunternehmen zu ungenauen Risikobewertungen und für LLMs zur Generierung schädlicher Sprache {9}. Auf X machte Grok diesen Fehler und generierte schädliche Sprache in dem inzwischen gelöschten Beitrag, der in Abbildung 0a gezeigt wird. Selbst der CEO von xAI gab zu, dass sie „selektiver bei Trainingsdaten sein müssen, anstatt einfach auf dem gesamten Internet zu trainieren". Aber wie wählt man Daten richtig aus, um diese Modelle ordnungsgemäß zu trainieren und zu evaluieren? Welche Tools gibt es da draußen?

Die Lösung besteht darin, Daten intelligent in einer Form darzustellen, die interagierbar und semantisch ausreichend vielfältig ist. Dieser Ansatz hilft: 1. Trainings- und Evaluierungsdatensätze sowohl für das Vortraining als auch für das Post-Training zu erstellen, 2. Lücken in den Daten zu identifizieren und 3. Empfehlungen zu geben, wie diese Lücken gefüllt werden können (entweder durch Kauf oder Sammlung).

Figure 0a: Examples of an LLM generating harmful speech likely due to existence of similar text in the training data the xAI team used to train Grok.

Figure 0b: Reaction from the xAI CEO after Grok generated harmful speech. The interesting piece is the teams focus on being selective of the training data. Original post from the Grok CEO https://x.com/elonmusk/status/1944132781745090819

Data Flywheels {10} & Annotationsunternehmen

In der Industrie sind die meisten CEOs von KI-Unternehmen, KI-Forscher und Ingenieure mit modernen Annotationsunternehmen unzufrieden, die sich in ihre Data Flywheels integrieren.

Die derzeit bevorzugte Lösung für KI-Unternehmen besteht darin, einen großen unbeschrifteten Datensatz für das Vortraining anzuhäufen (oder ein Open-Source-vortrainiertes Modell zu verwenden), dann einen weiteren großen Datensatz zu beschriften, der spezifisch für die beabsichtigte Aufgabe ist, und schließlich einen Trainingssatz und Evaluierungssatz manuell zu kuratieren. Die Beschriftung wird typischerweise an Annotationsunternehmen (ScaleAI, SuperAnnotate, Labelbox usw.) ausgelagert, die sich in die Daten-Engine integrieren. Aber alles in einem großen Datensatz zu beschriften funktioniert nicht gut, weil die Skalierung der Datenbeschriftung auf Millionen oder Milliarden von Beispielen fehleranfällig, nicht nachhaltig kostspielig und zeitaufwändig ist, was KI-Unternehmen unzufrieden macht. Noch wichtiger ist jedoch, dass die Beschriftungsschleife ein nie endender Prozess ist, da Data Flywheels sich kontinuierlich an sich entwickelnde Modelle und mehr gesammelte Daten anpassen, wodurch Beschriftungsanforderungen fließend sind und sich im Laufe der Zeit ändern; Annotationsunternehmen können mit der Geschwindigkeit der Änderungen nicht Schritt halten, da Modellaktualisierungen in Wochen erfolgen können, während die Beschriftung Monate dauern kann.

Die moderne Beschriftungsschleife in einer Daten-Engine ist:

Sammeln Sie einige Daten.
Entwerfen oder aktualisieren Sie eine Beschriftungsspezifikation.
Senden Sie die Daten und die Spezifikation an ein Beschriftungsunternehmen (Scale, SuperAnnotate usw.). Bezahlen Sie für die Beschriftung.
Iterieren Sie mit dem Beschriftungsunternehmen und trainieren Sie das Modell.
Beobachten Sie die Ergebnisse und wiederholen Sie dann die Schritte 2-5 unbegrenzt.

Beispielsweise möchte ein Unternehmen für autonomes Fahren möglicherweise Stoppschilder beschriften, aber nachdem es 1 Million Stoppschilder beschriftet und die Ergebnisse gesehen hat, stellt es fest, dass es die „Sichtbarkeit" des Stoppschilds beschriften möchte, dann stellt es fest, dass es auch Bäume beschriften möchte, die möglicherweise Stoppschilder umgeben, und fügt ein „verdeckt"-Label hinzu. Jetzt müssen alle Daten (die in der Zwischenzeit auch gewachsen sind, da Datensammlungen kontinuierlich sind) neu beschriftet werden! Der Zyklus wird niemals enden, solange ein Unternehmen sein Modell verbessert!

Metas Ausgabe von 14,3 Milliarden für einen 49%-Anteil, um den CEO von Scale.AI [11] einzustellen, könnte einer der riskantesten Schritte sein, die das Unternehmen jemals gemacht hat, aufgrund dieser Schwierigkeiten mit Beschriftungsunternehmen.

Wenn also blindes Training auf enormen Datensätzen problematisch ist und das Beschriften von allem schwierig ist, was sollten wir sonst tun? Nachdem wir in den letzten vier Jahren an diesem Problem gearbeitet haben, haben wir festgestellt, dass die beste Lösung darin besteht, Daten gut genug darzustellen, damit es einfacher ist, auszuwählen und zu verstehen, was in unseren Daten enthalten ist und wie diese Daten unsere Modelle beeinflussen. Wir sollten in der Lage sein, mit unseren Daten auf eine Weise zu chatten, die es uns ermöglicht, schnell nach Beispielen zu suchen und schnell Evaluierungssets zu erstellen, um Modelle zu testen.

Das ist es, was wir bei Interpret AI aufbauen. Wir bauen eine Daten-Introspektionsplattform, Daten-Kurationsplattform und einen intelligenten Datenmarktplatz auf, der es Unternehmen, die KI-Systeme aufbauen, ermöglicht, mit ihren Datensätzen zu interagieren und sie zu verstehen. Wir stellen uns eine Welt vor, in der Sie mit Ihren Daten über natürliche Sprache, Audio, Bild und Video chatten können, um nach ähnlichen Instanzen zu suchen, damit Unternehmen ihren Daten (oder den Lücken in ihren Daten) vertrauen und sie kennen können, die ihre Modelle antreiben. (Wenn Sie sich davon angesprochen fühlen, wenden Sie sich bitte gerne an ily@interpretai.tech)

Skalieren Sie, was wahrscheinlich zuerst hilfreich ist

Traditionelle Data Flywheels

Figure 1a: The traditional data engine powering AI solutions in companies.

Ein Unternehmen verfügt über eine Infrastruktur, die ständig Daten in einen Datensatz sammelt (1b). Ein Team erstellt dann heuristische Daten-Subsets, die hoffentlich nach der Beschriftung ihr Modell verbessern werden (1a).
Die Daten werden an das Beschriftungs-(Annotations-)Unternehmen gesendet. Das Beschriftungsunternehmen erstellt Labels (Annotationen), die dann vom Team überprüft werden, was Monate des Hin und Her dauern kann, um zu konvergieren.
Das vortrainierte KI-Modell wird dann vortrainiert.
Das vortrainierte Modell wird dann unter Verwendung der Labels des Beschriftungsunternehmens feinabgestimmt.
Das endgültige Modell wird unter Verwendung des Evaluierungssystems des Unternehmens evaluiert und generiert Metriken.
Das Unternehmen verwendet dann dieses Feedback, um möglicherweise andere Daten-Subsets auszuwählen, die Beschriftungsanforderungen zu aktualisieren und/oder Modelländerungen vorzunehmen. Beachten Sie, dass zu diesem Zeitpunkt das Datensatz-Subset bereits veraltet ist.

Hinweis: Metriken können durch schlechte Annotationen verzerrt sein, was eine ständige Iteration des Teams erfordert, die sowohl kostspielig als auch zeitineffizient ist (6).

Figure 1b: A breakdown of the time requirements for different processes in a traditional company’s approach to solutions. Notice that the major bottleneck is getting labels from a labeling company.

Abbildung 1b: Die zeitlichen Einschränkungen und das Setup des KI-Systems eines traditionellen Unternehmens mit ungefähren Zeitplänen für die unabhängige Iteration jedes dieser Teile. Beachten Sie, dass es mit einem Beschriftungsunternehmen in der Schleife Monate der Iteration dauern wird, um Labels zu generieren, die ein KI-Modell ordnungsgemäßverbessern. Siehe Abbildung 1a, wie jedes dieser Teile mit einem traditionellen Unternehmen interagiert.

Interpret AIs Data Flywheel:

Beginnen Sie mit tiefem Datenwissen

Figure 2a: Interpret’s AI data flywheel & how we provide immediate data insights.

Abbildung 2a: Interpret AIs Data Flywheel.

Sofortige Daten-Subset-Empfehlungen und erweiterte Datenvorschläge für Vortraining und Training (1a bzw. 1b).
Das Team überprüft nun deutlich kleinere Daten-Subsets, die von Interpret vorgeschlagen werden, bevor es sie an ein Beschriftungsunternehmen sendet. Diese Daten-Subsets sind fließend und werden kontinuierlich aktualisiert, wenn sich die Daten ändern (Optional, wenn ein Unternehmen sein Basismodell integriert, kann Interpret AI weitere Einblicke darüber geben, wie die Daten die Modellleistung beeinflussen).
Das Hin und Her mit einem Beschriftungsunternehmen wird von Monaten auf Wochen beschleunigt und ist deutlich günstiger, da die Annotationsspezifikationen und die Datensatzauswahl klar sind.

Das Feedback konzentriert sich auf das Modell (6).
Schließlich analysiert Interpret AI Ihren Datenraum, um Einblicke darüber zu geben, welche Daten gesammelt oder gekauft werden sollten, um die Modellverbesserung zu beschleunigen.

Figure 2b: A breakdown of the time requirements for different processes in using Interpret’s platform. On the left hand side feedback iteration speed in green is accelerated. Notice there is no more bottleneck.

Abbildung 2b: Die Abbildung zeigt, wie Interpret AI sich direkt mit unseren Kunden integriert, um Modelltraining, Daten-Triage und -Verständnis sowie Evaluierung zu beschleunigen. Interpret AI bietet Lösungen für

Das Verstehen der vorhandenen Datenverteilung.
Das Identifizieren von Modelllücken, die mit Datenlücken korrelieren.
Das Kaufen und Kuratieren von Daten zum Füllen von Datenlücken.

Anwendungsfälle

Wir arbeiten mit mehreren Unternehmen in den Bereichen Robotik, Gesundheitswesen und agentische LLM-Industrien zusammen. Wenn Sie sich von einem dieser Beispiele angesprochen fühlen, wenden Sie sich bitte gerne an ily@interpretai.tech

Gesundheitswesen

HealthCo versucht, das Risiko von Herz-Kreislauf-Erkrankungen für ihre Patienten vorherzusagen.

Für das Training

Interpret AI analysiert kardiovaskuläre Daten unter Verwendung unserer Interpret-Foundation-Modelle und verarbeitet EHRs, Bilder und möglicherweise EKG-Daten [12], falls verfügbar.
Interpret AI bemerkt Anomalien oder „Löcher" in HealthCo und beschreibt die Demografie dieser Personen (d.h. weiblich, mittleren Alters, keine Kinder, historisch Trimetazidin verschrieben).
Diese erkannten Datensätze werden von Experten weiter analysiert. Die ausgewählten Daten können dann aktualisiert, ignoriert, verwendet werden, um mehr Daten von Personen zu kaufen, denen historisch Trimetazidin verschrieben wurde, oder an ein Beschriftungsunternehmen gesendet werden, um diese spezifische Gruppe zu annotieren.
Die ausgewählten Daten werden dann zum Training des KI-Modells für Herz-Kreislauf-Erkrankungen verwendet. Wenn HealthCo ihr kardiovaskuläres Modell in die Interpret-Plattform integriert, analysieren wir weiter, wo das Modell in Echtzeit schlecht abschneidet, was eine sofortige Introspektion ermöglicht.
Dieser Prozess reduziert die Modelltrainingszeit von einer Größenordnung von Monaten auf Wochen und verbessert KI-Systeme schnell bei gleichzeitiger Kosteneinsparung!

Für die Sicherheit

Angenommen, HealthCo hat Beispiele von Personen, die Herzinfarkte erlitten haben, und sie möchten andere EHRs von Personen analysieren, die dieser Person ähnlich sind und ebenfalls gefährdet sein könnten.

Mit Interpret AI kann HealthCo Beispiele dieser Person auswählen und nach einem verwandten Pool von Personen suchen, sortiert nach Konfidenz.
Diese Personen können als gefährdet gekennzeichnet werden, wodurch schnell einige hundert gefährdete Personen aus Millionen von Datensätzen identifiziert werden!

Robotik

DriveCo baut autonome Rennautos als Spielzeug für Kinder zum Spielen im Freien.

Für das Training

Interpret AI analysiert die gesammelten Läufe von Rennauto-Videodaten. Interpret AI erstellt einen Datenbericht.
Interpret AI stellt fest, dass die Mehrheit der Wiederholungen aus den Videos nicht geografisch vielfältig ist und dass es nur wenige Beispiele von Rennautos gibt, die draußen in Hinterhöfen fahren.
Interpret AI empfiehlt dem DriveCo-Team, mehr Beispiele von Outdoor-Videos zu sammeln. Wir versuchen auch, den Datensatz auf gelernte Weise unter Verwendung unseres Interpret AI Foundation-Modells auszugleichen, um dieses Ungleichgewicht zu mildern.
- Ohne Interpret AI hätte DriveCo möglicherweise über 1000 Stunden Rennauto-Daten zur Beschriftung von Objekten gesendet, die nicht benötigt wurden! Jetzt müssen sie nur noch 10 Stunden beschriften!

Für die Sicherheit

Angenommen, diese autonomen Rennautos werden hinsichtlich der Säuglingssicherheit kritisch betrachtet.

DriveCo kann seine Datenbank nach Videos durchsuchen, die „Baby" enthalten, um zu sehen, ob sie diese Daten haben.
Wenn DriveCo die Daten nicht hat, informiert dies das Team, sie zu sammeln (vielleicht mit Puppen, hoffe ich), oder dies ermöglicht es DriveCo, Verbrauchern und Investoren zu zeigen, dass das Produkt tatsächlich sicher in der Nähe von Babys ist!

Wie wir hierher gekommen sind

Eine kurze Geschichte über Labels und Vortraining

Im Jahr 2015, vor den Transformers, wurden die meisten Modelle trainiert, um eine ganz bestimmte Teilmenge von Problemen zu lösen: Klassifikation, Segmentierung, Objekterkennung (d.h. grundlegende Probleme) und andere [1]. Benchmarks waren „ziemlich große" beschriftete Datensätze in der Größenordnung von 10k bis 1M. {1}

Modernes Vortraining kam um 2017 ins Spiel und veränderte das Spiel. Aus dem Repräsentationslernen entlehnt, kam das Vortraining als fundamentaler Paradigmenwechsel, bei dem plötzlich unbeschriftete Datensätze enorme Gewinne in der Modellleistung freisetzten. Die für das Vortraining verwendeten unbeschrifteten Datensätze waren im Vergleich zu ihren beschrifteten Geschwistern massiv [5]. Dies kombiniert mitanderen Techniken und Fortschritten {2} führte zu modernen Foundation-Modellen wie CLIP [13], DALL-E [14], DINOv2 [15] und BERT [16], um nur einige zu nennen.

Dann veränderte OpenAI, aufbauend auf einer Grundlage von Transformers, Vortraining und Fortschritten im Reinforcement Learning, das Spiel, als sie GPT (Generative Pre-trained Transformer) [6] veröffentlichten. Sora [7], DeepSeek [8], Anthropic [9] verwenden alle Vortraining auf großen Datensätzen als Rückgrat für ihre leistungsstarken Modelle. Aber darin verborgen ist eine scharfsinnige Beobachtung, über die die meisten Menschen nicht sprechen.

Während Vortraining ein guter erster Schritt ist, benötigen die meisten dieser Modelle weiteres Training zusätzlich zu einer vortrainierten Basis. Ob dies RL oder überwachtes Finetuning ist, die leistungsstärksten Modelle sind irgendwie auf das ursprüngliche Problem ausgerichtet {3}. Aber selbst Finetuning skaliert bis zu einem gewissen Punkt, was bedeutet, dass die Verbesserung des Vortrainings für die zukünftige Modellleistung wesentlich ist {4}.

Eines der überzeugendsten Beispiele dafür, wie man Vortraining richtig integriert und einen Data Flywheel in der Literatur aufbaut, ist der beschriftete Data Flywheel, der von Meta im Segment Anything Model (SAM) und SAM v2 [10] aufgebaut wurde. Aber selbst in diesem Beispiel ist die Datenbeschriftung unglaublich schwer zu skalieren.

Segment Anything: die Innovationen und die Botschaft

TL;DR: Was SAM uns zeigt, ist, dass Qualitätssicherung und das Verstehen dessen, was in unseren Daten enthalten ist, schwierig, aber ein wichtiges Problem ist, das angegangenwerden muss. Mehr Daten hinzuzufügen ist nicht unbedingt die Antwort.

SAM baute einen Data Flywheel auf, der einen großen beschrifteten Datensatz unter Verwendung eines teilweise trainierten SAM in verschiedenen Trainingsstadien mit menschlichem Label-Feedback kuratierte. Ihr Ansatz veranschaulicht die richtige Art und Weise, Beschriftung in eine Pipeline zu integrieren, hebt aber auch hervor, dass selbst der richtige Data Flywheel für Datenbeschriftung kostspielig und schwer zu skalieren ist. Irgendwann wird der Datensatz ausreichend groß, wo Menschen nicht alles annotieren können und daher eine andere Methode der Introspektion erfordert (d.h. was Interpret aufbaut).

Grob gesagt war SAMs Ansatz [10]

Beginnen Sie mit einem MAE-vortrainierten hierarchischen ViT.
Trainieren Sie SAM auf öffentlich verfügbaren Segmentierungsdatensätzen.
Verwenden Sie das teilweise trainierte SAM, um Segmentierungsmasken auf einem Daten-Subset zu generieren.
Lassen Sie Menschen die Segmentierungsvorhersagen verfeinern. Verwenden Sie dann auch die Masken, um einen Objektdetektor zu trainieren, um mehr Objekte zu finden, und lassen Sie Menschen das beschriften.
Wiederholen Sie die Schritte 3-4 und erhöhen Sie schrittweise die Größe des Datensatzes.
Beenden Sie, indem Sie auf 1 Milliarde Bildern laufen, um SA-1B zu erhalten. Verwenden Sie ein QA-Team, um potenziell schlechte Beispiele zu kennzeichnen. Beachten Sie, dass die Bereitstellung menschlicher Labels für alle 1 Milliarde Bilder unglaublich schwierig ist.

Die Idee ist die gleiche für SAM 2, das ein Video-Segmentierungsmodell ist, das den SA-V-Datensatz mit 35,5 Millionen Masken über 50,9.000 Videos generierte, 53-mal mehr Masken als jeder Video-Segmentierungsdatensatz [10].

Beachten Sie, dass das beste Segmentierungsmodell mit Daten trainiert wurde, die direkt mit seiner Aufgabe zusammenhängen, wobei das Label-Feedback alles schön in einem schnellen, effizienten Data Flywheel gekoppelt war. Vortraining und dann **Training mit einer Sammlung von Open-Source-Segmentierungsdatensätzen waren nur der erste und zweite Schritt.

Beachten Sie auch, dass die menschliche Beschriftung schließlich eine Obergrenze erreichte; als der Data Flywheel begann, 1 Milliarde Bilder zu beschriften, musste Meta immer noch einen QA-Filter ausführen, um schlechte Beispiele zu kennzeichnen. Basierend auf dem Paper hätte das Annotieren aller 1,1 Milliarden Masken 51.000 Tage Annotationszeit gedauert! {5}

Das ist Meta, von dem wir sprechen, aber das für die meisten Unternehmen einzustellen wäre unverschämt teuer und nicht durchführbar! {6} Beschriftung in diesem Maßstab ist einfach schwer!

Um das TL;DR zu wiederholen, was SAM uns zeigt, ist, dass Qualitätssicherung und das Verstehen dessen, was in unseren Daten enthalten ist, schwierig, aber ein wichtiges Problem ist, das angegangen werden muss. Dies ist grundsätzlich die Lücke, die wir heute in der Industrie sehen: Mehr Daten, die für Vortraining oder Finetuning verwendet werden, sind nicht unbedingt die Antwort. Der richtige Ansatz identifiziert, wo ein Modell leidet, versteht, warum es dort leidet, und hebt dann Daten (oder Datenlücken) hervor, die für das Problem relevant sind, was wir bei Interpret AI tun.

Die Ziele von Annotationsunternehmen sind nicht unbedingt mit Ihren ausgerichtet…

Wir haben Branchenerfahrung bei MAANG und unser Team hat Erfahrung in der Zusammenarbeit mit Annotationsunternehmen wie Scale, SuperAnnotate usw. Für die meisten Beschriftungs-(Annotations-)Unternehmen ist das Geschäftsmodell:

Lassen Sie Unternehmen ihre eigene Beschriftungs-(Annotations-)Spezifikation generieren, mit vielleicht etwas Hin und Her, abhängig von der Komplexität der Labels.
Die meisten Annotationsunternehmen haben verschiedene Stufen von Annotatoren, wobei der größte Pool Nicht-Experten sind, die alles beschriften, und der kleinste Experten auf dem Gebiet sind (d.h. Ärzte). Ein Annotationsunternehmen versammelt dann einen Pool menschlicher Beschrifter, typischerweise beginnend mit den günstigsten, um einen ersten Durchgang niedriger Qualität durchzuführen.
Die Annotatoren beschriften dann gemäß der komplexen Annotationsspezifikation des Unternehmens so gut sie können und berechnen pro Annotation.
Geben Sie Feedback und Updates zu den Annotationen, möglicherweise Aktualisierung der Annotationsspezifikation.

Es gibt vier Hauptprobleme mit diesem Prozess:

Annotationen sind nicht konsistent und werden normalerweise nicht den richtigen Beschriftern zugewiesen,
die Beschriftung ist zeitaufwändig und teuer,
die Feedbackschleife zur Korrektur von Annotationen ist fehlerhaft, und
Annotationsspezifikationen ändern sich im Laufe der Zeit, wenn sich die Modellleistung ändert.

Zu 1.: Beschrifter sind nicht garantiert für ihre zugewiesene Beschriftungsaufgabe geeignet und beschriften oft anders als ihre Kollegen. Zum Beispiel, für ein Gesundheitsunternehmen, wenn die Aufgabe lautet „Wählen Sie die klinische Antwort aus, die den Patienten am besten diagnostiziert", sind diese Beschrifter möglicherweise nicht einmal Ärzte, die für die Aufgabe geeignet sind! Zusätzlich, für ein Unternehmen für autonomes Fahren, wenn die Aufgabe lautet „Zeichnen Sie Begrenzungsrahmen für Stoppschilder", schließt dies den Pfosten ein oder nicht? Was ist, wenn es die Rückseite eines Stoppschilds ist? Verschiedene Annotatoren werden unterschiedlich beschriften, ohne sich gegenseitig zu konsultieren.

Zu 2.: Die Berechnung pro Annotation klingt theoretisch großartig, da das konventionelle Dogma besagt, dass mehr Labels helfen, aber nur dann, wenn das Unternehmen sich die Kosten einer ausreichenden Anzahl von Labels leisten kann, um die Modellleistung zu steigern; eine Zahl, die typischerweise unbekannt ist. Diese Annotationen werden typischerweise auch Fehler aufweisen, die KI-Unternehmen dazu zwingen, interne Systeme aufzubauen, die die Annotationen überprüfen, was sowohl Zeit (in der Größenordnung von Monaten) als auch mehr Geld kostet.

Zu 3.: Die Feedbackschleife ist auch nicht konsistent. Typischerweise wird die Verantwortung für die Annotationsüberprüfung an das KI-Unternehmen übertragen, das sein eigenes internes Überwachungssystem einrichten muss (bereits zeitaufwändig und kostspielig). Wenn ein KI-Unternehmen ein Annotationsproblem bemerkt, sind Korrekturen nicht garantiert vom selben Annotator, der das problematische Label erstellt hat, und manchmal werden Annotationsunternehmen das gesamte problematische Beispiel neu beschriften, anstatt es zu korrigieren, was mehr kostet. Zum Beispiel möchte ein Unternehmen für autonomes Fahren möglicherweise Instanzmasken von Ampeln und Personen beschriften. In diesem Dummy-Beispiel macht der erste Annotator einen Fehler und vergisst, Ampeln zu beschriften, die nicht zur Kamera zeigen. Das KI-Unternehmen kennzeichnet es und sendet es zur erneuten Überprüfung, aber die Art und Weise, wie das Annotationsunternehmen dies behebt, besteht darin, das Bild an einen neuen Annotator zu senden, der alles von Grund auf neu beschriftet! Der zweite Annotator behebt das ursprüngliche Problem, beschriftet aber Polizisten nicht als „Personen" und jetzt entsteht ein neues Problem! Siehe Abbildung 3a und Abbildung 3b. Diese Schleife hat eine unglaublich niedrige Wahrscheinlichkeit, Objekte korrekt zu annotieren, ~61% für 50 Labels {7}.

Figure 3a: First pass by the first annotator who missed the traffic lights that are not facing the camera. (Image from Waymo Open Dataset [17])

Figure 3b: Second pass from the second annotator who got all the traffic lights but didn’t realize that the “people” class included police officers! (Image from Waymo Open Dataset [17])

Im Wesentlichen sind die Labels, die ein Annotationsunternehmen mit diesem Feedbacksystem erstellt, nicht garantiert zu den richtigen Labels zu konvergieren!

Die Anreize von KI-Unternehmen sind nicht gut mit denen von Beschriftungsunternehmen ausgerichtet. KI-Unternehmen möchten ihr KI-Modell und ihr Produkt verbessern, während Annotationsunternehmen so viele Unternehmensdaten wie möglich beschriften möchten, damit sie dafür berechnen können. Siemöchten Ihr Modell leistungsfähig machen, und das sollten auch Annotationsunternehmen.

Zu 4.: In der Industrie (und Forschung) gibt es beim Versuch, ein Problem zu lösen, viele mögliche Lösungen. Vielleicht wird das Vortraining auf dem gesamten Internet Ihr LLM verbessern, oder vielleicht hilft die Erdung eines LLM durch Training auf beschrifteten Text-Bild-Paaren beim LLM-Reasoning, oder vielleicht hilft das Hinzufügen von Chain of Thought. Mit anderen Worten, beim Entwerfen von KI-Systemen müssen wir viele verschiedene Dinge parallel ausprobieren, da manchmal unklar ist, was der beste Ansatz sein wird. Beschriftung ist eine Lösung, was bedeutet, dass sich die Label-Definition ändern kann, wenn wir unser Problem besser verstehen.

Nehmen Sie zum Beispiel die Beschriftung von Stoppschildern beim autonomen Fahren; angenommen, wir beschriften zuerst Stoppschilder. Wir stellen fest, dass sich die Leistung verbessert, wenn wir wissen, ob ein Stoppschild teilweise verdeckt ist, also aktualisieren wir die Annotationsspezifikation später, um ein Metadaten-Tag namens „verdeckt" hinzuzufügen, wenn das Schild teilweise oder nicht sichtbar ist. Wir gehen dann zurück zu einem Annotationsunternehmen und bitten sie, alle unsere Stoppschilder damit neu zu beschriften! Diese „Annotationsplattform in der Schleife" bedeutet, dass jedes Modellexperiment, das den beschrifteten Datensatz aktualisiert, super teuer ist!

Man könnte sich also fragen, warum werden Beschriftungsanbieter überhaupt verwendet?

Conclusion

The optimal data flywheel represents data in a form that’s inherently insightful and interactable: we should be able to detect anomalies and also chat with our data to garner interesting patterns and insights. This flywheel should enhance annotation platforms by focusing on what should be labeled instead of labeling everything {8}. And finally, this data flywheel should align with model performance, tying directly to whatever problem your AI company is solving.

The traditional dogma is that more data “just works” and sometimes deep learning feels like alchemy. Perhaps more data will work for you in the short run but when things “just don’t work” the proper way is to assess failure both in the data & the model and work from there.

Over at Interpret we hope to change the paradigm. If you are interested, reach out to us at ily@interpretai.tech

Footnotes

Back when AlexNet was still a thing circa 2015ish most models for computer vision were trained on a subset of very particular problem types: classification, segmentation, object detection (ie foundation problems) and others like image captioning, scene recognition, pose estimation (see appendix for more details)[1]. Note this was pre “Attention is all you need” when bigrams were a-la-mode. The focus then was model development while benchmarks remained fixed. These benchmarks were “largish” labeled datasets (order of 10k to 1M) that were used to evaluate model performance. Some of the popular CV benchmarks you’re probably familiar with are MNIST, ImageNet, MS COCO, KITTI, Caltech-101 [2]. If you look the largest labeled datasets around this time they were around 1M labels, and that was considered large at the time.
Modern pretraining entered the chat around 2017 and changed the game. Borrowing from representation learning, pretraining came as a fundamental paradigm shift from learning features for only a specific labeled dataset to learning general features on unlabeled data that correlated well with other problems like classification, segmentation, object detection. These datasets compared to their labeled brethern were massive [5]. At the same time, advancements in model training (CUDA optimization which is why NVIDIA hit a 4T market cap), deep learning libraries (tensorflow, pytroch), and new / improved model architectures like Transformers from “Attention Is All You Need” opened up a brand new world. Researchers also noticed that increasing the size of models typically correlated with improved performance on unseen data (from the same data distribution). All of this combined interfaced with modern pretraining algorithms like pretext tasks, contrastive learning, masked label modeling, masked autoencoding (MAE) multimodal modeling [4] unlocking the era of training big models on even massive unlabeled datasets. Ergo, models like CLIP [13], DALL-E [14], DINOv2 [15], BERT [16].
”Alignment” is an overused term I mean alignment in both the “we want our LLM to be helpful not harmful” sense and the “data distribution alignment” sense.
When training / fine-tuning a model, scaling model size correlates with improvement in performance roughly following a power law. In industry, we’re already hitting the peak for model size scaling laws and fine-tuning is giving less and less of an advantage. The next frontier is improving pretraining method to better utilize existing unlabeled datasets.
In the SAM paper, annotations could take 30 seconds (but suppose it took 4 seconds based on the improvements from SAM v2 [10]); reviewing 1.1B masks would’ve required 1,100,000,000 * 4 seconds = ~51,000 days of annotation time!
This is also assuming that the data distribution is stationary (unchanging). If we wanted to increase the labels to a different data distribution (say deep sea diving videos where the semantics & dynamics of objects is different) then finetuning SAM would still require the same data flywheel training process which is also more time and more money.
Suppose that each object has a probability of being mislabeled p=0.01 (ie an annotator labels incorrectly or misses a label once every 100 labels). Assuming 50 objects in a video the probability of succeeding assuming independence is (1 - p)^50 = 61% chance of success! And that’s conservative.
Fundamentally, when AI companies have better clarity on what to label their incentives align with annotation companies.
More and more it is clear very few samples (e.g. thousands) of very high quality data is way better than million of low quality data - this is particularly true in post-traning of LLMs in industry but it is starting to be the focus also of pre-training.
A data flywheel is the loop used to collect data, improve the model, which makes a better product, which then modifies what data to collect and the cycle repeats (for example this image from dataloop.ai https://dataloop.ai/book/the-data-flywheel-effect/). A data engine is the infra for collecting/labeling/evaluating data (for example Scale’s product https://scale.com/data-engine).

Special Thanks

Cameron Tukerman-Lee (also credit for the title)
Gabriele Sorrento
Francesco Pongetti
Lotfi Herzi

Appendix

[1] A more extensive list of popular 2015 foundational problems across different domains so sortof pre multi-modal.
- Computer vision
  - classification
  - segmentation
  - object detection
  - image captioning
  - scene recognition
  - pose estimation
  - Optical Flow Estimation
  - Depth Estimation
  - Face recognition
  - Pose estimation
  - Visual tracking
  - Style transfer
  - Image generation
- Natural Language Processing
  - Machine translation
  - Part of speech tagging
  - Question answering
- Speech Processing
  - Speech recognition
  - Speaker identification
  - Emotion classification
- Time series
- Reinforcement Learning
[2] Popular datasets separated by domain around 2015 Classification: Segmentation: Object Detection: Other Tasks: Depth Estimation: Optical Flow: Pose Estimation: Face Recognition: Video/Action Recognition: Attributes/Multi-label: Reinforcement Learning: Can think of dataset size as number of rollouts.
- ImageNet (ILSVRC 2017) - 1.2M training, 1000 classes - https://www.image-net.org/challenges/LSVRC/2017/index.php
- CIFAR-10/100 - 60K (32x32), 10/100 classes - https://www.cs.toronto.edu/~kriz/cifar.html
- MNIST - 70K handwritten digits - https://www.kaggle.com/datasets/hojjatk/mnist-dataset
- Fashion-MNIST - 70K fashion items - https://github.com/zalandoresearch/fashion-mnist
- SVHN - 600K real world house numbers 10 classes for each digit - http://ufldl.stanford.edu/housenumbers/
- Caltech-101/256 - 9K/30K images 101/256 categories - https://data.caltech.edu/records/mzrjq-6wc02, https://data.caltech.edu/records/nyy15-4j048
- Oxford Flowers 102 - 102 categories - https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Oxford-IIIT Pets - 7.4K images, 37 pet breeds - https://www.robots.ox.ac.uk/~vgg/data/pets/
- Stanford Cars - 16K images, 196 car models - https://www.kaggle.com/datasets/eduardo4jesus/stanford-cars-dataset
- FGVC Aircraft - 10.2K images, 100 aircraft variants - https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/
- Food-101 - 101 food categories - https://www.kaggle.com/datasets/dansbecker/food-101
- CUB-200-2011 - 12K bird images, 200 species - https://www.vision.caltech.edu/datasets/cub_200_2011/
- Stanford Dogs - 20K images, 120 dog breeds - http://vision.stanford.edu/aditya86/ImageNetDogs/
- MIT Indoor Scenes - 15K images, 67 indoor categories - http://web.mit.edu/torralba/www/indoor.html
- PASCAL VOC 2012 - 11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
- MS COCO - 328K images, 80 object classes, 91 stuff categories, 5 captions per image, 250k people with keypoints https://cocodataset.org/
- Cityscapes - 5K fine/25K coarse annotations, 8 classes - https://www.cityscapes-dataset.com/, https://www.cityscapes-dataset.com/dataset-overview/#class-definitions
- ADE20K - 25K images, 150 classes - https://groups.csail.mit.edu/vision/datasets/ADE20K/
- PASCAL Context - 10K images, 459 classes - https://cs.stanford.edu/~roozbeh/pascal-context/
- SBD (Semantic Boundaries) - 11K images from PASCAL - https://paperswithcode.com/dataset/sbd
- NYUDv2 - 1.4K RGB-D images - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- SUN RGB-D - 10K RGB-D images - https://rgbd.cs.princeton.edu/
- KITTI Semantic - http://www.cvlibs.net/datasets/kitti/
- PASCAL VOC 2012 - 10K/11K images, 20 classes - http://host.robots.ox.ac.uk/pascal/VOC/
- MS COCO - 328K images, 80 classes, 1.5M instances - https://cocodataset.org/
- KITTI Object - http://www.cvlibs.net/datasets/kitti/
- Open Images (v1 in 2016) - 15.8 images, 6000 classes - https://storage.googleapis.com/openimages/web/index.html
- WIDER Face - 32K images, 393K face annotations - http://shuoyang1213.me/WIDERFACE/
- NYUDv2 - 1.4K RGB-D scenes - https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
- KITTI Depth- http://www.cvlibs.net/datasets/kitti/
- Make3D - 534 images with depths - http://make3d.cs.cornell.edu/data.html
- Sintel - http://sintel.is.tue.mpg.de/
- KITTI Flow - http://www.cvlibs.net/datasets/kitti/
- Flying Chairs - 22K synthetic pairs - https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html
- Middlebury - Small but precise benchmark - https://vision.middlebury.edu/flow/
- MPII Human Pose - 25K images, 40K people - http://human-pose.mpi-inf.mpg.de/
- FLIC - 5003 images from movies - https://bensapp.github.io/flic-dataset.html
- Leeds Sports Pose - https://www.kaggle.com/datasets/dkrivosic/leeds-sports-pose-lsp
- LFW (Labeled Faces in the Wild) - 13K images, 5.7K people -https://www.kaggle.com/datasets/jessicali9530/lfw-dataset
- CelebA - 200K images, 10K identities - http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
- MegaFace - 1M images, 690K identities - http://megaface.cs.washington.edu/
- VGGFace - 2.6K people - https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
- UCF-101 - 13,320 videos, 101 actions - https://www.crcv.ucf.edu/data/UCF101.php
- HMDB-51 - 6800 videos, 51 actions - https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- Sports-1M - 1M YouTube videos, 487 sports - https://cs.stanford.edu/people/karpathy/deepvideo/
- ActivityNet - 20K videos, 200 classes - http://activity-net.org/
- WIDER Attribute - http://mmlab.ie.cuhk.edu.hk/projects/WIDERAttribute.html
- Berkeley Attributes - https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/poselets/
- Classic control tasks
  - OpenAI Gym (cartpole, mountaincar, acrobat, etc). I remember this before chatgpt lol maybe I’m old
  - MuJoCo (Multi-joint dynamics with contact) like the halfcheetah, hopper, humanoid, etc. This was typically done in a physics simulation and was popular for PPO.
- Board games
  - Go
  - Chess
  - PyGame
- TORCS
- Minecraft
- ViZDoom
- Atari 2600 from DeepMind
[3] Scaling Laws Paper, Larger pretrained models paper
- "Scaling Laws for Neural Language Models" by Jared Kaplan et al. (2020): https://arxiv.org/abs/2001.08361
- "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level”: https://arxiv.org/abs/2105.06020
[4] Modern pretraining algorithms Pretext Tasks: Contrastive Learning Methods: Masked Modeling: Multimodal Learning:
- Rotation prediction
- Jigsaw puzzles
- Colorization
- Inpainting/Masked patches
- SimCLR (Chen et al., 2020): "A Simple Framework for Contrastive Learning of Visual Representations" [2002.05709] A Simple Framework for Contrastive Learning of Visual Representations
- MoCo v1 & v2 (He et al., 2019/2020): "Momentum Contrast for Unsupervised Visual Representation Learning" [2003.04297] Improved Baselines with Momentum Contrastive Learning
- BYOL (Grill et al., 2020): "Bootstrap Your Own Latent"
- PIRL (Misra & van der Maaten, 2020): "Self-Supervised Learning of Pretext-Invariant Representations" Self-Supervised Learning of Pretext-Invariant Representations
- Masked Language Modeling (MLM): BERT (Devlin et al., 2018)
- Masked Autoencoder (MAE)
- CLIP (Radford et al., 2021): "Learning Transferable Visual Models From Natural Language Supervision" [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
- ALIGN (Jia et al., 2021)
- DALL-E (Ramesh et al., 2021): "Zero-Shot Text-to-Image Generation"
[5] Pretraining datasets
- JFT-300M: google’s internal 300M images psudeo labeled: https://ar5iv.labs.arxiv.org/html/1707.02968 (TO VERIFY)
- LAION-5B: 5.85 billion (image, text) pairs scraped from Common Crawl
- CLIP Training Data: 400M (image, text) pairs https://arxiv.org/abs/2103.00020 (not released)
- Wikipedia: English 20GB
- Kinetics-700: 650k videos (technically has action classes but still used)
[6] Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism https://arxiv.org/abs/2401.02954
[9] Constitutional AI: Harmlessness from AI Feedback https://arxiv.org/abs/2212.08073
[10] Segment anything: https://arxiv.org/abs/2304.02643, SAM 2: Segment Anything In Images & Videos https://arxiv.org/pdf/2408.00714. More details below.
[11] https://techcrunch.com/2025/06/13/new-details-emerge-on-metas-14-3b-deal-for-scale/
[12] https://www.nature.com/articles/s41586-025-09227-0
[13] "Learning Transferable Visual Models From Natural Language Supervision” https://arxiv.org/abs/2103.00020
[14] "Zero-Shot Text-to-Image Generation” https://arxiv.org/abs/2102.12092
[15] "Emerging Properties in Self-Supervised Vision Transformers” https://arxiv.org/abs/2104.14294, "DINOv2: Learning Robust Visual Features without Supervision” https://arxiv.org/abs/2304.07193
[16] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” https://arxiv.org/abs/1810.04805
[17] Waymo E2E Open dataset https://waymo.com/open/data/e2e#camera-data

Datenmenge ist NICHT alles, was man braucht