Agentic Annotations

By Interpret AI2025-08-224 min readCategories: Blog Post

Dies ist eine automatisch übersetzte Version eines von einem Menschen verfassten Dokuments.

Original auf Englisch lesen
KI-gestützte Annotationsworkflow zeigt automatisierten Datenlabeling-Prozess mit menschlicher Überprüfung und Modelltrainings-Pipeline

TL;DR

  • Annotationen skalieren nicht. Die Verwaltung einer Annotationsdaten-Engine ist kostspielig, zeitaufwändig und problematisch.
  • Wir haben darüber in unserem früheren Beitrag hier gesprochen. Die Erkenntnis? Datensätze interpretierbar zu machen ist entscheidend, um kritische Modellfehler zu verhindern und die Generierung schädlicher Inhalte zu vermeiden.

Warum sind Annotationen dann für die meisten KI-Unternehmen so wichtig?

Wenn Etwas besser ist als Nichts

Für alle Harry-Potter-Fans da draußen: Der Aufbau eines KI-Systems kann sich wie der Zaubertrank-Unterricht anfühlen. Manchmal erzeugt die richtige Mischung aus Daten, Trainingsalgorithmen und Skalierung ein unglaubliches Modell. Aber das genaue Rezept herauszufinden – welche Daten zu verwenden sind, welches Modell zu testen ist, welche Trainingsalgorithmen einzusetzen sind und welche Hyperparameter zu optimieren sind – ist unglaublich schwierig.

Für die meisten Unternehmen, die ein neues KI-System einsetzen, ist der einfachste Ansatz, Labels für die jeweilige Aufgabe zu sammeln.

  • Ein neuer Roboter wird trainiert? Sammeln und labeln Sie Trajektorien (Bounding Boxes, Segmentierung usw.).
  • Ein LLM an Gesundheits- oder Rechtsstandards ausrichten? Sammeln Sie mehrere Modellausgaben und lassen Sie Menschen diese nach Präferenz ordnen, um ein Belohnungsmodell für RLHF zu trainieren oder ein LLM direkt mit DPO feinzutunen.
  • Personen in Videos finden? Sammeln Sie Bounding Boxes.
  • Defekte Teile klassifizieren? Labeln Sie Bilder als defekt oder nicht defekt.

Dieser Ansatz funktioniert am Anfang gut, weil Etwas immer besser ist als Nichts. Von Startups ohne Daten bis zu Unternehmen mit Exabytes davon beginnen die meisten Teams damit, Labels zu sammeln, weil ein funktionierender Prototyp die oberste Priorität ist. Dieser manuelle Ansatz wird fortgesetzt, bis er nicht mehr funktioniert. Erst wenn die Gewinne durch das Hinzufügen weiterer Labels abnehmen, erkunden Unternehmen in der Regel andere Methoden wie Pre-Training, größere Modelle oder Dataset-Introspection. Daten-Introspection ist weiterhin notwendig, kommt aber typischerweise erst, nachdem bereits ein Baseline-Modell funktioniert.


Schnell bewegen, noch schneller annotieren

Unternehmen entscheiden sich klugerweise dafür, ein grobes MVP zu veröffentlichen und zu iterieren. Dazu sagen wir: Ihr Labeling-Workflow sollte so schnell sein wie Ihre KI-Entwicklung.

Deshalb bauen wir bei Interpret AI Agentic Annotations. Es ist einfach:

  1. Geben Sie einen einzigen Prompt an, der beschreibt, wie Ihre Daten gelabelt werden sollen.
  2. Iterieren Sie über einige diverse Beispiele, die von unserem Foundation-Modell ausgewählt wurden.
  3. Wenn Sie bereit sind, annotieren Sie den Rest Ihres riesigen Datensatzes automatisch vor – kein menschlicher Engpass mehr.

Traditionelle Annotationsdienste wie Scale AI, Surge und Labelbox teilen alle dasselbe grundlegende Problem: Ein Mensch muss jede einzelne Datenprobe überprüfen und labeln. Dies ist der Engpass, den andere zu lösen versuchen, indem sie mehr Menschen auf das Problem ansetzen. Wir glauben, dass nach dem Labeln einiger Beispiele der Rest automatisiert werden sollte. Unternehmen, die versuchen, von 0 auf 1 zu kommen, brauchen einfach ausreichend gute Labels, um das Schwungrad in Gang zu setzen.

Video loading...
With Interpret AI all you need is to provide our foundation model with a couple of annotation prompts on a few examples. Then, when you’re happy with the initial sample annotation, our agentic annotator will process the remainder of your data at scale based on your prompt.

Was ist der Haken?

Es versteht sich von selbst, dass hochwertige manuelle Annotationen im Allgemeinen besser sind als automatisierte Pre-Annotationen. Allerdings kann manuelle Annotation Monate dauern, während Pre-Annotationen in Tagen oder sogar Stunden abgeschlossen werden können. ML-Teams versuchen oft, kostspielige manuelle Labels zu vermeiden, indem sie Judge-LLMs, Foundation-Modelle wie SAM oder andere Techniken verwenden, um „ausreichend gute" Ergebnisse zu erzielen. Unsere Überzeugung ist jedoch, dass Teams, die neue Produkte entwickeln, am meisten davon profitieren, sich auf ihre Modellentwicklung zu konzentrieren und nicht auf den Aufbau interner Annotationsplattformen.


Vier Schritte zu einem funktionierenden KI-Produkt

Unternehmen, die möchten, dass ihre KI-Systeme echte Kundenbedürfnisse lösen, sollten vier grundlegende Fragen stellen:

  1. Die Aufgabe definieren: Was soll Ihr KI-Modell tun? (z. B. Richtlinien für Roboter festlegen, Cybersicherheitsbedrohungen erkennen, Kundensupport-Texte generieren).
  2. Die Daten identifizieren: Welche Daten werden benötigt, um Ihr Modell zu trainieren? (z. B. Roboter-Trajektorien, Bilder von defekter Ware, Beispiele für guten und schlechten Kundensupport).
  3. Einen Evaluierungsprozess etablieren: Wie werden Sie Ihr Modell anhand von Benchmarks und mit Kunden evaluieren? Während manuelle Annotation für kleine, kritische Datensätze sinnvoll ist, bieten Agentic Annotations eine valide Alternative, um marktreife Ergebnisse viel schneller zu erreichen.
  4. Underperformance diagnostizieren: Was ist die Grundursache, wenn Ihr Modell versagt? Ist es ein Datenproblem oder ein Modellierungsproblem? Eine Daten-Introspektionsplattform kann Datenlücken oder Anomalien identifizieren.

Während all diese Fragen wesentlich sind, helfen wir bei Interpret mit (3) und (4). Für die Evaluierung (3) können Entwickler unsere Agentic Annotations verwenden, um schnell Daten zu labeln und Modelle zu testen. Für die Diagnose von Underperformance (4), wenn ein Modell nicht wie erwartet funktioniert, macht unsere Daten-Introspektionsplattform Ihre Daten interaktiv, sodass Sie verstehen können, was das Problem verursacht.

Die Priorisierung von Datenverständnis, Modellevaluierung und schnellen Labeling-Iterationen wird Ihr Team auf den schnellsten Weg zu einem funktionierenden KI-Produkt bringen.