Agentic Annotations

By Interpret AI2025-08-221 min readCategories: Blog Post

これは人間が書いた文書の自動翻訳版です。

英語のオリジナルを読む
AI駆動のアノテーションワークフローで、自動データラベリングプロセスと人間によるレビュー、モデルトレーニングパイプラインを表示

TL;DR

  • アノテーションはスケールしません。アノテーションデータエンジンの管理は、コストがかかり、時間を要し、問題が多いのです。
  • この点については、以前の投稿こちらで話し合いました。要点は何でしょうか?データセットを解釈可能にすることは、重大なモデル障害を防ぎ、有害なコンテンツ生成を回避するために不可欠だということです。

それでは、なぜアノテーションはほとんどのAI企業にとって非常に重要なのでしょうか?

何もないよりは何かがある方が良い

ハリー・ポッターファンの皆さんにとって、AIシステムの構築は魔法薬学の授業のように感じられるかもしれません。時には、データ、トレーニングアルゴリズム、スケールの適切な組み合わせが素晴らしいモデルを生み出します。しかし、正確なレシピを見つけること、つまりどのデータを使用し、どのモデルを試し、どのトレーニングアルゴリズムを採用し、どのハイパーパラメータを調整するかを決定することは非常に困難です。

新しいAIシステムを導入するほとんどの企業にとって、最も直接的なアプローチは、目の前のタスクのためにラベルを収集することです。

  • 新しいロボットをトレーニングする場合は、軌跡を収集してラベル付けします(バウンディングボックス、セグメンテーションなど)。
  • LLMを医療や法律の基準に合わせる場合は、複数のモデル出力を収集し、人間に優先順位をつけてもらい、RLHFの報酬モデルをトレーニングするか、DPOでLLMを直接ファインチューニングします。
  • 動画内の人物を検出する場合は、バウンディングボックスを収集します。
  • 不良部品を分類する場合は、画像に不良かどうかのラベルを付けます。

このアプローチは、何もないよりは何かがある方が常に良いため、初期段階ではうまく機能します。データを持たないスタートアップから、エクサバイト規模のデータを持つ企業まで、ほとんどのチームは動作するプロトタイプを作ることが最優先事項であるため、ラベルの収集から始めます。この手動アプローチは、機能しなくなるまで続きます。通常、ラベルを追加することによる効果が減少して初めて、企業は事前トレーニング、より大きなモデル、データセットの内省などの他の方法を探求します。データの内省は依然として必要ですが、通常はベースラインモデルがすでに機能している後に行われます。


素早く動き、さらに素早くアノテーションする

企業は賢明にも、粗削りなMVPを出荷して反復することを決定します。それに対して、私たちはラベリングワークフローがAI開発と同じ速さで進むべきだと考えています。

そのため、Interpret AIでは、Agentic Annotationsを構築しています。シンプルです:

  1. データにどのようにラベルを付けたいかを説明する単一のプロンプトを提供します。
  2. 当社のファウンデーションモデルによって選択されたいくつかの多様な例で反復します。
  3. 準備ができたら、残りの大規模なデータセットを自動的に事前アノテーションします。人間のボトルネックはもうありません。

Scale AI、Surge、Labelboxなどの従来のアノテーションサービスはすべて、同じ根本的な問題を抱えています。人間がすべてのデータサンプルをレビューしてラベル付けしなければならないということです。これが、他社がより多くの人員を投入することで解決しようとするボトルネックです。私たちは、いくつかの例にラベルが付けられた後は、残りは自動化されるべきだと考えています。0から1を目指す企業は、フライホイールを始動させるために十分な品質のラベルがあればよいのです。

Video loading...
With Interpret AI all you need is to provide our foundation model with a couple of annotation prompts on a few examples. Then, when you’re happy with the initial sample annotation, our agentic annotator will process the remainder of your data at scale based on your prompt.

何か問題はあるのか?

言うまでもなく、高品質な手動アノテーションは一般的に自動化された事前アノテーションよりも優れています。しかし、手動アノテーションには数ヶ月かかる可能性がありますが、事前アノテーションは数日、場合によっては数時間で完了できます。MLチームは、judge-LLM、SAMのようなファウンデーションモデル、またはその他の技術を使用して「十分に良い」結果を得ることで、コストのかかる手動ラベルを避けようとすることがよくあります。しかし、私たちの信念は、新製品を構築するチームは、社内アノテーションプラットフォームの構築ではなく、モデル開発に集中することで最も恩恵を受けるということです。


動作するAI製品への4つのステップ

AIシステムで実際の顧客ニーズを解決したい企業は、4つの基本的な質問をすべきです:

  1. タスクを定義する:AIモデルは何をすべきか?(例:ロボットのポリシーを決定する、サイバーセキュリティの脅威を検出する、カスタマーサポートテキストを生成する)。
  2. データを特定する:モデルをトレーニングするためにどのようなデータが必要か?(例:ロボットの軌跡、不良商品の画像、良いカスタマーサポートと悪いカスタマーサポートの例)。
  3. 評価プロセスを確立する:ベンチマークや顧客とのやり取りでモデルをどのように評価するか?手動アノテーションは小規模で重要なデータセットには意味がありますが、Agentic Annotationsは市場投入可能な結果をはるかに速く達成するための有効な代替手段を提供します。
  4. パフォーマンス低下を診断する:モデルが失敗したときの根本原因は何か?データの問題か、モデリングの問題か?データ内省プラットフォームは、データのギャップや異常を特定できます。

これらの質問はすべて不可欠ですが、Interpretでは(3)と(4)を支援します。評価(3)については、開発者は当社のAgentic Annotationsを使用して、迅速にデータにラベルを付けてモデルをテストできます。パフォーマンス低下の診断(4)については、モデルが期待通りに動作しない場合、当社のデータ内省プラットフォームがデータをインタラクティブにし、問題の原因を理解できるようにします。

データの理解、モデルの評価、迅速なラベリングの反復を優先することで、チームは動作するAI製品への最速の道を歩むことができます。