Agentic Annotations

By Interpret AI2025-08-225 min readCategories: Blog Post

Esta é uma versão traduzida automaticamente de um documento escrito por um humano.

Ler o original em inglês
Fluxo de trabalho de anotação alimentado por IA mostrando processo automatizado de rotulagem de dados com revisão humana e pipeline de treinamento de modelo

TL;DR

  • Anotações não escalam. Gerenciar um motor de dados de anotação é custoso, demorado e problemático.
  • Conversamos sobre isso em nossa postagem anterior aqui. A conclusão? Tornar os conjuntos de dados interpretáveis é essencial para prevenir falhas críticas do modelo e evitar a geração de conteúdo prejudicial.

Então, por que as anotações são tão críticas para a maioria das empresas de IA?

Quando Algo é melhor que Nada

Para os fãs de Harry Potter por aí, construir um sistema de IA pode parecer uma aula de Poções. Às vezes, a combinação certa de dados, algoritmos de treinamento e escala cria um modelo incrível. Mas descobrir a receita exata - quais dados usar, qual modelo experimentar, quais algoritmos de treinamento empregar e quais hiperparâmetros ajustar - é incrivelmente difícil.

Para a maioria das empresas implementando um novo sistema de IA, a abordagem mais direta é coletar rótulos para a tarefa em questão.

  • Treinando um novo robô? Colete e rotule trajetórias (caixas delimitadoras, segmentação, etc.).
  • Alinhando um LLM com padrões de saúde ou jurídicos? Colete múltiplas saídas do modelo e peça para humanos classificá-las por preferência para treinar um modelo de recompensa para RLHF ou para ajustar finamente um LLM diretamente com DPO.
  • Encontrando pessoas em vídeos? Colete caixas delimitadoras.
  • Classificando peças defeituosas? Rotule imagens como defeituosas ou não.

Essa abordagem funciona bem no início porque algo é sempre melhor que nada. Desde startups sem dados até empresas com exabytes deles, a maioria das equipes começa coletando rótulos porque ter um protótipo funcional é a prioridade máxima. Essa abordagem manual continua até parar de funcionar. Geralmente é apenas quando os ganhos de adicionar mais rótulos diminuem que as empresas exploram outros métodos como pré-treinamento, modelos maiores ou introspecção de conjuntos de dados. A introspecção de dados ainda é necessária, mas normalmente vem depois que um modelo base já está funcional.


Mova-se rápido, anote mais rápido

As empresas sabiamente decidem lançar um MVP básico e iterar. Para isso, dizemos que seu fluxo de trabalho de rotulagem deve se mover tão rápido quanto seu desenvolvimento de IA.

É por isso que na Interpret AI, estamos construindo Agentic Annotations. É simples:

  1. Forneça um único prompt descrevendo como você quer que seus dados sejam rotulados.
  2. Itere em alguns exemplos diversos selecionados pelo nosso modelo de fundação.
  3. Quando estiver pronto, pré-anote o resto do seu conjunto de dados massivo automaticamente—sem mais gargalo humano.

Serviços de anotação tradicionais como Scale AI, Surge e Labelbox compartilham o mesmo problema fundamental: um humano deve revisar e rotular cada amostra de dados individualmente. Este é o gargalo que outros tentam resolver jogando mais pessoas no problema. Acreditamos que depois que alguns exemplos são rotulados, o resto deve ser automatizado. Empresas tentando ir de 0 a 1 precisam apenas de rótulos bons o suficiente para impulsionar o volante.

Video loading...
With Interpret AI all you need is to provide our foundation model with a couple of annotation prompts on a few examples. Then, when you’re happy with the initial sample annotation, our agentic annotator will process the remainder of your data at scale based on your prompt.

Qual é o problema?

É óbvio que anotações manuais de alta qualidade são geralmente melhores que pré-anotações automatizadas. No entanto, a anotação manual pode levar meses, enquanto as pré-anotações podem ser concluídas em dias ou até horas. Equipes de ML frequentemente tentam evitar rótulos manuais caros usando judge-LLMs, modelos de fundação como SAM, ou outras técnicas para obter resultados "bons o suficiente". Nossa crença, no entanto, é que equipes construindo novos produtos se beneficiam mais ao focar no desenvolvimento de seus modelos, não em construir plataformas de anotação internas.


Quatro passos para um produto de IA funcional

Empresas que querem que seus sistemas de IA resolvam necessidades reais dos clientes devem fazer quatro perguntas fundamentais:

  1. Defina a tarefa: O que seu modelo de IA deve fazer? (por exemplo, determinar políticas para robôs, detectar ameaças de cibersegurança, gerar texto de suporte ao cliente).
  2. Identifique os dados: Quais dados são necessários para treinar seu modelo? (por exemplo, trajetórias de robôs, imagens de mercadorias defeituosas, exemplos de bom e mau suporte ao cliente).
  3. Estabeleça um processo de avaliação: Como você avaliará seu modelo em benchmarks e com clientes? Embora a anotação manual faça sentido para conjuntos de dados pequenos e críticos, Agentic Annotations oferecem uma alternativa válida para alcançar resultados prontos para o mercado muito mais rápido.
  4. Diagnostique o baixo desempenho: Qual é a causa raiz quando seu modelo falha? É um problema de dados ou um problema de modelagem? Uma plataforma de introspecção de dados pode identificar lacunas ou anomalias nos dados.

Embora todas essas perguntas sejam essenciais, na Interpret, ajudamos com (3) e (4). Para avaliação (3), desenvolvedores podem usar nossas Agentic Annotations para rotular dados rapidamente e testar modelos. Para diagnosticar baixo desempenho (4), quando um modelo não está funcionando como esperado, nossa plataforma de introspecção de dados torna seus dados interativos para que você possa entender o que está causando o problema.

Priorizar a compreensão de dados, avaliação de modelos e iterações rápidas de rotulagem colocará sua equipe no caminho mais rápido para um produto de IA funcional.