TL;DR
- Las anotaciones no escalan. Gestionar un motor de datos de anotación es costoso, consume mucho tiempo y es problemático.
- Hablamos sobre esto en nuestra publicación anterior aquí. ¿La conclusión? Hacer que los conjuntos de datos sean interpretables es esencial para prevenir fallas críticas del modelo y evitar la generación de contenido dañino.
Entonces, ¿por qué las anotaciones son tan críticas para la mayoría de las empresas de IA?
Cuando Algo es mejor que Nada
Para los fanáticos de Harry Potter, construir un sistema de IA puede sentirse como la clase de Pociones. A veces, la mezcla correcta de datos, algoritmos de entrenamiento y escala crea un modelo increíble. Pero descifrar la receta exacta - qué datos usar, qué modelo probar, qué algoritmos de entrenamiento emplear y qué hiperparámetros ajustar - es increíblemente difícil.
Para la mayoría de las empresas que implementan un nuevo sistema de IA, el enfoque más directo es recopilar etiquetas para la tarea en cuestión.
- ¿Entrenando un nuevo robot? Recopila y etiqueta trayectorias (cuadros delimitadores, segmentación, etc.).
- ¿Alineando un LLM con estándares de salud o legales? Recopila múltiples salidas del modelo y haz que humanos las clasifiquen por preferencia para entrenar un modelo de recompensa para RLHF o para ajustar finamente un LLM directamente con DPO.
- ¿Encontrando personas en videos? Recopila cuadros delimitadores.
- ¿Clasificando piezas defectuosas? Etiqueta imágenes como defectuosas o no.
Este enfoque funciona bien al principio porque algo siempre es mejor que nada. Desde startups sin datos hasta empresas con exabytes de ellos, la mayoría de los equipos comienzan recopilando etiquetas porque obtener un prototipo funcional es la máxima prioridad. Este enfoque manual continúa hasta que deja de funcionar. Generalmente, solo cuando las ganancias de agregar más etiquetas disminuyen, las empresas exploran otros métodos como el pre-entrenamiento, modelos más grandes o la introspección de conjuntos de datos. La introspección de datos sigue siendo necesaria, pero típicamente llega después de que un modelo base ya está funcional.
Muévete rápido, anota más rápido
Las empresas sabiamente deciden lanzar un MVP aproximado e iterar. A eso, decimos que tu flujo de trabajo de etiquetado debe moverse tan rápido como tu desarrollo de IA.
Por eso en Interpret AI, estamos construyendo Agentic Annotations. Es simple:
- Proporciona un solo prompt describiendo cómo quieres que tus datos sean etiquetados.
- Itera sobre algunos ejemplos diversos seleccionados por nuestro modelo fundacional.
- Cuando estés listo, pre-anota el resto de tu conjunto de datos masivo automáticamente—sin más cuello de botella humano.
Los servicios de anotación tradicionales como Scale AI, Surge y Labelbox comparten el mismo problema fundamental: un humano debe revisar y etiquetar cada muestra de datos individual. Este es el cuello de botella que otros intentan resolver lanzando más personas al problema. Creemos que después de que algunos ejemplos son etiquetados, el resto debería ser automatizado. Las empresas que intentan pasar de 0 a 1 solo necesitan etiquetas suficientemente buenas para impulsar el volante.
¿Cuál es el problema?
No hace falta decir que las anotaciones manuales de alta calidad son generalmente mejores que las pre-anotaciones automatizadas. Sin embargo, la anotación manual puede tomar meses, mientras que las pre-anotaciones pueden completarse en días o incluso horas. Los equipos de ML a menudo intentan evitar las costosas etiquetas manuales usando LLMs jueces, modelos fundacionales como SAM, u otras técnicas para obtener resultados "suficientemente buenos". Nuestra creencia, sin embargo, es que los equipos que construyen nuevos productos se benefician más al enfocarse en el desarrollo de su modelo, no en construir plataformas de anotación internas.
Cuatro pasos para un producto de IA funcional
Las empresas que quieren que sus sistemas de IA resuelvan necesidades reales de los clientes deben hacer cuatro preguntas fundamentales:
- Define la tarea: ¿Qué debería hacer tu modelo de IA? (por ejemplo, determinar políticas para robots, detectar amenazas de ciberseguridad, generar texto de soporte al cliente).
- Identifica los datos: ¿Qué datos se necesitan para entrenar tu modelo? (por ejemplo, trayectorias de robots, imágenes de mercancía defectuosa, ejemplos de buen y mal soporte al cliente).
- Establece un proceso de evaluación: ¿Cómo evaluarás tu modelo en benchmarks y con clientes? Mientras que la anotación manual tiene sentido para conjuntos de datos pequeños y críticos, Agentic Annotations ofrece una alternativa válida para lograr resultados listos para el mercado mucho más rápido.
- Diagnostica el bajo rendimiento: ¿Cuál es la causa raíz cuando tu modelo falla? ¿Es un problema de datos o un problema de modelado? Una plataforma de introspección de datos puede identificar brechas o anomalías en los datos.
Aunque todas estas preguntas son esenciales, en Interpret, ayudamos con (3) y (4). Para la evaluación (3), los desarrolladores pueden usar nuestras Agentic Annotations para etiquetar datos rápidamente y probar modelos. Para diagnosticar el bajo rendimiento (4), cuando un modelo no funciona como se espera, nuestra plataforma de introspección de datos hace que tus datos sean interactivos para que puedas entender qué está causando el problema.
Priorizar la comprensión de datos, la evaluación de modelos y las iteraciones rápidas de etiquetado pondrá a tu equipo en el camino más rápido hacia un producto de IA funcional.
