TL;DR
- Les annotations ne passent pas à l'échelle. Gérer un moteur de données d'annotation est coûteux, chronophage et problématique.
- Nous en avons discuté dans notre précédent article ici. La conclusion ? Rendre les ensembles de données interprétables est essentiel pour prévenir les défaillances critiques des modèles et éviter la génération de contenu nuisible.
Alors pourquoi les annotations sont-elles si essentielles pour la plupart des entreprises d'IA ?
Quand Quelque chose vaut mieux que Rien
Pour tous les fans d'Harry Potter, construire un système d'IA peut ressembler à un cours de Potions. Parfois, le bon mélange de données, d'algorithmes d'entraînement et d'échelle crée un modèle incroyable. Mais trouver la recette exacte - quelles données utiliser, quel modèle essayer, quels algorithmes d'entraînement employer et quels hyperparamètres ajuster - est incroyablement difficile.
Pour la plupart des entreprises déployant un nouveau système d'IA, l'approche la plus simple consiste à collecter des étiquettes pour la tâche en question.
- Vous entraînez un nouveau robot ? Collectez et étiquetez des trajectoires (boîtes englobantes, segmentation, etc.).
- Vous alignez un LLM avec des normes de santé ou juridiques ? Collectez plusieurs sorties de modèle et demandez à des humains de les classer par préférence pour entraîner un modèle de récompense pour le RLHF ou pour affiner un LLM directement avec DPO.
- Vous recherchez des personnes dans des vidéos ? Collectez des boîtes englobantes.
- Vous classez des pièces défectueuses ? Étiquetez les images comme défectueuses ou non.
Cette approche fonctionne bien au début car quelque chose vaut toujours mieux que rien. Des startups sans données aux entreprises avec des exaoctets de données, la plupart des équipes commencent par collecter des étiquettes car obtenir un prototype fonctionnel est la priorité absolue. Cette approche manuelle se poursuit jusqu'à ce qu'elle cesse de fonctionner. Ce n'est généralement que lorsque les gains liés à l'ajout de plus d'étiquettes diminuent que les entreprises explorent d'autres méthodes comme le pré-entraînement, des modèles plus grands ou l'introspection des ensembles de données. L'introspection des données reste nécessaire, mais elle intervient généralement après qu'un modèle de base soit déjà fonctionnel.
Avancez vite, annotez plus vite
Les entreprises décident judicieusement de livrer un MVP approximatif et d'itérer. À cela, nous disons que votre flux de travail d'étiquetage devrait avancer aussi vite que votre développement d'IA.
C'est pourquoi chez Interpret AI, nous construisons Agentic Annotations. C'est simple :
- Fournissez une seule instruction décrivant comment vous souhaitez que vos données soient étiquetées.
- Itérez sur quelques exemples diversifiés sélectionnés par notre modèle de fondation.
- Lorsque vous êtes prêt, pré-annotez automatiquement le reste de votre ensemble de données massif - plus de goulot d'étranglement humain.
Les services d'annotation traditionnels comme Scale AI, Surge et Labelbox partagent tous le même problème fondamental : un humain doit examiner et étiqueter chaque échantillon de données. C'est le goulot d'étranglement que d'autres tentent de résoudre en mobilisant plus de personnes. Nous croyons qu'après l'étiquetage de quelques exemples, le reste devrait être automatisé. Les entreprises qui tentent de passer de 0 à 1 ont simplement besoin d'étiquettes suffisamment bonnes pour lancer le volant d'inertie.
Quel est le piège ?
Il va sans dire que des annotations manuelles de haute qualité sont généralement meilleures que des pré-annotations automatisées. Cependant, l'annotation manuelle peut prendre des mois, tandis que les pré-annotations peuvent être complétées en quelques jours, voire quelques heures. Les équipes ML essaient souvent d'éviter les étiquettes manuelles coûteuses en utilisant des LLM-juges, des modèles de fondation comme SAM, ou d'autres techniques pour obtenir des résultats « suffisamment bons ». Notre conviction, cependant, est que les équipes qui construisent de nouveaux produits bénéficient le plus en se concentrant sur le développement de leur modèle, et non sur la construction de plateformes d'annotation internes.
Quatre étapes vers un produit d'IA fonctionnel
Les entreprises qui veulent que leurs systèmes d'IA résolvent de vrais besoins clients devraient se poser quatre questions fondamentales :
- Définir la tâche : Que devrait faire votre modèle d'IA ? (par exemple, déterminer des politiques pour les robots, détecter des menaces de cybersécurité, générer du texte de support client).
- Identifier les données : Quelles données sont nécessaires pour entraîner votre modèle ? (par exemple, trajectoires de robots, images de marchandises défectueuses, exemples de bon et mauvais support client).
- Établir un processus d'évaluation : Comment allez-vous évaluer votre modèle sur des benchmarks et avec les clients ? Bien que l'annotation manuelle ait du sens pour les petits ensembles de données critiques, Agentic Annotations offre une alternative valable pour obtenir des résultats prêts pour le marché beaucoup plus rapidement.
- Diagnostiquer les sous-performances : Quelle est la cause profonde lorsque votre modèle échoue ? Est-ce un problème de données ou un problème de modélisation ? Une plateforme d'introspection des données peut identifier les lacunes ou anomalies dans les données.
Bien que toutes ces questions soient essentielles, chez Interpret, nous aidons avec (3) et (4). Pour l'évaluation (3), les développeurs peuvent utiliser nos Agentic Annotations pour étiqueter rapidement les données et tester les modèles. Pour diagnostiquer les sous-performances (4), lorsqu'un modèle ne fonctionne pas comme prévu, notre plateforme d'introspection des données rend vos données interactives afin que vous puissiez comprendre ce qui cause le problème.
Prioriser la compréhension des données, l'évaluation des modèles et les itérations d'étiquetage rapides mettra votre équipe sur la voie la plus rapide vers un produit d'IA fonctionnel.
