TL;DR
- Le annotazioni non scalano. Gestire un motore di dati per le annotazioni è costoso, richiede tempo ed è problematico.
- Ne abbiamo parlato nel nostro precedente post qui. La conclusione? Rendere i dataset interpretabili è essenziale per prevenire guasti critici del modello ed evitare la generazione di contenuti dannosi.
Allora perché le annotazioni sono così critiche per la maggior parte delle aziende AI?
Quando Qualcosa è meglio di Niente
Per tutti gli appassionati di Harry Potter, costruire un sistema di AI può sembrare come la lezione di Pozioni. A volte, il giusto mix di dati, algoritmi di addestramento e scala crea un modello incredibile. Ma capire la ricetta esatta - quali dati usare, quale modello provare, quali algoritmi di addestramento impiegare e quali iperparametri ottimizzare - è incredibilmente difficile.
Per la maggior parte delle aziende che implementano un nuovo sistema di AI, l'approccio più diretto è raccogliere etichette per il compito da svolgere.
- Addestrare un nuovo robot? Raccogliere ed etichettare traiettorie (bounding box, segmentazione, ecc.).
- Allineare un LLM con standard sanitari o legali? Raccogliere più output del modello e far classificare agli esseri umani in base alla preferenza per addestrare un modello di ricompensa per RLHF o per fare il fine-tuning di un LLM direttamente con DPO.
- Trovare persone nei video? Raccogliere bounding box.
- Classificare parti difettose? Etichettare le immagini come difettose o meno.
Questo approccio funziona bene all'inizio perché qualcosa è sempre meglio di niente. Dalle startup senza dati alle imprese con exabyte di dati, la maggior parte dei team inizia raccogliendo etichette perché ottenere un prototipo funzionante è la priorità assoluta. Questo approccio manuale continua finché non smette di funzionare. Di solito è solo quando i guadagni derivanti dall'aggiunta di più etichette diminuiscono che le aziende esplorano altri metodi come il pre-training, modelli più grandi o l'introspezione dei dataset. L'introspezione dei dati è ancora necessaria, ma tipicamente arriva dopo che un modello di base è già funzionante.
Muoviti velocemente, annota ancora più velocemente
Le aziende decidono saggiamente di rilasciare un MVP approssimativo e iterare. A questo proposito, diciamo che il vostro flusso di lavoro di etichettatura dovrebbe muoversi velocemente quanto il vostro sviluppo AI.
Ecco perché in Interpret AI stiamo costruendo Agentic Annotations. È semplice:
- Fornire un singolo prompt che descrive come vuoi che i tuoi dati vengano etichettati.
- Iterare su alcuni esempi diversificati selezionati dal nostro modello fondazionale.
- Quando sei pronto, pre-annota automaticamente il resto del tuo enorme dataset—niente più collo di bottiglia umano.
I servizi di annotazione tradizionali come Scale AI, Surge e Labelbox condividono tutti lo stesso problema fondamentale: un essere umano deve rivedere ed etichettare ogni singolo campione di dati. Questo è il collo di bottiglia che altri cercano di risolvere buttando più persone sul problema. Noi crediamo che dopo aver etichettato alcuni esempi, il resto dovrebbe essere automatizzato. Le aziende che cercano di passare da 0 a 1 hanno solo bisogno di etichette sufficientemente buone per avviare il volano.
Qual è il trucco?
Va da sé che annotazioni manuali di alta qualità sono generalmente migliori delle pre-annotazioni automatizzate. Tuttavia, l'annotazione manuale può richiedere mesi, mentre le pre-annotazioni possono essere completate in giorni o addirittura ore. I team ML spesso cercano di evitare costose etichette manuali utilizzando judge-LLM, modelli fondazionali come SAM o altre tecniche per ottenere risultati "sufficientemente buoni". La nostra convinzione, tuttavia, è che i team che costruiscono nuovi prodotti traggono maggior beneficio dal concentrarsi sullo sviluppo del loro modello, non sulla costruzione di piattaforme di annotazione interne.
Quattro passi verso un prodotto AI funzionante
Le aziende che vogliono che i loro sistemi AI risolvano reali esigenze dei clienti dovrebbero porsi quattro domande fondamentali:
- Definire il compito: Cosa dovrebbe fare il tuo modello AI? (ad es., determinare politiche per i robot, rilevare minacce alla cybersecurity, generare testo di supporto clienti).
- Identificare i dati: Quali dati sono necessari per addestrare il tuo modello? (ad es., traiettorie di robot, immagini di merce difettosa, esempi di supporto clienti buono e cattivo).
- Stabilire un processo di valutazione: Come valuterai il tuo modello su benchmark e con i clienti? Mentre l'annotazione manuale ha senso per dataset piccoli e critici, Agentic Annotations offre un'alternativa valida per ottenere risultati pronti per il mercato molto più velocemente.
- Diagnosticare le prestazioni insufficienti: Qual è la causa principale quando il tuo modello fallisce? È un problema di dati o un problema di modellazione? Una piattaforma di introspezione dei dati può identificare lacune o anomalie nei dati.
Sebbene tutte queste domande siano essenziali, in Interpret aiutiamo con (3) e (4). Per la valutazione (3), gli sviluppatori possono utilizzare le nostre Agentic Annotations per etichettare rapidamente i dati e testare i modelli. Per diagnosticare le prestazioni insufficienti (4), quando un modello non funziona come previsto, la nostra piattaforma di introspezione dei dati rende i tuoi dati interattivi in modo da poter capire cosa sta causando il problema.
Dare priorità alla comprensione dei dati, alla valutazione del modello e alle rapide iterazioni di etichettatura metterà il tuo team sul percorso più veloce verso un prodotto AI funzionante.
