Le annotazioni non scalano. Gestire un motore di dati per le annotazioni è costoso, richiede tempo ed è problematico. Ne abbiamo parlato nel nostro precedente post qui. La conclusione? Rendere i dataset interpretabili è essenziale per prevenire guasti critici dei modelli ed evitare la generazione di contenuti dannosi.
Allora perché le annotazioni sono così critiche per la maggior parte delle aziende AI?
Quando Qualcosa è meglio di Niente
Per tutti i fan di Harry Potter là fuori, costruire un sistema AI può sembrare come la lezione di Pozioni. A volte, il giusto mix di dati, algoritmi di addestramento e scala crea un modello incredibile. Ma capire la ricetta esatta - quali dati usare, quale modello provare, quali algoritmi di addestramento impiegare e quali iperparametri regolare - è incredibilmente difficile.
Per la maggior parte delle aziende che implementano un nuovo sistema AI, l'approccio più diretto è raccogliere etichette per il compito da svolgere.
- Addestrare un nuovo robot? Raccogliere ed etichettare traiettorie (bounding box, segmentazione, ecc.).
- Allineare un LLM con standard sanitari o legali? Raccogliere più output del modello e far classificare agli umani le loro preferenze per addestrare un modello di ricompensa per RLHF o per fare il fine-tuning di un LLM direttamente con DPO.
- Trovare persone nei video? Raccogliere bounding box.
- Classificare parti difettose? Etichettare le immagini come difettose o meno.
Questo approccio funziona bene all'inizio perché qualcosa è sempre meglio di niente. Dalle startup senza dati alle aziende con exabyte di dati, la maggior parte dei team inizia raccogliendo etichette perché ottenere un prototipo funzionante è la priorità assoluta. Questo approccio manuale continua finché non smette di funzionare. Di solito è solo quando i guadagni derivanti dall'aggiunta di più etichette diminuiscono che le aziende esplorano altri metodi come il pre-training, modelli più grandi o l'introspezione dei dataset. L'introspezione dei dati è ancora necessaria, ma tipicamente arriva dopo che un modello di base è già funzionale.
Muoversi velocemente, annotare ancora più velocemente
Le aziende decidono saggiamente di rilasciare un MVP grezzo e iterare. A questo proposito, diciamo che il vostro flusso di lavoro di etichettatura dovrebbe muoversi velocemente quanto il vostro sviluppo AI.
Ecco perché in Interpret AI stiamo costruendo Agentic Annotations.È semplice:
- Fornire un singolo prompt che descrive come volete che i vostri dati vengano etichettati.
- Iterare su alcuni esempi diversificati selezionati dal nostro modello fondazionale.
- Quando siete pronti, pre-annotare automaticamente il resto del vostro enorme dataset—niente piùcollo di bottiglia umano.
I servizi di annotazione tradizionali come Scale AI, Surge e Labelbox condividono tutti lo stesso problema fondamentale: un umano deve rivedere ed etichettare ogni singolo campione di dati. Questo è il collo di bottiglia che altri cercano di risolvere buttando più persone sul problema. Noi crediamo che dopo aver etichettato alcuni esempi, il resto dovrebbe essere automatizzato. Le aziende che cercano di passare da 0 a 1 hanno solo bisogno di etichette sufficientemente buone per avviare il volano.
Qual è il problema?
Va da sé che annotazioni manuali di alta qualità sono generalmente migliori delle pre-annotazioni automatizzate. Tuttavia, l'annotazione manuale può richiedere mesi, mentre le pre-annotazioni possono essere completate in giorni o addirittura ore. I team ML spesso cercano di evitare costose etichette manuali utilizzando judge-LLM, modelli fondazionali come SAM o altre tecniche per ottenere risultati "sufficientemente buoni". La nostra convinzione, tuttavia, è che i team che costruiscono nuovi prodotti traggono maggior beneficio dal concentrarsi sullo sviluppo del loro modello, non sulla costruzione di piattaforme di annotazione interne.
Quattro passi verso un prodotto AI funzionante
Le aziende che vogliono che i loro sistemi AI risolvano reali esigenze dei clienti dovrebbero porsi quattro domande fondamentali:
- Definire il compito: Cosa dovrebbe fare il vostro modello AI? (ad es., determinare politiche per i robot, rilevare minacce di cybersecurity, generare testo per l'assistenza clienti).
- Identificare i dati: Quali dati sono necessari per addestrare il vostro modello? (ad es., traiettorie dei robot, immagini di merce difettosa, esempi di assistenza clienti buona e cattiva).
- Stabilire un processo di valutazione: Come valuterete il vostro modello su benchmark e con i clienti? Mentre l'annotazione manuale ha senso per dataset piccoli e critici, Agentic Annotations offre un'alternativa valida per raggiungere risultati pronti per il mercato molto più velocemente.
- Diagnosticare le prestazioni insufficienti: Qual è la causa principale quando il vostro modello fallisce? È un problema di dati o un problema di modellazione? Una piattaforma di introspezione dei dati può identificare lacune o anomalie nei dati.
Sebbene tutte queste domande siano essenziali, in Interpret aiutiamo con (3) e (4). Per lavalutazione (3), gli sviluppatoripossono utilizzare le nostre Agentic Annotations per etichettare rapidamente i dati e testare i modelli. Per diagnosticare le prestazioni insufficienti (4), quando unmodello non funziona come previsto, la nostra piattaforma di introspezione dei dati rende i vostri dati interattivi in modo da poter capire cosa sta causando il problema.
Dare priorità alla comprensione dei dati, alla valutazione del modello e alle rapide iterazioni di etichettatura metterà il vostro team sul percorso più veloce verso un prodotto AI funzionante.
