TL;DR
- 주석은 확장되지 않습니다. 주석 데이터 엔진을 관리하는 것은 비용이 많이 들고, 시간이 오래 걸리며, 문제가 많습니다.
- 우리는 이전 게시물 여기에서 이에 대해 이야기했습니다. 핵심은? 데이터셋을 해석 가능하게 만드는 것이 중요한 모델 실패를 방지하고 유해한 콘텐츠 생성을 피하는 데 필수적입니다.
그렇다면 왜 주석이 대부분의 AI 기업에 그토록 중요한 걸까요?
무언가가 아무것도 없는 것보다 나을 때
해리 포터 팬이라면, AI 시스템을 구축하는 것이 마법의 물약 수업처럼 느껴질 수 있습니다. 때로는 데이터, 훈련 알고리즘, 규모의 적절한 조합이 놀라운 모델을 만들어냅니다. 하지만 정확한 레시피를 찾아내는 것 - 어떤 데이터를 사용할지, 어떤 모델을 시도할지, 어떤 훈련 알고리즘을 사용할지, 어떤 하이퍼파라미터를 조정할지 - 은 매우 어렵습니다.
새로운 AI 시스템을 배포하는 대부분의 기업에게 가장 직관적인 접근 방식은 당면한 작업에 대한 레이블을 수집하는 것입니다.
- 새로운 로봇을 훈련하시나요? 궤적을 수집하고 레이블을 지정하세요(바운딩 박스, 세그멘테이션 등).
- LLM을 의료 또는 법률 표준에 맞추시나요? 여러 모델 출력을 수집하고 사람이 선호도에 따라 순위를 매기게 하여 RLHF를 위한 보상 모델을 훈련하거나 DPO로 LLM을 직접 미세 조정하세요.
- 비디오에서 사람을 찾으시나요? 바운딩 박스를 수집하세요.
- 결함 부품을 분류하시나요? 이미지에 결함 여부를 레이블링하세요.
이 접근 방식은 초기에 잘 작동합니다. 왜냐하면 무언가가 항상 아무것도 없는 것보다 낫기 때문입니다. 데이터가 없는 스타트업부터 엑사바이트의 데이터를 보유한 대기업까지, 대부분의 팀은 작동하는 프로토타입을 만드는 것이 최우선 과제이기 때문에 레이블을 수집하는 것으로 시작합니다. 이러한 수동 접근 방식은 작동하지 않을 때까지 계속됩니다. 일반적으로 더 많은 레이블을 추가해도 얻는 이득이 줄어들 때에야 기업들은 사전 훈련, 더 큰 모델 또는 데이터셋 인트로스펙션과 같은 다른 방법을 탐색합니다. 데이터 인트로스펙션은 여전히 필요하지만, 일반적으로 기본 모델이 이미 작동한 후에 이루어집니다.
빠르게 움직이고, 더 빠르게 주석을 달기
기업들은 현명하게도 대략적인 MVP를 출시하고 반복하기로 결정합니다. 이에 대해 우리는 레이블링 워크플로우가 AI 개발만큼 빠르게 움직여야 한다고 말합니다.
그래서 Interpret AI에서는 Agentic Annotations를 구축하고 있습니다. 간단합니다:
- 데이터에 레이블을 지정하는 방법을 설명하는 단일 프롬프트를 제공하세요.
- 우리의 파운데이션 모델이 선택한 몇 가지 다양한 예제를 반복하세요.
- 준비가 되면 나머지 대규모 데이터셋을 자동으로 사전 주석 처리하세요—더 이상 사람의 병목 현상이 없습니다.
Scale AI, Surge, Labelbox와 같은 기존 주석 서비스는 모두 동일한 근본적인 문제를 공유합니다: 사람이 모든 단일 데이터 샘플을 검토하고 레이블을 지정해야 합니다. 이것이 다른 업체들이 더 많은 사람을 투입하여 해결하려는 병목 현상입니다. 우리는 몇 가지 예제에 레이블이 지정된 후에는 나머지가 자동화되어야 한다고 믿습니다. 0에서 1로 가려는 기업들은 플라이휠을 시작하기 위해 충분히 좋은 레이블만 필요합니다.
함정은 무엇인가요?
고품질 수동 주석이 일반적으로 자동화된 사전 주석보다 낫다는 것은 말할 필요도 없습니다. 그러나 수동 주석은 몇 달이 걸릴 수 있는 반면, 사전 주석은 며칠 또는 몇 시간 만에 완료될 수 있습니다. ML 팀은 종종 judge-LLM, SAM과 같은 파운데이션 모델 또는 기타 기술을 사용하여 "충분히 좋은" 결과를 얻음으로써 비용이 많이 드는 수동 레이블을 피하려고 합니다. 그러나 우리의 믿음은 새로운 제품을 구축하는 팀이 내부 주석 플랫폼을 구축하는 것이 아니라 모델 개발에 집중할 때 가장 큰 이익을 얻는다는 것입니다.
작동하는 AI 제품을 위한 네 가지 단계
AI 시스템이 실제 고객 요구를 해결하기를 원하는 기업은 네 가지 근본적인 질문을 해야 합니다:
- 작업 정의: AI 모델이 무엇을 해야 하나요? (예: 로봇을 위한 정책 결정, 사이버 보안 위협 탐지, 고객 지원 텍스트 생성).
- 데이터 식별: 모델을 훈련하는 데 어떤 데이터가 필요한가요? (예: 로봇 궤적, 결함 상품 이미지, 좋은 고객 지원과 나쁜 고객 지원의 예).
- 평가 프로세스 수립: 벤치마크와 고객을 대상으로 모델을 어떻게 평가할 것인가요? 수동 주석은 작고 중요한 데이터셋에는 적합하지만, Agentic Annotations는 시장 출시 가능한 결과를 훨씬 빠르게 달성하기 위한 유효한 대안을 제공합니다.
- 성능 저하 진단: 모델이 실패할 때 근본 원인은 무엇인가요? 데이터 문제인가요, 모델링 문제인가요? 데이터 인트로스펙션 플랫폼은 데이터 격차나 이상 현상을 식별할 수 있습니다.
이 모든 질문이 필수적이지만, Interpret에서는 (3)과 (4)를 도와드립니다. 평가(3)의 경우, 개발자는 우리의 Agentic Annotations를 사용하여 신속하게 데이터에 레이블을 지정하고 모델을 테스트할 수 있습니다. 성능 저하 진단(4)의 경우, 모델이 예상대로 작동하지 않을 때 우리의 데이터 인트로스펙션 플랫폼은 데이터를 인터랙티브하게 만들어 문제의 원인을 이해할 수 있게 합니다.
데이터 이해, 모델 평가, 신속한 레이블링 반복을 우선시하면 팀이 작동하는 AI 제품으로 가는 가장 빠른 길에 오를 수 있습니다.
