TL;DR
- 标注无法规模化。管理标注数据引擎成本高昂、耗时且问题重重。
- 我们在之前的文章这里讨论过这个问题。结论是什么?让数据集具有可解释性对于防止关键模型故障和避免有害内容生成至关重要。
那么为什么标注对大多数AI公司如此关键呢?
当"有"胜过"无"时
对于《哈利·波特》的粉丝来说,构建AI系统可能感觉就像魔药课一样。有时候,数据、训练算法和规模的正确组合能创造出令人惊叹的模型。但要找出确切的配方——使用什么数据、尝试哪个模型、采用什么训练算法以及调整哪些超参数——是极其困难的。
对于大多数部署新AI系统的公司来说,最直接的方法是为手头的任务收集标签。
- 训练新机器人?收集并标注轨迹(边界框、分割等)。
- 使LLM符合医疗或法律标准?收集多个模型输出,让人类按偏好对它们进行排序,以训练用于RLHF的奖励模型或直接使用DPO微调LLM。
- 在视频中查找人物?收集边界框。
- 分类缺陷零件?将图像标注为有缺陷或无缺陷。
这种方法在开始时效果很好,因为有总比没有好。从没有数据的初创公司到拥有EB级数据的企业,大多数团队都从收集标签开始,因为获得可用的原型是首要任务。这种手动方法会持续使用,直到它不再有效。通常只有当添加更多标签带来的收益递减时,公司才会探索其他方法,如预训练、更大的模型或数据集内省。数据内省仍然是必要的,但它通常在基线模型已经可用之后才进行。
快速行动,更快标注
公司明智地决定发布一个粗糙的MVP并进行迭代。对此,我们认为您的标注工作流程应该与您的AI开发一样快。
这就是为什么在Interpret AI,我们正在构建智能体标注(Agentic Annotations)。它很简单:
- 提供一个描述您希望如何标注数据的提示。
- 在我们的基础模型选择的几个多样化示例上进行迭代。
- 准备好后,自动预标注您的大规模数据集的其余部分——不再有人工瓶颈。
像Scale AI、Surge和Labelbox这样的传统标注服务都存在同样的根本问题:人类必须审查和标注每一个数据样本。这是其他公司试图通过投入更多人力来解决的瓶颈。我们相信,在标注了几个示例之后,其余的应该自动化。试图从0到1的公司只需要足够好的标签来启动飞轮。
有什么问题吗?
不言而喻,高质量的手动标注通常优于自动化预标注。然而,手动标注可能需要数月时间,而预标注可以在几天甚至几小时内完成。ML团队经常试图通过使用评判LLM、像SAM这样的基础模型或其他技术来避免昂贵的手动标签,以获得"足够好"的结果。然而,我们的信念是,构建新产品的团队最受益于专注于他们的模型开发,而不是构建内部标注平台。
构建可用AI产品的四个步骤
希望其AI系统解决真实客户需求的公司应该问四个基本问题:
- 定义任务:您的AI模型应该做什么?(例如,为机器人确定策略、检测网络安全威胁、生成客户支持文本)。
- 识别数据:训练模型需要什么数据?(例如,机器人轨迹、缺陷商品图像、良好和不良客户支持的示例)。
- 建立评估流程:您将如何在基准测试和客户中评估您的模型?虽然手动标注对于小型关键数据集有意义,但智能体标注为更快实现市场就绪结果提供了有效的替代方案。
- 诊断性能不佳:当您的模型失败时,根本原因是什么?是数据问题还是建模问题?数据内省平台可以识别数据缺口或异常。
虽然所有这些问题都很重要,但在Interpret,我们帮助解决(3)和(4)。对于评估(3),开发人员可以使用我们的智能体标注快速标注数据和测试模型。对于诊断性能不佳(4),当模型未按预期工作时,我们的数据内省平台使您的数据具有交互性,以便您可以了解导致问题的原因。
优先考虑数据理解、模型评估和快速标注迭代,将使您的团队走上构建可用AI产品的最快路径。
