1.1.1 AI->GB T 42755-2023数据集标注标准:GB T 42755-2023《人工智能 面向机器学习的数据标注规程》

1.1.1 AI->GB T 42755-2023数据集标注标准:GB T 42755-2023《人工智能 面向机器学习的数据标注规程》 GB/T 42755-2023《人工智能 面向机器学习的数据标注规程》是我国首个数据标注领域的国家标准于 2023 年 5 月 23 日发布2023 年 12 月 1 日正式实施。该标准为 AI 数据标注提供了全流程规范核心是保障标注质量、安全与一致性适用于文本、图像、音频、视频、点云等多类型数据标注标准核心框架三大阶段标准将数据标注划分为前期准备、任务执行、结果输出三大核心阶段覆盖从需求到交付的完整闭环前期准备阶段标注任务定义需形成书面标注任务说明明确标注目标、对象、类别、属性、方法、正反示例、验收规则数据需先预处理清洗、去重、脱敏、格式统一标注人员要求分级普通标注员、专业标注员、领域专家必须经培训 考核合格上岗定期复训标注环境要求安全双因素认证、操作录屏审计、数据存储与标注域逻辑隔离工具支持多模态数据、任务分配、进度跟踪、质量检查、版本控制、标准格式导出任务执行阶段过程控制分工明确数据需求方、标注管理方、标注方三方权责清晰流程可追溯全环节日志记录防止篡改流式质检抽检率≥20%高危 / 敏感样本100% 复核质量保证核心指标一致性多标注者 Kappa 系数≥0.85图像标注 IOU≥0.90准确性分类标注准确率≥95%关键点定位误差≤3 像素数据均衡少数类样本≥5%特征覆盖熵值≥0.7完整性必填标注项无遗漏元数据完整管理机制建立冲突解决、异常上报、进度监控、成本控制机制结果输出阶段内部质检二级 / 三级质检初检→复检→抽检不合格数据返工出具质量报告准确率、一致性、覆盖率、问题统计数据交付按约定格式JSON/XML/CSV 等交付附数据说明书来源、标注方法、质量评估、版本、版权说明后期维护版本管理记录修改历史支持回溯反馈优化根据模型应用效果迭代标注规则二、不同数据类型的专项要求文本标注分类标签体系清晰、互斥无歧义实体 / 情感边界准确、情感极性一致一致性≥90%图像标注分类单图多标签准确漏标率1%检测 / 分割边界框 IOU≥0.9实例分割 Mask IoU≥0.85关键点定位误差≤3 像素视频标注关键帧 / 逐帧标注目标 ID 追踪稳定切换率≤5%点云标注3D 框 IOU≥0.816 线激光雷达音频标注转写准确率≥98%说话人分离、时间戳精确安全与合规安全护城河敏感数据保护PII个人可识别信息自动脱敏召回率≥99%严禁未脱敏标注人脸、指纹等生物特征内容安全政治有害 / 色情 / 暴力 / 歧视内容拦截率 99.97%漏标率0.05%版权合规确保原始数据授权合法标注成果权属清晰标准意义与价值统一规范解决标注行业 “无标可依”、质量参差不齐问题质量提升量化指标确保数据集高一致、高准确、高均衡安全可控强化数据安全、隐私保护与内容合规产业协同便于供需双方对接、降低沟通成本、支撑 AI 产业健康发展