TDT5 Topics and Annotations数据集介绍,官网编号LDC2006T19

TDT5 Topics and Annotations数据集介绍,官网编号LDC2006T19 TDT5 Topics and AnnotationsLDC2006T19是 LDC 于 2006 年发布的TDT5 任务配套标注数据集与 TDT5 Multilingual TextLDC2006T18搭配使用为 2004 年 NIST TDT 评测提供话题定义、标准标注与评测基准核心用于话题检测、跟踪、关联等任务的算法评估与模型训练是 TDT 领域关键的标注资源。以下从核心信息、内容构成、标注体系、应用价值与局限展开说明。基础信息信息类别详情数据集全称TDT5 Topics and Annotations官网编号LDC2006T19发布机构美国语言数据联盟LDC发布时间2006 年配套数据集TDT5 Multilingual TextLDC2006T18语种覆盖英文、阿拉伯文、中文标注规模含 407,503 条新闻报道的话题标注含 1,000 个话题定义与事件关联标注核心用途TDT 算法评测、话题标注数据训练、跨语言话题关联研究ISBN1-58563-418-2数据格式XML含话题元数据、标注结果与评测脚本配套标注规范文档