Arabic Newswire English Translation Collection数据集介绍,官网编号LDC2009T22

Arabic Newswire English Translation Collection数据集介绍,官网编号LDC2009T22 LDC2009T22 Arabic Newswire English Translation Collection 是语言数据联盟LDC发布的阿拉伯语 - 英语新闻专线平行语料库核心用于机器翻译、跨语言对齐与 NLP 模型训练含约 100 万词级平行文本标注与对齐规范完善。以下是结构化介绍基础信息项目详情官网编号LDC2009T22发布机构美国宾夕法尼亚大学语言数据联盟LDC发布时间2009 年语言方向阿拉伯语源→英语目标数据规模约 100 万词阿拉伯语原文与对应英语译文含数千条新闻文本对数据来源阿拉伯语新闻专线如法新社、路透社等机构的阿拉伯语新闻稿标注类型句级对齐、词级对齐、词性标注部分版本含句法树标注内容与结构文本构成阿拉伯语原文现代标准阿拉伯语MSA含政治、经济、文化、体育等新闻主题保留原始阿拉伯语书写系统含变音符号。英语译文人工专业翻译符合新闻文体规范与原文语义一致。数据格式原始文本UTF-8 编码XML / 纯文本格式存储含文档元数据如发布时间、来源、主题标签。对齐文件句对齐与词对齐数据采用 LDC 标准对齐格式支持跨语言 NLP 任务。标注规范句对齐以完整语义句为单位确保翻译对应性。词对齐遵循 LDC 阿拉伯语 - 英语对齐指南处理一词多译、多词一译等现象。词性标注可选部分子语料含 Penn Treebank 风格词性标签适配句法分析任务。