French Gigaword First Edition数据集介绍,官网编号LDC2006T17

French Gigaword First Edition数据集介绍,官网编号LDC2006T17 French Gigaword First EditionLDC2006T17是 LDC 于 2006 年发布的大规模法语单语新闻语料库为法语 NLP 提供十亿词级无标注基础数据核心用于语言模型预训练、机器翻译与文本理解任务是法语大规模无标注语料的早期标杆资源。以下从核心信息、内容构成、数据特性、应用价值与局限展开说明。一、核心基础信息信息类别详情数据集全称French Gigaword First Edition官网编号LDC2006T17发布机构美国语言数据联盟LDC发布时间2006 年语料规模约 7.7 亿词超 100 万个文档以新闻专线文本为主语料来源法新社AFP等权威新闻机构的法语新闻专线覆盖政治、经济、体育等多领域核心用途法语语言模型预训练、法英机器翻译、文本分类、信息检索等ISBN1-58563-389-5数据格式SGML遵循 Gigaword 系列统一 DTD 规范含标题、发布时间、来源、正文等字段