CSR-II (WSJ1) Complete 是 DARPA 资助发布的华尔街日报WSJ大词汇量连续语音识别CSR核心语料库编号 LDC94S13A以 WSJ0 为基础扩充含约 162 小时双声道语音、7.8 万训练 utterances是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。一、核心基础信息项目详情全称Wall Street Journal CSR-II (WSJ1) Complete Corpus归属体系WSJ 语音语料库系列是 WSJ0LDC93S6A/B的扩展版两者合称 WSJ CSR 语料库核心规模总语音约 162 小时双麦克风同步录制含 7.8 万训练 utterances约 73 小时、8.2 千开发测试 utterances约 8 小时、11 组 “Hub and Spoke” 测试集约 11 小时参与人员含记者与普通成人男女均衡覆盖多样音质与方言支持说话人无关SI训练获取方式LDC 授权获取LDC94S13A 完整版LDC94S13B 仅含森海塞尔麦克风数据二、数据内容与标注体系核心数据音频双声道森海塞尔近讲麦 辅助麦高质量录音SPHERE 格式并经 Shorten 压缩约 2:1含朗读语音与记者自发听写语音。文本源自《华尔街日报》新闻文本含逐字转录与标准词表5K/20K/64K 等配套发音词典与句法标注适配大词汇量任务。训练范式分为 SI-84WSJ0 的 84 名说话人与 SI-284WSJ0WSJ1 新增 200 名说话人两种主流训练配置。关键标注文本与对齐标注 utterance 边界、说话人、标点含口语化 / 非口语化标点提供语音 - 文本强制对齐标注。词汇与发音含 3 万 词表与发音词典支持 5K - 64K 大词汇量建模适配不同困惑度80-240设置。元数据含说话人年龄、性别、口音等信息便于变量控制与偏差分析。
CSR-II (WSJ1) Complete数据集介绍,官网编号LDC94S13A
CSR-II (WSJ1) Complete 是 DARPA 资助发布的华尔街日报WSJ大词汇量连续语音识别CSR核心语料库编号 LDC94S13A以 WSJ0 为基础扩充含约 162 小时双声道语音、7.8 万训练 utterances是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。一、核心基础信息项目详情全称Wall Street Journal CSR-II (WSJ1) Complete Corpus归属体系WSJ 语音语料库系列是 WSJ0LDC93S6A/B的扩展版两者合称 WSJ CSR 语料库核心规模总语音约 162 小时双麦克风同步录制含 7.8 万训练 utterances约 73 小时、8.2 千开发测试 utterances约 8 小时、11 组 “Hub and Spoke” 测试集约 11 小时参与人员含记者与普通成人男女均衡覆盖多样音质与方言支持说话人无关SI训练获取方式LDC 授权获取LDC94S13A 完整版LDC94S13B 仅含森海塞尔麦克风数据二、数据内容与标注体系核心数据音频双声道森海塞尔近讲麦 辅助麦高质量录音SPHERE 格式并经 Shorten 压缩约 2:1含朗读语音与记者自发听写语音。文本源自《华尔街日报》新闻文本含逐字转录与标准词表5K/20K/64K 等配套发音词典与句法标注适配大词汇量任务。训练范式分为 SI-84WSJ0 的 84 名说话人与 SI-284WSJ0WSJ1 新增 200 名说话人两种主流训练配置。关键标注文本与对齐标注 utterance 边界、说话人、标点含口语化 / 非口语化标点提供语音 - 文本强制对齐标注。词汇与发音含 3 万 词表与发音词典支持 5K - 64K 大词汇量建模适配不同困惑度80-240设置。元数据含说话人年龄、性别、口音等信息便于变量控制与偏差分析。