CSR-II (WSJ1) Complete数据集介绍，官网编号LDC94S13A-尧图企业网站定制

CSR-II (WSJ1) Complete 是 DARPA 资助发布的华尔街日报WSJ大词汇量连续语音识别CSR核心语料库编号 LDC94S13A以 WSJ0 为基础扩充含约 162 小时双声道语音、7.8 万训练 utterances是大词汇量 ASR 与语言建模的标准基准数据集。以下从核心信息、数据与标注、设计特点、应用与获取等方面展开。一、核心基础信息项目详情全称Wall Street Journal CSR-II (WSJ1) Complete Corpus归属体系WSJ 语音语料库系列是 WSJ0LDC93S6A/B的扩展版两者合称 WSJ CSR 语料库核心规模总语音约 162 小时双麦克风同步录制含 7.8 万训练 utterances约 73 小时、8.2 千开发测试 utterances约 8 小时、11 组 “Hub and Spoke” 测试集约 11 小时参与人员含记者与普通成人男女均衡覆盖多样音质与方言支持说话人无关SI训练获取方式LDC 授权获取LDC94S13A 完整版LDC94S13B 仅含森海塞尔麦克风数据二、数据内容与标注体系核心数据音频双声道森海塞尔近讲麦辅助麦高质量录音SPHERE 格式并经 Shorten 压缩约 2:1含朗读语音与记者自发听写语音。文本源自《华尔街日报》新闻文本含逐字转录与标准词表5K/20K/64K 等配套发音词典与句法标注适配大词汇量任务。训练范式分为 SI-84WSJ0 的 84 名说话人与 SI-284WSJ0WSJ1 新增 200 名说话人两种主流训练配置。关键标注文本与对齐标注 utterance 边界、说话人、标点含口语化 / 非口语化标点提供语音 - 文本强制对齐标注。词汇与发音含 3 万词表与发音词典支持 5K - 64K 大词汇量建模适配不同困惑度80-240设置。元数据含说话人年龄、性别、口音等信息便于变量控制与偏差分析。

相关新闻

2026 科研全攻略：如何利用 DeepSeek / ChatGPT 手把手完成高质量论文？AI 导出鸭助力规范输出

如何利用 DeepSeek/ChatGPT 撰写应用物理学论文 | 高效技巧与实战案例 搭配 AI 导出鸭提速论文整理

宝塔面板如何设置网站伪静态 宝塔|Nginx网站部署 伪静态配置|静态资源访问配置

告别瞎猜！用WinDbg和.pdb符号文件深挖C++程序崩溃的“案发现场”

告别DCOM噩梦！手把手教你用KepOPC DA2UA中间件搞定OPC DA到UA的转换（附Python读写测试代码）

Vitis IDE自定义IP编译踩坑记：手把手教你修复Makefile的‘arm-xilinx-eabi-gcc.exe: error: *.c: Invalid argument’报错

从棋盘格到人脸：用OpenCV Sobel算子玩转不同场景的边缘检测（实战对比分析）

ML模型生产化落地：可观测性、弹性容错与渐进式发布

从硅片到芯片：手把手图解PN结的诞生与它在二极管里的作用

NomNom终极指南：深度解析《无人深空》最完整存档编辑器的技术实现与实践应用

终极宝可梦3DS ROM编辑器：重新定义你的宝可梦冒险体验

基于YOLOv5的智能象棋AI连线工具：让普通玩家也能拥有大师级棋力

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定

如何利用 DeepSeek/ChatGPT 撰写应用物理学论文 | 高效技巧与实战案例搭配 AI 导出鸭提速论文整理

宝塔面板如何设置网站伪静态宝塔|Nginx网站部署伪静态配置|静态资源访问配置