Czech Broadcast Conversation Speech数据集介绍，官网编号LDC2009S02-尧图企业网站定制

LDC2009S02 是 LDC 于 2009 年 7 月发布的捷克语广播对话语音数据集由 Jáchym Kolár 与 Jan Svec 主导构建配套文本标注集为 LDC2009T20核心用于捷克语口语识别、会话分析与结构元数据提取研究是捷克语广播类语音资源的重要补充。以下从核心信息、数据规格、结构标注、应用场景等方面展开说明一、核心定位与数据规模该数据集聚焦捷克广播电台 “Radioforum” 直播访谈节目采集自然口语对话语音填补捷克语广播会话类语音语料的空白适配语音识别、口语流畅度分析、句法结构研究等需求。二、音频数据采集细节数据来自捷克广播电台 1 台的 Radioforum 节目该节目为工作日晚间播出的直播访谈节目嘉宾多为政界人士、记者、经济学家等每期通常有 1-2 位采访者和 1-3 位受访者以交互式对话为主也包含较长的独白片段。技术参数单声道原始采样率 44.1kHz、16 位精度发布时降采样至 22.05kHz、16 位音频格式为 SPHERE 头的 WAV 文件。采集时间2003 年 2 月 12 日 - 2003 年 6 月 6 日。文件命名遵循 “rfYYMMDD.wav” 格式“rf” 代表 Radioforum后六位数字表示广播日期。三、配套标注数据LDC2009T20标注内容除逐字逐句的文本转录外还包含丰富的结构元数据MDE标注如句子级单元边界划分、填充词如 “é”“mm” 等标注、话语标记识别、言语不流畅现象如口误、重复标注等。标注格式文本及标注以三种格式存储TRSTranscriber仅含标准转录文本QAnQuick Annotator和 RTTM 格式还包含结构元数据所有文件编码为 ISO - 8859-2。标注规范基于 LDC 的英语 MDE 标注标准针对捷克语特点进行了适配修改确保标注的准确性和适用性。

相关新闻

Unified Linguistic Annotation Text Collection数据集介绍，官网编号LDC2009T07

技巧科普｜AI 导出鸭辅助使用豆包公式复制方法

三步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南

别再死记硬背公式了！用Python+HFSS仿真带你直观理解缝隙天线辐射原理

从机载雷达到5G基站：缝隙天线阵列的设计权衡与实战选型指南

RT-Thread BSP架构师视角：我是如何为GD32系列设计一套“整洁”的通用BSP框架的

22亿次安装埋下的雷：Hugging Face Transformers库惊现高危RCE漏洞，AI供应链安全再遭拷问

从V5到V6：Rapid SCADA 6.0 升级迁移实战，手把手教你平滑过渡（含避坑点）

Nature和Science到底怎么选？从投稿策略到期刊风格，给科研新手的5点实操建议

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定