Czech Broadcast Conversation Speech数据集介绍,官网编号LDC2009S02

Czech Broadcast Conversation Speech数据集介绍,官网编号LDC2009S02 LDC2009S02 是 LDC 于 2009 年 7 月发布的捷克语广播对话语音数据集由 Jáchym Kolár 与 Jan Svec 主导构建配套文本标注集为 LDC2009T20核心用于捷克语口语识别、会话分析与结构元数据提取研究是捷克语广播类语音资源的重要补充。以下从核心信息、数据规格、结构标注、应用场景等方面展开说明一、核心定位与数据规模该数据集聚焦捷克广播电台 “Radioforum” 直播访谈节目采集自然口语对话语音填补捷克语广播会话类语音语料的空白适配语音识别、口语流畅度分析、句法结构研究等需求。二、音频数据采集细节数据来自捷克广播电台 1 台的 Radioforum 节目该节目为工作日晚间播出的直播访谈节目嘉宾多为政界人士、记者、经济学家等每期通常有 1-2 位采访者和 1-3 位受访者以交互式对话为主也包含较长的独白片段。技术参数单声道原始采样率 44.1kHz、16 位精度发布时降采样至 22.05kHz、16 位音频格式为 SPHERE 头的 WAV 文件。采集时间2003 年 2 月 12 日 - 2003 年 6 月 6 日。文件命名遵循 “rfYYMMDD.wav” 格式“rf” 代表 Radioforum后六位数字表示广播日期。三、配套标注数据LDC2009T20标注内容除逐字逐句的文本转录外还包含丰富的结构元数据MDE标注如句子级单元边界划分、填充词如 “锓mm” 等标注、话语标记识别、言语不流畅现象如口误、重复标注等。标注格式文本及标注以三种格式存储TRSTranscriber仅含标准转录文本QAnQuick Annotator和 RTTM 格式还包含结构元数据所有文件编码为 ISO - 8859-2。标注规范基于 LDC 的英语 MDE 标注标准针对捷克语特点进行了适配修改确保标注的准确性和适用性。