此数据库为汉语普通话语音库,共包括7.6万字,整理为8个文本,均为中文单句。录制产生的声音文件为44.1k采样频率、16bit量化精度的WINDOWS PCM WAV文件。共两个通道,一个通道为语音波形信号,另一个通道为声门波信号(语音基频信号)。语音库主要用于汉语普通话语音合成的测试和训练。

u 将声音文件整理成与发音文本相匹配的单句声音文件;

u 单句声音文件的头、尾保留一定的静音段;

l 音节在句子中的起始、中止位置(精确到1/1000秒):‘a’表示一个音节的开始,‘s’为静音段。生成的文本格式为*.sfs1。

l 标记点记录为时间点+空格+标记符号。

l #4<1>一个完整语意的句子,切除前后可以独立成为一个句子,从听感上调形是 完全降下来的。有明显的停顿。

<2>如果是以二声词结尾的短句,这个二声的词被拖长音,且与后面是转折的关系的,有明显的停顿。也给#4。

l #3通常标在一个韵律短语后面,有时会是一个词,从听感上调形是降下来的,但不够完全,不能独立成为一个语意完整的句子。

l #2<1>表示被‘重读’的词或单个字(为了强调后面),有停顿,调形上有小的变化 有‘骤停’的感觉。

<2>并列关系的词如果被强调重读,给#2;如果是很平滑的,给#1。

l 标注后的结果,如图所示。

图、言语合成语音库的原始波形以及标注信息。