声码器

声码器（英语：Vocoder，发音： /ˈvoʊkoʊdər/），源自人声编码器（英语：voice encoder）的缩写，又称语音信号分析合成系统，对声音进行分析与合成的系统，主要应用于合成人类语音。此编码器主要的概念是将声音编码之后再进行传输，允许更多的语音频道共享同一个的无线电电路或海底电缆。声码器可以用硬件或软件的方式来实现，目前被广泛应用于电子乐器上。

理论

人讲话时，人声是由喉头的声带开关声门所产生，其中包括了许多周期性的波形与许多谐波，这些周期波可视为基本的声源信号。这些声源信号接着经由鼻子和喉咙（可视为复杂的共振系统），借由改变嘴型来改变此系统，而产生不同的谐波含量，创造了各式各样的语音；另外浊音与塞音则是气流经由不同嘴型产生。声码器发信端的分析器对话音信号进行分析，将该信号被分裂成多个频带（这个数字越大，会得到更准确的分析）。输入信号通过一个多频带滤波器，并将每个频带分别通过一个包络检测器，将包络检测器得到的控制信号输出给解码器。由于控制信号与原来的语音波形相比变化速度缓慢许多，因此声码器大幅降低了语音传输所需的频带。若将控制信号进行加密，则可以保证语音传输安全性，以防拦截。比起原始的语音资料，大约可将传输资料压缩到原先的十几分之一。语音信号的重建则将步骤反转；接收端接到每个频带的包络线参数以后，分别得到每个频带的包络线，可视为多个随时变的滤波器。接着由一个新的“丰富频率成分”的声源信号（可视为噪音频号），通过每个频带的滤波器得到每个频带的包络线信号，最后将这些信号得加，得到还原语音频号。值得注意的是，通过以上的编码方法，丢弃了许多原本信号的资讯，主要丢弃了资讯频谱的瞬时频率，也就是频谱的相位。这样的资讯流失虽然保留了语音的可识别度，但相位的丢失意味着音高的丢失，如中文的“平、上、去、入”等五声的资讯将丢失，而听起来的声音会像机器人讲话一般，没有“抑扬顿挫”。这种“机器人式”的特殊音色，在流行音乐和音效娱乐受到欢迎，在电子音乐中广泛的被应用。

历史

声码器最早出现在美国贝尔实验室。贝尔实验室工程师荷马·达德利在1928年提出合成话音的设想^[1]，并于1939年在纽约世界博览会上首次表演了他取名为声码器的话音合成器^[2]。此后，话音合成的原理被用来研究压缩话音频带，在售价、结构、耗电等诸方面符合商用的声码器已经出现。

声码器的种类

如上述采用频谱包络和基带作为参数的声码器称为信道声码器。除信道声码器外，还有多种其他类型的声码器。它们在合成话音质量、数码率和复杂程度等方面不同，主要的差别在于话音参数和提取这些参数的方式不同。例如，用共振峰的位置、幅度和宽度表示频谱包络的,称为共振峰声码器；利用同态滤波技术,如对话音信号进行积分变换、取对数和反变换以获得各参数的，称为同态声码器；直接编码和传输话音的基带（如取200～600赫的频带）展现声源特性的，称为声激励声码器。此外，还有相位声码器、线性预测声码器（线性预测编码）等。

参考资料

^ Homer Dudley. Signal Transmission US Patent No.2151091, May 21, 1939. (Filed Oct. 30, 1935)
^ "Homer Dudley's Speech Synthesisers, "The Vocoder" (1940) & "Voder"(1939)". Electronic Musical Instrument 1870–1990. 120 Years of Electronic Music (120years.net).

[1] Homer Dudley. Signal Transmission US Patent No.2151091, May 21, 1939. (Filed Oct. 30, 1935)

[2] "Homer Dudley's Speech Synthesisers, "The Vocoder" (1940) & "Voder"(1939)". Electronic Musical Instrument 1870–1990. 120 Years of Electronic Music (120years.net).

[1]

[2]