跳转到内容

梅尔刻度

维基百科,自由的百科全书
梅尔与赫兹的对应图
A440 Play. 440 Hz = 549.64 mels

梅尔刻度(又称Mel尺度,英语:Mel scale)是一种基于频率定义的非线性刻度单位,表示人耳对音高(pitch)等距变化的感官,由Stevens英语Stanley Smith StevensVolkman英语John Volkman 和Newman于1937年命名。[1]

梅尔刻度与线性的频率刻度赫兹(Hz)之间可以进行近似的数学换算。一个常用的将赫兹转换为梅尔的公式是:[2]

梅尔刻度将1000Hz,且高于人耳听阈值40分贝的声音信号,定为1000mel的参考点。在频率500Hz以上时,随着频率的增加,人耳每感觉到等量的音高变化,所需要的频率变化愈来愈大。这导致在赫兹刻度500Hz往上的四个八度(一个八度即为两倍的频率),只对应梅尔刻度上的两个八度Mel的名字来源于单词melody,表示这个刻度是基于音高比较而被创造的。

历史和其他公式

历史上,存在过各种各样的转换公式。[3] 在O'Shaugnessy的书中的常用公式选用不同的对数底可以有不同的表达式:

对应的逆变换公式是:

自从Steinberg于1937年出版的基于最小可觉差音高的刻度曲线和表格[4] 后,还有许多其他曲线通过不同的实验方法和分析途径被提出,如Fletcher和Munson在1937年[5] ,Fletcher在1938年[6] ,Steven于1937年[1] 以及 Stevens 和 Volkmann于1940年[7] 分别给出的曲线。

在1949年,Koenig发表了一个基于独立的线性部分和对数部分的近似值,取1000Hz作为两个部分的分界点。[8]

Gunnar Fant于1949年发表了当前流行的线性\对数公式,但是有1000Hz的截止频率(corner frequency)。[9] Fant于1968年发表了该公式的另一种与对数的底数的选择无关的形式:[10][11]

1976年,Makhoul与Cosell发表了现在流行的版本,截止频率取为700Hz。[12] Ganchev等人指出:"相比于Fant等人的1000Hz的公式,700Hz的公式能够在1000Hz以下更近似于Mel刻度,代价是超过1000Hz时误差更大。"[13] 但是当频率超过7kHz时,700Hz的版本表现的更好。

这些公式的数据由Beranek于1949年基于Stevens 和 Volkman的曲线被制作成表格:[14]

Beranek 等制表(1949),数据来源于Stevens 和 Volkman(1940)
Hz 20 160 394 670 1000 1420 1900 2450 3120 4000 5100 6600 9000 14000
mel 0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250

具有625Hz截断频率的公式由Lindsay和Norman于1977年在《Human information processing: An introduction to psychology》中提出,[15] 但在该书1972年第一版中该公式没有出现:

大多数的公式能够保证1000 mel对应1000Hz。截断频率(break frequency),如700Hz、1000Hz或625Hz,是这些公式中唯一的自由参数。一些非MEL听觉频率尺度(auditory-frequency-scale)公式使用了相同的形式,但截断频率低得多,不一定能保障1000mel对应1000Hz,例如1990年Glasberg与Moore提出的ERB-rate刻度使用的是228.8Hz[16] ,1990年Greenwood的“cochlear frequency–place map”则使用165.3Hz作为截断频率。[17]

Umesh等人对其他形式的梅尔刻度进行了研究。根据从这些曲线上计算的数据,他们指出,传统的含有对数区域和线性区域的公式,以及其他形式的公式,都不符合Stevens和Volkman的曲线:[18]

Umesh 等制表(1999),数据来源于Stevens 和 Volkman(1940)
Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000
mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228

参考文献

  1. ^ 1.0 1.1 Stevens, Stanley Smith; Volkman; John; & Newman, Edwin B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, 8 (3): 185–190. (原始内容存档于2013-04-14). 
  2. ^ Douglas O'Shaughnessy. Speech communication: human and machine. Addison-Wesley. 1987: 150 [2013-04-26]. ISBN 978-0-201-16520-3. (原始内容存档于2015-03-19). 
  3. ^ W. Dixon Ward. Musical Perception. Jerry V. Tobias (编). Foundations of Modern Auditory Theory 1. Academic Press. 1970: 412. no one claims yet to have determined 'the' mel scale. 
  4. ^ John C. Steinberg. Positions of stimulation in the cochlea by pure tones. Journal of the Acoustical Society of America. 1937, 8 (3): 176–180. 
  5. ^ Harvey Fletcher and W. A. Munson. Relation Between Loudness and Masking. Journal of the Acoustical Society of America. 1937, 9: 1–10. 
  6. ^ Harvey Fletcher. Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement. Journal of the Acoustical Society of America. 1938, 9 (4): 275–293. 
  7. ^ Stevens, S., and Volkmann, J. The Relation of Pitch to Frequency: A Revised Scale. American Journal of Psychology. 1940, 53 (3): 329–353. 
  8. ^ W. Koenig. A new frequency scale for acoustic measurements. Bell Telephone Laboratory Record. 1949, 27: 299–301. 
  9. ^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden : talets allmänna svängningsstruktur", LM Ericsson protokoll H/P 1064
  10. ^ Fant, Gunnar. (1968). Analysis and synthesis of speech processes. In B. Malmberg (Ed.), Manual of phonetics (pp. 173-177). Amsterdam: North-Holland.
  11. ^ Jonathan Harrington and Steve Cassidy. Techniques in speech acoustics. Springer. 1999: 18 [2013-04-26]. ISBN 978-0-7923-5731-5. (原始内容存档于2015-03-19). 
  12. ^ John Makhoul and Lynn Cosell, LPCW: An LPC vocoder with linear predictive spectral warping, ICASSP 1976 1 (IEEE), 1976, 1: 466–469 [2013-04-26], (原始内容存档于2013-07-31) 
  13. ^ T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various MFCC implementations on the speaker verification task,, Proceedings of the SPECOM-2005, 2005: 191–194 [2013-04-26], (原始内容存档于2012-10-15) 
  14. ^ Beranek, Leo L. (1949). Acoustic measurements. New York: McGraw-Hill.
  15. ^ Lindsay, Peter H.; & Norman, Donald A. (1977). Human information processing: An introduction to psychology (2nd ed.). New York: Academic Press.
  16. ^ B.C.J. Moore and B.R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns" Journal of the Acoustical Society of America 74: 750-753, 1983.
  17. ^ Greenwood, D. D. (1990). A cochlear frequency–position function for several species—29 years later. The Journal of the Acoustical Society of America, 87, 2592–2605.
  18. ^ Umesh, S. and Cohen, L. and Nelson, D., Fitting the mel scale, Proc. ICASSP 1999 (IEEE), 1999: 217–220, ISBN 0-7803-5041-3 

外部链接

参见