内容简介
《通信声学:语音、音频及心理声学导论》主要针对现代“通信声学”课程的学习目标,从工程心理声学的角度出发,全面介绍了声音和语音通信的知识体系。内容包括物理声学、信号处理、人的听知觉特性、心理声学、语音及音频技术以及听力学等。
目录
目录
译者序
原书序
第0章 引言 1
第1章 如何学习及应用通信声学 6
1.1 知识领域 6
1.2 研究方法论及其发展过程 7
1.3 建模的系统方法 8
1.4 全书内容 11
1.5 本书重点 11
参考文献 12
第2章 声音的物理特性 13
2.1 声音的振动及声波特性 13
2.1.1 从振动到声波 13
2.1.2 一个简单振动系统 14
2.1.3 共振 16
2.1.4 复杂质点弹簧系统 17
2.1.5 模态特性 18
2.1.6 波 19
2.2 声学度量及参量 21
2.2.1 声音及语音信号 21
2.2.2 声压 22
2.2.3 声压级 22
2.2.4 声功率 23
2.2.5 声强 23
2.2.6 基于振幅及声级参量的计算 24
2.3 声波现象 24
2.3.1 球面波 25
2.3.2 平面波及管道中的波场 25
2.3.3 固体材料中的波传播 27
2.3.4 反射、吸收及折射 30
2.3.5 散射与衍射 30
2.3.6 多普勒效应 31
2.4 封闭空间中的声音:房间与大厅声学 32
2.4.1 房间中的声场 32
2.4.2 混响 34
2.4.3 房间内声压级 35
2.4.4 房间内声音的模态特性 36
2.4.5 封闭空间声学的计算建模 37
2.5 本章小结 39
2.6 延伸阅读 39
参考文献 40
第3章 信号及信号处理 42
3.1 信号 42
3.1.1 声信号 42
3.1.2 典型信号 43
3.2 信号处理的基本概念 45
3.2.1 线性时不变系统 45
3.2.2 卷积 46
3.2.3 信号变换 47
3.2.4 傅里叶分析及合成 47
3.2.5 频谱分析 49
3.2.6 时频表示 52
3.2.7 滤波器组 53
3.2.8 自相关和互相关 54
3.2.9 倒谱 55
3.3 数字信号处理 56
3.3.1 采样和信号转换 56
3.3.2 Z变换 57
3.3.3 滤波器作为LTI系统 58
3.3.4 数字滤波 58
3.3.5 线性预测 60
3.3.6 自适应滤波 62
3.4 隐马尔可夫模型 63
3.5 智能及学习系统的概念 64
3.6 本章小结 65
3.7 延伸阅读 65
参考文献 65
第4章 电声学及音频系统的响应 67
4.1 电声学 67
4.1.1 扬声器 67
4.1.2 传声器 69
4.2 音频系统响应 71
4.2.1 系统响应的测量 71
4.2.2 理想的声音重放 72
4.2.3 脉冲响应与幅频响应 72
4.2.4 相频响应 73
4.2.5 非线性失真 74
4.2.6 信噪比 75
4.3 响应均衡 75
4.4 本章小结 77
4.5 延伸阅读 77
参考文献 77
第5章 语音 79
5.1 语音的生成 80
5.1.1 语音生成机制 80
5.1.2 声带及发声 81
5.1.3 声道、鼻道及构音 82
5.1.4 口唇辐射测量 83
5.2 语音学中的语音单位及符号 84
5.2.1 元音 85
5.2.2 辅音 87
5.2.3 韵律及超音段特征 89
5.3 语音生成建模 90
5.3.1 声门建模 92
5.3.2 声道建模 92
5.3.3 构音合成 94
5.3.4 共振峰合成 95
5.4 歌声 95
5.5 本章小结 96
5.6 延伸阅读 97
参考文献 97
第6章 乐器及声音合成 99
6.1 原声乐器 99
6.1.1 乐器的类型 99
6.1.2 乐器中的共鸣器 100
6.1.3 激励源 102
6.1.4 振动频率控制 103
6.1.5 激励与共鸣结构的结合 103
6.2 音乐中的声音合成 104
6.2.1 声音的包络 104
6.2.2 合成方法 105
6.2.3 基于一维物理模型的拨弦乐器声音合成 106
6.3 本章小结 107
6.4 延伸阅读 108
参考文献 108
第7章 听觉的生理和解剖 110
7.1 人耳的总体结构 110
7.2 外耳 111
7.3 中耳 112
7.4 内耳 114
7.4.1 耳蜗的结构 114
7.4.2 被动耳蜗处理 116
7.4.3 耳蜗的主动机制 117
7.4.4 内毛细胞 120
7.4.5 耳蜗的非线性 120
7.5 耳声发射 121
7.6 听神经 122
7.6.1 基于发放率的信息传输 123
7.6.2 锁相 124
7.7 听觉神经系统 126
7.7.1 听觉传导通路的结构 126
7.7.2 关于脑功能的研究 128
7.8 构建听觉计算模型的动机 129
7.9 本章小结 129
7.10 延伸阅读 130
参考文献 130
第8章 心理声学的研究途径及方法 132
8.1 声事件与听觉事件 132
8.2 心理物理学函数 134
8.3 声事件的产生 134
8.3.1 声信号的合成 134
8.3.2 听音设置及条件 136
8.3.3 对听觉事件特定细节的注意力导向 137
8.4 听音测试中受试者的选择 137
8.5 测量的对象 137
8.5.1 阈值 137
8.5.2 标度及对感知的分类 139
8.5.3 听音测试中的数值标度 140
8.6 受试者的任务 141
8.7 基础心理声学测试方法 142
8.7.1 恒定刺激法 142
8.7.2 极限法 143
8.7.3 调节法 143
8.7.4 跟踪法 144
8.7.5 直接标度法 144
8.7.6 自适应阶梯法 144
8.8 描述性感官分析 145
8.8.1 言语导出法 146
8.8.2 非言语导出法 148
8.8.3 间接导出法 148
8.9 统计学角度的心理声学测试 149
8.10 本章小结 149
8.11 延伸阅读 150
参考文献 150
第9章 听觉的基本功能 152
9.1 有效听区 152
9.1.1 等响*线 154
9.1.2 声级及其测量 154
9.2 频谱掩蔽 155
9.2.1 噪声掩蔽 156
9.2.2 纯音掩蔽 157
9.2.3 复合音掩蔽 159
9.2.4 其他掩蔽效应 159
9.3 时域掩蔽 160
9.4 听觉的频域选择性 162
9.4.1 心理声学调谐*线 162
9.4.2 Bark带宽 163
9.4.3 ERB带宽 165
9.4.4 Bark、ERB及Greenwood尺度 166
9.5 本章小结 167
9.6 延伸阅读 167
参考文献 167
第10章 基础心理声学参量 169
10.1 音高 169
10.1.1 音高强度和频率范围 169
10.1.2 音高的*小可觉差 170
10.1.3 音高感知与声音时长 171
10.1.4 梅尔尺度 172
10.1.5 对数音高尺度及音阶 173
10.1.6 音高变化及频率调制的检测阈值 174
10.1.7 有色噪声的音高 175
10.1.8 重复音高 175
10.1.9 虚拟音高 175
10.1.10 非谐波关系复合声的音高 176
10.1.11 音高理论 176
10.1.12 绝对音高 177
10.2 响度 177
10.2.1 响度测定实验 177
10.2.2 响度级 178
10.2.3 纯音的响度 179
10.2.4 宽带信号的响度 180
10.2.5 兴奋模式,特性响度及响度 181
10.2.6 响度的差别阈值 183
10.2.7 响度与声音时长 185
10.3 音色 186
10.3.1 稳态声音的音色 187
10.3.2 带调制的声音的音色 187
10.4 声音的主观时长 187
10.5 本章小结 189
10.6 延伸阅读 189
参考文献 189
第11章 听觉的进阶分析 191
11.1 尖锐度 191
11.2 调制和声音起始的检测 193
11.2.1 波动强度 193
11.2.2 脉冲性 195
11.3 粗糙度 196
11.4 调性 198
11.5 信号幅度及相位谱变化的辨识 199
11.5.1 幅度谱自适应 199
11.5.2 对相位及时间差的感知 200
11.6 心理声学概念与音乐 205
11.6.1 感觉协和音与不协和音 205
11.6.2 音乐中的音程、音阶及律制 208
11.6.3 节奏、速度及小节 210
11.7 声音的感知组织 210
11.7.1 声源分离 212
11.7.2 声音流及听觉场景分析 212
11.8 本章小结 215
11.9 延伸阅读 215
参考文献 216
第12章 空间听觉 218
12.1 空间听觉的概念和定义 218
12.1.1 基本概念 218
12.1.2 空间听觉坐标系 219
12.2 头相关声学 221
12.3 定位因素 225
12.3.1 双耳时间差 226
12.3.2 双耳声级差 229
12.3.3 双耳相干性 230
12.3.4 在混乱锥上决定方向的因素 231
12.3.5 空间听觉和视觉之间的交互 234
12.4 定位精度 234
12.4.1 在水平面内定位 234
12.4.2 在中垂面内定位 236
12.4.3 3D定位 236
12.4.4 对空间扩展声源分布的感知 237
12.5 封闭空间中的方向听觉 239
12.5.1 优先效应 239
12.5.2 定位中对房间效应的适应 240
12.6 音色感知中的双耳优势 241
12.6.1 双耳检测和解掩蔽 241
12.6.2 双耳去音染 243
12.7 声源距离的感知 243
12.7.1 距离感知的因素 243
12.7.2 距离感知的精度 245
12.8 本章小结 246
12.9 延伸阅读 246
参考文献 246
第13章 听觉建模 249
13.1 基于DFT的简单心理声学建模 250
13.2 滤波器组模型 254
13.2.1 外耳及中耳建模 255
13.2.2 Gammatone滤波器组及听觉神经响应 255
13.2.3 与声级相关的滤波
试读
第0章引言
高效地运用感觉和沟通的功能一直是大自然中动物们生存与进化的重要手段,尤其对于*高级的进化形态而言,视觉和听觉是两种互补的主要感知模态。视觉感知基于光学定律,它将环境信息通过几何方式可靠地反映出来。而听觉感知基于声学定律,它不太受诸如观察者与被感知事物之间的阻隔等物理因素所限制。两者相比较,视觉比听觉更占据主导地位,尤其是当被观察目标处于明显可见或移动状态时。但听觉却可以帮助观察者在视觉事件不可见时获取重要的信息。这种对不同感觉的统合,即融合不同模态的信息以形成一个一致的感知结论,是生物体的一个重要特性。也只有当不同感知模态输出的信息互相冲突时,它们之间才会相互比较竞争,以决定*终的感知结论。
运用听觉感知的活动主要包括两类:在环境中的方位感知以及个体之间的通信。前者可在动物进化的早期阶段中被观察到。以图0.1中所示的多起声音事件为例,在通过环境声音的定位中,听音者可同时定位各个声源的位置以及辨别它们的种类。这些声音能将周围环境的信息传递给观察者,如马蹄声凸显了地形的种类;风声反映了天气的状况;而动物发出的各种声音则传递了它们的存在、行为以及位置的信息,即使它们躲藏在看不见的地方。所有这些声音都能唤起观察者有意识的注意力,并提醒其采取相应的行动。
图0.1通过环境声音的声源定位和识别
有些物种已经进化出了高度先进及特殊的听觉能力,如凭借回声定位的蝙蝠。这些动物能发送扫频信号并接收周围物体反射回来的波形。蝙蝠即使是在快速飞行的过程中,其听觉系统也能对这些反射波进行分析,构建出一个关于周围环境的导航地形图。很多动物具有非常灵敏、准确或专有的听觉系统,能帮助它们进行捕食或在危险情况下提供预警。声音是一种优秀的通信手段,当个体需要对外界示警或表达其内部状态,如情感、行为计划等时,发声是一种*容易实现的方式。而手势和面部表情仅能在视觉通信不受限制的情况下发挥作用。在有利的条件下,声音能够传递得比较远并绕过在视觉上被遮挡的物体继续传播。不过,声音和言语也有一个主要的缺点:它们不会像在沙地上的脚印那样留下相对长久的物理踪迹。于是,动物无法及时使用声音记录及传递消息。
通过声音进行定位和通信也是人类的基本活动。定位行为通常是本能的,它无需特别有意识的注意力。人们持续接收到大量的环境声音信息,但这些声音数据多数都处于他们的意识之外。其中,意外的或引起特别关注的声音可被长期记忆下来并进行具体分析。令人不适的、干扰的或响度过高有可能损害听音者听力的声音被统称为噪声。
人类已经进化出了比其他物种更为先进的通信能力。*先通过声带发声进化出了言语和口语。其中所需的前提条件是言语生成器官的发展,以及对携带语言及概念性信息与知识的复杂语音信号的听觉分析能力。距此之后很久人类才发明了通过手写方式保存语言信息的系统性方法。直到现在,世界上都还有一些口语没有形成对应的书面语言。
图0.2所示为不同场景下多人之间或者发言人与听众之间的语音通信。声波携带着信息直接通过说话人或者音频系统到达听众。语音是一种快速灵活地表达概念性结构化信息、情感以及意图的手段。一条口语消息包含了语言信息与非语言信息。语言信息由若干基本单元(音位)以及它们的组合(词汇、短语、句子)构成。非语言信息包括说话人身份以及音调情感表达等,也是语音的一个有机组成部分,它们甚至可以改变听者对语言内容的诠释。语音中包含有不少冗余(对同一信息使用多种方式编码),其可保障在恶劣声学环境中的正常通信。语音的另外一
图0.2不同场景下多人之间或者发言人与听众之间的语音通信
个优势是通信过程并不受制于说话人双方的可见性。实现成功通信的一个基本要求是:通信双方具有一套共通的代码,即一门共同的语言或方言以及关于世界的概念模型。
人们还发展出了另一类重要的通信和交流手段:音乐。音乐的主要作用不是传递语言和概念性信息,而是引发美学及情感体验,如图0.3所示。音乐也同样可以在人与人之间传递强烈的象征意义,帮助他们分享彼此在文化及社会生活中共同的与音乐相关的体验和事件。在此过程中,听众也可以通过掌声和言语等声学方式与演奏者互动。
图0.3通过电声扩音的音乐交流
人们希望能够克服声学通信存在的局限性,其中包括长距离通信以及无法以物理方式保存声音及传递消息等问题。*初的声音记录设备是机械式的。直到电子学的研究投入应用之后,才诞生了可供日常使用的声音记录及远距离通信技术。**代远距离通信设备是电话和收音机,如图0.4所示。通过传声器将声波转换为对应的电信号,再使用电子放大器将传声器输出的弱信号增强,之后还需对电话线路中的信号损失进行放大补偿,这样就能在任何距离之间传输语音了。收音机的发明也使得从发射器发出的无线广播可长距离传播。
图0.4通过技术传输信道进行的语音通信
通过将声音波形以机械方式在介质(如唱片)表面刻录沟槽,制造出了*初的用于录音和重放的留声机和电唱机。再使用电子放大方式可提升声音的质量及音量。在这之后的下一代产品是磁带录音机,其中唯一保留的机械功能就是磁带的传动系统。到后来,数字信号处理和计算机技术使得能够在数字媒介中以比特的形式存储声音,甚至都不需要任何物理运动部件。数字文档本质上是非常理想的存储方式,因为它们可以被无限地拷贝和存储而不损失任何信息。数字音频和语音处理技术通过使用音频及语音编码来高效地存储和传输信号,可将所需要的比特数减少一个数量级。不过,即使数字化的进程再快,用户交互界面仍然保持着非数字的形式。同时,一些模拟器件也是必不可少的,如拾取声音的传声器和放大器;用于声音重放的放大器、扬声器或耳机,它们能保证声音具有可听性及足够的响度。
近年来,通信技术迎来了两大重要发展:一个是互联网,能提供所有形式数字信息的数据网络,另一个是用于移动通信的蜂窝无线网络。这两者,尤其是它们的结合,使得新型格式多媒体数据的访问变得异常便利,其中就包括*先进格式的声音和语音。另外,无线网络也使得世界上多数地方的大部分人都能在任何时间进行通信。
在声音重放技术的早期阶段,其中一个目标就是营造一种真实的空间印象。双声道立体声在20世纪60年代投入了使用。与之前基于单声道的重放相比,它能通过双耳生成更好的声像以及更自然的音色感知。其后又诞生了各种带或不带高架扬声器的多声道系统。如今,空间声音重放可通过多种系统实现。与此同时,用于耳机听音的一系列先进技术也投入了实际应用。
通常来讲,数字音频技术代表所有的声音拾取、处理、合成或重放的方法,包括数字信号处理和数字处理器的应用。其中,基于感知的音频技术则更加利用了人在声音感知中对不同属性的分辨率,包括如频率、时间或空间等。当音频通信信道存在一些限制时,就可运用该技术。这些限制包括传输带宽和延时、传声器及扬声器的特性以及重放系统的空间构成方式是否理想。使用这些技术的目标是以*优的质量传送音频,同时尽可能好地分配通信信道资源以提供*佳的用户体验。
数字技术同样推动了人机语音交互的发展,如图0.5所示。在日常生活中,通过口语这一*自然的通信方式就可在不同的设备和计算机之间传递消息。语音合成是通过机器生成口语消息的技术。而自动语音识别的目标则是使机器能“听懂”人类说话者的简单或复杂的语音消息。如果要求人机交互体验的自然和舒适,这两项技术的难度就会非常大。在多数先进的语音通信方式中,必须赋予计算机进行自然语言处理的功能以及一个概念性的世界观,或者获取和学习它们的能力。**代成功的基于语音的人机接口在21世纪初诞生。在这之后,基于语音的电视遥控装置、不同的自动电话服务以及个人设备的语音控制系统也开始陆续面世。
图0.5通过语音进行的人机交互
第1章如何学习及应用通信声学
本书描述人际与人机之间通过声音及语音进行通信的现象、理论和模型。在该领域,基础研究工作能帮助人们更好地理解其中的原理,而工程技术开发及应用则可使通信的种类更加多样、能力更加强大。两者都需要对一系列专题内容进行深入的理解,以及对相关问题从多个视角去研究和解决。
1.1知识领域
自然界、生物体、人类社会、科学技术中的各种现象都遵循着不同的规律并呈现出不同的特性。对它们的研究需要基于不同的科学概念。即使不同现象的表征看似相同,但揭示它们的本质所需要的具体规则可能大不一样。这就是需要掌握不同知识领域的必要性。
某些客观问题或许只涉及一个实际方向或领域,但如要解决复杂的涉及多学科的难题,则需要掌握多个领域的知识。本书所讨论的内容即属于后一种情况,因此必须要了解多个知识领域(至少是基础内容),才能对研究对象有正确的理解。这些领域有的偏重基础,有的偏重研究方法,而有的则具有很强的实用价值。本书介绍声音及语音通信的基本研究方法,涉及的知识领域包括以下六个方面。
(1)声学及声音的物理学基础。该领域研究物理对象之间的相互作用,它们构成了声与振动现象的基础。该领域的知识可回答一系列的问题,包括“声源如何产生声音”“声音是如何传播及被吸收的”“声音在封闭空间如房间、礼堂或音乐厅中有何特性”等。
(2)信号处理。该领域包含一系列的理论和技术,研究了携带信息的信号是怎样通过人或专业设备产生、传输、分析以及变换的。在本领域中,基础的物理细节并不那么重要,更着重于将物理交互问题抽象为(典型的)单向的、输入-输出因果关系。
(3)语音及音频。该领域的研究主要针对语音及音频信号的基本特点以及相关的专门通信技术。其中,口语和语音及语言技术是其中非常重要的内容,但由于篇幅的限制,本书仅对这些知识作简要介绍。此外,音乐、音乐声学以及音乐技术也属于本领域的研究内容。
(4)生理学及听觉的心理物理学(心理声学)。该领域同时从生理学及功能性两个方向研究人类听觉系统的工作原理。所涉及的内容包括多个重要方面,其中一个就是空间听觉,它研究人们如何定位声源位置以及感知声音环境。




















