内容简介
本书系统地介绍语音信号处理的基础、概念、原理、方法与应用。全书共分9章。第1章介绍语音信号处理及其发展过程; 第2章介绍语音信号的产生与人类听觉的机理,传统的线性语音产生模型,以及非线性语音产生模型; 第3章从语音信号的时域特征入手,引入时频分析的思想,并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用,最后对广泛使用的倒谱特征以及同态解卷积进行介绍; 第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法; 第5章介绍语音编码的相关知识,包括语音的波形编码、极低速率语音编码技术,以及相关编码器的性能指标和评测方法; 第6章介绍语音识别的基本内容,从基于矢量量化的识别技术到动态时间归正的识别技术,从隐马尔可夫模型技术到基于深度学习的语音识别技术,从孤立词识别到连接词识别及连续语音识别技术,再到关键词检出技术,最后还介绍新兴起的语音识别应用技术,以及用于HMM系统构建的HTK工具和用于深度学习系统构建的Kaldi工具等; 第7章介绍说话人识别的基本内容,从基于GMMUBM的识别技术到基于支持向量机的识别技术,从基于联合因子分析的识别技术到基于ivector的识别技术,以及近年来受到关注的基于深度学习的识别技术等; 第8章介绍顽健语音识别技术,从影响语音识别性能的环境变化因素分析开始,介绍噪声环境下顽健语音识别技术,以及变异语音识别的技术; 第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成,以及基于HMM的合成技术等内容。
本书可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。
目录
目录
第1章绪论
1.1语音信号处理的发展
1.2语音信号处理的应用
1.3语音信号处理的总体结构
参考文献
第2章语音信号的声学基础及产生模型
2.1语音信号的产生
2.1.1语音的发音器官
2.1.2语音的声学特征
2.1.3语音信号在时域和频域的表示
2.1.4汉语中语音的分类
2.1.5汉语语音的韵律特性
2.2语音信号的感知
2.2.1听觉系统
2.2.2听觉特性
2.2.3掩蔽效应
2.3语音信号的线性产生模型
2.3.1激励模型
2.3.2声道模型
2.3.3辐射模型
2.4语音信号的非线性产生模型
2.4.1调频调幅模型的基本原理
2.4.2Teager能量算子
2.4.3能量分离算法
2.4.4调频调幅模型的应用
参考文献
第3章语音信号的特征分析
3.1语音信号数字化
3.1.1语音信号的采样和量化
3.1.2短时加窗处理
3.2语音信号的时域分析
3.2.1短时能量分析
3.2.2短时平均过零率
3.2.3短时自相关函数和短时平均幅度差函数
3.2.4端点检测和语音分割
3.3语音信号的频域分析
3.3.1滤波器组方法
3.3.2傅里叶频谱分析
3.4传统傅里叶变换缺点及时频分析的思想
3.4.1信号的时频表示
3.4.2不确定原理
3.5Gabor变换
3.6小波变换在语音信号分析中的应用
3.6.1小波的数学表示及意义
3.6.2小波分析特点
3.6.3小波变换的多分辨分析
3.6.4小波变换在语音处理中的应用
3.7语音信号的同态解卷积
3.7.1同态信号处理的基本原理
3.7.2语音信号的复倒谱
3.7.3避免相位卷绕的算法
3.7.4基于听觉特性的Mel频率倒谱系数
3.8语音信号特征应用
3.8.1基音周期估计
3.8.2共振峰的估计
参考文献
第4章语音信号的线性预测分析
4.1线性预测的基本原理
4.2线性预测方程组的解法
4.2.1自相关法
4.2.2协方差法
4.2.3格型法
4.2.4几种求解线性预测方法的比较
4.3线性预测的几种推演参数
4.3.1归一化自相关函数
4.3.2反射系数
4.3.3预测器多项式的根
4.3.4LPC倒谱
4.3.5全极点系统的冲激响应及其自相关函数
4.3.6预测误差滤波器的冲激响应及其自相关函数
4.3.7对数面积比系数
4.4线谱对分析法
4.4.1线谱对分析的原理
4.4.2线谱对参数的求解
4.5感知线性预测PLP系数
参考文献
第5章语音编码
5.1波形编码
5.1.1均匀量化PCM
5.1.2非均匀量化 PCM
5.1.3自适应量化PCM
5.1.4差分脉冲编码
5.1.5自适应差分脉冲编码
5.1.6增量调制和自适应增量调制
5.1.7子带编码
5.1.8自适应变换域编码
5.2参数编码和混合编码
5.2.1参数编码
5.2.2基于全极点语音
试读
第3章
CHAPTER 3
语音信号的特征分析
前面讨论了语言学、汉语语音学和信号模型等基础知识。语音信号处理虽然包括语音通信、语音合成、语音识别等,但其前提是对语音信号的分析。只有将语音信号分析表示成其本质特性的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别的模板或知识库。而且,语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要先用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就好。又如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此,应先对语音信号进行特征分析,得到提高语音识别率的有用数据,并据此来设计语音识别系统的硬件和软件。
国内外的经验说明,语音分析的工作必须先于其他的语音信号处理工作。例如,20世纪40年代,贝尔实验室的研究人员就对语音信号分析做了大量的、卓有成效的工作,这些成果推动了语音信号处理的发展。
根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时,最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用且应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点,但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。
常用的频域分析方法有带通滤波器组方法、傅里叶变换法和线性预测分析法等,其中线性预测方法将在第4章中具体介绍。频谱分析具有如下优点: 时域波形较易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性。另外,语音信号的频谱具有非常明显的声学特性,利用频域分析获得的语音特征具有实际的物理意义,如共振峰参数、基音周期参数等。
倒谱域是将对数功率谱进行反傅里叶变换后得到的,它可以将声道特性和激励特性有效地分开,因此可以更好地揭示语音信号的本质特征。
按照语音学的观点,可将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数; 共振峰模型分析及线性预测分析即属于这种方法。凡不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法、频域分析法及同态分析法等。
贯穿于语音信号分析全过程的是“短时分析技术”。根据对语音信号的研究,其特性是随时间而变化的,所以它是一个非稳态过程。但从另一方面看,虽然语音信号具有时变特性,但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的响应,而这种肌肉运动频率相对于语音频率来说是缓慢的,因而在一个短时间范围内,其特性基本保持不变,即相对稳定,所以可以将其看作是一个准稳态过程。基于这样的考虑,对语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”。将语音信号分为一段一段来分析,其中每一段称为一“帧”(frame)。由于语音信号通常在10~30ms之内是保持相对平稳的,因而帧长一般取10~30ms。
本章首先介绍语音信号的数字化处理,接着介绍语音信号的时域处理技术及频域和倒谱域的相应处理。此外,还将介绍常见的倒谱特征、基音周期和共振峰参数的提取等。
3.1语音信号数字化
语音信号数字化之前,必须先进行防混叠滤波及防工频干扰滤波。其中防混叠滤波指滤除高于1/2采样频率的信号成分或噪声,使信号带宽限制在某个范围内; 否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真; 而工频干扰指50Hz的电源干扰。由于防混叠和工频干扰滤波器在一个集成块中,实现起来很简便,在这里不再赘述。
3.1.1语音信号的采样和量化
语音信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要先进行采样和量化,将它变成时间和幅度都离散的数字信号。
在语音信号处理中,需要将信号表示成可以处理的函数的形式。对于模拟信号xa(t),它表示函数值随着连续时间变量t的变化趋势。如果以一定的时间间隔T对这样的连续信号取值,则连续信号xa(t)即变成离散信号x(n)=xa(nT),这个过程称为采样,其中两个取样点之间的间隔T称为采样周期,它的倒数Fs称为采样频率。
根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号。实际的信号常有一些低能量的频谱分量超过采样频率的一半,如浊音的频谱超过4kHz的分量比其峰
前言/序言
前言
语音信号处理以语音为研究对象,涉及心理学、生理学、语言学、数字信号处理、模式识别、人工智能、机器学习等诸多研究领域,甚至还涉及人说话时的表情、手势等体态语言信息。由于语音是人们日常生活中的主要交流手段,因此语音信号处理在现代信息社会中占有重要地位。
语音信号处理的研究工作最早可以追溯到19世纪70年代,在20世纪得到了长足的发展,并在20世纪90年代,随着IBM、Microsoft、Apple、AT&T、NTT等著名公司为语音识别的实用化开发投以巨资,掀起了语音信号处理技术的应用热潮。进入21世纪,伴随着以深度神经网络为代表的深度学习理论的全面突破、以通用图形处理器(GPU)为代表的硬件技术的迅猛发展,语音识别的性能得到显著提高,从而迎来了语音信号处理技术的蓬勃发展。
目前在语音信号处理领域中不断有新的技术涌现。本书再版的目的就是将这些新的技术融合到已有的相关理论与技术中。全书以语音信号处理过程的总体框架为线索,全面阐述语音信号的前端处理技术、语音编码技术、语音识别和说话人识别技术,以及语音合成技术。相对于上一版,本书补充了基于深度学习的语音识别、基于ivector的说话人识别等本领域的前沿理论和技术,以利于读者充分了解最新的学术发展动态,并能在学术思想上受到启发。同时,书中也介绍了当前深度学习方法中广泛采用的Kaldi工具的使用技巧,以帮助读者掌握相关的实践手段。
本书涉及作者承担的多项国家自然科学基金项目的部分研究成果,在内容上既注重基本理论的系统性,又兼顾实用性和可读性,可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。
本书的第1、2、4章由韩纪庆编写,第3、6、9章由张磊编写,第5、7、8章由郑铁然编写。韩纪庆负责全书的总体安排和审定。在新版增加的内容中,郑铁然在基于深度学习的语音识别部分、陈晨在说话人识别部分、史秋莹在Kaldi工具部分的撰写上作出了重要贡献。郑贵滨为书稿的完善做了大量工作,在此表示感谢!
本书虽然是作者从事语音信号处理工作30年的理论与实践的结晶,但因作者水平有限、时间仓促,缺点和错误在所难免,敬请读者批评指正,提出宝贵意见。
作者于哈尔滨工业大学2019年1月