基于合成—分析法的线性预测编码的过程实质上就是不断地改变模型参数,使模型更好地适应原始语音信号的过程。原始语音信号被分成帧,帧的长度和模型参数决定了编码速率。
2、IP语音压缩编码算法及性能分析
2.1常用的语音压缩编码算法
IP电话经常使用ITU定义的两个标准:G.723.1、G.729。它们采用的都是线性预测分析-合成编码和码本激励矢量量化技术,即混合编码的方法。
2.1.1G.723协议
G.723协议是一个双速率语音编码建议[1],其两种速率分别是5.3 kbit/s和6.3 kbit/s。此协议是一个数字传输系统概况协议,适用于低速率多媒体服务中语音或音频信号的压缩算法。它作为完整的H.324系列标准的一部分,主要配合低速率图像编码H.263标准。在IP电话网关中,G.723协议被用来实现实时语音编码解码处理。
G.723.1协议的编解码算法中两种速率的编解码基本原理是一样的,只是激励信号的量化方法有差别。对高速率(6.3 kbit/s)编码器,其激励信号采用多脉冲最大似然量化(MP-MLQ)法进行量化,对低速率(5.3 kbit/s)编码器,其激励信号采用代数码激励线性预测(ACELP)法量化。
编码过程是首先选速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号,然后把输入语音信号的每240个样点组成一个帧,也就是30 ms的帧长。每个帧通过高通滤波器后再分为4个子帧。对于每个子帧,计算出10阶线性预测滤波器的系数。为了适于矢量量化,把预测系数转化为线性频谱对(LSP:line spectrum pair)。量化前的系数构成短时感觉加权滤波器,原始语音信号经过该滤波器得到感觉加权语音信号。对于每两个子帧,编码器用感觉加权语音信号求得开环基音周期,基音周期范围从18个样点到142个样点。此后编码器所进行的操作都是基于60个样点进行的。最后,激励信号被量化,然后把这些参数和激励信号量化结果传送到。由于帧长为30 ms,并存在另外的7.5 ms的前向延迟,导致37.5 ms总的编码延迟。
G.723.1协议是为了低速可视会议业务而设计的。由于可视会议业务每秒钟只传输很少数量的帧,而且又有比较大的时延,这就是G.723.1 允许有30 ms帧长的原因。这个帧长比较大,却正好适合可视会议这种情况。而且它的编码速度比较低,可以把尽可能多的比特用在图像传输上。
2.1.2G.729协议
G.729协议是一个能在8 kbit/s速率上实现高质量语音编码的建议,也是H.323协议中有关音频编码的标准[2]。在IP电话网关中,G.729协议被用来实现实时语音编码处理。G.729协议采用的是CS-ACELP即共轭结构算术码激励线性预测的算法。CS- ACELP以CELP编码模型为基础,它把语音分成帧,每帧10 ms,也就是80个采样点。对于每一帧语音,编码器从中分析出CELP模型参数,其中包括线性预测系数,自适应码本和随机码本的索引值和增益。然后把这些参数传送到解码端,利用这些参数构成激励源和合成滤波器,从而重现原始语音。
编码过程是首先将速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号,通过高通滤波器后,把输入语 音信号的每80个样点组成一个帧,也就是10 ms的帧长。对于每个帧用线性预测法求得LP滤波器系数,为了适于矢量量化,把预测系数转化为LSP。利用合成-分析方法,使原始语音和合成语音之间的误差最小,来获得最佳激励信号。激励信号的量化是通过两个码本来实现的,即自适应码本和随机码本。自适应码本反映的是长时预测结果,也就是基音预测结果。随机码本反映的是经过长时预测和短时预测后的残留信号。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-53343-3.html
只能说你自己缺脑子
200万搞定
必将来犯之敌全部葬送于南海海域