一种支持多通道的改进segan网络语音增强方法及系统与流程-k8凯发

文档序号：37018807发布日期：2024-02-09 13:11阅读：76来源：国知局

本发明涉及语音增强处理及人工智能数据处理，尤其涉及一种支持多通道的改进segan网络语音增强方法及系统。

背景技术：

1、语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。简而言之，语音增强就是从含噪语音中提取尽可能纯净的原始语音。

2、现有技术中，对语音进行去噪的方法主要包括两类：传统的信号处理方法以及基于人工智能技术的语音增强处理方法。其中，传统的信号处理方法如有谱减法、维纳滤波法、基于统计模型的方法和子空间算法等等；人工智能技术如自动编码器体系结构、循环神经网络(rnn)也得到了广泛的应用，经常使用的去噪自动编码器、已经显示出利用嵌入信号中的时间轴层面的信息来进行信息处理的显著性能。

3、但是，在实际应用中传统技术中对语音进行去噪的方法只能对简单分布的噪声进行去除，通常噪声的特征分布需要已知或者进行合理的假设，因此对于复杂分布的噪声信号，无法有效去噪，并且有可能去除掉有价值的语音，导致去噪结果并不理想。

4、基于生成对抗网络的语音增强技术展现出了巨大的优越性，生成对抗网络(gan)是一种通过两个神经网络相互博弈的方式进行学习的生成模型。生成对抗网络能够在不使用标注数据的情况下来进行生成任务的学习，最终使生成器能够输出接近真实的纯净样本数据。gan在语音增强方面的有了良好的应用，其强大之处在于不需要已知噪声的分布特征，模型会自动学习输入的含噪数据中干净声音的分布特征。

5、语音增强模型segan(speech enhance gan)网络是一种针对语音信号的生成式对抗网络，它可以学习到语音信号的概率分布。其结合了条件gan和lsgan，并用l1范数优化了生成器。其生成器主要为encoder-decoder的结构，同时添加了跳跃连接，判别器为全卷积的结构。该模型的整体性能较之前的网络有一定的提升，且产生的失真情况更少。

6、使用segan相比于传统的语音增强技术和其他神经网络模型来说，能够去除复杂分布的噪声信号，具有良好的语音增强的效果，但目前segan模型主要应用于单通道语音增强任务。针对多通道语音，segan降噪模型的处理方式是将多通道的各通道语音简单叠加后除以通道数，最终合成一个单通道语音进行运处理、降噪。这样进行处理的条件是多通道语音的各通道语音信息是相同的。但某些实际条件下，多通道语音在各自通道中的语音信息不完全相同。此时segan对多通道语音的处理方式会出现降噪效果较差的问题。除此之外，segan基于原始语音波形数据进行处理，缺乏对语音其他特征的考虑，segan仍存在语音失真与低信噪比条件下表现不佳的问题。

技术实现思路

1、为解决现有技术的不足，本发明提出一种支持多通道的改进segan网络语音增强方法及系统，将多声道语音进行分离，同时增加了mel频率域鉴别器,优化了生成器和鉴别器的损失函数，使生成器能够同时学习语音的时域波形特征和mel频域特征，从而更好的学习真实的纯净语音特征，实现优化segan的语音增强效果、提升语音质量、提高语音的信噪比的技术效果。

2、为实现以上目的，本发明所采用的技术方案包括：

3、一种支持多通道的改进segan网络语音增强方法，其特征在于，包括：

4、s1、获取多通道语音数据集，对多通道语音数据执行语音分离操作生成对应的单通道语音数据集，所述多通道语音数据集包括干净语音数据和含噪语音数据；

5、s2、使用单通道语音数据集匹配随机噪声生成增强语音数据集；

6、s3、对增强语音数据集分别执行时域鉴别操作和mel频率域鉴别操作，获得时域鉴别损失值和mel频率域鉴别损失值；

7、s4、使用时域鉴别损失值和mel频率域鉴别损失值作为补偿值重新生成增强语音数据集，并计算获得生成损失值；

8、s5、重复执行步骤s2至s4，直至时域鉴别损失值、mel频率域鉴别损失值和生成损失值达到预设收敛平衡，输出对应的生成模型作为映射函数生成特征映射损失函数，所述特征映射损失函数如式1所示；

9、

10、其中，n为语音信号声道的数目，表示语音第1条声道到第n个声道语音特征的误差进行累加，yi为第i条噪声语音特征，xi为第i条干净语音特征，g(yi)表示使用生成模型根据第i条噪声语音特征生成增强之后的语音特征，[·]2表示为向量元素的平方和的平方根；

11、s6、使用生成模型和特征映射损失函数对目标多通道语音数据执行语音增强处理。

12、进一步地，所述执行时域鉴别操作包括使用如式2所示时域鉴别损失函数计算时域鉴别损失值；

13、

14、其中，l(d1)表示时域鉴别损失值，z表示随机数据，yi表示语音第i条通道噪声语音特征，xi表示语音第i条通道干净语音特征，n表示声道的数目，表示语音第1条声道到第n个声道语音特征的误差进行累加，表示含噪语音和纯净语音的数据条件分布，表示含噪语音的数据分布，表示任意xi、yi语音都服从该分布，表示任意yi语音都服从该分布，g(z,yi)表示生成器使用随机数据z根据第i条通道噪声语音特征生成增强后的语音特征，d(·)表示判断输入的语音特征是否为真实的纯净语音特征。

15、进一步地，所述执行mel频率域鉴别操作包括使用如式3所示mel频率域鉴别损失函数计算mel频率域鉴别损失值；

16、

17、其中，l(d2)表示mel频率域鉴别损失值，z表示随机数据，xi表示语音第i条通道干净语音特征，n表示声道的数目，表示语音第1条声道到第n个声道语音特征的误差进行累加，si表示第i条声道纯净语音的梅尔倒谱系数特征，g(si，z)表示利用随机数据z根据梅尔倒谱系数特征生成的增强后的语音特征，表示服从梅尔倒谱系数特征分布，stoi(xi,g(si,z))表示真实的纯净语音和利用随机数据z根据梅尔倒谱系数特征生成的增强后的语音之间的清晰度和可懂度度量，d(·)表示判断输入的语音特征是否为真实的纯净语音特征。

18、进一步地，所述计算获得生成损失值包括使用如式4所示生成损失函数计算生成损失值；

19、

20、其中，yi表示语音第i条通道噪声语音特征，n表示声道的数目，表示语音第1条声道到第n个声道语音特征的误差进行累加，表示含噪语音的数据分布，表示任意yi语音都服从该分布，pdata(z)表示随机数据的分布，表示任意随机数据z都服从该分布，g(z,yi)表示生成器使用随机数据z根据第i条通道噪声语音特征生成增强后的语音特征，si表示第i条声道纯净语音的梅尔倒谱系数特征，g(si，z)表示利用随机数据z根据梅尔倒谱系数特征生成的增强后的语音特征，表示服从梅尔倒谱系数特征分布。

21、进一步地，所述预设收敛平衡包括时域鉴别损失值、mel频率域鉴别损失值和生成损失值各自与预设平衡阈值的差值均小于预设标准值。

22、进一步地，所述获取多通道语音数据集包括：

23、获取第一单声道音频；

24、复制第一单声道音频并依据预设延时时长执行延时操作生成第二单声道音频；

25、依据预设延时时长对第一单声道音频结尾增加对应空白，生成第三单声道音频，所述第三单声道音频与第二单声道音频时长相同；

26、混合第三单声道音频与第二单声道音频生成多通道语音数据。

27、本发明还涉及一种支持多通道的改进segan网络语音增强系统，其特征在于，包括：

28、预处理模块，用于对多通道语音数据执行语音分离操作生成对应的单通道语音数据集；

29、生成器模块，用于使用单通道语音数据集匹配随机噪声生成增强语音数据集，以及使用时域鉴别损失值和mel频率域鉴别损失值作为补偿值重新生成增强语音数据集，并计算获得生成损失值；

30、时域鉴别器模块，用于对增强语音数据集分别执行时域鉴别操作，生成时域鉴别损失值；

31、mel频率域鉴别器模块，用于对增强语音数据集执行mel频率域鉴别操作，生成mel频率域鉴别损失值；

32、收敛判断模块，用于判断时域鉴别损失值、mel频率域鉴别损失值和生成损失值是否达到预设收敛平衡；

33、模型管理模块，用于输出生成模型和依据生成模型作为映射函数生成的特征映射损失函数；

34、语音增强执行模块，用于使用生成模型和特征映射损失函数对目标多通道语音数据执行语音增强处理。

35、本发明还涉及一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

36、本发明还涉及一种电子设备，其特征在于，包括处理器和存储器；

37、所述存储器，用于存储多通道语音数据集、单通道语音数据集和随机噪声；

38、所述处理器，用于通过调用多通道语音数据集、单通道语音数据集和随机噪声，执行上述的方法。

39、本发明还涉及一种计算机程序产品，包括计算机程序和/或指令，其特征在于，该计算机程序和/或指令被处理器执行时实现上述方法的步骤。

40、本发明的有益效果为：

41、采用本发明所述支持多通道的改进segan网络语音增强方法及系统，将多声道语音进行分离，同时增加了mel频率域鉴别器,优化了生成器和鉴别器的损失函数，使生成器能够同时学习语音的时域波形特征和mel频域特征，从而更好的学习真实的纯净语音特征，实现优化segan的语音增强效果、提升语音质量、提高语音的信噪比的技术效果，特别适用于解决现有技术下segan处理方法对多声道语音进行语音增强时忽略各声道之间差异性的问题，同时有效提升低信噪比下segan增强语音的语音质量。

当前第1页1