一种适用于高噪音环境的语音交互系统的制作方法-k8凯发

文档序号：37020935发布日期：2024-02-09 13:14阅读：73来源：国知局

本申请涉及语音识别，尤其是涉及一种适用于高噪音环境的语音交互系统。

背景技术：

1、现阶段，随着互联网技术的快速发展，人与人之间的沟通方式逐渐从传统的信件、电话、短信等非互联网交互方式发展为语音通话、视频通话等互联网交互方式。

2、互联网技术的发展，使人们能够随时随地进行语音交互，不再局限于指定的地点，这虽然为生活带来便利，提高了沟通效率，但也带来了一些问题，由于语音沟通的地点具有不确定性，比如，在气候因素不定的室外环境、在嘈杂的密闭空间里，多种多样的噪声会降低语音通话质量，生活中常见的语音交互系统更侧重于语音变音、音频视频特效方面的研发，忽略了语音交互降噪的问题，因此，当前亟需一种能够剔除通话噪音的语音交互系统。

技术实现思路

1、有鉴于此，本申请实施例的目的在于提供适用于高噪音环境的语音交互系统，能够根据语音收发端的实际情况选择是否对语音信号降噪，以及语音降噪的具体类型，实现通话环境噪声和/或其他人声噪声的灵活降噪、精准降噪，提高通话质量。

2、第一方面，本申请实施例提供了一种适用于高噪音环境的语音交互系统，所述语音交互系统包括一个处理端、至少两个语音收发端；所述处理端采用如下方式对任一所述语音收发端发送的语音信号进行处理：

3、若所述语音收发端将通话模式设置为降噪模式，则获取所述语音收发端选择的语音降噪类型；其中，所述语音降噪类型包括通话环境降噪、其他人声降噪；

4、提取所述语音收发端发送的语音信号的语音特征；

5、基于预设的通话环境基准特征以及所述语音收发端使用者的样本语音的音色，将所述语音特征划分为通话环境特征、所述语音收发端使用者的人声特征、其他人声特征；

6、对符合所述语音收发端选择的语音降噪类型的所述通话环境特征和/或所述其他人声特征进行删除，得到降噪后的语音特征；

7、将所述降噪后的语音特征输入包含声学模型和语言模型的解码器中，得到降噪后的语音文本；

8、将所述降噪后的语音文本发送给与所述语音收发端建立语音交互关系的其他语音收发端。

9、在一种可能的实施方式中，所述语音收发端采用如下方式选择语音降噪类型：

10、在与其他语音收发端建立语音交互关系的过程中，若接收到使用者针对语音降噪类型的选择指令，则将使用者选择的语音降噪类型确定为所述语音收发端选择的语音降噪类型，否则将使用者预设的语音降噪类型确定为所述语音收发端选择的语音降噪类型。

11、在一种可能的实施方式中，所述提取所述语音收发端发送的语音信号的语音特征，包括：

12、对所述语音信号分帧、加窗，得到连续多帧语音片段；

13、对所述语音片段进行傅里叶变换，得到频域特征，将得到的频域特征确定为所述语音特征。

14、在一种可能的实施方式中，所述基于预设的通话环境基准特征以及所述语音收发端使用者的样本语音的音色，将所述语音特征划分为通话环境特征、所述语音收发端使用者的人声特征、其他人声特征，包括：

15、计算所述语音特征与所述通话环境基准特征之间的第一相似度，若所述第一相似度大于第一预设阈值，则将所述语音特征确定为所述通话环境特征，否则将所述语音特征确定为人声特征；

16、逐帧提取所述样本语音的mfcc特征，并对每一帧样本语音的mfcc特征进行拟合，得到所述语音收发端使用者的音色特征；

17、计算所述人声特征与所述音色特征的第二相似度，若所述第二相似度大于第二预设阈值，则将所述人声特征确定为所述语音收发端使用者的人声特征，否则将所述人声特征确定为所述其他人声特征。

18、在一种可能的实施方式中，所述将所述降噪后的语音特征输入包含声学模型和语言模型的解码器中，得到降噪后的语音文本，包括：

19、将所述降噪后的语音特征输入至所述声学模型中，得到语音单词；

20、将所述语音单词输入至所述语言模型中，得到所述降噪后的语音文本。

21、在一种可能的实施方式中，所述将所述降噪后的语音特征输入至所述声学模型中，得到语音单词，包括：

22、采用隐马尔科夫模型或混合高斯模型，将输入的所述降噪后的语音特征转换为音素特征，并获取所述音素特征对应的音素；

23、采用发音词典，将相互关联的音素映射到对应的语音单词。

24、在一种可能的实施方式中，所述声学模型为采用ctc算法训练得到的循环神经网络；其中，所述ctc算法为端到端的训练方法。

25、在一种可能的实施方式中，所述将所述语音单词输入至所述语言模型中，得到所述降噪后的语音文本，包括：

26、根据预设的语法规则，计算所述语音单词出现在完整语句中的概率，得到概率最大化的由所述语音单词拼接而成的完整语句，由多个连续的完整语句组成所述语音文本。

27、在一种可能的实施方式中，基于所述降噪后的语音特征，生成降噪后的语音播放信号，并将所述降噪后的语音播放信号发送给所述其他语音收发端。

28、在一种可能的实施方式中，所述其他语音收发端播放接收到的所述降噪后的语音播放信号，并在接收到语音转文本指令后，显示所述降噪后的语音文本。

29、本申请实施例提供的适用于高噪音环境的语音交互系统，语音收发端可以根据实际情况选择是否对语音信号进行降噪，以及语音降噪的具体类型，实现通话过程中通话环境噪声和/或其他人声噪声的降噪，提高通话质量，保护他人隐私，能够有选择地确定降噪类型，实现灵活降噪、精准降噪。

30、为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

技术特征：

1.一种适用于高噪音环境的语音交互系统，其特征在于，所述语音交互系统包括一个处理端、至少两个语音收发端；所述处理端采用如下方式对任一所述语音收发端发送的语音信号进行处理：

2.根据权利要求1所述的适用于高噪音环境的语音交互系统，其特征在于，所述语音收发端采用如下方式选择语音降噪类型：

3.根据权利要求1所述的适用于高噪音环境的语音交互系统，其特征在于，所述提取所述语音收发端发送的语音信号的语音特征，包括：

4.根据权利要求1所述的适用于高噪音环境的语音交互系统，其特征在于，所述基于预设的通话环境基准特征以及所述语音收发端使用者的样本语音的音色，将所述语音特征划分为通话环境特征、所述语音收发端使用者的人声特征、其他人声特征，包括：

5.根据权利要求1所述的适用于高噪音环境的语音交互系统，其特征在于，所述将所述降噪后的语音特征输入包含声学模型和语言模型的解码器中，得到降噪后的语音文本，包括：

6.根据权利要求5所述的适用于高噪音环境的语音交互系统，其特征在于，所述将所述降噪后的语音特征输入至所述声学模型中，得到语音单词，包括：

7.根据权利要求1所述的适用于高噪音环境的语音交互系统，其特征在于，所述声学模型为采用ctc算法训练得到的循环神经网络；其中，所述ctc算法为端到端的训练方法。

8.根据权利要求6所述的适用于高噪音环境的语音交互系统，其特征在于，所述将所述语音单词输入至所述语言模型中，得到所述降噪后的语音文本，包括：

9.根据权利要求1所述的适用于高噪音环境的语音交互系统，其特征在于，基于所述降噪后的语音特征，生成降噪后的语音播放信号，并将所述降噪后的语音播放信号发送给所述其他语音收发端。

10.根据权利要求9所述的适用于高噪音环境的语音交互系统，其特征在于，所述其他语音收发端播放接收到的所述降噪后的语音播放信号，并在接收到语音转文本指令后，显示所述降噪后的语音文本。

技术总结
本申请提供了一种适用于高噪音环境的语音交互系统，包括处理端和语音收发端；处理端用于：若语音收发端将通话模式设置为降噪模式，则获取语音收发端选择的语音降噪类型；提取语音收发端发送的语音信号的语音特征；基于通话环境基准特征以及语音收发端使用者的样本语音的音色，将语音特征划分为通话环境特征、语音收发端使用者的人声特征、其他人声特征；删除符合语音收发端选择的语音降噪类型的通话环境特征和/或其他人声特征，得到降噪后的语音特征；将降噪后的语音特征输入包含声学模型和语言模型的解码器中，得到降噪后的语音文本；将降噪后的语音文本发送给其他语音收发端。本申请能够对语音信号灵活降噪、精准降噪，提高通话质量。

技术研发人员：欧智坚,肖吉,孙磊,刘岩
受保护的技术使用者：常熟它思清源科技有限公司
技术研发日：
技术公布日：2024/2/8