语音信号降噪方法、系统及设备与流程

allin2025-04-11  20


本发明涉及语音信号处理,尤其涉及一种语音信号降噪方法、系统及设备。


背景技术:

1、随着信息技术的快速发展,语音通信和语音识别技术在各个领域得到了广泛应用。特别是在智能手机、智能助手以及远程会议等场景中,清晰的语音信号传输和处理至关重要。然而,在实际应用中,语音信号常常受到各种噪声干扰,这些噪声可以来自环境(如交通噪声、人群喧哗等)或设备本身(如麦克风质量不佳、信号传输不稳定等)。这些噪声会显著降低语音信号的清晰度和可懂度,甚至导致信息传递错误。然而,传统的语音信号降噪方法主要包括谱减法、维纳滤波法、卡尔曼滤波法等,这些方法在一定程度上能够减少背景噪声的干扰,但往往存在降噪效果不理想和语音失真等问题,尤其在处理低信噪比音频时,容易将微弱语音信号过度抑制,导致语音难以听清楚,影响用户体验。


技术实现思路

1、基于此,本发明提供一种语音信号降噪方法、系统及设备,以解决至少一个上述技术问题。

2、为实现上述目的,一种语音信号降噪方法,包括以下步骤:

3、步骤s1:对待处理语音信号数据进行自适应分帧处理,得到分帧语音信号数据;根据分帧语音信号数据进行基频声纹特征融合,生成初始声纹基底数据;

4、步骤s2:根据初始声纹基底数据进行声学上下文增强处理,生成声学特征向量数据;通过声学特征向量数据对分帧语音信号数据进行语义嵌入空间处理,得到语义嵌入空间数据;根据语义嵌入空间数据进行时序语义轨迹处理,得到语音语义轨迹数据;

5、步骤s3:根据语音语义轨迹数据以及语义嵌入空间数据进行语义矢量场构建,生成语音语义矢量场数据;对语音语义矢量场数据进行语音噪声区域标记,生成语义噪声区域数据;

6、步骤s4:通过语义噪声区域数据对语音语义矢量场数据进行噪声抑制处理,生成降噪语义矢量场数据;利用降噪语义矢量场数据对语音语义轨迹数据进行关键语义噪声帧识别,生成语音关键噪声帧数据;根据语音关键噪声帧数据进行噪音帧修复处理,生成降噪语音信号数据;

7、步骤s5:对降噪语音信号数据进行多基频谱分解处理,生成多基频语音谱数据;根据多基频语音谱数据进行听觉掩蔽频谱修正,并进行语音信号重构处理,生成增强语音信号数据。

8、本发明对待处理的语音信号进行自适应分帧处理,能够根据语音信号的动态特性灵活调整分析窗口,保证了对不同频率成分的准确捕捉。这种分帧处理能够捕捉到语音信号的瞬时特性,有助于提取语音信号的基本频率特征,基频声纹特征的融合不仅提取了语音信号中与说话人身份密切相关的独特信息,还增强了对环境变化的鲁棒性。利用初始声纹基底数据进行声学上下文增强处理,有助于提升声学特征向量数据的质量。这一增强处理能够有效地考虑上下文信息,减少外界噪声对语音信号的干扰。通过声学特征向量数据对分帧语音信号数据进行语义嵌入空间处理,能够将语音信号映射到一个高维的语义空间中,从而使得语音信号的语义信息更加明确。基于语音语义轨迹数据和语义嵌入空间数据进行语义矢量场构建,能够生成声学信息与语义信息的结合体。通过准确标记噪声区域,从而有效指导噪声抑制的方向和策略,提升降噪处理的精准度。通过语义噪声区域数据对语音语义矢量场数据进行噪声抑制处理,能够有效降低语音信号中的噪声成分,提升了语音信号的清晰度。利用降噪语义矢量场数据对语音语义轨迹数据进行关键语义噪声帧识别,能够有效识别出对语音理解影响较大的噪声帧。通过对语音关键噪声帧数据进行噪音帧修复处理,能够将识别出的噪声帧进行修复,能够显著提高语音信号的可听性和可理解性。对降噪语音信号数据进行多基频谱分解处理,能够将语音信号分解为多个频率成分,使其在频域中的特征更加明显。通过对多基频语音谱数据进行听觉掩蔽频谱修正,能够进一步改善语音信号的频谱质量,消除不必要的频率干扰。在此基础上,进行语音信号重构处理,能够生成增强语音信号数据。将处理后的频域信息有效转化为高质量的时域语音信号,提升语音信号的整体质量和用户体验。因此,本发明的一种语音信号降噪方法通过将语音信号的语义信息映射到高维空间,形成的语义轨迹数据,根据语义轨迹数据对语音信号进行语义引导噪声识别,得到关键噪声语音帧,考虑关键噪声语音帧的声学特征,结合语音趋势进行精准降噪修复,确保了在增强过程中保留语音的语义信息,提高了语音的清晰度与可懂度,有效避免过度抑制对语音造成的损伤的问题。

9、优选地,步骤s1包括以下步骤:

10、步骤s11:对待处理语音信号数据进行语音端点检测,并进行静音段剔除处理,生成初始语音信号数据;

11、步骤s12:根据初始语音信号数据进行基频周期提取,得到基频轮廓特征数据;

12、步骤s13:根据初始语音信号数据进行自适应分帧处理,得到分帧语音信号数据;

13、步骤s14:对分帧语音信号数据进行快速傅里叶变换处理,并根据梅尔滤波器进行梅尔频率倒谱系数计算,生成梅尔频谱特征矩阵数据;

14、步骤s15:通过梅尔频谱特征矩阵数据对基频轮廓特征数据进行动态时间规整处理,并进行基频声纹特征融合,得到基频融合特征数据;

15、步骤s16:基于基频融合特征数据进行声纹分布概率估计,并进行高斯模糊泛化处理,生成初始声纹基底数据。

16、本发明对待处理的语音信号数据进行语音端点检测,能够精准识别语音的起始和结束位置,从而有效剔除静音段。根据初始语音信号数据进行基频周期提取,能够提取出语音信号的基本频率信息。对初始语音信号数据进行自适应分帧处理,能够将连续的语音信号划分为若干短时帧,既能捕捉到语音的细节变化,又能适应不同场景下语音速率的变化,提高了处理的灵活性和有效性。对分帧语音信号数据进行快速傅里叶变换处理,能够将时域信号转换为频域信号,从而揭示语音信号的频谱特性。结合梅尔滤波器进行梅尔频率倒谱系数(mfcc)计算,梅尔频谱特征矩阵能够更准确地反映人耳对不同频率的感知特性,提升了语音特征的代表性和有效性。通过梅尔频谱特征矩阵数据对基频轮廓特征数据进行动态时间规整处理,能够有效对齐不同语音样本之间的时间差异,即使在说话速度有差异的情况下也能确保特征的一致性匹配。通过模糊泛化处理,能够有效减少特征数据的噪声影响,提高声纹的鲁棒性和泛化能力。

17、优选地,步骤s2包括以下步骤:

18、步骤s21:根据初始声纹基底数据进行声学上下文增强处理,生成声学特征向量数据;

19、步骤s22:基于声学特征向量数据利用预设的语音识别模型对分帧语音信号数据进行逐帧语音识别,得到帧级语音文本数据;

20、步骤s23:根据帧级语音文本数据进行语义嵌入空间处理,得到语义嵌入空间数据;

21、步骤s24:通过语义嵌入空间数据对分帧语音信号数据进行语义空间映射,生成分帧语音语义坐标数据;

22、步骤s25:根据分帧语音语义坐标数据进行时序语义轨迹处理,得到语音语义轨迹数据。

23、本发明根据初始声纹基底数据进行声学上下文增强处理,能够有效提升声学特征向量数据的质量和准确性,提升了从初始声纹基底数据中提取的特征对于环境变化的鲁棒性,增强了语音信号中言语信息的表现力。利用预设的语音识别模型对分帧语音信号数据进行逐帧语音识别,能够实现准确的语音转文本处理,提高了语音识别的精度,确保了每一帧语音信号的内容都得到有效捕捉,降低了由于环境噪声引起的识别错误的可能性。根据帧级语音文本数据进行语义嵌入空间处理,能够将文本信息映射到一个高维的语义空间中,能够更好地反映语音内容的语义特征,提升了对语音信号理解的准确性与深度。通过语义嵌入空间数据对分帧语音信号数据进行语义空间映射,能够将每一帧语音信号的语义信息以坐标形式表示,使得不同帧之间的语义关系更加直观。根据分帧语音语义坐标数据进行时序语义轨迹处理,能够反映语音信号随时间变化的语义动态,揭示了语音内容随时间推移的语义变化模,不仅体现了单个词汇的意义,还捕捉到了整个语音序列的逻辑结构和语义流转。

24、优选地,步骤s23包括以下步骤:

25、步骤s231:对帧级语音文本数据进行高维语义向量转换,生成语义原向量数据;

26、步骤s232:根据语义原向量数据进行高维流形结构构建,得到语义流形结构数据;

27、步骤s233:通过帧级语音文本数据对语义流形结构数据进行核心语义因子标识,生成核心语义因子数据;

28、步骤s234:利用预设的语音语料库对帧级语音文本数据进行上下文语义嵌入匹配,并通过对抗生成网络进行语义语料生成,得到多样化语料数据;

29、步骤s235:根据多样化语料数据进行语义特征解耦,并进行语义关联网络处理,生成语义关系网络数据;

30、步骤s236:通过语义关系网络数据对语义流形结构数据进行动态语义融合,得到动态语义嵌入数据;

31、步骤s237:对动态语义嵌入数据进行语义刻度标定,并根据核心语义因子数据进行kd树快速索引构建,从而得到语义嵌入空间数据。

32、本发明将文本信息转化为高维向量形式,使得语义信息的表达更加丰富和全面。高维语义向量能够捕捉到文本中的细微差别和潜在语义关系。通过构建高维流形,能够有效地表示语义向量之间的关系和分布特征。通过帧级语音文本数据对语义流形结构数据进行核心语义因子标识,能够从复杂的语义流形中提取出关键的语义因子,帮助明确语音信号中的主要信息和主题,从而增强了语音识别的效率和准确性。通过上下文匹配,能够生成与语音内容相关的多样化语料,丰富了语音处理的背景信息。通过解耦语义特征,可以更好地理解不同语义成分之间的独立性和相互关系。通过语义关系网络数据对语义流形结构数据进行动态语义融合,实现了对语义表示的动态调整和优化,确保了语义嵌入既反映了当前语音信号的即时语义,又融合了历史上下文和潜在的语义发展趋向,提高了语义表达的准确性和适应性。通过语义刻度标定和kd树快速索引构建,不仅标准化了动态语义嵌入数据,使得不同语义特征可以进行统一尺度上的比较和检索,而且利用kd树实现了高效的数据索引和查询。

33、优选地,步骤s3包括以下步骤:

34、步骤s31:根据语音语义轨迹数据以及语义嵌入空间数据进行语义矢量场构建,生成语音语义矢量场数据;

35、步骤s32:对语音语义矢量场数据进行网格张量特征分析,生成网格语义张量数据;通过网格语义张量数据对语音语义矢量场数据进行语义矢量流线追踪,得到语义矢量流线数据;

36、步骤s33:根据语义矢量流线数据进行流线稳定性评估,生成流线稳定评估数据;

37、步骤s34:基于语义矢量流线数据对语音语义矢量场数据进行语义涡流检测,生成语音涡流区域数据;

38、步骤s35:通过预设的多尺度滑动窗口对语义矢量流线数据进行平均速度计算,生成语义流线速度序列数据;

39、步骤s36:基于语义流线速度序列数据对语音涡流区域数据进行语义加速度提取,并进行涡流强度量化,生成涡流强度数据;

40、步骤s37:通过涡流强度数据、语音涡流区域数据以及流线稳定评估数据对语音语义矢量场数据进行语音噪声区域标记,生成语义噪声区域数据。

41、本发明根据语音语义轨迹数据以及语义嵌入空间数据进行语义矢量场构建,将语音信号的语义信息以空间向量的形式表示,提供了对语音内容的全面理解。对语音语义矢量场数据进行网格张量特征分析,能够提取语义矢量场中的重要特征,揭示语音信号的结构特征。通过网格语义张量数据对语音语义矢量场数据进行语义矢量流线追踪,能够显示语义信息在空间中的流动和变化,帮助识别语音信号的动态特征。通过对语义矢量流线数据的分析,判断流线的连续性和一致性,有助于识别出因噪声干扰导致的流线中断或不规则变化。通过涡流检测,能够识别出语音信号中的复杂模式和潜在噪声区域。语音涡流区域数据帮助确定语音信号中存在干扰的部分。流线速度的计算能够揭示语音信号在不同时间尺度上的变化特征。通过提取语义加速度,可以分析语音信号的变化趋势,量化涡流强度则有助于评估噪声对语音信号的影响。通过综合考虑涡流强度和流线稳定性,能够准确识别和标记语音信号中的噪声区域。

42、优选地,步骤s31包括以下步骤:

43、步骤s311:根据语义嵌入空间数据进行语义空间网格化处理,生成网格语义空间数据;对网格语义空间数据进行初始语义势能值计算,生成初始语义势能数据;

44、步骤s312:通过初始语义势能数据对网格语义空间数据进行初始矢量场构建,得到初始语义矢量场数据;

45、步骤s313:通过语音语义轨迹数据对初始语义矢量场数据进行矢量场动态调整,生成动态语义矢量场数据;其中,步骤s313具体为:

46、步骤s3131:利用语音语义轨迹数据对网格语义空间数据进行语义轨迹映射处理,生成语义轨迹网格序列数据;

47、步骤s3132:利用网格语义空间数据对语义轨迹网格序列数据进行网格剔除,得到非语义轨迹网格数据;

48、步骤s3133:基于语义轨迹网格序列数据利用语音语义轨迹数据对初始语义矢量场数据进行语义轨迹矢量调整,生成语义轨迹矢量调整数据;

49、步骤s3134:基于非语义轨迹网格数据利用语义轨迹矢量调整数据对初始语义矢量场数据进行势能场扩散模拟,并进行矢量调整值推导,生成非轨迹矢量调整数据;

50、步骤s3135:通过语义轨迹矢量调整数据以及非轨迹矢量调整数据对初始语义矢量场数据进行矢量场动态调整,生成动态语义矢量场数据;

51、步骤s314:根据动态语义矢量场数据进行矢量场平滑优化,生成语音语义矢量场数据。

52、本发明通过将语义嵌入空间划分为多个网格,可以更系统地组织和表示语义信息,能够在细粒度上捕捉语义变化。通过计算势能值,构建的初始语义矢量场能够有效地反映语义信息在空间中的分布特征,识别出语义高低点,能够帮助确定语义信息的优先级。通过语音语义轨迹数据对初始语义矢量场数据进行矢量场动态调整,能够实时反映语音信号的变化,增强对语音内容的适应性。通过映射语音语义轨迹到网格语义空间,明确了语义流动的路径。利用网格语义空间数据对语义轨迹网格序列数据进行网格剔除,效区分了噪声或无关信号影响的区域。通过语义轨迹矢量调整和非轨迹矢量调整,实现了对初始语义矢量场的精确优化。前者针对主要语义轨迹进行直接的矢量调整,确保了语义信息的准确表达;后者通过势能场扩散模拟和矢量调整值推导,对非语义区域进行了合理的平滑和调整,有效抑制了噪声对矢量场的干扰,保持了矢量场的整体连贯性。经过平滑处理的语音语义矢量场数据能够更准确地反映语音信号的真实特征,消除不必要噪声带来的波动。

53、优选地,步骤s4包括以下步骤:

54、步骤s41:通过语义噪声区域数据对语音语义矢量场数据进行噪声抑制处理,并进行矢量场自适应去噪处理,生成降噪语义矢量场数据;

55、步骤s42:利用语音语义轨迹数据对降噪语义矢量场数据进行语义轨迹重映射处理,生成语义轨迹重映射数据;

56、步骤s43:通过语义轨迹重映射数据对语音语义矢量场数据进行动态势能约束,并进行轨迹漂移势能计算,得到语义轨迹漂移势能数据;

57、步骤s44:基于预设的噪声势能阈值通过语义轨迹漂移势能数据对语音语义轨迹数据进行关键语义噪声帧识别,并进行声学特征逆映射,生成语音关键噪声帧数据;

58、步骤s45:通过语音关键噪声帧数据对分帧语音信号数据进行噪音帧修复处理,生成降噪语音信号数据。

59、本发明通过针对语义噪声区域数据进行的噪声抑制处理,矢量场自适应去噪处理根据语音信号的特性和噪声分布自适应调整去噪策略,避免了过度去噪造成的有用信息损失,保证了降噪语义矢量场数据的高质量,直接针对已识别的噪声区域采取措施,有效减小了噪声对语音信号的干扰。通过重映射处理,可以将降噪后的语义矢量场数据与实际的语义轨迹进行对齐,确保语音信号的语义信息能够准确反映其动态变化。通过动态势能约束和轨迹漂移势能计算,量化了语义轨迹在去噪处理后出现的微小偏移或不连续性。通过对比语义轨迹漂移势能数据,准确识别出那些受到噪声严重影响的关键帧,声学特征逆映射则将识别出的噪声影响转化为原始语音信号中的具体帧,为实际信号修复操作建立了直接的联系。通过语音关键噪声帧数据对分帧语音信号数据进行的噪音帧修复处理,直接针对被噪声污染的帧实施修复,不仅减少了噪声干扰,还尽可能地保留了语音信号的原始特征和语义完整性。生成的降噪语音信号数据在保持语音清晰度的同时,大幅度提升了语音质量。

60、优选地,步骤s5包括以下步骤:

61、步骤s51:对降噪语音信号数据进行时频分析,得到降噪语音频谱数据;对语音语义矢量场数据进行频域转化处理,生成语义频谱场数据;

62、步骤s52:根据降噪语音频谱数据进行多基频谱分解处理,生成多基频语音谱数据;

63、步骤s53:利用语义频谱场数据对多基频语音谱数据进行语义谐波关联分析,生成语义谐波关联矩阵数据;

64、步骤s54:根据语义谐波关联矩阵数据进行谐波语义置信度评估,并进行语音增强掩码处理,生成语音增强引导掩码数据;

65、步骤s55:通过语音增强引导掩码数据对降噪语音频谱数据进行语义增强处理,并进行听觉掩蔽频谱修正,生成修正语音频谱数据;

66、步骤s56:根据修正语音频谱数据进行语音信号重构处理,生成增强语音信号数据。

67、本发明通过时频分析能够有效地将语音信号在时间和频率域中进行表示,揭示出语音的频域特性。通过多基频谱分解,能够将复杂的语音信号分解成多个频率成分,使得每个频率成分的特征更加明显,揭示了语音信号中各个频率成分的细微差异。通过分析语义频谱场与语音谱之间的谐波关系,能够识别出语音信号中的重要频率成分及其与语义的关联性。根据语义谐波关联矩阵数据进行的谐波语义置信度评估,评估了各个频谱成分对于传达语义信息的贡献度,通过语音增强掩码处理生成的语音增强引导掩码数据,有效指明了哪些频谱成分应该被加强或削弱。通过语音增强引导掩码数据对降噪语音频谱数据进行的语义增强处理,针对性地增强了语音信号中携带重要语义信息的频谱成分,结合听觉掩蔽频谱修正,进一步根据人类听觉系统的特性调整频谱,生成的修正语音频谱数据在提高语音清晰度的同时,使得人耳对语音信号的感知更加自然和清晰,确保了增强后的语音信号更符合听觉特性。

68、优选地,本发明还提供一种语音信号降噪系统,执行如上所述的语音信号降噪方法,该语音信号降噪系统包括:

69、自适应分帧模块,用于对待处理语音信号数据进行自适应分帧处理,得到分帧语音信号数据;根据分帧语音信号数据进行基频声纹特征融合,生成初始声纹基底数据;

70、语音语义分析模块,用于根据初始声纹基底数据进行声学上下文增强处理,生成声学特征向量数据;通过声学特征向量数据对分帧语音信号数据进行语义嵌入空间处理,得到语义嵌入空间数据;根据语义嵌入空间数据进行时序语义轨迹处理,得到语音语义轨迹数据;

71、语音噪声识别模块,用于根据语音语义轨迹数据以及语义嵌入空间数据进行语义矢量场构建,生成语音语义矢量场数据;对语音语义矢量场数据进行语音噪声区域标记,生成语义噪声区域数据;

72、语音噪声修复模块,用于通过语义噪声区域数据对语音语义矢量场数据进行噪声抑制处理,生成降噪语义矢量场数据;利用降噪语义矢量场数据对语音语义轨迹数据进行关键语义噪声帧识别,生成语音关键噪声帧数据;根据语音关键噪声帧数据进行噪音帧修复处理,生成降噪语音信号数据;

73、语音信号增强模块,用于对降噪语音信号数据进行多基频谱分解处理,生成多基频语音谱数据;根据多基频语音谱数据进行听觉掩蔽频谱修正,并进行语音信号重构处理,生成增强语音信号数据。

74、优选地,本发明还提供了一种语音信号降噪设备,包括:

75、存储器,用于存储计算机程序;

76、处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述的语音信号降噪方法的步骤。


技术特征:

1.一种语音信号降噪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的语音信号降噪方法,其特征在于,步骤s1包括以下步骤:

3.根据权利要求1所述的语音信号降噪方法,其特征在于,步骤s2包括以下步骤:

4.根据权利要求3所述的语音信号降噪方法,其特征在于,步骤s23包括以下步骤:

5.根据权利要求1所述的语音信号降噪方法,其特征在于,步骤s3包括以下步骤:

6.根据权利要求5所述的语音信号降噪方法,其特征在于,步骤s31包括以下步骤:

7.根据权利要求1所述的语音信号降噪方法,其特征在于,步骤s4包括以下步骤:

8.根据权利要求1所述的语音信号降噪方法,其特征在于,步骤s5包括以下步骤:

9.一种语音信号降噪系统,其特征在于,用于执行如权利要求1所述的语音信号降噪方法,该语音信号降噪系统包括:

10.一种语音信号降噪设备,其特征在于,包括:


技术总结
本发明涉及语音信号处理技术领域,尤其涉及一种语音信号降噪方法、系统及设备。所述方法包括以下步骤:对待处理语音信号数据进行自适应分帧处理,得到分帧语音信号数据;根据分帧语音信号数据进行语义嵌入空间处理,得到语义嵌入空间数据;根据语义嵌入空间数据进行语义矢量场构建,生成语音语义矢量场数据;对语音语义矢量场数据进行语音噪声区域标记,生成语义噪声区域数据;根据语义噪声区域数据进行噪音帧修复处理,生成降噪语音信号数据;对降噪语音信号数据进行听觉掩蔽频谱修正,生成增强语音信号数据。本发明通过语义信息精准引导语音信号降噪,即使在低信噪比等复杂场景下,依然能够取得卓越的降噪效果,显著提升用户体验。

技术研发人员:周陈,胡长风,唐少雄,杨轲淇,涂胜军,杨云波,夏成刚,雷霆
受保护的技术使用者:湖南中科优信科技有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-20154.html

最新回复(0)