摘要
本发明属于自然语言处理技术领域,公开一种数字人语音交互抗干扰方法、系统、设备及介质,该方法包括:捕获音频信号,并通过语音预处理,优化音频信号的语音质量与采样率;基于文本数据,构建语言模型,并引入热词加权与自学习机制,训练语言模型的热词概率与泛化能力;实时识别音频信号中的流式语音,并提取流式语音中的关键词,捕捉及响应与关键词匹配的用户意图;将流式语音转换为文本字符串,通过动态滑动窗口匹配,识别意图匹配成功率,并在匹配成功后,下发数字人控制命令。本发明通过先进技术的集成和优化,提高语音识别的准确性和鲁棒性,显著改善数字人在噪声环境下的语音交互性能,从而提供更加流畅和自然的用户体验。
技术关键词
抗干扰方法
动态滑动窗口
构建语言模型
训练语言模型
关键词
文本
音频
采样率
信号
抗干扰系统
语音识别模块
机制
命令
实时语音
训练集
意图识别
数据
系统为您推荐了相关专利信息
关键词
分类档案
实时监控系统
神经网络模型
检测设备
关键词提取方法
短视频
滑动窗口
语义
DBSCAN算法
数据集获取方法
视频生成模型
数据格式
关键帧
文本