摘要
本发明公开了基于唇语增强的语音交互方法、装置、设备及存储介质,基于唇语增强的语音交互方法包括:基于唇部区域的图像序列提取唇语特征,对语音信号进行特征提取得到音频特征;将唇语特征和音频特征进行跨模态融合编码,生成包含视听信息的混合特征;将混合特征输入到大语言模型中,理解交互对象的意图并生成相应的语义回复;最后合成为语音和/后转换为文字。本发明通过引入唇部特征,为语音识别提供额外的视觉线索,能够显著提高语音识别的鲁棒性和准确性;将唇语特征和声音特征进行有效的融合编码,避免了简单独立识别造成的语义信息割裂;且充分利用大模型的能力,实现更自然、更智能的交互体验。
技术关键词
语音交互方法
音频特征
关键点检测算法
唇语特征
跨模态
人脸检测模型
视频流
视听
语义
序列
编码
面部
Softmax函数
预测运动轨迹
注意力
语音交互装置
人脸特征向量
图像
系统为您推荐了相关专利信息
动作识别模型
BP神经网络模型
多模态
识别方法
动作特征
船舶驾驶台
预警方法
风险评估算法
关键点检测算法
人体特征
风险预测系统
在线序列极限学习机
特征提取模块
机器学习分类器
语音特征
诈骗电话识别方法
机器学习模型
数据
注意力
信息通信安全技术
表面缺陷检测方法
多尺度特征融合
多模态传感器
演化特征
纹理特征提取