基于唇语增强的语音交互方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510881883

申请日期：2025-06-27

公开号：CN120600019A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了基于唇语增强的语音交互方法、装置、设备及存储介质，基于唇语增强的语音交互方法包括：基于唇部区域的图像序列提取唇语特征，对语音信号进行特征提取得到音频特征；将唇语特征和音频特征进行跨模态融合编码，生成包含视听信息的混合特征；将混合特征输入到大语言模型中，理解交互对象的意图并生成相应的语义回复；最后合成为语音和/后转换为文字。本发明通过引入唇部特征，为语音识别提供额外的视觉线索，能够显著提高语音识别的鲁棒性和准确性；将唇语特征和声音特征进行有效的融合编码，避免了简单独立识别造成的语义信息割裂；且充分利用大模型的能力，实现更自然、更智能的交互体验。

技术关键词

语音交互方法音频特征关键点检测算法唇语特征跨模态人脸检测模型视频流视听语义序列编码面部 Softmax函数预测运动轨迹注意力语音交互装置人脸特征向量图像

系统为您推荐了相关专利信息

基于多模态时空特征融合的异常机动动作检测与识别方法

动作识别模型 BP神经网络模型多模态识别方法动作特征

一种船舶驾驶台值班人员夜航不安全行为辨识和预警方法

船舶驾驶台预警方法风险评估算法关键点检测算法人体特征

一种用于精神分裂症早期检测和风险预测系统

风险预测系统在线序列极限学习机特征提取模块机器学习分类器语音特征

一种基于机器学习的诈骗电话识别方法

诈骗电话识别方法机器学习模型数据注意力信息通信安全技术

基于多尺度特征融合的工业表面缺陷检测方法

表面缺陷检测方法多尺度特征融合多模态传感器演化特征纹理特征提取

基于唇语增强的语音交互方法、装置、设备及存储介质

站点导航

APP 下载