基于唇语增强的语音交互方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于唇语增强的语音交互方法、装置、设备及存储介质
申请号:CN202510881883
申请日期:2025-06-27
公开号:CN120600019A
公开日期:2025-09-05
类型:发明专利
摘要
本发明公开了基于唇语增强的语音交互方法、装置、设备及存储介质,基于唇语增强的语音交互方法包括:基于唇部区域的图像序列提取唇语特征,对语音信号进行特征提取得到音频特征;将唇语特征和音频特征进行跨模态融合编码,生成包含视听信息的混合特征;将混合特征输入到大语言模型中,理解交互对象的意图并生成相应的语义回复;最后合成为语音和/后转换为文字。本发明通过引入唇部特征,为语音识别提供额外的视觉线索,能够显著提高语音识别的鲁棒性和准确性;将唇语特征和声音特征进行有效的融合编码,避免了简单独立识别造成的语义信息割裂;且充分利用大模型的能力,实现更自然、更智能的交互体验。
技术关键词
语音交互方法 音频特征 关键点检测算法 唇语特征 跨模态 人脸检测模型 视频流 视听 语义 序列 编码 面部 Softmax函数 预测运动轨迹 注意力 语音交互装置 人脸特征向量 图像
系统为您推荐了相关专利信息
1
基于多模态时空特征融合的异常机动动作检测与识别方法
动作识别模型 BP神经网络模型 多模态 识别方法 动作特征
2
一种船舶驾驶台值班人员夜航不安全行为辨识和预警方法
船舶驾驶台 预警方法 风险评估算法 关键点检测算法 人体特征
3
一种用于精神分裂症早期检测和风险预测系统
风险预测系统 在线序列极限学习机 特征提取模块 机器学习分类器 语音特征
4
一种基于机器学习的诈骗电话识别方法
诈骗电话识别方法 机器学习模型 数据 注意力 信息通信安全技术
5
基于多尺度特征融合的工业表面缺陷检测方法
表面缺陷检测方法 多尺度特征融合 多模态传感器 演化特征 纹理特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号