一种基于唇部动作的政务场景多模态语音交互方法

AITNT
正文
推荐专利
一种基于唇部动作的政务场景多模态语音交互方法
申请号:CN202411082901
申请日期:2024-08-07
公开号:CN119065499A
公开日期:2024-12-03
类型:发明专利
摘要
本发明涉及政务服务技术领域,具体涉及一种基于唇部动作的政务场景多模态语音交互方法,交互方法包括:采集人脸信息,自动唤醒设备,用户进行交互;对阵列麦音频信号进行增强和定位;实时采集用户的语音输入,利用语音处理算法提取语音特征;捕获用户的唇部动作视频,实时分析唇部的形态变化和口型轮廓;将语音特征和唇部运动特征进行综合分析,形成综合的用户交互信息,进行多模态信息融合;基于多模态信息进行语音和唇部动作进行协同分析与识别;基于采集到的音频信号,传输给到NLP大模型进行需求匹配;建立高精度的数字人模型。本发明通过对面部表情细节的捕捉,能实现在复杂环境下高效地进行识别,且识别准确性高。
技术关键词
多模态语音 交互方法 语音特征 高灵敏度麦克风 多模态信息融合 音频 波束 运动特征 场景 双目摄像头 唤醒设备 政务服务技术 高清摄像设备 消除背景噪声 信号 关键点
系统为您推荐了相关专利信息
1
一种基于多模态数据的心理测评方法及设备、存储介质
心理测评方法 多模态 表情特征 文本 特征提取模型
2
一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置
语音识别模型 嵌入式设备 音频 同步字幕 自动化语音识别
3
一种电池管理系统的数据交互方法
数据交互方法 电池管理系统 综合评估模型 异常信号 存储器
4
一种基于语音的车载充电器交互方法及系统
车载充电器 加密数据 TLS协议 交互模型 语音
5
一种仿生机构的交互方法
仿生机构 交互方法 动力组件 柔性触觉传感器 仿生眼球
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号