一种基于唇部动作的政务场景多模态语音交互方法

正文

推荐专利

申请号：CN202411082901

申请日期：2024-08-07

公开号：CN119065499A

公开日期：2024-12-03

类型：发明专利

摘要

本发明涉及政务服务技术领域，具体涉及一种基于唇部动作的政务场景多模态语音交互方法，交互方法包括：采集人脸信息，自动唤醒设备，用户进行交互；对阵列麦音频信号进行增强和定位；实时采集用户的语音输入，利用语音处理算法提取语音特征；捕获用户的唇部动作视频，实时分析唇部的形态变化和口型轮廓；将语音特征和唇部运动特征进行综合分析，形成综合的用户交互信息，进行多模态信息融合；基于多模态信息进行语音和唇部动作进行协同分析与识别；基于采集到的音频信号，传输给到NLP大模型进行需求匹配；建立高精度的数字人模型。本发明通过对面部表情细节的捕捉，能实现在复杂环境下高效地进行识别，且识别准确性高。

技术关键词

多模态语音交互方法语音特征高灵敏度麦克风多模态信息融合音频波束运动特征场景双目摄像头唤醒设备政务服务技术高清摄像设备消除背景噪声信号关键点

系统为您推荐了相关专利信息

一种基于多模态数据的心理测评方法及设备、存储介质

心理测评方法多模态表情特征文本特征提取模型

一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置

语音识别模型嵌入式设备音频同步字幕自动化语音识别

一种电池管理系统的数据交互方法

数据交互方法电池管理系统综合评估模型异常信号存储器

一种基于语音的车载充电器交互方法及系统

车载充电器加密数据 TLS协议交互模型语音

一种仿生机构的交互方法

仿生机构交互方法动力组件柔性触觉传感器仿生眼球

一种基于唇部动作的政务场景多模态语音交互方法

站点导航

APP 下载