摘要
本发明涉及政务服务技术领域,具体涉及一种基于唇部动作的政务场景多模态语音交互方法,交互方法包括:采集人脸信息,自动唤醒设备,用户进行交互;对阵列麦音频信号进行增强和定位;实时采集用户的语音输入,利用语音处理算法提取语音特征;捕获用户的唇部动作视频,实时分析唇部的形态变化和口型轮廓;将语音特征和唇部运动特征进行综合分析,形成综合的用户交互信息,进行多模态信息融合;基于多模态信息进行语音和唇部动作进行协同分析与识别;基于采集到的音频信号,传输给到NLP大模型进行需求匹配;建立高精度的数字人模型。本发明通过对面部表情细节的捕捉,能实现在复杂环境下高效地进行识别,且识别准确性高。
技术关键词
多模态语音
交互方法
语音特征
高灵敏度麦克风
多模态信息融合
音频
波束
运动特征
场景
双目摄像头
唤醒设备
政务服务技术
高清摄像设备
消除背景噪声
信号
关键点
系统为您推荐了相关专利信息
心理测评方法
多模态
表情特征
文本
特征提取模型
语音识别模型
嵌入式设备
音频
同步字幕
自动化语音识别
数据交互方法
电池管理系统
综合评估模型
异常信号
存储器
仿生机构
交互方法
动力组件
柔性触觉传感器
仿生眼球