摘要
本发明公开了一种调用摄像头实现数字人实时双向视觉交互方法及系统,属于多模态交互技术领域,所述方法包括:通过移动终端摄像头实时采集用户及环境的视频流,并同步获取用户自然语言提问;基于提问语义筛选相关视频关键;利用多模态模型对所述提问文本和关键帧图像进行跨模态语义融合分析,生成相应的答案结果;由虚拟数字人通过语音合成与同步的拟人化动画输出回答,实现数字人与用户之间的实时图文问答交互。本发明针对现有数字人交互中缺乏视觉情境感的问题,提出了端云协同的视觉问答交互方案,能够有效降低移动端视频语义处理负荷,实现端云协同的实时图文问答交互,大幅提升数字人对环境的感知能力,以及用户交互体验的直观性和自然性。
技术关键词
关键帧
视觉交互方法
云端服务器
视觉特征
语言编码器
跨模态
多模态
语义特征
网络连接状态
终端设备
图像
视觉交互系统
视频流
文本
移动终端摄像头
注意力机制
模块
图文
系统为您推荐了相关专利信息
问答方法
自然语言
视觉特征
融合特征
置信度阈值
伪装检测方法
网页访问数据
分类特征
关键词
Chrome浏览器
风险
桥梁结构损伤
数据管理
结构损伤定位
云平台
图像特征数据
吸烟检测方法
吸烟检测系统
脑电信号识别
运动特征
区域交通控制方法
区域交通协调控制系统
控制策略
决策
车道