一种调用摄像头实现数字人实时双向视觉交互方法及系统

正文

推荐专利

申请号：CN202511025157

申请日期：2025-07-24

公开号：CN120523334B

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种调用摄像头实现数字人实时双向视觉交互方法及系统，属于多模态交互技术领域，所述方法包括：通过移动终端摄像头实时采集用户及环境的视频流，并同步获取用户自然语言提问；基于提问语义筛选相关视频关键；利用多模态模型对所述提问文本和关键帧图像进行跨模态语义融合分析，生成相应的答案结果；由虚拟数字人通过语音合成与同步的拟人化动画输出回答，实现数字人与用户之间的实时图文问答交互。本发明针对现有数字人交互中缺乏视觉情境感的问题，提出了端云协同的视觉问答交互方案，能够有效降低移动端视频语义处理负荷，实现端云协同的实时图文问答交互，大幅提升数字人对环境的感知能力，以及用户交互体验的直观性和自然性。

技术关键词

关键帧视觉交互方法云端服务器视觉特征语言编码器跨模态多模态语义特征网络连接状态终端设备图像视觉交互系统视频流文本移动终端摄像头注意力机制模块图文

系统为您推荐了相关专利信息

一种基于多模态大模型的问答方法、装置、设备及介质

问答方法自然语言视觉特征融合特征置信度阈值

一种移动网页伪装检测方法及系统

伪装检测方法网页访问数据分类特征关键词 Chrome浏览器

一种基于云平台的数据管理处理系统及方法

风险桥梁结构损伤数据管理结构损伤定位云平台

一种基于深度学习的吸烟检测方法和系统

图像特征数据吸烟检测方法吸烟检测系统脑电信号识别运动特征

分布式多智能体的区域交通控制方法、系统及电子设备

区域交通控制方法区域交通协调控制系统控制策略决策车道

一种调用摄像头实现数字人实时双向视觉交互方法及系统

站点导航

APP 下载