一种调用摄像头实现数字人实时双向视觉交互方法及系统

AITNT
正文
推荐专利
一种调用摄像头实现数字人实时双向视觉交互方法及系统
申请号:CN202511025157
申请日期:2025-07-24
公开号:CN120523334B
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种调用摄像头实现数字人实时双向视觉交互方法及系统,属于多模态交互技术领域,所述方法包括:通过移动终端摄像头实时采集用户及环境的视频流,并同步获取用户自然语言提问;基于提问语义筛选相关视频关键;利用多模态模型对所述提问文本和关键帧图像进行跨模态语义融合分析,生成相应的答案结果;由虚拟数字人通过语音合成与同步的拟人化动画输出回答,实现数字人与用户之间的实时图文问答交互。本发明针对现有数字人交互中缺乏视觉情境感的问题,提出了端云协同的视觉问答交互方案,能够有效降低移动端视频语义处理负荷,实现端云协同的实时图文问答交互,大幅提升数字人对环境的感知能力,以及用户交互体验的直观性和自然性。
技术关键词
关键帧 视觉交互方法 云端服务器 视觉特征 语言编码器 跨模态 多模态 语义特征 网络连接状态 终端设备 图像 视觉交互系统 视频流 文本 移动终端摄像头 注意力机制 模块 图文
系统为您推荐了相关专利信息
1
一种基于多模态大模型的问答方法、装置、设备及介质
问答方法 自然语言 视觉特征 融合特征 置信度阈值
2
一种移动网页伪装检测方法及系统
伪装检测方法 网页访问数据 分类特征 关键词 Chrome浏览器
3
一种基于云平台的数据管理处理系统及方法
风险 桥梁结构损伤 数据管理 结构损伤定位 云平台
4
一种基于深度学习的吸烟检测方法和系统
图像特征数据 吸烟检测方法 吸烟检测系统 脑电信号识别 运动特征
5
分布式多智能体的区域交通控制方法、系统及电子设备
区域交通控制方法 区域交通协调控制系统 控制策略 决策 车道
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号