一种基于视频的实时多模态数字人AIGC交互技术

正文

推荐专利

申请号：CN202510873060

申请日期：2025-06-27

公开号：CN120526795A

公开日期：2025-08-22

类型：发明专利

摘要

本发明提供一种基于视频的实时多模态数字人AIGC交互技术，所述实时多模态数字人AIGC交互技术包括数字人实时交互以及多模态交互，对于每个数字人，无需单独进行训练，能够提升数字人的清晰度以及渲染速度，对于多模态交互的部分首先通过调用外部摄像头的方式，获取一系列的图像帧，随后将这些图像帧输入到视觉大模型中，实现多模态交互的能力，让数字人能够进行图像识别，在拥有实时交互能力后，使得数字人技术能够在更多的对实时交互有需求的场景下得到应用，例如客服、展示展览、导游等；在拥有多模态交互能力后，本发明使得数字人能够具有更多的交互方式，接收更多的信息输入，极大增强了数字人的应用面。

技术关键词

多模态交互交互技术视频人脸图片音频块文本语音图像 AR眼镜数据输入设备坐标闭环采样率程序视觉导游

系统为您推荐了相关专利信息

基于VR技术的动作识别方法、系统、设备及存储介质

动作识别模型动作识别方法视频帧透视投影矩阵俯仰角数据

一种基于视频编码的手势识别系统及方法

视频帧视频编码手势识别系统手势识别模块手势关键点

一种短剧制作方法、系统、设备及介质

引入注意力机制脚本时间序列模型多分辨率海报设计

动作识别方法、装置、电子设备及存储介质

动作识别方法融合特征预测类别压缩特征标签类别

一种音视频高效处理系统及多任务转换方法、系统及介质

音视频多任务转换方法区块链存证转换器

一种基于视频的实时多模态数字人AIGC交互技术

站点导航

APP 下载