摘要
本发明提供一种基于视频的实时多模态数字人AIGC交互技术,所述实时多模态数字人AIGC交互技术包括数字人实时交互以及多模态交互,对于每个数字人,无需单独进行训练,能够提升数字人的清晰度以及渲染速度,对于多模态交互的部分首先通过调用外部摄像头的方式,获取一系列的图像帧,随后将这些图像帧输入到视觉大模型中,实现多模态交互的能力,让数字人能够进行图像识别,在拥有实时交互能力后,使得数字人技术能够在更多的对实时交互有需求的场景下得到应用,例如客服、展示展览、导游等;在拥有多模态交互能力后,本发明使得数字人能够具有更多的交互方式,接收更多的信息输入,极大增强了数字人的应用面。
技术关键词
多模态交互
交互技术
视频
人脸图片
音频块
文本
语音
图像
AR眼镜
数据
输入设备
坐标
闭环
采样率
程序
视觉
导游
系统为您推荐了相关专利信息
动作识别模型
动作识别方法
视频帧
透视投影矩阵
俯仰角数据
视频帧
视频编码
手势识别系统
手势识别模块
手势关键点
引入注意力机制
脚本
时间序列模型
多分辨率
海报设计
动作识别方法
融合特征
预测类别
压缩特征
标签类别