摘要
本发明公开了一种基于场景生成数字人的方法,属于数据处理技术领域,具体包括:对图像特征以及文本特征进行提取,采用注意力机制进行跨模态检索,分别学习基于图像的区域特征和基于文本的词汇特征;采用改进的门控机制加强图像-文本的语义匹配,过滤掉不相关的信息,生成新的图像和文本;分别计算图像和文本的相似度,采用计算局部的相似性,求和平均得到图像和文本的相似度;采用最大硬度的排序损失函数对设定批量的图像-文本匹配进行训练;本发明通过采用深度学习算法、注意力机制、改进的门控机制和最大硬度的排序损失函数等技术手段,实现了基于场景生成数字人的方法,从而提高了数字人生成的质量和效率。
技术关键词
排序损失
图像
词袋模型
注意力机制
文本分类模型
深度学习算法
场景
实体
跨模态
线索
样本
词典
上下文特征
深度学习模型
数据处理技术
残差网络
序列
批量
系统为您推荐了相关专利信息
巡检机器人
多维监测
状态监测数据
识别方法
邻域
车辆轨迹预测方法
历史轨迹数据
地图特征
图像块
交互特征
图片
视频生成方法
图像生成模型
计算机设备
视频生成装置