摘要
本发明涉及人工智能技术领域,公开了多模态图文生成方法、装置、设备及存储介质,方法包括:对预设产品图像进行特征提取,生成第一特征向量,采用预设的多层感知机对第一特征向量进行转换,得到转换后的第一特征向量;将转换后的第一特征向量和第二特征向量进行拼接,得到第三特征向量;对第三特征向量进行编码,得到第四特征向量;将第四特征向量输入多模态模型的生成器,获取生成器基于第四特征向量输出的预测多模态图文,根据预测多模态图文和预设多模态图文之间的损失值,训练多模态模型;获取训练后的多模态模型基于当前产品图像生成的当前多模态图文。本发明有利于提高当前多模态图文的生成效率,可应用于金融科技业务领域中。
技术关键词
多模态
图文
生成方法
多层感知机
图像
编码器
可读存储介质
人工智能技术
处理器
注意力机制
编码模块
生成装置
网络
计算机设备
输入模块
存储器
金融
系统为您推荐了相关专利信息
沥青路面
集料颗粒
图像处理技术
序列预测模型
图像分割网络
面膜布
深度卷积生成对抗网络
关键特征点
人体特征
语义分割技术
水表自动检测系统
物联网水表
运动驱动装置
网络检测模型
供水装置
注意力机制
迁移方法
视觉特征
跨模态融合特征
文本
识别分析系统
配准图像序列
CT造影图像
脑血管病变
引入注意力机制