摘要
本说明书实施例涉及一种训练图文联合编码模型的方法及装置,方法包括:首先,将第一图文对包括的第一图像和第一文本输入到大语言模型中,指示大语言模型通过引入第一图像中的语义内容来改写第一文本,以得到第一总结文本;然后,利用图文联合编码模型,将第一图像和第一文本分别对应的第一图像表征和第一文本表征进行聚合编码,得到第一联合表征;接下来,将第一联合表征与第一总结文本对应的第一总结表征进行掩码交叉注意力计算,得到第一掩码表征;然后,对第一掩码表征进行解码,得到第一重构文本;最后,根据训练损失更新图文联合编码模型,其中,训练损失至少包括,根据第一重构文本与第一总结文本之间差异确定的重构损失。
技术关键词
文本
图文
注意力
大语言模型
编码
重构
样本
掩码矩阵
图像块
语义
聚类
解码单元
计算机
可读存储介质
存储器
处理器
模块
系统为您推荐了相关专利信息
自动识别系统
多模态数据融合
记忆机制
模拟人类视觉系统
遥感数据处理
交互系统
子模块
虚拟现实环境
扩展接口模块
数据存储模块
信息展示系统
加权主成分分析方法
差异可视化
通道
终端设备
修复方法
子模块
感知损失函数
采样模块
收集训练数据