训练图文联合编码模型的方法及装置

正文

推荐专利

训练图文联合编码模型的方法及装置

申请号：CN202510436235

申请日期：2025-04-08

公开号：CN120411986A

公开日期：2025-08-01

类型：发明专利

摘要

本说明书实施例涉及一种训练图文联合编码模型的方法及装置，方法包括：首先，将第一图文对包括的第一图像和第一文本输入到大语言模型中，指示大语言模型通过引入第一图像中的语义内容来改写第一文本，以得到第一总结文本；然后，利用图文联合编码模型，将第一图像和第一文本分别对应的第一图像表征和第一文本表征进行聚合编码，得到第一联合表征；接下来，将第一联合表征与第一总结文本对应的第一总结表征进行掩码交叉注意力计算，得到第一掩码表征；然后，对第一掩码表征进行解码，得到第一重构文本；最后，根据训练损失更新图文联合编码模型，其中，训练损失至少包括，根据第一重构文本与第一总结文本之间差异确定的重构损失。

技术关键词

文本图文注意力大语言模型编码重构样本掩码矩阵图像块语义聚类解码单元计算机可读存储介质存储器处理器模块

系统为您推荐了相关专利信息

一种基于多维度边优化溯源图的APT攻击检测方法

攻击检测方法攻击检测模型日志时序异构

一种基于卫星定位的遥感自动识别系统

自动识别系统多模态数据融合记忆机制模拟人类视觉系统遥感数据处理

一种融合AIGC与虚拟现实的元宇宙内容创作与交互系统

交互系统子模块虚拟现实环境扩展接口模块数据存储模块

基于端端协同的智能信息展示系统

信息展示系统加权主成分分析方法差异可视化通道终端设备

基于边缘图和语义图引导的山水画修复方法

修复方法子模块感知损失函数采样模块收集训练数据

训练图文联合编码模型的方法及装置

站点导航

APP 下载