训练图文联合编码模型的方法及装置

AITNT
正文
推荐专利
训练图文联合编码模型的方法及装置
申请号:CN202510436235
申请日期:2025-04-08
公开号:CN120411986A
公开日期:2025-08-01
类型:发明专利
摘要
本说明书实施例涉及一种训练图文联合编码模型的方法及装置,方法包括:首先,将第一图文对包括的第一图像和第一文本输入到大语言模型中,指示大语言模型通过引入第一图像中的语义内容来改写第一文本,以得到第一总结文本;然后,利用图文联合编码模型,将第一图像和第一文本分别对应的第一图像表征和第一文本表征进行聚合编码,得到第一联合表征;接下来,将第一联合表征与第一总结文本对应的第一总结表征进行掩码交叉注意力计算,得到第一掩码表征;然后,对第一掩码表征进行解码,得到第一重构文本;最后,根据训练损失更新图文联合编码模型,其中,训练损失至少包括,根据第一重构文本与第一总结文本之间差异确定的重构损失。
技术关键词
文本 图文 注意力 大语言模型 编码 重构 样本 掩码矩阵 图像块 语义 聚类 解码单元 计算机 可读存储介质 存储器 处理器 模块
系统为您推荐了相关专利信息
1
一种基于多维度边优化溯源图的APT攻击检测方法
攻击检测方法 攻击检测模型 日志 时序 异构
2
一种基于卫星定位的遥感自动识别系统
自动识别系统 多模态数据融合 记忆机制 模拟人类视觉系统 遥感数据处理
3
一种融合AIGC与虚拟现实的元宇宙内容创作与交互系统
交互系统 子模块 虚拟现实环境 扩展接口模块 数据存储模块
4
基于端端协同的智能信息展示系统
信息展示系统 加权主成分分析方法 差异可视化 通道 终端设备
5
基于边缘图和语义图引导的山水画修复方法
修复方法 子模块 感知损失函数 采样模块 收集训练数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号