摘要
本申请提供了一种图文处理方法、图文处理模型的训练方法及电子设备,涉及人工智能技术领域,包括:获取待处理图像和待处理图像对应的待处理文本;将待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合,得到多个图像令牌分别对应的聚合之后的权重;根据多个图像令牌分别对应的聚合之后的权重,对多个图像令牌进行删减;基于剩余的图像令牌、待处理文本的多个第一文本令牌和大语言模型,得到图文处理结果。本实施例中,多层的注意力权重进行聚合,根据聚合之后的权重,对图像令牌进行删减,从而减少图像令牌的数量。通过对多层的注意力权重进行聚合,可以使图像令牌的选择注意力更具鲁棒性,在提高图文处理速度的同时保证结果的准确性。
技术关键词
令牌
图文
注意力
文本编码器
大语言模型
语义
计算机程序产品
编码特征
图像编码
电子设备
建立映射关系
可读存储介质
样本
人工智能技术
处理器
存储器
鲁棒性
系统为您推荐了相关专利信息
音频设备
长短期记忆神经网络
时间序列特征
音频特征提取
多源运行数据
融合注意力机制
深度学习网络模型
蜂窝铝
夹芯板
层合板
衣物图像
适配器
多模态注意力
虚拟换装方法
变压器
光谱重构方法
注意力
离散小波变换单元
子模块
深度学习网络模型