图文处理方法、图文处理模型的训练方法及电子设备

正文

推荐专利

申请号：CN202410997542

申请日期：2024-07-24

公开号：CN118537683B

公开日期：2024-11-15

类型：发明专利

摘要

本申请提供了一种图文处理方法、图文处理模型的训练方法及电子设备，涉及人工智能技术领域，包括：获取待处理图像和待处理图像对应的待处理文本；将待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合，得到多个图像令牌分别对应的聚合之后的权重；根据多个图像令牌分别对应的聚合之后的权重，对多个图像令牌进行删减；基于剩余的图像令牌、待处理文本的多个第一文本令牌和大语言模型，得到图文处理结果。本实施例中，多层的注意力权重进行聚合，根据聚合之后的权重，对图像令牌进行删减，从而减少图像令牌的数量。通过对多层的注意力权重进行聚合，可以使图像令牌的选择注意力更具鲁棒性，在提高图文处理速度的同时保证结果的准确性。

技术关键词

令牌图文注意力文本编码器大语言模型语义计算机程序产品编码特征图像编码电子设备建立映射关系可读存储介质样本人工智能技术处理器存储器鲁棒性

系统为您推荐了相关专利信息

一种音频设备故障的智能预测性维护系统

音频设备长短期记忆神经网络时间序列特征音频特征提取多源运行数据

一种基于语音交互与视觉透视的网约车乘客位置快速定位方法

快速定位方法静态特征图像视觉投影仪

一种融合注意力机制的CFRP蜂窝铝夹芯板冲击能量预测方法

融合注意力机制深度学习网络模型蜂窝铝夹芯板层合板

基于多重特征低秩适配器的扩散变压器虚拟换装方法

衣物图像适配器多模态注意力虚拟换装方法变压器

基于变分特征融合和小波稠密残差注意力的光谱重构方法

光谱重构方法注意力离散小波变换单元子模块深度学习网络模型

图文处理方法、图文处理模型的训练方法及电子设备

站点导航

APP 下载