摘要
本发明属于多模态大模型技术领域,具体涉及一种基于位置索引的通用跨模态指代表示方法。具体过程为:设置跨模态指代映射器和位置集合编码器,并在大语言模型中引入注意力重加权模块;设置跨模态指代映射器用于将图像或文本中的指代区域转换为其在token序列中的索引集合Iref;设置位置集合编码器用于将位置索引集合Iref编码为向量表示xref,并联合视觉编码器编码的视觉token向量和经文本Token嵌入映射的文本token向量,作为大语言模型的输入序列X;大语言模型对输入序列X进行特征交互,输出跨模态指代表示;在所述特征交互过程中,利用注意力重加权模块对大语言模型中的助理力权重进行动态加权。
技术关键词
跨模态
大语言模型
索引
注意力
编码器
文本
序列
多模态
动态
模块
视觉
语义
解码
图像
矩阵