一种基于位置索引的通用跨模态指代表示方法

正文

推荐专利

申请号：CN202510757591

申请日期：2025-06-09

公开号：CN120805992A

公开日期：2025-10-17

类型：发明专利

摘要

本发明属于多模态大模型技术领域，具体涉及一种基于位置索引的通用跨模态指代表示方法。具体过程为：设置跨模态指代映射器和位置集合编码器，并在大语言模型中引入注意力重加权模块；设置跨模态指代映射器用于将图像或文本中的指代区域转换为其在token序列中的索引集合Iref；设置位置集合编码器用于将位置索引集合Iref编码为向量表示xref，并联合视觉编码器编码的视觉token向量和经文本Token嵌入映射的文本token向量，作为大语言模型的输入序列X；大语言模型对输入序列X进行特征交互，输出跨模态指代表示；在所述特征交互过程中，利用注意力重加权模块对大语言模型中的助理力权重进行动态加权。

技术关键词

跨模态大语言模型索引注意力编码器文本序列多模态动态模块视觉语义解码图像矩阵

一种基于位置索引的通用跨模态指代表示方法

站点导航

APP 下载