一种基于位置索引的通用跨模态指代表示方法

AITNT
正文
推荐专利
一种基于位置索引的通用跨模态指代表示方法
申请号:CN202510757591
申请日期:2025-06-09
公开号:CN120805992A
公开日期:2025-10-17
类型:发明专利
摘要
本发明属于多模态大模型技术领域,具体涉及一种基于位置索引的通用跨模态指代表示方法。具体过程为:设置跨模态指代映射器和位置集合编码器,并在大语言模型中引入注意力重加权模块;设置跨模态指代映射器用于将图像或文本中的指代区域转换为其在token序列中的索引集合Iref;设置位置集合编码器用于将位置索引集合Iref编码为向量表示xref,并联合视觉编码器编码的视觉token向量和经文本Token嵌入映射的文本token向量,作为大语言模型的输入序列X;大语言模型对输入序列X进行特征交互,输出跨模态指代表示;在所述特征交互过程中,利用注意力重加权模块对大语言模型中的助理力权重进行动态加权。
技术关键词
跨模态 大语言模型 索引 注意力 编码器 文本 序列 多模态 动态 模块 视觉 语义 解码 图像 矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号