基于语言感知与特征融合的多模态大模型对齐方法和系统

正文

推荐专利

申请号：CN202511465671

申请日期：2025-10-14

公开号：CN120932247B

公开日期：2025-12-30

类型：发明专利

摘要

本发明涉及多模态语义对齐技术领域，公开了一种基于语言感知与特征融合的多模态大模型对齐方法和系统，所采用的对齐模型的构建及训练过程包括：基于图像块特征计算每个图像块的显著性得分，生成可微的二元决策矩阵；将筛选出的重要图像块通过学习的聚合权重矩阵进行加权聚合，得到聚合后的图像块特征；基于聚合后的图像块特征与文本的单词特征计算图像块‑文本单词相似度矩阵，计算图像与文本的总体匹配分数；使用结合了双向三元组损失和比率约束损失的总损失函数对所述对齐模型进行端到端优化。本发明旨在利用语言信息作为监督信号，智能地滤除冗余视觉特征，将模糊的平均化语义表达提炼为针对特定图文对的精准语义。

技术关键词

图像块特征对齐方法文本注意力三元组困难样本挖掘矩阵比率语义对齐技术多层感知机策略视觉特征决策计算机系统编码元素多模态