摘要
本发明涉及多模态语义对齐技术领域,公开了一种基于语言感知与特征融合的多模态大模型对齐方法和系统,所采用的对齐模型的构建及训练过程包括:基于图像块特征计算每个图像块的显著性得分,生成可微的二元决策矩阵;将筛选出的重要图像块通过学习的聚合权重矩阵进行加权聚合,得到聚合后的图像块特征;基于聚合后的图像块特征与文本的单词特征计算图像块‑文本单词相似度矩阵,计算图像与文本的总体匹配分数;使用结合了双向三元组损失和比率约束损失的总损失函数对所述对齐模型进行端到端优化。本发明旨在利用语言信息作为监督信号,智能地滤除冗余视觉特征,将模糊的平均化语义表达提炼为针对特定图文对的精准语义。
技术关键词
图像块特征
对齐方法
文本
注意力
三元组
困难样本挖掘
矩阵
比率
语义
对齐技术
多层感知机
策略
视觉特征
决策
计算机系统
编码
元素
多模态
系统为您推荐了相关专利信息
生态环境保护
督察方法
动态预测模型
峰值信噪比
数据
图像编码
文本编码器
样本
采样模块
马尔可夫模型
兴趣点推荐方法
表达式
三元组
图谱
融合上下文信息
大学英语教育
智能生成系统
模块通信
教学
语音识别单元