基于语言感知与特征融合的多模态大模型对齐方法和系统

AITNT
正文
推荐专利
基于语言感知与特征融合的多模态大模型对齐方法和系统
申请号:CN202511465671
申请日期:2025-10-14
公开号:CN120932247B
公开日期:2025-12-30
类型:发明专利
摘要
本发明涉及多模态语义对齐技术领域,公开了一种基于语言感知与特征融合的多模态大模型对齐方法和系统,所采用的对齐模型的构建及训练过程包括:基于图像块特征计算每个图像块的显著性得分,生成可微的二元决策矩阵;将筛选出的重要图像块通过学习的聚合权重矩阵进行加权聚合,得到聚合后的图像块特征;基于聚合后的图像块特征与文本的单词特征计算图像块‑文本单词相似度矩阵,计算图像与文本的总体匹配分数;使用结合了双向三元组损失和比率约束损失的总损失函数对所述对齐模型进行端到端优化。本发明旨在利用语言信息作为监督信号,智能地滤除冗余视觉特征,将模糊的平均化语义表达提炼为针对特定图文对的精准语义。
技术关键词
图像块特征 对齐方法 文本 注意力 三元组 困难样本挖掘 矩阵 比率 语义 对齐技术 多层感知机 策略 视觉特征 决策 计算机系统 编码 元素 多模态
系统为您推荐了相关专利信息
1
一种生态环境保护督察方法、系统、设备及介质
生态环境保护 督察方法 动态预测模型 峰值信噪比 数据
2
使用由大语言模型从自然语言输入生成的可执行代码编辑数字图像
自然语言文本 大语言模型 编辑 对象 客户端设备
3
一种基于深度学习的零样本图像目标检测方法
图像编码 文本编码器 样本 采样模块 马尔可夫模型
4
一种基于知识图谱的兴趣点推荐方法
兴趣点推荐方法 表达式 三元组 图谱 融合上下文信息
5
大学英语教育内容智能生成系统及其方法
大学英语教育 智能生成系统 模块通信 教学 语音识别单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号