基于层次化多模态精细调节的视觉问答优化方法与系统

正文

推荐专利

申请号：CN202510472099

申请日期：2025-04-16

公开号：CN120011547B

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于层次化多模态精细调节的视觉问答优化方法与系统，通过创新的自适应跨模态桥接与多层组逐阶段低秩适配方法，显著提升了跨模态学习的精度和效果。所述方法通过在视觉特征中引入多层次语义感知的文本信息，使得视觉特征得到更精细的调整与优化，从而解决了视觉特征与文本语义匹配的不一致问题。通过多层组逐阶段低秩适配，有效避免了感知误差的累积，提供了一种逐层适配的机制，使得视觉特征和文本特征在多层次的学习过程中能够更加精确地对齐。本发明为跨模态任务中的视觉‑文本特征融合提供了新的思路和方法，能够更好地捕捉文本与视觉领域的高层次交互，从而提升VQA任务的性能。

技术关键词

文本编码器适配器多头注意力机制融合特征跨模态视觉特征提取桥接模块特征提取模块语义投影模块线性多模态层级感知误差参数多层次元素

系统为您推荐了相关专利信息

一种基于稠密残差的深度学习模型遥感图像融合方法

遥感图像融合方法深度学习模型多光谱遥感影像全色损失函数优化

一种基于自注意力深度自编码神经网络的入侵检测方法

入侵检测方法注意力网络流特征重构参数融合特征

面向水下机器人图像处理的对偶互补动态卷积优化方法及系统

水下机器人调制特征卷积优化方法机械臂末端执行器融合特征

基于动态融合与时序分析的网络舆情智能预测系统及方法

融合特征 ARIMA模型时序特征时间间隔特征 LightGBM模型

基于单一适配器的多设备充电测试方法、设备及存储介质

充电测试方法端口协议编码电压

基于层次化多模态精细调节的视觉问答优化方法与系统

站点导航

APP 下载