一种文本引导的视觉显著性预测方法

正文

推荐专利

一种文本引导的视觉显著性预测方法

申请号：CN202511049860

申请日期：2025-07-29

公开号：CN120953580A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及一种文本引导的视觉显著性预测方法，包括以下步骤：获取文本和图像显著性检测数据集，对文本数据集进行成对处理；构建TDiffSal模型，包括显著性预测扩散模块、多头融合模块、组合损失函数；将原始图像与真实显著性图像映射至潜在空间，利用图像显著性检测数据集启动模型初始训练，以潜在空间损失和像素空间损失之和作为总损失，通过反向传播更新模型参数，计算双重损失优化模型；使用文本数据集进行微调优化，使用最终保存的最优权重进行测试，输出最终的显著性图像预测结果。解决了现有任务都只注重了文本和图像内物体之间的联系，而没有针对于完整文本和图像显著性的问题，提升了模型的鲁棒性和泛化能力，显著提升了多模态特征融合效果。

技术关键词

图像特征向量文本编码器注意力模块数据像素更新模型参数损失计算方法图像内物体结构网络误差解码器模态特征视觉特征融合特征注视点

系统为您推荐了相关专利信息

一种基于多模态交互的智能食物识别与膳食分析系统

智能食物食物数据库多模态交互分析系统包装食品

一种用于检测挤压孔内表面残余应力的方法及装置

激光超声应力旋转平台红外相机速度

基于新能源箱变的环境监测与管控一体化系统及其方法

管控一体化系统环境监测模块防凝露设备统计方法新能源电力设备

一种车载仪表电源供电电路

电源芯片电源模块电容电源供电电路车载仪表

基于多级结构化地址的知识图谱构建方法及装置

客户知识图谱构建方法构建知识图谱知识图谱构建装置编码

一种文本引导的视觉显著性预测方法

站点导航

APP 下载