一种文本引导的视觉显著性预测方法

AITNT
正文
推荐专利
一种文本引导的视觉显著性预测方法
申请号:CN202511049860
申请日期:2025-07-29
公开号:CN120953580A
公开日期:2025-11-14
类型:发明专利
摘要
本发明涉及一种文本引导的视觉显著性预测方法,包括以下步骤:获取文本和图像显著性检测数据集,对文本数据集进行成对处理;构建TDiffSal模型,包括显著性预测扩散模块、多头融合模块、组合损失函数;将原始图像与真实显著性图像映射至潜在空间,利用图像显著性检测数据集启动模型初始训练,以潜在空间损失和像素空间损失之和作为总损失,通过反向传播更新模型参数,计算双重损失优化模型;使用文本数据集进行微调优化,使用最终保存的最优权重进行测试,输出最终的显著性图像预测结果。解决了现有任务都只注重了文本和图像内物体之间的联系,而没有针对于完整文本和图像显著性的问题,提升了模型的鲁棒性和泛化能力,显著提升了多模态特征融合效果。
技术关键词
图像特征向量 文本编码器 注意力 模块 数据 像素 更新模型参数 损失计算方法 图像内物体 结构网络 误差 解码器 模态特征 视觉特征 融合特征 注视点
系统为您推荐了相关专利信息
1
一种基于多模态交互的智能食物识别与膳食分析系统
智能食物 食物数据库 多模态交互 分析系统 包装食品
2
一种用于检测挤压孔内表面残余应力的方法及装置
激光超声 应力 旋转平台 红外相机 速度
3
基于新能源箱变的环境监测与管控一体化系统及其方法
管控一体化系统 环境监测模块 防凝露设备 统计方法 新能源电力设备
4
一种车载仪表电源供电电路
电源芯片 电源模块 电容 电源供电电路 车载仪表
5
基于多级结构化地址的知识图谱构建方法及装置
客户 知识图谱构建方法 构建知识图谱 知识图谱构建装置 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号