摘要
本发明涉及一种文本引导的视觉显著性预测方法,包括以下步骤:获取文本和图像显著性检测数据集,对文本数据集进行成对处理;构建TDiffSal模型,包括显著性预测扩散模块、多头融合模块、组合损失函数;将原始图像与真实显著性图像映射至潜在空间,利用图像显著性检测数据集启动模型初始训练,以潜在空间损失和像素空间损失之和作为总损失,通过反向传播更新模型参数,计算双重损失优化模型;使用文本数据集进行微调优化,使用最终保存的最优权重进行测试,输出最终的显著性图像预测结果。解决了现有任务都只注重了文本和图像内物体之间的联系,而没有针对于完整文本和图像显著性的问题,提升了模型的鲁棒性和泛化能力,显著提升了多模态特征融合效果。
技术关键词
图像特征向量
文本编码器
注意力
模块
数据
像素
更新模型参数
损失计算方法
图像内物体
结构网络
误差
解码器
模态特征
视觉特征
融合特征
注视点
系统为您推荐了相关专利信息
智能食物
食物数据库
多模态交互
分析系统
包装食品
管控一体化系统
环境监测模块
防凝露设备
统计方法
新能源电力设备
客户
知识图谱构建方法
构建知识图谱
知识图谱构建装置
编码