摘要
本发明的基于半结构化文本信息的指代表达理解方法是通过对图像和文本进行特征提取,分别获取图像特征和文本特征;通过软切分模块对中文本特征进行处理,将文本特征切分为主语主导的文本编码和上下文主导的文本编码;在多模态Transformer融合模块中,计算图像特征和文本特征之间的相似度矩阵,生成多模态表征;基于此特征,通过渐进式推理模块分别进行两次框预测,每次预测生成预测框,计算预测框与标签框之间的绝对误差损失和广义交并比损失,并将绝对误差损失和广义交并比损失线性组合,形成优化函数,通并通过优化函数调整模型参数。该方法在多个基准数据集上显著提升了视觉定位的准确性和鲁棒性,为复杂语言查询的理解提供了高效解决方案。
技术关键词
半结构化文本
多模态信息融合
标签框
特征值
表达式
编码
广义
BERT模型
矩阵
模型预测值
图像
多层感知机
模块
参数
注意力机制
视觉
解析器
系统为您推荐了相关专利信息
带电检测方法
BP神经网络模型
声纹特征
判断绝缘子
绝缘子带电检测系统
数值天气预报
计算方法
软件调用系统
编程
放射性核素浓度
强化学习策略
导热油
实时状态信息
温度优化方法
神经网络算法