摘要
本发明公开了一种多场景全域图像一致性报告生成方法及框架结构,所述框架结构包括视觉特征编码模块、文本语义编码模块、多场景视觉‑文本对齐模块、多场景主题感知模块、报告生成模型管道,本发明利用视觉特征编码模块、文本语义编码模块分别提取图像特征和文本特征,经多场景视觉‑文本对齐模块将多尺度文本特征与其对应的多尺度图像特征的对齐,再经多场景主题感知模块提高了多场景图像和文本的描述对应性,最后由报告生成模型管道生成一致性报告,解决了多场景图像与报告文本的对应场景描述准确性低、连贯性差,以及生成报告不准确的问题。
技术关键词
报告生成方法
多场景
语句
视觉特征编码
文本特征向量
语义特征
主题
对齐模块
局部图像特征
序列
代表
框架结构
注意力机制
索引
编码模块
系统为您推荐了相关专利信息
误差检测方法
数值
语句
启发式搜索
计算机程序产品
光伏电站
联动控制策略
管理方法
大数据平台
智能巡检
实体识别方法
自定义实体
分片
计算机存储介质
文本