摘要
本公开涉及一种端到端的影像文件处理方法、模型构建方法及装置,包括:获取待处理的影像文件;将上述影像文件输入到预先构建好的影像报告生成模型进行图像语义编码处理、基于时空注意力机制生成上下文向量和文本序列预测解码处理,输出得到影像报告文本;其中,基于时空注意力机制生成上下文向量,包括:根据图像语义编码处理的结果和文本序列预测解码处理的结果,基于注意力机制,针对不同图像区域的重要程度与每个时间步的文本预测之间的对应关系进行动态映射学习,得到每个时间步针对全局图像的上下文向量;上下文向量是针对图像语义编码处理的结果进行注意力权重加权后得到的。输出的报告具有较高的准确度、处理效率高且模型的泛化性能好。
技术关键词
时空注意力机制
文本
报告
图像
序列
医学影像文件
解码模型
语义特征
模型构建方法
编码
区域卷积神经网络
神经网络模型训练
网络结构
深度卷积神经网络
长短期记忆网络
系统为您推荐了相关专利信息
语义向量
可编程逻辑控制器
夹取模块
可编程逻辑控制模块
夹取系统
图像去雾模型
无雾图像
去雾图像
图像去雾方法
高频特征