摘要
本申请公开了一种基于思维链和大模型的报告生成方法,属于图像处理技术领域。该方法包括:将图像信息和文本信息输入到采用多任务训练方法训练好的多模态混合编码器‑解码器模型中,得到目标文本报告;多模态混合编码器‑解码器模型包括编码模块、对齐模块、思维链推理模块和解码模块,编码模块用于对图像信息和文本信息进行特征提取,得到图像特征和文本特征;对齐模块用于对图像特征和文本特征进行图像‑文本对齐,得到图像‑文本对齐结果;思维链推理模块用于对图像‑文本对齐结果进行推理,生成思维链;解码模块用于对图像‑文本对齐结果和思维链进行解码,得到目标文本报告。该方法提升了文本报告生成的连贯性和准确性。
技术关键词
报告生成方法
混合编码器
解码器模型
编码模块
对齐模块
多模态
解码模块
文本编码器
多任务
非暂态计算机可读存储介质
报告生成装置
图像处理技术
处理器
注意力机制
数据
系统为您推荐了相关专利信息
语音识别模型
编码模块
解码模块
语音识别方法
样本