基于多模型融合的可解释图像文本化描述方法

正文

推荐专利

申请号：CN202410750467

申请日期：2024-06-12

公开号：CN118736362A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了基于多模型融合的可解释图像文本化描述方法，输入的图像进行特征提取，之后将提取出的图像特征输入预测模型，最后得出预测结果。本发明在数据集方面，通过向ChatGPT输入严格的提示来生成相应的图片，形成了一个高质量数据集。在模型方面，应用了添加解析注意力机制的CLIP模型来对输入的图像进行高级特征的提取，利用其强大的跨模态理解能力，为后续的任务提供支持。对三个模型分别应用LoRA微调技术，使模型能够更灵活地适应不同区域的特征关系，并在局部区域灵活调整注意力，从而减轻模型的计算负担，最后通过对三个模型预测结果的集成融合，提高了预测的精确度。另外，对模型的不同部分进行模块化设计，提高了模型的可扩展性和灵活性。

技术关键词

多模型图像文本注意力机制微调技术文件系统数据格式定义内存图片负担动态网络关系模块

基于多模型融合的可解释图像文本化描述方法

站点导航

APP 下载