基于多模型融合的可解释图像文本化描述方法

AITNT
正文
推荐专利
基于多模型融合的可解释图像文本化描述方法
申请号:CN202410750467
申请日期:2024-06-12
公开号:CN118736362A
公开日期:2024-10-01
类型:发明专利
摘要
本发明公开了基于多模型融合的可解释图像文本化描述方法,输入的图像进行特征提取,之后将提取出的图像特征输入预测模型,最后得出预测结果。本发明在数据集方面,通过向ChatGPT输入严格的提示来生成相应的图片,形成了一个高质量数据集。在模型方面,应用了添加解析注意力机制的CLIP模型来对输入的图像进行高级特征的提取,利用其强大的跨模态理解能力,为后续的任务提供支持。对三个模型分别应用LoRA微调技术,使模型能够更灵活地适应不同区域的特征关系,并在局部区域灵活调整注意力,从而减轻模型的计算负担,最后通过对三个模型预测结果的集成融合,提高了预测的精确度。另外,对模型的不同部分进行模块化设计,提高了模型的可扩展性和灵活性。
技术关键词
多模型 图像 文本 注意力机制 微调技术 文件系统 数据格式 定义 内存 图片 负担 动态 网络 关系 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号