基于检索增强的大型多模态模型的食物图像食谱生成方法

AITNT
正文
推荐专利
基于检索增强的大型多模态模型的食物图像食谱生成方法
申请号:CN202411097381
申请日期:2024-08-12
公开号:CN119227800A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于自然语言处理技术领域,具体为基于检索增强的大型多模态模型的食物图像食谱生成方法。本发明将从图像到食谱的检索模型和大型多模态语言模型相结合;语言模型采用增强LoRA补丁的LLAVA。食物图像食谱生成方法包括语言模型训练数据集的构建、语言模型的训练、语言模型的推理:本发明引入随机多样化检索增强,从现有数据存储库中检索与图像语义相关的食谱作为补充,将它们整合到提示中,以为输入图像增加多样且丰富的上下文。此外,还引入自一致性集成投票机制,用于确定最有信心的预测食谱作为最终输出。大量实验验本发明方法的有效性,表明其在Recipe1M数据集的食谱生成任务中达到了目前最先进的性能。
技术关键词
食谱生成方法 多模态 数据组织形式 食物制作 数据存储 训练语言模型 补丁 标记 文本编码器 图像编码器 答案 图像嵌入 序列 自然语言 数据格式 解码器 机制
系统为您推荐了相关专利信息
1
一种融合非遗文化元素的模态语言模型图像编辑技术
图像编辑技术 图像特征向量 多模态融合机制 图像特征提取 元素
2
一种医学影像图像的分割装置及医学影像图像的分割方法
融合特征 多模态特征融合 图像分割模型 组学特征 分支
3
一种生物质锅炉数字化平台搭建方法及系统
生物质锅炉 平台搭建方法 模型库 仿真分析 基础元件
4
基于残差去噪扩散的MRI影像重建模型的构建方法及应用
注意力 层级 输出特征 解码模块 编码模块
5
基于多模态大模型的场景数据生成方法、装置及设备
多模态 数据生成方法 场景 文本 分辨率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号