摘要
本发明属于自然语言处理技术领域,具体为基于检索增强的大型多模态模型的食物图像食谱生成方法。本发明将从图像到食谱的检索模型和大型多模态语言模型相结合;语言模型采用增强LoRA补丁的LLAVA。食物图像食谱生成方法包括语言模型训练数据集的构建、语言模型的训练、语言模型的推理:本发明引入随机多样化检索增强,从现有数据存储库中检索与图像语义相关的食谱作为补充,将它们整合到提示中,以为输入图像增加多样且丰富的上下文。此外,还引入自一致性集成投票机制,用于确定最有信心的预测食谱作为最终输出。大量实验验本发明方法的有效性,表明其在Recipe1M数据集的食谱生成任务中达到了目前最先进的性能。
技术关键词
食谱生成方法
多模态
数据组织形式
食物制作
数据存储
训练语言模型
补丁
标记
文本编码器
图像编码器
答案
图像嵌入
序列
自然语言
数据格式
解码器
机制
系统为您推荐了相关专利信息
图像编辑技术
图像特征向量
多模态融合机制
图像特征提取
元素
融合特征
多模态特征融合
图像分割模型
组学特征
分支
生物质锅炉
平台搭建方法
模型库
仿真分析
基础元件