基于检索增强的大型多模态模型的食物图像食谱生成方法

正文

推荐专利

申请号：CN202411097381

申请日期：2024-08-12

公开号：CN119227800A

公开日期：2024-12-31

类型：发明专利

摘要

本发明属于自然语言处理技术领域，具体为基于检索增强的大型多模态模型的食物图像食谱生成方法。本发明将从图像到食谱的检索模型和大型多模态语言模型相结合；语言模型采用增强LoRA补丁的LLAVA。食物图像食谱生成方法包括语言模型训练数据集的构建、语言模型的训练、语言模型的推理：本发明引入随机多样化检索增强，从现有数据存储库中检索与图像语义相关的食谱作为补充，将它们整合到提示中，以为输入图像增加多样且丰富的上下文。此外，还引入自一致性集成投票机制，用于确定最有信心的预测食谱作为最终输出。大量实验验本发明方法的有效性，表明其在Recipe1M数据集的食谱生成任务中达到了目前最先进的性能。

技术关键词

食谱生成方法多模态数据组织形式食物制作数据存储训练语言模型补丁标记文本编码器图像编码器答案图像嵌入序列自然语言数据格式解码器机制

系统为您推荐了相关专利信息

一种融合非遗文化元素的模态语言模型图像编辑技术

图像编辑技术图像特征向量多模态融合机制图像特征提取元素

一种医学影像图像的分割装置及医学影像图像的分割方法

融合特征多模态特征融合图像分割模型组学特征分支

一种生物质锅炉数字化平台搭建方法及系统

生物质锅炉平台搭建方法模型库仿真分析基础元件

基于残差去噪扩散的MRI影像重建模型的构建方法及应用

注意力层级输出特征解码模块编码模块

基于多模态大模型的场景数据生成方法、装置及设备

多模态数据生成方法场景文本分辨率

基于检索增强的大型多模态模型的食物图像食谱生成方法

站点导航

APP 下载