基于多模态大模型的文本生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510629685

申请日期：2025-05-15

公开号：CN120562551A

公开日期：2025-08-29

类型：发明专利

摘要

本申请涉及人工智能技术领域，具体提供一种基于多模态大模型的文本生成方法、装置、设备及介质，旨在解决将大尺寸图像输入至视觉语言模型，得到的回答准确率低的问题。本申请包括：将图像进行采样，得到多个子图；将图像进行切分，得到多个切图；将多个子图输入至第i子图特征提取模型，得到子图特征；将多个切图输入至第i切图特征提取模型，得到切图特征；根据子图特征和切图特征，得到第一损失值；将子图特征和问题编码进行组合，得到组合特征；将组合特征输入至第i大语言模型，得到第二损失值；根据第一损失值和第二损失值，对第i大语言模型、第i子图特征提取模型和第i切图特征提取模型进行更新处理，在确定达到预设条件后，得到预设模型。

技术关键词

特征提取模型文本生成方法多模态原始图像数据融合特征图像模板文本生成装置编码模块像素人工智能技术答案处理器可读存储介质存储器线性序列电子设备

系统为您推荐了相关专利信息

一种基于多模型集成的风电场风速预测方法及系统

智能预测系统多模型历史风速数据数据采集模块融合特征

水上目标多维融合识别方法及系统

融合识别方法双向特征金字塔融合图像数据轨迹特征注意力

一种用于肺结节分割的多模态时空网络模型及其分割方法

文本特征向量时空融合特征局部空间特征特征提取模块注意力机制

基于多源信息时频结合的锂电池温度预测方法和装置

时序温度预测方法锂电池时间卷积网络频域特征提取

一种智能梳子

智能梳子模型算法数据存储模块信号采集模块多模态

基于多模态大模型的文本生成方法、装置、设备及介质

站点导航

APP 下载