基于多模态大模型的文本生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态大模型的文本生成方法、装置、设备及介质
申请号:CN202510629685
申请日期:2025-05-15
公开号:CN120562551A
公开日期:2025-08-29
类型:发明专利
摘要
本申请涉及人工智能技术领域,具体提供一种基于多模态大模型的文本生成方法、装置、设备及介质,旨在解决将大尺寸图像输入至视觉语言模型,得到的回答准确率低的问题。本申请包括:将图像进行采样,得到多个子图;将图像进行切分,得到多个切图;将多个子图输入至第i子图特征提取模型,得到子图特征;将多个切图输入至第i切图特征提取模型,得到切图特征;根据子图特征和切图特征,得到第一损失值;将子图特征和问题编码进行组合,得到组合特征;将组合特征输入至第i大语言模型,得到第二损失值;根据第一损失值和第二损失值,对第i大语言模型、第i子图特征提取模型和第i切图特征提取模型进行更新处理,在确定达到预设条件后,得到预设模型。
技术关键词
特征提取模型 文本生成方法 多模态 原始图像数据 融合特征 图像模板 文本生成装置 编码 模块 像素 人工智能技术 答案 处理器 可读存储介质 存储器 线性 序列 电子设备
系统为您推荐了相关专利信息
1
一种基于多模型集成的风电场风速预测方法及系统
智能预测系统 多模型 历史风速数据 数据采集模块 融合特征
2
水上目标多维融合识别方法及系统
融合识别方法 双向特征金字塔 融合图像数据 轨迹特征 注意力
3
一种用于肺结节分割的多模态时空网络模型及其分割方法
文本特征向量 时空融合特征 局部空间特征 特征提取模块 注意力机制
4
基于多源信息时频结合的锂电池温度预测方法和装置
时序 温度预测方法 锂电池 时间卷积网络 频域特征提取
5
一种智能梳子
智能梳子 模型算法 数据存储模块 信号采集模块 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号