摘要
本申请涉及人工智能技术领域,提供了一种文本生成方法、装置、电子设备及可读存储介质。该方法包括:获取输入图像和输入文本对应的图像特征和文本特征;并对其进行拼接,得到图文特征;将图像特征、文本特征和图文特征输入至多模态大语言模型,分别对图像特征、图文特征和文本特征进行特征提取,得到图像关键特征、图文关键特征以及文本关键特征;分别将图像关键特征和文本关键特征与图文关键特征进行交互,得到第一交互特征和得到第二交互特征;根据第一交互特征、第二交互特征以及图文特征,得到目标融合特征,并根据目标融合特征,得到目标生成文本。本申请可以实现图像特征和文本特征的深度融合,提高模型在复杂视觉场景的语言描述的能力。
技术关键词
交互特征
图文
融合特征
大语言模型
多层感知机
文本生成方法
图像残差
分支
图像处理
模块
多模态
注意力
文本生成装置
图像编码器
电子设备
可读存储介质
人工智能技术
处理器
系统为您推荐了相关专利信息
数据分析方法
大语言模型
文本
数据分析装置
方针
医学图像配准方法
长短期记忆神经网络模型
四维计算机断层扫描
双分支结构
图像配准模型
时空数据预测方法
客户端
服务器
光伏发电量预测
异构
实体识别方法
融合特征
多模态
图像视觉特征向量
图像特征向量