文本生成方法、装置、电子设备及可读存储介质

正文

推荐专利

申请号：CN202411487570

申请日期：2024-10-23

公开号：CN119478947A

公开日期：2025-02-18

类型：发明专利

摘要

本申请涉及人工智能技术领域，提供了一种文本生成方法、装置、电子设备及可读存储介质。该方法包括：获取输入图像和输入文本对应的图像特征和文本特征；并对其进行拼接，得到图文特征；将图像特征、文本特征和图文特征输入至多模态大语言模型，分别对图像特征、图文特征和文本特征进行特征提取，得到图像关键特征、图文关键特征以及文本关键特征；分别将图像关键特征和文本关键特征与图文关键特征进行交互，得到第一交互特征和得到第二交互特征；根据第一交互特征、第二交互特征以及图文特征，得到目标融合特征，并根据目标融合特征，得到目标生成文本。本申请可以实现图像特征和文本特征的深度融合，提高模型在复杂视觉场景的语言描述的能力。

技术关键词

交互特征图文融合特征大语言模型多层感知机文本生成方法图像残差分支图像处理模块多模态注意力文本生成装置图像编码器电子设备可读存储介质人工智能技术处理器

系统为您推荐了相关专利信息

无人驾驶领域的数据分析方法、装置、设备与存储介质

数据分析方法大语言模型文本数据分析装置方针

一种时空特征联合的医学图像配准方法及系统

医学图像配准方法长短期记忆神经网络模型四维计算机断层扫描双分支结构图像配准模型

用于异构光伏图结构数据融合的时空数据预测方法及系统

时空数据预测方法客户端服务器光伏发电量预测异构

多模态实体识别方法、装置、终端设备及介质

实体识别方法融合特征多模态图像视觉特征向量图像特征向量

用于生成反馈信息的方法、装置、电子设备及存储介质

大语言模型话题数据程序聚类分析算法

文本生成方法、装置、电子设备及可读存储介质

站点导航

APP 下载