摘要
本申请提供一种基于人工智能的文本生成方法、装置、设备及存储介质,属于人工智能领域,包括:获取待提取语义文本的目标视频;获取文本生成模型;通过特征提取模块对目标视频中每个图像帧进行特征提取,得到第一图像特征向量;将第一图像特征向量输入至吸引子引导模块进行吸引子令牌更新,得到吸引子状态信息;将吸引子状态信息和第一图像特征向量输入至特征融合模块进行特征融合,得到第二图像特征向量;通过文本输出模块对第二图像特征向量和吸引子状态信息进行解码处理,输出目标文本。本申请提高了视频生成文本数据的效率和准确性。本申请可应用于金融技术领域和医疗技术领域,提高金融产品视频和医疗相关视频转换为语义文本的准确性。
技术关键词
图像特征向量
文本生成模型
文本生成方法
特征提取模块
输出模块
视频
令牌
样本
文本生成装置
时序
神经网络模型
数据
解码器
计算机设备
矩阵
语义
可读存储介质