摘要
本申请涉及机器学习技术领域,涉及一种视频描述文本生成方法、装置、计算机设备和存储介质,该方法包括:获取目标视频的特征数据;将特征数据输入第一路径特征提取模型,通过第一路径特征提取模型输出当前帧特征;将特征数据输入第二路径特征提取模型,通过第二路径特征提取模型输出未来帧特征;根据未来帧特征更新数据库,获得更新的数据库特征;将当前帧特征与数据库特征进行融合,获得融合特征;将融合特征进行解码,生成目标视频对应的视频描述文本。本申请可应用于金融、医疗等领域,实现了时序连贯的视频描述文本生成。
技术关键词
特征提取模型
文本生成方法
融合特征
神经网络模型
视频
计算机设备
注意力
解码器模型
机器学习技术
数据库更新
可读存储介质
存储计算机程序
特征提取模块
处理器
矩阵
存储器