摘要
本发明涉及计算机技术领域,公开了一种文本生成方法、装置、设备及介质,包括:获取目标视频,并对所述目标视频中的帧序列进行提取,得到视频图像块表示;通过分层时序网络对所述视频图像块表示进行分析,得到视频时空特征;基于所述目标视频建立语言向量嵌入矩阵,并计算所述视频时空特征与所述语言向量嵌入矩阵的注意力权重矩阵,生成结构化语义表示;通过文本解码网络对所述结构化语义表示进行分析,生成所述目标网络对应的视频文本描述。本申请可应用于金融科技、医疗健康养老等业务程序系统中,能够实现跨模态、多时序条件下的语言生成。
技术关键词
视频时空特征
文本生成方法
图像块
解码网络
矩阵
语义
注意力
文本生成装置
动作特征
业务程序系统
预训练模型
时序
序列
分层
可读存储介质
医疗健康
处理器