摘要
本发明涉及人工智能技术领域,公开了一种文本生成方法、装置、设备及介质,包括:获取目标视频,并通过编码器对所述目标视频的视频帧进行编码,得到离散特征向量;通过预设投影矩阵将所述离散特征向量分别映射至目标子空间,得到三类子特征;其中,所述目标子空间包括运动子空间、物体子空间以及场景子空间;通过动态门控网络对所述三类子特征进行分析,输出得到所述三类子空间对应的融合权重向量;通过解码模型对所述融合权重向量进行分析,输出得到所述目标视频对应的描述文本。本申请可应用于金融科技、医疗健康养老等业务程序系统中,能够实现时空解耦、语义细化的文本生成。
技术关键词
解码模型
文本生成方法
动态门控
文本生成装置
视频帧
矩阵
业务程序系统
预训练模型
编码器
物体
空间结构特征
场景
语义
可读存储介质
运动
网络
人工智能技术
系统为您推荐了相关专利信息
智能分类系统
智能教室
表情识别装置
视频帧
人脸识别模块
情感分类方法
模态特征
文本
动态门控
情感分析方法
视频无损压缩方法
视频内容复杂度
视频帧
卷积神经网络提取
分块
图像嵌入
语义
图像生成器
重构方法
采集脑电信号