摘要
本发明公开了一种基于视频熵值的短视频文本生成方法、装置、设备及介质。所述方法包括:将待处理短视频的每一视频帧通过预设视觉模型进行视觉特征提取,获取视觉特征序列;根据视觉特征序列通过预设卷积神经网络计算每一视频帧的熵值,获取熵序列;将熵序列通过预设编码器进行注意力调节,生成每一视频帧的注意力权重,其中,预设卷积神经网络与预设编码器属于同一预设双路径架构;根据注意力权重以及视觉特征序列通过预设解码器生成目标视频文本。本发明可应用于医疗健康与金融保险领域的视频文本生成场景,可解决现有技术中无法根据短视频的内容生成精准地描述的问题。
技术关键词
视觉特征提取
注意力
序列
文本生成方法
短视频
视频帧
编码器
解码器
文本生成装置
计算机设备
生成场景
医疗健康
聚类算法
调节单元
处理器