摘要
本发明涉及计算机视觉技术领域,可运用于医疗康复领域和金融科技领域,公开了短视频的理解文本生成方法、装置、设备及存储介质,应用于康复训练动作合规性监测场景,或可运用于远程开户身份核验与行为分析场景中,其中方法包括:获取待处理短视频,并对待处理短视频进行预处理,生成预处理后视频帧序列;提取预处理后视频帧序列中的时空特征,得到目标时空特征序列;对目标时空特征序列进行特征增强和特征调制,得到调制后特征序列;对调制后特征序列进行跨模态注意力解码,生成初始描述文本;对初始描述文本进行文本优化处理,生成目标描述文本。本发明提高了短视频的理解文本生成的准确性。
技术关键词
文本生成方法
短视频
长短期记忆网络
序列
视频帧
注意力解码
组合特征向量
跨模态
三维卷积神经网络
文本生成装置
生成特征
噪声抑制器
时序
计算机视觉技术
词嵌入向量
可读存储介质
监测场景
系统为您推荐了相关专利信息
语义
知识图谱模型
同步翻译系统
语音信号处理技术
语句
赖氨酸
卷积神经网络分类
位点
极值
初始聚类中心
决策方法
网架结构
电网拓扑结构
负荷预测模型
节点