摘要
本发明提供一种基于全局感知特征融合与样本关系学习的视频描述方法,属于视频描述领域。所述视频描述方法包括利用Inception‑ResNet‑V2模型提取视频静态特征;利用C3D模型提取视频动态特征;利用Faster‑RCNN模型提取视频对象特征;利用SBERT模型提取中视频对应字幕的语义标签;使用提出的样本关系学习模块学习样本之间的关系特征,利用全局感知特征融合模块控制特征融合权重,缓解累积的权重分配偏差问题,提高生成字幕的确性。
技术关键词
感知特征
语义标签
静态特征
样本
语义特征
动作特征
关系
对象
视频特征提取
输入解码器
生成字幕
编码器
动态
实体
视觉
控制模块
系统为您推荐了相关专利信息
多层感知器
节点特征
神经架构搜索
神经网络架构
高性能架构
输电线路走廊
多光谱遥感影像
点云特征
多层次特征
图像
中心服务器
学习控制方法
神经网络模型
客户端
学习控制系统