摘要
本申请公开了基于多模态语义重心评估的视频标签提取方法及系统,涉及人工智能技术领域,方法包括:对视频彩铃进行场景分割,得到多个场景片段;对各个场景片段提取得到视觉特征和音频特征;根据语义重心评估得到视觉特征和音频特征的重要性权重;通过可配置的标签层级架构生成多粒度的候选标签,并根据重要性权重对各个候选标签分配标签权重;对分配标签权重后的各个候选标签进行后处理,进而输出结构化的标签列表。本申请通过生成准确、丰富、多层次的标签,并根据语义重心评估得到的重要性权重对各个候选标签分配标签权重,显著提升视频彩铃的标签语义理解程度,从而提高了彩铃内容的搜索匹配度和用户查找效率。
技术关键词
视频标签提取方法
音频特征
视觉特征
多模态
语义
视频彩铃
场景
关键帧
层级
定义标签
可读存储介质
事件特征
特征提取模块
情感特征
人工智能技术
列表
电子设备
处理器