摘要
本发明提供一种基于多模态建立视频监控流式音视频存储语义索引的方法,属于音视频处理领域;解决了音视频转语义索引效率低的问题;具体如下:步骤S1:获取待提取图像、待提取音频和文本信息;步骤S2:提取待提取图像的图像特征集,提取待提取音频的语音特征集;步骤S3:融合图像特征集和语音特征集得到融合特征;根据融合特征对待提取图像和待提取音频进行归纳和分类,并结合文本信息建立语义标注;步骤S4:汇总语义标注,并反馈;本发明通过对音视频进行获取、处理和汇总,建立语义索引,提高音视频转语义索引的效率。
技术关键词
音视频
图像特征集
多模态
语音特征
语义
音频
离散余弦变换
索引
图片
灰度共生矩阵
融合特征
表达式
文本
颜色
轮廓
像素点
系统为您推荐了相关专利信息
工业机械臂
图像采集装置
主动识别系统
传送带
可见光图像
动态集成方法
冗余特征
异构特征
融合特征
轮廓面积
模型建模方法
跨模态
模式特征向量
物理
数字孪生