摘要
本发明提供的直播视频的重点标记方法、装置、设备及存储介质,通过获取直播视频的音频数据、视频数据和互动数据;对所述音频数据、所述视频数据和所述互动数据进行特征提取,得到音频数据特征、视频数据特征和互动数据特征;将所述音频数据特征、所述视频数据特征和所述互动数据特征进行特征融合,得到多模态融合特征;将所述多模态融合特征输入至事件检测模型中,得到重点事件信息;对所述重点事件信息进行重要性筛选,得到目标重点事件。本发明通过综合分析音频数据、视频数据和互动数据,多模态融合特征的使用能够更加全面地捕捉直播过程中不同维度的关键信息。这样可以更精准地识别出直播中的重点事件,提升事件检测的准确性和可靠性。
技术关键词
视频数据特征
标记方法
音频
融合特征
事件检测模型
多模态
非暂态计算机可读存储介质
面部表情特征
关键词特征
特征提取模块
情感特征
场景特征
数据获取模块
麦克风
标记装置
处理器
语音特征
终端
系统为您推荐了相关专利信息
视频定位方法
文本
视频帧
状态空间模型
视频定位系统
智能决策方法
意图识别
意图指令
文本特征向量
音响
FPGA芯片
网络传输单元
矩形连接器
网络变压器模块
MOSFET驱动电路
音频编解码方法
编解码器
计算机可读指令
矢量量化器
网络