摘要
本发明涉及直播行为监控技术领域,尤指一种基于深度学习的直播行为跟踪系统,通过对直播视频流同步提取图像和音频数据,结合帧抽取、图像增强和语音识别,获得高质量的多源信息,提升特征分析的准确性。通过预训练卷积神经网络提取图像特征,深度学习模型提取音频特征,并融合语音转写文本,基于注意力机制动态调整各模态特征的权重,实现对复杂场景和隐蔽违规行为的精准识别,有效应对图像伪装、隐语表达风险。实时输出违规类别及置信度,一旦检测到疑似违规行为,立即触发告警、中断或遮蔽操作,并将相关证据上传至审核数据库。实现了对直播违规行为的高效、准确和全流程管控。
技术关键词
图像特征向量
跟踪系统
模态特征
文本特征向量
前馈神经网络
注意力机制
图像增强
深度学习模型
梅尔频率倒谱系数
训练卷积神经网络
标签
音频特征
执行语音识别
视频流同步
损失函数优化
序列
数据
系统为您推荐了相关专利信息
仿真模型
成分分析
图像特征向量
计算机程序代码
报告
相机外参标定方法
图像
三维点云数据
参数
深度编码器
特征点
视觉SLAM方法
动态物体
解码器
双三次插值