摘要
本公开的实施例公开了音视频处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对每个监控视频图像中的人脸进行人脸分割,以生成人脸分割图像;对人脸分割图像进行图像预处理;将预处理人脸分割图像输入至图像分割分类模型包括的图像特征提取网络;将预处理人脸分割图像输入至图像编码器中,以及将文本标记信息输入至文本编码器中;将第一人脸图像特征信息和文本特征信息输入至输出层中;对生成的目标人脸分割图像序列进行用户识别;对监控视频对应的音频进行语音优化处理;将用户识别结果序列与优化音频发送至监控管理终端中。该实施方式提升了对于监控视频的检测效率,提高了图像分割的验证效率和准确性。
技术关键词
监控视频图像
人脸图像特征
语音生成模型
文本编码器
图像编码器
图像特征提取
语义特征提取
监控管理终端
音频特征
图像分割
序列
音视频
标记特征
系统为您推荐了相关专利信息
视频特征向量
关键帧
文本特征向量
关键词
文本编码器
运动意图
机器人控制方法
关键字
电信号
脑电特征
样本
语音标签
音频解码器
训练集
计算机程序产品
美学
评论生成方法
文本编码器
图像编码器
二分类模型