音视频处理方法、装置、电子设备和计算机可读介质

AITNT
正文
推荐专利
音视频处理方法、装置、电子设备和计算机可读介质
申请号:CN202510080884
申请日期:2025-01-20
公开号:CN119992455A
公开日期:2025-05-13
类型:发明专利
摘要
本公开的实施例公开了音视频处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对每个监控视频图像中的人脸进行人脸分割,以生成人脸分割图像;对人脸分割图像进行图像预处理;将预处理人脸分割图像输入至图像分割分类模型包括的图像特征提取网络;将预处理人脸分割图像输入至图像编码器中,以及将文本标记信息输入至文本编码器中;将第一人脸图像特征信息和文本特征信息输入至输出层中;对生成的目标人脸分割图像序列进行用户识别;对监控视频对应的音频进行语音优化处理;将用户识别结果序列与优化音频发送至监控管理终端中。该实施方式提升了对于监控视频的检测效率,提高了图像分割的验证效率和准确性。
技术关键词
监控视频图像 人脸图像特征 语音生成模型 文本编码器 图像编码器 图像特征提取 语义特征提取 监控管理终端 音频特征 图像分割 序列 音视频 标记特征
系统为您推荐了相关专利信息
1
一种AIGC视频生成方案智能适配方法、装置及介质
视频特征向量 关键帧 文本特征向量 关键词 文本编码器
2
机器人控制方法以及机器人的控制系统
运动意图 机器人控制方法 关键字 电信号 脑电特征
3
一种基于疾病状态检索提示的多视角胸片报告生成方法
报告生成方法 多模态 疾病 图像编码器 多视角
4
语音合成方法、装置、存储介质及电子设备
样本 语音标签 音频解码器 训练集 计算机程序产品
5
一种基于对比学习的图像美学多属性评论生成方法
美学 评论生成方法 文本编码器 图像编码器 二分类模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号