音唇同步检测方法和装置、电子设备、存储介质

AITNT
正文
推荐专利
音唇同步检测方法和装置、电子设备、存储介质
申请号:CN202511288882
申请日期:2025-09-09
公开号:CN120932633A
公开日期:2025-11-11
类型:发明专利
摘要
本申请提出的音唇同步检测方法和装置、电子设备、存储介质,涉及人工智能技术领域,适用于金融科技领域及医疗健康领域。该方法包括:获取目标音视频数据,目标音视频数据包括目标混合音频和目标人脸视频序列;对目标混合音频进行音频编码,得到目标混合音频特征;通过目标语音编码模型对目标混合音频进行语音编码,得到目标说话人多模态特征;对目标人脸视频序列进行视觉编码,得到目标视觉特征;根据目标混合音频特征、目标说话人多模态特征和目标视觉特征进行特征融合,得到目标音唇特征;对目标音唇特征进行音唇同步分类,得到音唇同步类别。本申请能够降低音频中的噪声对音唇同步检测的不良影响,提高了音唇同步检测的准确性。
技术关键词
模态特征 语音编码 音频特征 去噪模型 样本 视觉特征 语音特征 重构 音唇同步检测装置 音视频 人脸 融合特征 音频编码器 上下文特征
系统为您推荐了相关专利信息
1
一种沉积数值模拟加速方法、装置及设备
模拟河流 物理 适配器 方程 人工智能交叉技术
2
跨模态特征对齐驱动的大模型迁移优化系统
稀疏特征 模态特征 模型训练模块 指数 锚点
3
一种基于机器学习和顺序凝固的薄壁铸件缩松控制方法
薄壁铸件 冒口 模壳 熔模铸造 保温棉
4
一种基于YOLOv7的轻量级无人机图像落水人员检测算法
无人机 注意力机制 图片 图像 ReLU函数
5
一种建筑碳排放的优化设计方法
优化设计方法 建筑模型 三维建模软件 变量 拉丁超立方抽样
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号