摘要
本发明提出基于时空深度特征自适应决策的歌唱口型实时检测方法,包括以下步骤;步骤S1、采集歌唱者的人脸视频图像,并根据实际发声的口型进行图像标注,构建用于模型训练和测试的样本数据集;步骤S2、构建基于YOLOv8的歌唱口型目标实时检测网络,从人脸视频中分割出歌唱发声的口型图像;步骤S3、构建基于胶囊网络的口型空间深度特征提取模型,将提取的一系列空间深度特征输入到BiLSTM网络,通过BiLSTM网络进一步抽取口型图像的时间序列特征;步骤S4、采用爱情进化算法优化随机森林算法的超参数,将抽取的时间序列特征映射到随机森林的高维空间进行自适应决策分类;本发明可实时检测歌手在演唱过程中的口型变化情况,且相比人工方式更客观高效。
技术关键词
实时检测方法
胶囊网络
随机森林
时间序列特征
人脸视频图像
歌唱者
进化算法优化参数
深度特征提取
决策
发声
位置特征信息
歌唱教学
数据
口型识别