摘要
本申请公开了基于视频姿态捕捉的英语发音评测方法及系统,涉及语言发音评测分析领域,该方法包括:从学习者发音视频中提取在时间轴对齐的音频帧与视频帧,并提取参考英文文章所对应的参考单词序列;将音频帧序列转化为发音文本序列,结合参考单词序列进行比对以确定相应的发音匹配单词序列,并检测是否存在漏读参考单词;分割以确定对应各个发音匹配单词的多个音视频帧单元;确定各个发音匹配单词相应的单词发音音频评分和单词发音姿态评分;基于各个发音匹配单词的单词发音姿态评分和单词发音音频评分和漏读参考单词的检测结果,确定学习者的英语发音综合评分。由此,融合分析学习者发音的音频帧和视频帧,使评测结果更加精确和全面。
技术关键词
发音
动作特征
音频特征
序列
视频帧
梅尔频率倒谱系数
语音识别模型
音视频
英语
矩阵
文章
文本
卷积特征提取
评测方法
时序特征
注意力机制
系统为您推荐了相关专利信息
生理特征信息
情绪特征
分析方法
静态特征提取
数据
多模态对话
融合特征
信号特征
文本
非可视化信息
价格预测模型
价格预测方法
位置更新
门控循环单元
序列
语音识别方法
大语言模型
声学特征
模版
计算机可读指令
搜索优化算法
掩码矩阵
修正方法
风电数据处理技术
重构模块