摘要
本发明属于智能语音评测领域,具体涉及基于BERT和交互注意力机制的智能外语口语测试方法,从视频和音频中分别提取考生口型图像和考生口语语音,分别从考生口语发音准确性和流利性、词汇准确性和多样性、语法准确性和多样性、主题准确性和情景匹配性多方面进行评分,计算得到考生口语测试的综合总成绩,输出考生口语测试结果。通过融合多模态BERT特征提取、口型‑语音时序对齐、交互注意力语法分析及深层语义匹配技术,构建了覆盖“发音‑词汇‑语法‑主题”全维度且具备视觉校验能力的自动化口语评分系统,突破了单一模态限制,提升了口语测试评估的鲁棒性和准确性,实现发音错误、语音语调错误、语法错误细粒度定位。
技术关键词
外语口语测试方法
语音
交互注意力
发音
句式结构
文本
情景
测试计算机
像素统计特征
梅尔频率倒谱系数
图像视觉特征
主题
线性预测编码
深层语义匹配
卷积残差网络
频谱特征
声音输出设备
系统为您推荐了相关专利信息
视频内容分析方法
文本识别模型
字幕
视频编码器
音频
对象存储服务器
敏感数据识别
音频特征信息
保护系统
访问控制列表规则
自动化控制台
自然语言
操控方法
大语言模型
指令
故障预警系统
数据处理单元
安抚
闭合延迟时间
摄影模块