摘要
本发明涉及一种基于课堂场景下幻灯片信息辅助多模态语音识别的方法研究,属于语音识别任务领域。首先,制定包含学科相关关键字的学科名称、在线课程、学段、年级等基础信息,用于构建精确的搜索条件。接着,通过视频搜索模块,系统在平台资源中进行视频检索,获取目标教育视频资源。之后,下载视频并进行预处理,包括幻灯片文字提取和候选片段生产,并对数据进行清洗和格式化,确保数据的高质量。最后,经过预处理的文本和音频数据生成语料库系统数据,采用语音识别模型进行音频数据的识别。本发明通过结合幻灯片内容与语音识别技术,有效提升复杂场景下的语音转录精度,具有重要的教育应用价值。
技术关键词
多模态语音
课堂场景
音频
自动语音识别系统
视频
语音识别模型
语音活动检测
文本
教师
在线课程平台
关键字技术
数据
抽取关键词
语音识别技术
自动化方法
格式化
系统为您推荐了相关专利信息
客户端
广告发布系统
显示端
多模态数据库
人流量信息
传感器采集设备
异常事件
滑动窗口算法
跨系统
多源数据关联分析
视频生成模型
多层感知机
视频帧
混合层
融合特征