基于课堂场景下幻灯片信息辅助多模态语音识别的方法

正文

推荐专利

申请号：CN202411599763

申请日期：2024-11-11

公开号：CN119580722A

公开日期：2025-03-07

类型：发明专利

摘要

本发明涉及一种基于课堂场景下幻灯片信息辅助多模态语音识别的方法研究，属于语音识别任务领域。首先，制定包含学科相关关键字的学科名称、在线课程、学段、年级等基础信息，用于构建精确的搜索条件。接着，通过视频搜索模块，系统在平台资源中进行视频检索，获取目标教育视频资源。之后，下载视频并进行预处理，包括幻灯片文字提取和候选片段生产，并对数据进行清洗和格式化，确保数据的高质量。最后，经过预处理的文本和音频数据生成语料库系统数据，采用语音识别模型进行音频数据的识别。本发明通过结合幻灯片内容与语音识别技术，有效提升复杂场景下的语音转录精度，具有重要的教育应用价值。

技术关键词

多模态语音课堂场景音频自动语音识别系统视频语音识别模型语音活动检测文本教师在线课程平台关键字技术数据抽取关键词语音识别技术自动化方法格式化

系统为您推荐了相关专利信息

视频生成方法、装置、电子设备及存储介质

视频生成模型视频生成方法序列多模态数据

智慧广告发布系统及方法

客户端广告发布系统显示端多模态数据库人流量信息

一种填空式视频生成交互方法

交互方法元素模板图像增强算法音效

一种基于多模态数据联动的设备异常处理方法及系统

传感器采集设备异常事件滑动窗口算法跨系统多源数据关联分析

视频生成模型的训练方法、装置、电子设备及存储介质

视频生成模型多层感知机视频帧混合层融合特征

基于课堂场景下幻灯片信息辅助多模态语音识别的方法

站点导航

APP 下载