基于课堂场景下幻灯片信息辅助多模态语音识别的方法

AITNT
正文
推荐专利
基于课堂场景下幻灯片信息辅助多模态语音识别的方法
申请号:CN202411599763
申请日期:2024-11-11
公开号:CN119580722A
公开日期:2025-03-07
类型:发明专利
摘要
本发明涉及一种基于课堂场景下幻灯片信息辅助多模态语音识别的方法研究,属于语音识别任务领域。首先,制定包含学科相关关键字的学科名称、在线课程、学段、年级等基础信息,用于构建精确的搜索条件。接着,通过视频搜索模块,系统在平台资源中进行视频检索,获取目标教育视频资源。之后,下载视频并进行预处理,包括幻灯片文字提取和候选片段生产,并对数据进行清洗和格式化,确保数据的高质量。最后,经过预处理的文本和音频数据生成语料库系统数据,采用语音识别模型进行音频数据的识别。本发明通过结合幻灯片内容与语音识别技术,有效提升复杂场景下的语音转录精度,具有重要的教育应用价值。
技术关键词
多模态语音 课堂场景 音频 自动语音识别系统 视频 语音识别模型 语音活动检测 文本 教师 在线课程平台 关键字技术 数据 抽取关键词 语音识别技术 自动化方法 格式化
系统为您推荐了相关专利信息
1
视频生成方法、装置、电子设备及存储介质
视频生成模型 视频生成方法 序列 多模态 数据
2
智慧广告发布系统及方法
客户端 广告发布系统 显示端 多模态数据库 人流量信息
3
一种填空式视频生成交互方法
交互方法 元素 模板 图像增强算法 音效
4
一种基于多模态数据联动的设备异常处理方法及系统
传感器采集设备 异常事件 滑动窗口算法 跨系统 多源数据关联分析
5
视频生成模型的训练方法、装置、电子设备及存储介质
视频生成模型 多层感知机 视频帧 混合层 融合特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号