摘要
本发明公开了一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置,涉及字幕生成技术领域。首先对输入的音视频进行提取音频数据及预处理,作为下一步模型的输入数据;接下来进行垂直领域语音识别压缩,主要分为压缩和推理两个阶段,其中压缩阶段基于新闻语音的特征,对现有的神经网络语音识别模型进行新闻语音特征提取和模型压缩,减少模型中通用语音识别领域的知识;而推理阶段则利用压缩后的模型进行自动化语音识别。然后将文本信息与音频数据的时间轴同步,生成时间戳;根据时间戳和文本内容,动态生成新闻字幕。本发明聚焦于新闻字幕生成,针对嵌入式的运行场景进行优化,基于垂直领域语音识别模型压缩技术实现自动化字幕实时生成。
技术关键词
语音识别模型
嵌入式设备
音频
同步字幕
自动化语音识别
校准机制
数据
文本
生成方法
压缩算法
编码器
音视频
语音特征提取
生成时间戳
模型压缩
生成技术
模块
系统为您推荐了相关专利信息
音频特征
视频转换方法
训练特征
转换文本
音频编码
输液控制器
控制芯片
检测板
通讯电路
触摸屏驱动电路
智能听诊系统
建筑设备
设备状态数据
特征提取模块
蒸馏
多维知识管理
多智能体协同
工作流
神经网络分类器
SVM分类器