一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置

AITNT
正文
推荐专利
一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置
申请号:CN202411457935
申请日期:2024-10-18
公开号:CN119545070A
公开日期:2025-02-28
类型:发明专利
摘要
本发明公开了一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置,涉及字幕生成技术领域。首先对输入的音视频进行提取音频数据及预处理,作为下一步模型的输入数据;接下来进行垂直领域语音识别压缩,主要分为压缩和推理两个阶段,其中压缩阶段基于新闻语音的特征,对现有的神经网络语音识别模型进行新闻语音特征提取和模型压缩,减少模型中通用语音识别领域的知识;而推理阶段则利用压缩后的模型进行自动化语音识别。然后将文本信息与音频数据的时间轴同步,生成时间戳;根据时间戳和文本内容,动态生成新闻字幕。本发明聚焦于新闻字幕生成,针对嵌入式的运行场景进行优化,基于垂直领域语音识别模型压缩技术实现自动化字幕实时生成。
技术关键词
语音识别模型 嵌入式设备 音频 同步字幕 自动化语音识别 校准机制 数据 文本 生成方法 压缩算法 编码器 音视频 语音特征提取 生成时间戳 模型压缩 生成技术 模块
系统为您推荐了相关专利信息
1
一种基于掩码预测的视频转换方法及系统
音频特征 视频转换方法 训练特征 转换文本 音频编码
2
一种共享输液控制器管理柜的控制电路
输液控制器 控制芯片 检测板 通讯电路 触摸屏驱动电路
3
融合模型蒸馏的建筑设备轻量化智能听诊系统
智能听诊系统 建筑设备 设备状态数据 特征提取模块 蒸馏
4
一种基于多智能体协同的多维知识管理方法及系统
多维知识管理 多智能体协同 工作流 神经网络分类器 SVM分类器
5
一种多信道语音处理方法及系统
多信道 预训练模型 多声道 音频 声纹特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号