一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置

正文

推荐专利

申请号：CN202411457935

申请日期：2024-10-18

公开号：CN119545070A

公开日期：2025-02-28

类型：发明专利

摘要

本发明公开了一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置，涉及字幕生成技术领域。首先对输入的音视频进行提取音频数据及预处理，作为下一步模型的输入数据；接下来进行垂直领域语音识别压缩，主要分为压缩和推理两个阶段，其中压缩阶段基于新闻语音的特征，对现有的神经网络语音识别模型进行新闻语音特征提取和模型压缩，减少模型中通用语音识别领域的知识；而推理阶段则利用压缩后的模型进行自动化语音识别。然后将文本信息与音频数据的时间轴同步，生成时间戳；根据时间戳和文本内容，动态生成新闻字幕。本发明聚焦于新闻字幕生成，针对嵌入式的运行场景进行优化，基于垂直领域语音识别模型压缩技术实现自动化字幕实时生成。

技术关键词

语音识别模型嵌入式设备音频同步字幕自动化语音识别校准机制数据文本生成方法压缩算法编码器音视频语音特征提取生成时间戳模型压缩生成技术模块

系统为您推荐了相关专利信息

一种基于掩码预测的视频转换方法及系统

音频特征视频转换方法训练特征转换文本音频编码

一种共享输液控制器管理柜的控制电路

输液控制器控制芯片检测板通讯电路触摸屏驱动电路

融合模型蒸馏的建筑设备轻量化智能听诊系统

智能听诊系统建筑设备设备状态数据特征提取模块蒸馏

一种基于多智能体协同的多维知识管理方法及系统

多维知识管理多智能体协同工作流神经网络分类器 SVM分类器

一种多信道语音处理方法及系统

多信道预训练模型多声道音频声纹特征

一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置

站点导航

APP 下载