摘要
本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域。其中,字幕生成模型设计方法包括:输入一段语音和对应的正确内容,以及字幕单行最大限制字数;使用基于深度学习的人声检测模型进行人声检测;使用预训练的深度模型进行语音识别;使用所述正确内容与识别文字进行匹配、校正,得到字幕文字;根据字幕单行最大限制字数,对字幕文字进行分行、整合,得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯,字幕与音频呈现更高的匹配度,且字幕文字更加易读;本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数,进一步提高了生成字幕的可读性。
技术关键词
模型设计方法
语音
分段
生成字幕
人声判别
分词
计算机装置
计算机程序产品
处理器
自然语言
显示设备
可读存储介质
音频
列表
校正
存储器
习惯
系统为您推荐了相关专利信息
编码向量
数据处理方法
文本
离散特征
语音生成模型
采集分析设备
大数据算法
信息采集模块
采集通信设备
语音
动态规则引擎
文本
多模态数据融合
智能质检系统
语音