一种字幕生成模型设计方法、装置、存储介质和程序产品

正文

推荐专利

申请号：CN202510059091

申请日期：2025-01-14

公开号：CN119893015A

公开日期：2025-04-25

类型：发明专利

摘要

本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品，涉及自然语言处理技术领域。其中，字幕生成模型设计方法包括：输入一段语音和对应的正确内容，以及字幕单行最大限制字数；使用基于深度学习的人声检测模型进行人声检测；使用预训练的深度模型进行语音识别；使用所述正确内容与识别文字进行匹配、校正，得到字幕文字；根据字幕单行最大限制字数，对字幕文字进行分行、整合，得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯，字幕与音频呈现更高的匹配度，且字幕文字更加易读；本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数，进一步提高了生成字幕的可读性。

技术关键词

模型设计方法语音分段生成字幕人声判别分词计算机装置计算机程序产品处理器自然语言显示设备可读存储介质音频列表校正存储器习惯

系统为您推荐了相关专利信息

数据处理方法、语音合成方法及相关设备

编码向量数据处理方法文本离散特征语音生成模型

模型训练任务执行方法、图形处理器和模型训练系统

图形处理器文本中央处理器注意力键值

基于人工智能的心理语言学数据挖掘集成平台

集成平台声学特征文本语音人工智能模型

一种基于大数据算法模型的数据采集分析设备

采集分析设备大数据算法信息采集模块采集通信设备语音

一种基于多模态数据融合的动态规则智能质检系统及方法

动态规则引擎文本多模态数据融合智能质检系统语音

一种字幕生成模型设计方法、装置、存储介质和程序产品

站点导航

APP 下载