一种字幕生成模型设计方法、装置、存储介质和程序产品

AITNT
正文
推荐专利
一种字幕生成模型设计方法、装置、存储介质和程序产品
申请号:CN202510059091
申请日期:2025-01-14
公开号:CN119893015A
公开日期:2025-04-25
类型:发明专利
摘要
本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域。其中,字幕生成模型设计方法包括:输入一段语音和对应的正确内容,以及字幕单行最大限制字数;使用基于深度学习的人声检测模型进行人声检测;使用预训练的深度模型进行语音识别;使用所述正确内容与识别文字进行匹配、校正,得到字幕文字;根据字幕单行最大限制字数,对字幕文字进行分行、整合,得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯,字幕与音频呈现更高的匹配度,且字幕文字更加易读;本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数,进一步提高了生成字幕的可读性。
技术关键词
模型设计方法 语音 分段 生成字幕 人声判别 分词 计算机装置 计算机程序产品 处理器 自然语言 显示设备 可读存储介质 音频 列表 校正 存储器 习惯
系统为您推荐了相关专利信息
1
数据处理方法、语音合成方法及相关设备
编码向量 数据处理方法 文本 离散特征 语音生成模型
2
模型训练任务执行方法、图形处理器和模型训练系统
图形处理器 文本 中央处理器 注意力 键值
3
基于人工智能的心理语言学数据挖掘集成平台
集成平台 声学特征 文本 语音 人工智能模型
4
一种基于大数据算法模型的数据采集分析设备
采集分析设备 大数据算法 信息采集模块 采集通信设备 语音
5
一种基于多模态数据融合的动态规则智能质检系统及方法
动态规则引擎 文本 多模态数据融合 智能质检系统 语音
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号