一种音频文本对齐方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510526402

申请日期：2025-04-25

公开号：CN120104759B

公开日期：2025-08-01

类型：发明专利

摘要

本申请公开了一种音频文本对齐方法、装置、设备及存储介质，涉及语音处理技术领域，包括：获取初始音频数据和相应的转录文本，获取初始音频数据对应的节奏变化率指数，并对转录文本进行语义分析，以获取各初始语义单元的重要程度；根据重要程度确定出目标语义单元，并将各目标语义单元与初始音频数据进行初步匹配，以确定各目标语义单元对应的锚点位置；基于节奏变化率指数为初始音频数据分配时间戳，以获取相应的目标音频数据，基于各锚点位置将目标音频数据划分为不同音频片段，并基于时间戳将音频片段与转录文本进行对齐。通过结合音频的节奏特性与文本的语义对音频与文本进行对齐，保证了音频和文本的对齐精度。

技术关键词

音频语义对齐方法文本数据指数话题锚点语音节点复杂度动态地句法结构对齐装置密度对齐模块核心风格分析模块可读存储介质

系统为您推荐了相关专利信息

一种数字化流域水文监测预警方法及系统

水文监测预警方法监测预警系统机器学习模型数据采集模块

一种对抗胁迫攻击的多因素身份认证方法、系统及设备

微表情识别身份认证信息待认证密码面部特征

超声波精准测风与阻力在线监测方法及其相关设备

在线监测方法超声波换能器阵列巷道空间声波特征时间校正

一种用于管理医疗风险的方法

深度信念网络最佳特征子集生成对抗网络风险评估算法数据

基于多模型融合的交互式车辆定损方法、装置及存储介质

机器学习模型交互式车辆定损方法多模型多媒体

一种音频文本对齐方法、装置、设备及存储介质

站点导航

APP 下载