一种音频文本对齐方法、装置、设备及存储介质

AITNT
正文
推荐专利
一种音频文本对齐方法、装置、设备及存储介质
申请号:CN202510526402
申请日期:2025-04-25
公开号:CN120104759B
公开日期:2025-08-01
类型:发明专利
摘要
本申请公开了一种音频文本对齐方法、装置、设备及存储介质,涉及语音处理技术领域,包括:获取初始音频数据和相应的转录文本,获取初始音频数据对应的节奏变化率指数,并对转录文本进行语义分析,以获取各初始语义单元的重要程度;根据重要程度确定出目标语义单元,并将各目标语义单元与初始音频数据进行初步匹配,以确定各目标语义单元对应的锚点位置;基于节奏变化率指数为初始音频数据分配时间戳,以获取相应的目标音频数据,基于各锚点位置将目标音频数据划分为不同音频片段,并基于时间戳将音频片段与转录文本进行对齐。通过结合音频的节奏特性与文本的语义对音频与文本进行对齐,保证了音频和文本的对齐精度。
技术关键词
音频 语义 对齐方法 文本 数据 指数 话题 锚点 语音 节点 复杂度 动态地 句法结构 对齐装置 密度 对齐模块 核心 风格 分析模块 可读存储介质
系统为您推荐了相关专利信息
1
一种数字化流域水文监测预警方法及系统
水文 监测预警方法 监测预警系统 机器学习模型 数据采集模块
2
一种对抗胁迫攻击的多因素身份认证方法、系统及设备
微表情识别 身份认证信息 待认证 密码 面部特征
3
超声波精准测风与阻力在线监测方法及其相关设备
在线监测方法 超声波换能器阵列 巷道空间 声波特征 时间校正
4
一种用于管理医疗风险的方法
深度信念网络 最佳特征子集 生成对抗网络 风险评估算法 数据
5
基于多模型融合的交互式车辆定损方法、装置及存储介质
机器学习模型 交互式车辆 定损方法 多模型 多媒体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号