摘要
本发明公开了一种采用人工智能的视频通讯语音转写方法、装置及电子设备,涉及语音转写技术领域,包括以下步骤:获取视频通讯过程中的语音信号并按照预设帧长进行切分,得到若干个语音片段;对若干个语音片段分别进行特征提取,构建模糊特征向量并识别模糊发音区段;采用三角形隶属度函数构建语音隶属度曲线,并对语音隶属度曲线的拐点前后的模糊特征向量变化进行评估;基于评估结果对模糊发音区段对应的语音隶属度曲线斜率进行修正,得到修正后的模糊区间;对动态生成的音素候选路径进行筛选,并基于筛选后的最优音素路径生成文字转写结果,解决了当语义变化量被过度放大时,曲线拐点偏移过大,导致模糊音被强制分配到非主语义路径的问题。
技术关键词
语音转写方法
视频通讯
隶属度函数
生成文字
双向长短期记忆网络
曲线斜率
发音
语音采集模块
转移概率矩阵
语音转写技术
三角形
噪声抑制算法
隐马尔可夫模型
生成候选词
电子设备
分析模块
谐波噪声
信号
系统为您推荐了相关专利信息
柔性作业车间调度
子模块
隶属度函数
多阶段
层级
PLC系统
模糊算法
模糊规则库
模糊控制规则
隶属度函数
光引发剂
验证系统
指标
决策评价方法
色谱分析法
学习控制器
闭环反馈控制方法
节点
模糊PID控制器
误差
医学图像识别方法
灰度共生矩阵
医学图像数据集
搜索优化算法
医学图像分类