一种基于可信视位素获取的中文唇语识别方法

AITNT
正文
推荐专利
一种基于可信视位素获取的中文唇语识别方法
申请号:CN202510302505
申请日期:2025-03-14
公开号:CN120260118A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种基于可信视位素获取的中文唇语识别方法,所述方法包括以下步骤:S1.数据采集与预处理:以获得刻画唇部运动视频数据;S2.深度聚类:对刻画唇部运动视频数据进行深度聚类,获得聚类分布的视位素类别数量,相应的视位素类别及视位素库,从而获得与所述刻画唇部运动视频数据相应的带视位素类别标注的逐帧图像数据;S3.基于视位素中间表示的级联汉字字符序列识别:基于带视位素类别标注的逐帧图像数据进行特征提取,实现以视位素为中间表示的级联汉字字符序列识别。本方法能够降低识别预测的累积误差,提升基于视位素的唇语识别性能,打破基于视位素的唇语识别的准确率瓶颈。
技术关键词
中文唇语识别方法 运动视频数据 编解码单元 序列识别 编码器 多头注意力机制 字符 汉字 时空卷积神经网络 特征提取器 深度聚类方法 神经网络模型 卷积神经网络提取 素子 网络模块 图像 高斯混合模型 前馈神经网络
系统为您推荐了相关专利信息
1
一种基于TCN-CVAE深度神经网络的电网故障场景生成方法及系统
故障场景 深度神经网络 电力系统仿真软件 生成方法 时间卷积网络
2
一种基于动态策略切换的多任务自适应学习方法
调度控制器 学习方法 特征提取网络 非线性 编码向量
3
基于热成像的电熔焊接评估方法、装置、设备及存储介质
红外热成像仪 PE管道电熔 神经网络模型 电熔管件 图像重建
4
增量语义分割方法及自动驾驶图像语义分割方法
解码器 标记特征 注意力机制 语义分割模型 图像语义分割方法
5
一种电网工程造价合理性分析系统
电网工程造价 实体 分析系统 图谱 三元组
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号