一种基于可信视位素获取的中文唇语识别方法

正文

推荐专利

申请号：CN202510302505

申请日期：2025-03-14

公开号：CN120260118A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种基于可信视位素获取的中文唇语识别方法，所述方法包括以下步骤：S1.数据采集与预处理：以获得刻画唇部运动视频数据；S2.深度聚类：对刻画唇部运动视频数据进行深度聚类，获得聚类分布的视位素类别数量，相应的视位素类别及视位素库，从而获得与所述刻画唇部运动视频数据相应的带视位素类别标注的逐帧图像数据；S3.基于视位素中间表示的级联汉字字符序列识别：基于带视位素类别标注的逐帧图像数据进行特征提取，实现以视位素为中间表示的级联汉字字符序列识别。本方法能够降低识别预测的累积误差，提升基于视位素的唇语识别性能，打破基于视位素的唇语识别的准确率瓶颈。

技术关键词

中文唇语识别方法运动视频数据编解码单元序列识别编码器多头注意力机制字符汉字时空卷积神经网络特征提取器深度聚类方法神经网络模型卷积神经网络提取素子网络模块图像高斯混合模型前馈神经网络

系统为您推荐了相关专利信息

一种基于TCN-CVAE深度神经网络的电网故障场景生成方法及系统

故障场景深度神经网络电力系统仿真软件生成方法时间卷积网络

一种基于动态策略切换的多任务自适应学习方法

调度控制器学习方法特征提取网络非线性编码向量

基于热成像的电熔焊接评估方法、装置、设备及存储介质

红外热成像仪 PE管道电熔神经网络模型电熔管件图像重建

增量语义分割方法及自动驾驶图像语义分割方法

解码器标记特征注意力机制语义分割模型图像语义分割方法

一种电网工程造价合理性分析系统

电网工程造价实体分析系统图谱三元组

一种基于可信视位素获取的中文唇语识别方法

站点导航

APP 下载