一种基于面部动态捕捉的中文唇语识别方法

AITNT
正文
推荐专利
一种基于面部动态捕捉的中文唇语识别方法
申请号:CN202411114776
申请日期:2024-08-14
公开号:CN119028348A
公开日期:2024-11-26
类型:发明专利
摘要
本发明公开了一种基于面部动态捕捉的中文唇语识别方法,具体步骤为:使用深度相机采集面部连续像;对连续图像进行三维面部关键点估计,并计算面部动态特征;将面部动态特征输入到唇语识别模型中,得到拼音类别的概率分布;使用大语言模型根据拼音类别的概率分布进行文字序列预测,生成中文唇语识别结果。本发明创新性地引入了深度摄像头进行数据采集,提供了深度信息作为输入,有效增强了模型在低光照环境下的表现。同时,模型训练数据覆盖了更加多样化的生活场景,更贴合实际应用需求。因为直接利用面部动态数据,模型省掉了复杂的3D卷积预处理网络,使得模型能够快速高效处理数据。因此该技术具有广泛应用于智能手机/智能移动设备的潜力。
技术关键词
中文唇语识别方法 面部关键点 拼音 深度相机 大语言模型 动态 坐标 深度图 智能移动设备 编码器 图像 平滑算法 解码器 序列 发音 深度值 智能手机
系统为您推荐了相关专利信息
1
一种基于多传感器的配送机器人
配送机器人 超声波传感器 多传感器 主控模块 电机控制器
2
混合模型驱动的可重入漏洞检修方法、装置和计算机设备
修复漏洞 大语言模型 切片 检修方法 字符
3
一种事件主题关联预测方法、装置、设备及可读存储介质
主题集合 关联预测方法 历史事件提取 系列 矩阵
4
一种机器人主从臂遥操作软硬件系统
软硬件系统 机器人 主动臂 智能模型 主机
5
幻灯片展示方向切换方法及装置
大语言模型 元素 语义主题 页面尺寸 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号