一种基于预训练微调的低资源语言唇语识别方法及装置

AITNT
正文
推荐专利
一种基于预训练微调的低资源语言唇语识别方法及装置
申请号:CN202511389203
申请日期:2025-09-26
公开号:CN120877391B
公开日期:2025-12-26
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,特别涉及一种基于预训练微调的低资源语言唇语识别方法及装置。方法包括:利用大量的英语视频数据集对模型进行预训练,以确保模型获得强大的泛化能力和有效的唇部特征表达能力;随后加载预训练模型权重后,通过少量藏语唇语数据集对模型进行全参数微调,以克服藏语视频数据稀缺的挑战。在推理解码阶段,引入专门针对藏语文本训练的Transformer语言模型,有效降低了唇语识别过程中可能出现的同音词混淆问题,从而提高了句子级别藏语唇语识别的准确性。总体架构经上述创新结构与方法改进,成功实现了对低资源语言的有效纯视觉唇语识别。
技术关键词
低资源语言 唇语识别系统 唇语识别方法 视觉特征提取 分词模型 文本 编解码 视频数据特征 语音识别技术 英语 解码器架构 两阶段 标签 特征提取器 网络
系统为您推荐了相关专利信息
1
一种面向汉藏双语古籍知识化方法与系统
多模态 低资源语言 图片 知识图谱构建 模型预训练
2
一种基于视觉大语言模型的疼痛评估方法及系统
疼痛评估方法 大语言模型 生理传感器 数据 疼痛评估系统
3
一种用于关节活动度评价的深度学习系统
深度学习系统 人体关节点 空间特征提取 图像采集模块 深度学习模型
4
病害知识问答方法、系统、电子设备及存储介质
知识问答方法 实体 图谱 词嵌入模型 链路
5
基于可见光与红外融合的河道禁渔船只监测方法及系统
船只监测方法 分布特征 可见光图像 融合特征 特征模板
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号