一种基于预训练微调的低资源语言唇语识别方法及装置

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
一种基于预训练微调的低资源语言唇语识别方法及装置
申请号:CN202511389203
申请日期:2025-09-26
公开号:CN120877391B
公开日期:2025-12-26
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,特别涉及一种基于预训练微调的低资源语言唇语识别方法及装置。方法包括:利用大量的英语视频数据集对模型进行预训练,以确保模型获得强大的泛化能力和有效的唇部特征表达能力;随后加载预训练模型权重后,通过少量藏语唇语数据集对模型进行全参数微调,以克服藏语视频数据稀缺的挑战。在推理解码阶段,引入专门针对藏语文本训练的Transformer语言模型,有效降低了唇语识别过程中可能出现的同音词混淆问题,从而提高了句子级别藏语唇语识别的准确性。总体架构经上述创新结构与方法改进,成功实现了对低资源语言的有效纯视觉唇语识别。
技术关键词
低资源语言 唇语识别系统 唇语识别方法 视觉特征提取 分词模型 文本 编解码 视频数据特征 语音识别技术 英语 解码器架构 两阶段 标签 特征提取器 网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号