一种用于粤语的大模型泛化方法、装置、终端及存储介质

正文

推荐专利

申请号：CN202510401624

申请日期：2025-04-01

公开号：CN120336468A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及人工智能技术领域，特别涉及一种用于粤语的大模型泛化方法、装置、终端及存储介质，方法包括：将预定语言类型数据集中的各原始文本转化为原始粤语文本；将原始粤语文本和对应的真值标签输入语言模型中进行强化学习训练，得到粤语大模型和新增粤语文本；构建粤语数据库；当待识别文本输入粤语大模型时，识别待识别文本中的粤语词汇，根据粤语词汇检索粤语数据库，得到目标粤语文本；基于待识别文本和目标粤语文本输出识别结果。本申请极大地增加了粤语数据集的数量，更好地捕捉粤语的语言特征，利用检索增强生成机制，参考除了用户提问方面以外的粤语数据库中的大量知识，提高了识别的准确性。

技术关键词

文本泛化方法多语言标签机器翻译语义数据可读存储介质生成机制人工智能技术语法结构处理器输入模块终端识别模块存储器计算机英语程序

系统为您推荐了相关专利信息

一种多元文档解析方法及系统

文档解析方法格式 YOLO模型元素图片

一种调解文书生成方法及其系统

案件数据文书生成方法文本 TextRank算法命名实体识别

对话信息的处理方法、系统、电子设备和存储介质

信息处理模型音频单元多模态信息样本语音输入信息

基于BP神经网络和小波包特征对AMT变速箱故障诊断的方法及系统

AMT变速箱能量特征提取 BP神经网络两侧对称布置 AMT控制器

一种人体运动序列的生成模型训练方法、生成方法及系统

火柴运动向量线条运动编码器运动噪声

一种用于粤语的大模型泛化方法、装置、终端及存储介质

站点导航

APP 下载