摘要
本发明涉及人工智能技术领域,特别涉及一种用于粤语的大模型泛化方法、装置、终端及存储介质,方法包括:将预定语言类型数据集中的各原始文本转化为原始粤语文本;将原始粤语文本和对应的真值标签输入语言模型中进行强化学习训练,得到粤语大模型和新增粤语文本;构建粤语数据库;当待识别文本输入粤语大模型时,识别待识别文本中的粤语词汇,根据粤语词汇检索粤语数据库,得到目标粤语文本;基于待识别文本和目标粤语文本输出识别结果。本申请极大地增加了粤语数据集的数量,更好地捕捉粤语的语言特征,利用检索增强生成机制,参考除了用户提问方面以外的粤语数据库中的大量知识,提高了识别的准确性。
技术关键词
文本
泛化方法
多语言
标签
机器翻译
语义
数据
可读存储介质
生成机制
人工智能技术
语法结构
处理器
输入模块
终端
识别模块
存储器
计算机
英语
程序
系统为您推荐了相关专利信息
案件数据
文书生成方法
文本
TextRank算法
命名实体识别
信息处理模型
音频单元
多模态信息
样本
语音输入信息
AMT变速箱
能量特征提取
BP神经网络
两侧对称布置
AMT控制器