基于现代汉语语法经济安全领域训练的语言模型构建方法

AITNT
正文
推荐专利
基于现代汉语语法经济安全领域训练的语言模型构建方法
申请号:CN202411057220
申请日期:2024-08-02
公开号:CN118886429A
公开日期:2024-11-01
类型:发明专利
摘要
本发明提供一种基于现代汉语语法经济安全领域训练的语言模型构建方法,包括:对获取的原始数据进行清洗,加入经济安全领域的专有名词词典;从整体语料中随机抽取15%的词语进行MASK;组织上下文训练语料,格式为语料中每两个连续的句子,定义起始符,句子中间用分隔符隔开,以此定义为正样本,以第二个句子为预料中随机抽取到的定义为负样本;随机初始化词嵌入矩阵,获取静态的词向量;定义句子编码器层;定义位置编码器层;采用双向的Transformer模型作为特征提取器,联系了上下文语义关系捕获句子中潜在的隐语义表征;在Attention注意力机制中加入了MASK遮蔽功能;预训练任务设计;模型训练;模型评估。
技术关键词
语言模型构建方法 现代汉语 位置编码器 特征提取器 数据源获取数据 定义 注意力机制 词语 语义 样本 词典 矩阵 格式 显卡 组织 答案 服务器 关系
系统为您推荐了相关专利信息
1
一种实现高质量模特穿衣的方法、装置、设备和介质
模特 特征提取器 图像块 高清 拉普拉斯
2
流量检测模型训练方法、流量检测方法及装置
检测模型训练方法 识别流量数据 特征提取器 网络抓包 流量检测方法
3
一种复杂道路环境的轻量化双动态车辆检测分类方法及系统
检测分类模型 检测分类方法 特征提取器 检测分类系统 图像采集模块
4
一种基于动态意图感知的跨域知识迁移冷启动推荐方法
冷启动推荐方法 意图 特征提取器 动态 阶段
5
一种情感可控的联合编码VITS语音合成方法及相关装置
融合情感特征 情感类别 文本特征向量 生成语音 编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号