摘要
本发明公开了一种适应双语种船舶事故风险影响因素信息智能化抽取的方法,包括:1、根据抽取任务,制定数据标注规则;2、采用分层抽样法从数据集中抽取需要标注的船舶事故样本数据,且每次抽取的样本均涵盖中英文语料;3、利用标注软件,根据预设的标注规则标注抽取的船舶事故样本数据,并以“json”类型导出,得到文本序列;4、将标注的船舶事故样本数据划分为训练集、验证集和测试集;5、对UIE‑Multilingual模型进行训练和评估,微调模型的参数;6、根据F1分数,选出参数最优的UIE‑Multilingual模型并存储,得到微调UIE‑Multilingual模型;7、利用微调UIE‑Multilingual模型从大批量的双语种非结构化船舶事故报告中抽取事故风险影响因素,无需分别标注中文和英文语料,更加高效和准确。
技术关键词
事件触发词
船舶
编码器
标注规则
标注软件
抽取头
样本
风险
文本
检测损失
序列
注意力机制
语义特征
数据
训练集
实体
标注工具
矩阵
系统为您推荐了相关专利信息
文本检索方法
语义
图像
联合注意力机制
编码模块
辐射源识别方法
信号编码器
多模态
分层卷积神经网络
雷达
精调方法
样本
联合损失函数
排序损失
分类准确率