摘要
本发明公开了一种咨询服务语料数据资产化方法,包括:步骤S1,通过API接口抓取企业公开数据,并结合私有语料库获取企业非结构化、结构化语料数据;步骤S2,对获取的数据进行预处理,其中,预处理方式包括数据清洗、结构化数据、非结构化数据以及输出格式;步骤S3,构建并训练BiLSTM‑Attention模型,得到输入数据的实体标签及语义关系;步骤S4,构建知识图谱,将提取的实体标签映射至行业分类体系,对实体共现频率≥5次且PMI≥0.35的实体建立关联行业风险标签,生成Neo4j图数据库。本发明解决了多源异构语料数据的结构化整合与质量控制问题、数据权属确认与价值量化评估的技术难题、语料数据资产在金融风控场景中的应用闭环问题。
技术关键词
数据资产化方法
构建知识图谱
机器学习算法
实体
企业
时效性
标签
区块链存证
分类器
语义特征
格式
证书
高风险
文本
接口
频率
系统为您推荐了相关专利信息
问答机器人
知识图谱构建
测试方法
主题
依存句法分析
运动评估系统
分群
运动健康评估
控制中心
画像技术
灯具驱动板
LIN通信
控制指示灯
车辆灯具
升级方法
智能校正系统
气象预警信息
智能校正方法
异常信号
校正模块