摘要
本发明提出基于文本相关性的大模型金融数据合成方法及系统。首先将金融领域文档结合金融特性深度优化向量生成过程进行去重,转化为低维向量表示并构建语料图,然后依据金融数据独特性重新定义语料图的节点和边精心构建语料图,再然后利用基于定义的节点优先级和利用贪心算法串联文档,引入金融风险评估和市场趋势分析因素,根据金融数据的相关性和重要性动态调整路径搜索策略,优先串联最相关的文档,形成语义高度连贯流畅的上下文作为大模型金融预训练语料。
技术关键词
金融
大语言模型
大规模文本数据
风险评估值
贪心算法
术语
指标
数据分布
语义
样本
搜索模块
概念
定义
遗传算法
矩阵
节点
多任务
关系
系统为您推荐了相关专利信息
层次化语义
自动分类方法
构建知识图谱
语义特征
大语言模型
对话数据处理方法
韵律特征
节点
人工智能大数据处理技术
加权有向图
情感分析系统
智能语音交互
多模态情感识别
情感特征
验证机制