一种用于大模型文档问答的指令微调数据集构建方法

正文

推荐专利

申请号：CN202510985500

申请日期：2025-07-17

公开号：CN120930824A

公开日期：2025-11-11

类型：发明专利

摘要

本发明属于数据集构建技术领域，尤其涉及一种用于大模型文档问答的指令微调数据集构建方法，包括：对获取的非结构化知识文档数据集进行预处理；采用视觉大语言模型对文档中的非结构化信息进行识别，生成文本性描述；结合文本描述和对应的文本问题内容，采用文本推理模型增强答案生成；再通过过滤策略提取优质数据及其推理过程；将推理过程与正确答案拼接作为答案部分，最终构建原始文档问答视觉推理数据集。采用本发明的方法不仅提升了问答数据集的丰富性和多样性，还使其能够更好地适应包含复杂视觉信息的文档问答场景，为文档视觉问答任务提供了更高质量的数据支持。

技术关键词

数据集构建方法视觉推理答案大语言模型文本区域检测指令问答场景图表策略格式图像表格金融风格蒸馏报告科技

系统为您推荐了相关专利信息

一种基于多源知识融合和层次化的具身规划方法

大语言模型规划调料模块面向对象编程语言

面向VQTTS模型的语音合成缺陷修正方法、设备及存储介质

缺陷修正方法文本大语言模型标签生成语音

用于自然资源调查监测系统的语音交互操作方法及系统

自然资源交互操作方法监测系统自然语言实体关系抽取

基于大语言模型的船员适应性周期调节方法、装置及存储介质

受限玻尔兹曼机大语言模型前庭功能测试周期调节方法训练场景

一种基于MCP架构的声呐脉冲截获方法及产品

截获方法脉冲依赖特征大语言模型多普勒

一种用于大模型文档问答的指令微调数据集构建方法

站点导航

APP 下载