一种用于大模型文档问答的指令微调数据集构建方法

AITNT
正文
推荐专利
一种用于大模型文档问答的指令微调数据集构建方法
申请号:CN202510985500
申请日期:2025-07-17
公开号:CN120930824A
公开日期:2025-11-11
类型:发明专利
摘要
本发明属于数据集构建技术领域,尤其涉及一种用于大模型文档问答的指令微调数据集构建方法,包括:对获取的非结构化知识文档数据集进行预处理;采用视觉大语言模型对文档中的非结构化信息进行识别,生成文本性描述;结合文本描述和对应的文本问题内容,采用文本推理模型增强答案生成;再通过过滤策略提取优质数据及其推理过程;将推理过程与正确答案拼接作为答案部分,最终构建原始文档问答视觉推理数据集。采用本发明的方法不仅提升了问答数据集的丰富性和多样性,还使其能够更好地适应包含复杂视觉信息的文档问答场景,为文档视觉问答任务提供了更高质量的数据支持。
技术关键词
数据集构建方法 视觉推理 答案 大语言模型 文本区域检测 指令 问答场景 图表 策略 格式 图像 表格 金融 风格 蒸馏 报告 科技
系统为您推荐了相关专利信息
1
一种基于多源知识融合和层次化的具身规划方法
大语言模型 规划 调料 模块 面向对象编程语言
2
面向VQTTS模型的语音合成缺陷修正方法、设备及存储介质
缺陷修正方法 文本 大语言模型 标签 生成语音
3
用于自然资源调查监测系统的语音交互操作方法及系统
自然资源 交互操作方法 监测系统 自然语言 实体关系抽取
4
基于大语言模型的船员适应性周期调节方法、装置及存储介质
受限玻尔兹曼机 大语言模型 前庭功能测试 周期调节方法 训练场景
5
一种基于MCP架构的声呐脉冲截获方法及产品
截获方法 脉冲 依赖特征 大语言模型 多普勒
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号