摘要
本申请提供基于特征提取和大语言模型的演示文稿解析方法及装置,方法包括:接收演示文稿;对每个演示页面,调用预设演示文稿开源库中的库函数,提取该演示页面中各个视觉元素的特征信息,基于特征信息中的位置信息,确定各个视觉元素的布局信息,组合各个视觉元素的特征信息和布局信息,形成该演示页面的描述;将每个演示页面的描述和预设提示词输入大语言模型,使其在预设提示词的引导下根据描述进行语义解析,输出每个演示页面的解析结果。由此,通过为大语言模型提供包括视觉元素的特征信息和布局信息的描述以进行语义解析,提高了系统对演示文稿的解析效果。
技术关键词
视觉
元素
页面
图表
大语言模型
解析方法
布局
光学字符识别技术
表格
文本
语义
解析装置
图片
关系
模块
数据
符号
数值
系统为您推荐了相关专利信息
车辆
发射装置
参数
视觉感知装置
计算机存储介质