基于特征提取和大语言模型的演示文稿解析方法及装置

正文

推荐专利

申请号：CN202411389552

申请日期：2024-09-30

公开号：CN119203992A

公开日期：2024-12-27

类型：发明专利

摘要

本申请提供基于特征提取和大语言模型的演示文稿解析方法及装置，方法包括：接收演示文稿；对每个演示页面，调用预设演示文稿开源库中的库函数，提取该演示页面中各个视觉元素的特征信息，基于特征信息中的位置信息，确定各个视觉元素的布局信息，组合各个视觉元素的特征信息和布局信息，形成该演示页面的描述；将每个演示页面的描述和预设提示词输入大语言模型，使其在预设提示词的引导下根据描述进行语义解析，输出每个演示页面的解析结果。由此，通过为大语言模型提供包括视觉元素的特征信息和布局信息的描述以进行语义解析，提高了系统对演示文稿的解析效果。

技术关键词

视觉元素页面图表大语言模型解析方法布局光学字符识别技术表格文本语义解析装置图片关系模块数据符号数值

系统为您推荐了相关专利信息

一种基于深度强化学习-快速探索随机树的路径规划方法

路径规划方法深度强化学习表达式终点误差

多模态智能体助手视觉安全测评方法及相关装置

多模态场景测评方法对抗性视觉

控制方法、装置、车辆和计算机存储介质

车辆发射装置参数视觉感知装置计算机存储介质

一种基于AU控制扩散模型的面部表情合成方法及系统

图像反演技术面部空间结构文本

一种多模态大模型指导的监管指令图像生成方法及设备

图像生成方法指令多模态迭代学习模型语义

基于特征提取和大语言模型的演示文稿解析方法及装置

站点导航

APP 下载