基于特征提取和大语言模型的演示文稿解析方法及装置

AITNT
正文
推荐专利
基于特征提取和大语言模型的演示文稿解析方法及装置
申请号:CN202411389552
申请日期:2024-09-30
公开号:CN119203992A
公开日期:2024-12-27
类型:发明专利
摘要
本申请提供基于特征提取和大语言模型的演示文稿解析方法及装置,方法包括:接收演示文稿;对每个演示页面,调用预设演示文稿开源库中的库函数,提取该演示页面中各个视觉元素的特征信息,基于特征信息中的位置信息,确定各个视觉元素的布局信息,组合各个视觉元素的特征信息和布局信息,形成该演示页面的描述;将每个演示页面的描述和预设提示词输入大语言模型,使其在预设提示词的引导下根据描述进行语义解析,输出每个演示页面的解析结果。由此,通过为大语言模型提供包括视觉元素的特征信息和布局信息的描述以进行语义解析,提高了系统对演示文稿的解析效果。
技术关键词
视觉 元素 页面 图表 大语言模型 解析方法 布局 光学字符识别技术 表格 文本 语义 解析装置 图片 关系 模块 数据 符号 数值
系统为您推荐了相关专利信息
1
一种基于深度强化学习-快速探索随机树的路径规划方法
路径规划方法 深度强化学习 表达式 终点 误差
2
多模态智能体助手视觉安全测评方法及相关装置
多模态 场景 测评方法 对抗性 视觉
3
控制方法、装置、车辆和计算机存储介质
车辆 发射装置 参数 视觉感知装置 计算机存储介质
4
一种基于AU控制扩散模型的面部表情合成方法及系统
图像 反演技术 面部 空间结构 文本
5
一种多模态大模型指导的监管指令图像生成方法及设备
图像生成方法 指令 多模态 迭代学习模型 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号