摘要
本发明提供了一种基于多模态大模型的截图内容抽取方法,用于提取OTA酒店结构化信息,包括如下步骤:获取带有酒店信息的截图图像;通过光学字符识别模型对图像进行文本识别,得到文本信息框集合;通过图像定位模型对图像进行文字区域定位,并提取文字区域的文本内容,得到文本内容集合;将文本内容集合输入至文本大模型,通过预设的提示词进行结构化信息抽取,得到第一结构化信息;将图像输入视觉语言模型,通过提示词进行结构化信息抽取,得到第二结构化信息;对第一结构化信息和第二结构化信息进行比对和融合,得到酒店结构化信息。本发明能够更全面、更准确地理解图像内容,显著提高了酒店结构化信息抽取的准确率,降低了信息提取的错误率。
技术关键词
内容抽取方法
多模态
图像定位模型
光学字符识别
文本识别
训练语言模型
视觉
抽取系统
深度学习模型
抽取设备
图像增强
处理器
错误率
指令
关键词
纠错
格式
存储器
系统为您推荐了相关专利信息
母线槽检测设备
运动控制系统
故障检测
特征参量
局部运动模式
多模态语音
交互注意力
节奏特征
声纹特征
语音编码器
巡查方法
多模态环境
深度强化学习
任务分配模型
无人机
视频异常事件
在线增量学习
系统性能监控
时序动作检测方法
系统监控