摘要
本发明属于计算机视觉和机器学习技术领域,涉及一种基于OCR的旅客遗失物查找方法、系统和可读介质,包括:获取对遗失物的描述文本,并提取描述文本中的关键信息;将关键信息以及数据库中的遗失物图像输入多模态大模型中,通过其中的图像编码器和文本编码器,分别提取出图文对齐的文本特征和图像特征;通过跨模态匹配算法,获得文本特征和图像特征的匹配值;将数据库中的遗失物图像输入OCR深度学习模型,提取遗失物图像中的文字信息;通过文字信息对匹配值进行修正;将经过修正的匹配值进行从高到低排列,选择前若干个图像作为遗失物查找结果。其能够增强铁路遗失物对诸如图书、药品、食品等带有名称、品牌等文字信息图像的检索效果。
技术关键词
查找方法
旅客
文本编码器
图像编码器
跨模态
深度学习模型
多模态
文本关键信息
图文
机器学习技术
词性信息
查找系统
可读存储介质
分词算法
大语言模型
计算机视觉
输出模块
系统为您推荐了相关专利信息
缺陷检测方法
可见光图像
电力高压设备
紫外光
双通道注意力
动态时间规整算法
语义
动态规划算法
跨模态
注意力