摘要
本申请提供一种视频文字位置定位方法、系统、介质及装置,包括:获取包含文字的参考帧和待定位视频帧;提取参考帧的跨模态特征;提取待定位视频帧的帧特征矩阵;基于跨模态特征和帧特征矩阵构建输入特征矩阵,输入特征矩阵包括跨模态特征和帧特征矩阵和位置向量;将输入特征矩阵输入大语言模型,获取输出特征矩阵;获取输出特征矩阵中位置向量对应的输出向量的均值和方差;基于均值和方差获取一个高斯分布样本;获取高斯分布样本的掩码,以根据掩码确定待定位视频帧的文字位置。本申请能够通过对视频文字所有的帧进行特征提取、融合以及掩码的获取等技术,实现了视频中文字定位的准确性。
技术关键词
位置定位方法
矩阵
跨模态
多层感知机
输出特征
位置定位装置
交叉注意力机制
文本行
大语言模型
融合特征
模态特征
文本编码器
sigmoid函数
样本
位置定位系统
字符
视频帧
存储计算机程序
系统为您推荐了相关专利信息
波形生成方法
参数
显示控制芯片
亮度校正
显示数据处理技术
故障测距方法
BP神经网络
混合线路故障
架空线混合线路
线路参数误差
广义可加模型
环境检测模块
贝叶斯网络模型
分析传感器
三次样条函数
水利工程施工现场
管理方法
训练预测模型
风险预测模型
偏差