视频文字位置定位方法、系统、介质及装置

正文

推荐专利

视频文字位置定位方法、系统、介质及装置

申请号：CN202510258584

申请日期：2025-03-06

公开号：CN119763023B

公开日期：2025-08-19

类型：发明专利

摘要

本申请提供一种视频文字位置定位方法、系统、介质及装置，包括：获取包含文字的参考帧和待定位视频帧；提取参考帧的跨模态特征；提取待定位视频帧的帧特征矩阵；基于跨模态特征和帧特征矩阵构建输入特征矩阵，输入特征矩阵包括跨模态特征和帧特征矩阵和位置向量；将输入特征矩阵输入大语言模型，获取输出特征矩阵；获取输出特征矩阵中位置向量对应的输出向量的均值和方差；基于均值和方差获取一个高斯分布样本；获取高斯分布样本的掩码，以根据掩码确定待定位视频帧的文字位置。本申请能够通过对视频文字所有的帧进行特征提取、融合以及掩码的获取等技术，实现了视频中文字定位的准确性。

技术关键词

位置定位方法矩阵跨模态多层感知机输出特征位置定位装置交叉注意力机制文本行大语言模型融合特征模态特征文本编码器 sigmoid函数样本位置定位系统字符视频帧存储计算机程序

系统为您推荐了相关专利信息

高分辨率有机显示驱动波形生成方法

波形生成方法参数显示控制芯片亮度校正显示数据处理技术

一种基于BP神经网络的双端混合线路非同步故障测距方法

故障测距方法 BP神经网络混合线路故障架空线混合线路线路参数误差

一种智能自适应环境感知传感器

广义可加模型环境检测模块贝叶斯网络模型分析传感器三次样条函数

用于水利工程施工过程的数智化管理方法及系统

水利工程施工现场管理方法训练预测模型风险预测模型偏差

基于Xenomai的实时Linux控制器及其方法

总线控制器电机时序特征语义补丁

视频文字位置定位方法、系统、介质及装置

站点导航

APP 下载