视频文字位置定位方法、系统、介质及装置

AITNT
正文
推荐专利
视频文字位置定位方法、系统、介质及装置
申请号:CN202510258584
申请日期:2025-03-06
公开号:CN119763023B
公开日期:2025-08-19
类型:发明专利
摘要
本申请提供一种视频文字位置定位方法、系统、介质及装置,包括:获取包含文字的参考帧和待定位视频帧;提取参考帧的跨模态特征;提取待定位视频帧的帧特征矩阵;基于跨模态特征和帧特征矩阵构建输入特征矩阵,输入特征矩阵包括跨模态特征和帧特征矩阵和位置向量;将输入特征矩阵输入大语言模型,获取输出特征矩阵;获取输出特征矩阵中位置向量对应的输出向量的均值和方差;基于均值和方差获取一个高斯分布样本;获取高斯分布样本的掩码,以根据掩码确定待定位视频帧的文字位置。本申请能够通过对视频文字所有的帧进行特征提取、融合以及掩码的获取等技术,实现了视频中文字定位的准确性。
技术关键词
位置定位方法 矩阵 跨模态 多层感知机 输出特征 位置定位装置 交叉注意力机制 文本行 大语言模型 融合特征 模态特征 文本编码器 sigmoid函数 样本 位置定位系统 字符 视频帧 存储计算机程序
系统为您推荐了相关专利信息
1
高分辨率有机显示驱动波形生成方法
波形生成方法 参数 显示控制芯片 亮度校正 显示数据处理技术
2
一种基于BP神经网络的双端混合线路非同步故障测距方法
故障测距方法 BP神经网络 混合线路故障 架空线混合线路 线路参数误差
3
一种智能自适应环境感知传感器
广义可加模型 环境检测模块 贝叶斯网络模型 分析传感器 三次样条函数
4
用于水利工程施工过程的数智化管理方法及系统
水利工程施工现场 管理方法 训练预测模型 风险预测模型 偏差
5
基于Xenomai的实时Linux控制器及其方法
总线控制器 电机 时序特征 语义 补丁
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号