摘要
本申请提供了一种基于环境感知的视频生成方法及系统、服务器、介质,属于视频生成技术领域,该方法应用于可穿戴设备对应的服务器,该方法包括:获取第一影像信息和目标眼动信息;生成对应于第一影像信息的影像描述文本;基于目标眼动信息提取第一影像信息中的多个第二影像信息,生成对应于多个第二影像信息的影像描述文本;基于预设的文本转换规则将多个第二影像信息的影像描述文本转化为目标描述文本;目标描述文本用于指示服务器生成视频;至少将第一影像信息的影像描述文本以及目标描述文本输入至视频生成大模型中,得到第一影像信息对应的视频。本申请可以提升视频生成的准确性,提升用户体验。
技术关键词
影像
文本
视频生成方法
视觉
服务器
可穿戴设备
视频生成技术
视频生成系统
实体
可读存储介质
场景
密度
处理器
模块
语义
存储器
计算机