摘要
本发明提供了一种医疗视频生成方法及装置,获取医疗文字提示信息,并输入至医疗视频生成模型中,以输出与医疗文字提示信息相匹配的目标医疗视频;其中,医疗视频生成模型基于视频样本数据集训练得到,视频样本数据集中的每个样本视频为基于CLIP模型筛选出的视频时间连续的医疗相关视频,且每个样本视频满足预设的美学评分标准和技术评分标准;该方式中,视频样本数据集中的每个样本视频均为视频时间连续的医疗相关视频,且满足预设的美学评分标准和技术评分标准,因而可以保证得到高质量的视频样本数据集,从而可以提高基于该高质量的视频样本数据集训练得到的医疗视频生成模型的训练效果,进而提高生成的医疗视频的质量。
技术关键词
视频生成模型
文字提示信息
样本
视频帧
视频关联信息
美学
视频生成方法
数据
文本
黑色边框
文字识别工具
编码
视频生成装置
大语言模型
语义
随机噪声
检测工具
输出模块
解码器