摘要
本发明公开了一种残疾人直播带货的辅助音视频生成系统及方法,包括包括直播语音模型和直播视频模型;所述直播语音模型包括语义理解单元、语义标记单元和语音生成单元。本发明通过识别残疾人语音对残疾人语音进行替换,以克服残疾人由于和人沟通少导致出现的停顿、错字、漏字或缺少情感导致的直播效果较差的问题,还可以根据当前视频实时生成商品展示的动画,从而克服部分残疾人由于肢体残疾导致的不便展示商品使用状态的问题。
技术关键词
生成系统
标记单元
Softmax函数
人脸身份
语义
音视频生成方法
面部特征
位置编码器
文本编码器
大语言模型
序列
语音特征
音频
系统为您推荐了相关专利信息
生成测试用例
大语言模型
非易失性计算机可读存储介质
计算机程序指令
测试用例关联
分诊系统
分诊方法
智能分诊
人机交互模块
BERT模型
大语言模型
语义理解模型
生成方法
生成系统
样本