摘要
本发明涉及一种端侧语音交互方法,属于语音交互技术领域,该方法包括:在端侧设备上,利用压缩感知技术在语音采集端进行亚采样重构语音信号;将重构得到的语音信号输入脉冲神经网络模块提取情绪相关脉冲特征;将情绪相关脉冲特征输入轻量分类网络进行分类;自动语音识别模型将重构得到的语音信号转写为文本内容,文本内容作为自然语言处理大模型的输入,利用预训练语言模型或接入大模型平台进行语义解析与分类后的情绪交叉建模输出语义情绪标签;采用FastSpeech2‑Lite与HiFi‑GAN Mini的联合方法,将语义情绪标签与文本内容转化为具有相应情感的语音输出。本发明实现离线、低功耗的情感语音识别与合成。
技术关键词
语音交互方法
脉冲特征
重构语音信号
预训练语言模型
压缩感知技术
自动语音识别
分类网络
稀疏系数向量
语义
文本
自然语言
Softmax函数
标签
语音交互技术
语音交互装置
云端
输出模块
系统为您推荐了相关专利信息
配电设备状态
脉冲特征
监测点
监测方法
模拟模型
特征分类方法
自然语言
标识
计算机执行指令
语法结构
面向知识图谱
SPARQL查询
答案
预训练语言模型
深度优先搜索
构建系统
语义
预训练语言模型
子模块
可视化界面