近日,微软团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech。
FastSpeech采用一种新型的前馈Transformer网络架构,抛弃掉传统的编码器-注意力-解码器机制与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。
FastSpeech还将与并行神经声码器结合在一起训练,语音领域或形成完全端到端训练的语音到文本并行架构。