原本这样类似的训练少说也要经过两三年文字转WAV音频