他每次至少要用三十秒钟的时间文字转WAV音频