而从时间上来推算文字转WAV音频