而且这里计算的只是北美文字转WAV音频