他肯定会采用一种让人更加能够理解文字转WAV音频