他们只是单纯地遵循自己的内心文字转WAV音频