我的核心观点是文字转WAV音频