很难如此条理清晰地总结分析出文字转WAV音频