想要弄清楚指南到底是根据两条中的哪一条来作为判断基准文字转WAV音频