因为我们很难去观察里面咖啡豆的情况文字转WAV音频