其实是单独按照每本多少钱来另外计算的文字转WAV音频