最终数据统计为文字转WAV音频