最终的统计数据是文字转WAV音频