只能捕捉到他们行动的片段文字转WAV音频