他认为自己只需要随便动一动手指文字转WAV音频