但情理上应该是导演文字转WAV音频