我们听到的是语音还是发音动作