9.2.6 GPT-2计算遮掩自注意力的详细过程