规则2:将每一次试错都看作是额外奖赏