其实,一个仅有解码器的语言模型只是一个标记xi在给定的上下文x1····xi−1 下的条件分布p,该公式假定这一过程为马尔可夫过程,并已经在许多用例中进行了研究,通过这一简单的设置,便可以以自回归的方式逐个生成标记。