问题:下图调用了多少次模型?
不久以前我以为是调用一次
通过看代码是输出多少个token就调用多少次,如图所示:
我理解为分类模型
预测下一个token可以理解为分类模型,类别是vocab的所有token,每一次调用都是在分类
为什么不能一次输出呢
从数学维度来讲,本质是条件概率,每次预测token都要基于前面的token为条件;
比如说预测了某个token,设为t1,然后要预测t2,这个时候t1要成为t2的条件了,那么t1也要转换成特征向量,那有两种选择,一种是直接使用t0的最后一层向量当作t1,还有一种是调用一次模型生成t1的特征向量; 对比两种选择,显然再调用一次模型更合理,才能利用transformer的优势,能得到更好的结果。
详情请看:https://www.zhihu.com/tardis/zm/art/623704947?source_id=1003