前面已经说了,全连接层的作用是对图像进行分类,那么全连接层的输出应当是每一类物体的概率。但是根据我们对全连接层计算规则的了解,它其实输出的是全一类物体的“显著”程度,也就是如果如果图像具有某一类物体的特征越强烈,则该类对应的节点的值将越大。为了将一个代表显著程度的数字,转化成一个代表概率(全部分类的概率之和为1)的数字,需要将全连接层的结果进行一次归一化的函数运算。
一个好的执行此功能的函数应当能够将数值越显著(数值越大)分类变成一个越大的概率值。在这一步,许多人会使用softmax函数。
上面就是softmax函数的表达式,其中xi是第i个分类的数值(也就是前一层的全连接层的输出结果),n是分类的数量,e是自然常数。y是函数计算出来的概率值,它在0~1之间。
借用一个图可以表达这个函数基本的意思。
经过softmax函数的计算结果,所有分类的概率都是一个非负数,其值在0~1之间,而且它们的和刚好等于1。
如果某一个分类的概率非常高,比如分类为猫的概率>0.8,那么认为图像检测到的是一张猫的照片。