La entropía cruzada es una función de error que recibe , un vector de probabilidades de cada clase (cuya suma es 1), e la etiqueta de la clase verdaderra, es decir, la clase cuya probabilidad debería ser 1.
Entonces, la función de entropía cruzada (CrossEntropy) se define como el menos logaritmo de la probabilidad que generó el modelo para la clase verdadera:
En el caso de la capa CrossEntropy, como va al final de la red, no recibe un gradiente de otra capa para hacer la fase backward, por ende la fórmula del gradiente se puede aplicar directamente para calcular las derivadas de la capa.
El gradiente de CrossEntropy entonces es un vector que me dice como cuanto debo cambiar las probabilidades () para maximizar el error (recordamos que luego es descenso de gradiente utiliza el negativo del gradiente)
Entonces cada elemento de este gradiente es una derivada simple, que va a depende del valor de , ya que es el único valor que contribuye al error:
El caso es simple, ya que , entonces