Método backward

En la implementación de la capa Bias las fórmulas de las derivadas eran relativamente sencillas, y la complejidad estaba más que todo en cómo utilizar el framework y comprender la diferencia entre la derivada de la entrada y la de los parámetros.

El método backward de la capa Linear requiere calcular $\frac{δE}{δy}$ y $\frac{δE}{δw}$ . En términos de uso del framework, la implementación es muy similar a la de Bias, pero las fórmulas de las derivadas son más complicadas.

Primero asumiremos que hay un solo ejemplo de entrada $x$ , para simplificar el desarrollo, y luego generalizaremos a un lote de $N$ ejemplos.

`δEδx`

Comenzamos con el caso de $\frac{δE}{δx}$ . Si bien este caso es en realidad simétrico con respecto a $\frac{δE}{δw}$ , es un poco más fácil de atacar conceptualmente.

Vamos a pensar en esta derivada por casos, desde el más simple al más complejo, incrementando las dimensiones de entrada y salida.

1 entrada, 1 salida

Comenzamos por en el caso más simple, donde tanto la entrada como la salida son 1D, entonces $x \in R$ y $w \in R$ , es decir, son escalares. entonces $\frac{δE}{δy}$ también es un escalar, y por regla de la cadena:

$\frac{δE}{δx} = \frac{δE}{δy} \frac{δy}{δx} = \frac{δE}{δy} \frac{δ wx}{δx} = \frac{δE}{δy} w$

$I$ entradas, 1 salida

Pasemos ahora al caso con $I$ entradas y 1 salida. Entonces $x$ es un vector de $I$ valores, es decir, $x \in R^I$ y por ende $w \in R^I$ también es un vector con $I$ valores. En tal caso, podemos pensar la salida como el producto punto o matricial entre $w$ y $x$

$y = x . w= \sum_{i=1}^I x_i w_i$

Entonces, tenemos una derivada parcial por cada entrada: \frac{δE}{δx_j}. Recordando que $\frac{δE}{δy}$ sigue siendo un escalar (porque hay una sola salida), y utilizando la regla de la cadena, podemos calcular esta derivada:

$\frac{δE}{δx_j} = \frac{δE}{δy} \frac{δy}{δx_j} = \frac{δE}{δy} \frac{δ \sum_{i=1}^I w_i x_i }{δx_j}\\ = \frac{δE}{δy} \sum_{i=1}^I \frac{δ w_i x_i }{δx_j}\\ = \frac{δE}{δy} \frac{δ w_j x_j }{δx_j}\\ = \frac{δE}{δy} w_j$

Entonces $\frac{δE}{δx_j} = \frac{δE}{δy} w_j$ . Podemos generalizar esta definición entonces, y calcular el gradiente respecto a todo el vector $x$ como:

$\frac{δE}{δx} = \frac{δE}{δy} w$

Notas

Es genial que la misma definición de $\frac funcione en ambos casos, ya sea con $1$ entrada o una cantidad $I$ arbitraria de ellas.
Es importante tener en cuenta que en este contexto podemos tratar a $\frac{δE}{δy}$ como una constante, ya que sus valores han sido previamente calculados.
Podríamos hacer la derivación de $\frac{δy}{δx}$ aparte, sin tomar en cuenta el error de la red, y luego obtener $\frac{δE}{δx}$ aplicando la regla de la cadena $\frac{δE}{δx} =\frac{δE}{δy} \frac{δy}{δx}$ . No obstante, para ser más claros en el contexto del método backward una red, lo estamos haciendo todo al mismo tiempo.

$I$ entradas, $O$ salida

Nuevamente, vamos por la derivada de una de las entradas, es decir, $\frac{δE}{δx_j}$ .

$\frac{δE}{δx_j} = \frac{δE}{δy} \frac{δy}{δx_j}$

En este caso, $y$ es ahora un vector, con lo cual tenemos que sumar las contribuciones de cada elemento de $y$ a la regla de la cadena. Por ende:

$\frac{δE}{δx_j} = \frac{δE}{δy} \frac{δy}{δx_j} = \sum_{i=1}^O \frac{δE}{δy_i} \frac{δy_i}{δx_j}$

Ahora, sabemos que $y_i$ es el producto punto de la columna $i$ de $w$ con la entrada $x$ , por la definición de la multiplicación de matrices. Entonces:

$\frac{δE}{δx_j} =\sum_{i=1}^O \frac{δE}{δy_i} \frac{δy_i}{δx_j} \\ = \sum_{i=1}^O \frac{δE}{δy_i} \frac{δ(w_{:,i} \cdot x)}{δx_j} \\ = \sum_{i=1}^O \frac{δE}{δy_i} \frac{δ(\sum_{k=1}^I w_{k,i} x_k)}{δx_j} \\ = \sum_{i=1}^O \frac{δE}{δy_i} (\sum_{k=1}^I \frac{δw_{k,i} x_k}{δx_j}) \\ = \sum_{i=1}^O \frac{δE}{δy_i} w_{j,i} \\$

Ahora, $\sum_{i=1}^O \frac{δE}{δy_i} w_{j,i}$ es simplemente el producto punto entre la columna $i$ de $w$ ( $w_{:,i}$ ) y $\frac{δE}{δy}$ . Entonces podemos escribir:

$\frac{δE}{δx_j} = \frac{δE}{δy} \cdot w_{:,i}$

Generalizando para todo el vector $x$ , si $\frac{δE}{δx_j}$ es el producto entre dos vectores, donde $j$ indica la columna de $w$ , entonces podemos escribir $\frac{δE}{δx}$ como un producto entre el vector $\frac{δE}{δy}$ y la matriz $w$ entera:

$\frac{δE}{δx} = w \frac{δE}{δy}$

En este caso, el orden importa nuevamente. $w$ tiene tamaño $I×O$ y $\frac{δE}{δy}$ tiene tamaño $O$ , con lo cual $w \frac{δE}{δy}$ tiene tamaño $I$ (el mismo que $x$ )

Implementación por lotes

Para implementar la derivada para un lote de ejemplos podemos iterar sobre cada uno y calcular las derivadas como indicamos antes. Alternativamente, podemos reescribir la derivada para que funcione directamente para un lote de $N$ ejemplos (y por ende, de $N$ vectores de derivadas, tanto para la entrada como la salida)

En la implementación por lotes de $\frac{δE}{δx}$ , tenemos que $x$ es una matriz de tamaño $N×I$ , y por ende también lo es $\frac{δE}{δx}$ . Al mismo tiempo, como $\frac{δE}{δy}$ es en realidad $\frac{δE}{δx}$ de la capa siguiente, tenemos que $\frac{δE}{δy}$ es una matriz de tamaño $N×O$ .

Entonces, no podemos multiplicar $w \in R^{I×O}$ por $\frac{δE}{δy} \in R{N×O}$ . En este caso, puedes comprobar que la fórmula correcta es $\frac{δE}{δy} w^T$ , ya que al multiplicar una matriz de tamaño $N×O$ por una de tamaño $O×I$ ( $w^T$ ), obtenemos una matriz de tamaño $N×I$ , o sea, del mismo tamaño de $x$ :

$\frac{δE}{δx} = \frac{δE}{δy} w^T$

`δEδw`

En el caso del gradiente del error con respecto a $w$ , también primero asumiremos que hay un solo ejemplo de entrada $x$ , y vamos por casos de más simple a más complejo.

$I$ entradas, 1 salida

Este es el caso más simple, y es simétrico al de $x$ :

$\frac{δE}{δw} = \frac{δE}{δw} \frac{δw}{δx} = \frac{δE}{δw} \frac{δ wx}{δw} = \frac{δE}{δy} x$

$I$ entradas, 1 salida

Pasemos ahora al caso con $I$ entradas y 1 salida.

$y = x . w= \sum_{i=1}^I x_i w_i$

Como $w$ tiene $I$ elementos, entonces hay una derivada parcial por cada valor de $w$ : \frac{δE}{δw_j}. Recordando que $\frac{δE}{δy}$ sigue siendo un escalar (porque hay una sola salida), y utilizando la regla de la cadena, podemos calcular esta derivada:

$\frac{δE}{δw_j} = \frac{δE}{δy} \frac{δy}{δw_j} = \frac{δE}{δy} \frac{δ \sum_{i=1}^I w_i x_i }{δw_j}\\ = \frac{δE}{δy} \sum_{i=1}^I \frac{δ w_i x_i }{δxw_j}\\ = \frac{δE}{δy} \frac{δ w_j x_j }{δw_j}\\ = \frac{δE}{δy} x_j$

Entonces $\frac{δE}{δw_j} = \frac{δE}{δy} x_j$ . Podemos generalizar esta definición entonces, y calcular el gradiente respecto a todo el vector $x$ como:

$\frac{δE}{δw} = \frac{δE}{δy} x$

De nuevo, este caso es entonces simétrico con $x$ , ya que $\frac{δE}{δx} = \frac{δE}{δy} w$ .

$I$ entradas, $O$ salidas

En este caso, al tener $O$ salidas, ahora vamos a tener que buscar la derivada de los pesos de cada entrada $i$ para cada salida $j$ . En este caso, perdemos la simetría anterior (pero la recuperaremos en la versión por lotes).

Por ende, buscamos $\frac{δE}{δw_{i,j}}$ . Por regla de la cadena:

$\frac{δE}{δw_{i,j}} = \frac{δE}{δy} \frac{δy}{δw_{i,j}} = \frac{δE}{δy} \frac{δxw}{δw_{i,j}}$

Como $y$ es un vector, tenemos que sumar por todos sus valores para aplicar la regla de la cadena:

$\frac{δE}{δw_{i,j}} = \frac{δE}{δy} \frac{δxw}{δw_{i,j}} = \sum_{k=1}^O \frac{δE}{δy_k} \frac{δ(xw)_k}{δw_{i,j}}$

Como $y_k$ solo depende de $w_{i,j}$ si $j=k$ , es decir, si estamos calculando la salida de la columna $k$ , entonces:

$\frac{δE}{δw_{i,j}} = \frac{δE}{δy} \frac{δxw}{δw_{i,j}} = \frac{δE}{δy_j} \frac{δ(xw)_j}{δw_{i,j}}$

Por definición de la multiplicación de matrices, $(xw)_j = \sum_{l=1}^O x_l w_{l,j}$ , o sea, multiplicamos $x$ por la columna $j$ de $w$ . Reemplazando:

$\frac{δE}{δw_{i,j}} = \frac{δE}{δy_j} \frac{δ(xw)_j}{δw_{i,j}} = \frac{δE}{δy_j} \frac{δ(\sum_{l=1}^O x_l w_{l,j})}{δw_{i,j}} \\ = \frac{δE}{δy_j} \sum_{l=1}^O \frac{δ(x_l w_{l,j})}{δw_{i,j}}$

Como $w_{i,j}$ es solo un peso en particular de $w$ , entonces de toda esa sumatoria solo queda el término que la contiene, es decir $\frac{δx_i w_{i,j}}{w_{i,j}} = x_i$ . Reemplazando:
$\frac{δE}{δw_{i,j}} = \frac{δE}{δy_j} \sum_{l=1}^O \frac{δ(x_l w_{l,j})}{δw_{i,j}} \\ = \frac{δE}{δy_j} \frac{δ(x_i w_{i,j})}{δw_{i,j}} = \frac{δE}{δy_j} x_i$

Expresión vectorial

La expresión anterior nos ayuda pero deberíamos utilizar un loop for con índices i y j sobre toda la matriz de w. En lugar de eso, podemos generalizar entonces, observando el patrón de la matrix $\frac{δE}{δw}$ :
$\frac{δE}{δw} = \left(\begin{matrix} \frac{δE}{δy_1} x_1 & \frac{δE}{δy_2} x_1 & ... & \frac{δE}{δy_O} x_1\\ \frac{δE}{δy_1} x_2 & \frac{δE}{δy_2} x_2 & ... & \frac{δE}{δy_O} x_2\\ ... & ... & ... & ...\\ \frac{δE}{δy_1} x_I & \frac{δE}{δy_2} x_I & ... & \frac{δE}{δy_O} x_I \\ \end{matrix}\right) = x ⊗\frac{δE}{δy}$
Donde $⊗$ es el producto diádico o tensorial ( outer product en inglés) entre dos vectores. En numpy, la función outer permite hacer este tipo de operación sin loops.

Hay que tener en cuenta que el producto diádico no es conmutativo: si $a$ y $b$ tienen tamaño $p$ y $q$ , entonces $ a ⊗ b$ tiene tamaño $p×q$ , y $ b ⊗ a$ tiene tamaño $q×p$ . Por eso, como $\frac{δE}{δw}$ debe tener tamaño $I×O$ , entonces debemos computar $x ⊗\frac{δE}{δy}$ en lugar de $\frac{δE}{δy} ⊗ x$ .

Caso por lotes

En el caso de tener un lote de $n$ ejemplos, entonces recordamos que $x$ tiene tamaño $n × I$ , $w$ tiene tamaño $I×O$ , y $\frac{δE}{δy}$ tiene tamaño $n×O$ .

Al igual que en el caso de $b$ , para calcular $\frac{δE}{δw}$ tenemos que sumar el gradiente que contribuye cada ejemplo $x_i$ . Entonces:

$\frac{δE}{δw} = \sum_{i=1}^{n} x_{i,:} ⊗\frac{δE}{δy_{i,:}}$

Donde $x_{i,:}$ es la fila $i$ de x, es decir, el ejemplo $i$ (el equivalente en numpy sería x[i,:])

Por ejemplo, si $n=2$ , podemos verificar que:

$\frac{δE}{δw} = x_{1,:} ⊗\frac{δE}{δy_{1,:}} + x_{1,:} ⊗\frac{δE}{δy_{2,:}} \\ = \tiny \left(\begin{matrix} \frac{δE}{δy_{1,1}} x_{1,1} + \frac{δE}{δy_{2,1}} x_{2,1} & \frac{δE}{δy_{1,2}} x_{1,1} + \frac{δE}{δy_{2,2}} x_{2,1} & ... & \frac{δE}{δy_{1,O}} x_{1,1} + \frac{δE}{δy_{2,O}} x_{2,1}\\ \frac{δE}{δy_{1,1}} x_{1,2} + \frac{δE}{δy_{2,1}} x_{2,2} & \frac{δE}{δy_{1,2}} x_{1,2} + \frac{δE}{δy_{2,2}} x_{2,2} & ... & \frac{δE}{δy_{1,O}} x_{1,2} + \frac{δE}{δy_{2,O}} x_{2,2}\\ ... & ... & ... & ...\\ \frac{δE}{δy_{1,1}} x_{1,I} + \frac{δE}{δy_{2,1}} x_{2,I} & \frac{δE}{δy_{1,2}} x_{1,I} + \frac{δE}{δy_{2,2}} x_{2,I} & ... & \frac{δE}{δy_{1,O}} x_{1,I} + \frac{δE}{δy_{2,O}} x_{2,I}\\ \end{matrix}\right) \\ \normalsize = x^t \frac{δE}{δy}$

Esto también vale para cualquier $n$ !. Podemos confirmar esta identidad en base a los tamaños: si multiplicamos $x^t$ (tamaño $I×n$ ) con $\frac{δE}{δy}$ (tamaño $n×O$ ), obtenemos una matriz de tamaño $I×O$ , igual que $w$ y ¡justo el tamaño que debe tener $\frac{δE}{δw}$ !.

Entonces, ahora si podemos ver la simetría entre las dos derivadas:

$\frac{δE}{δw} = \frac{δy}{δw} \frac{δE}{δy} = x^t \frac{δE}{δy} \\ \text{} \\ \frac{δE}{δx}= \frac{δy}{δx} \frac{δE}{δy} = \frac{δE}{δy} w$

Método backward

δEδx

1 entrada, 1 salida

III entradas, 1 salida

Notas

III entradas, OOO salida

Implementación por lotes

δEδw

III entradas, 1 salida

III entradas, 1 salida

III entradas, OOO salidas

Expresión vectorial

Caso por lotes

`δEδx`

$I$ entradas, 1 salida

$I$ entradas, $O$ salida

`δEδw`

$I$ entradas, 1 salida

$I$ entradas, 1 salida

$I$ entradas, $O$ salidas