Retro-propagation

Back propagation.

Motivation

Apprendre à partir de nombreux critères (trouver des hypothèses non-linéaires complexes).

Analyse

La rétro-propagation va consister à calculer l'erreur de prédiction pour adapter les paramètres en conséquence.

Conception

Ces erreurs de chaque couche `l` sont représentées par `δ^((l))` et sont accumulées dans `Δ^((l)) = Δ^((l))+δ^((l+1))(a^((l)))^T`.

Coût

Pour calculer le coût pour un réseau neuronal, on généralise celui de la régression logistique non pas pour une seule sortie y mais pour `K` sorties en insérant une somme supplémentaire pour tenir compte des `K` noeuds de sortie ainsi que des `S_l` unités (y compris le noeud de biais) de chaque couche :

`J(Θ) = -1/m sum_(i=1)^m sum_(k=1)^K [y_k^((i)) log(h_θ(x^((i)))_k)+(1−y_k^((i)))log(1−h_θ(x^((i)))_k)] + λ/(2m) sum_(l=1)^(L-1) sum_(i=1)^(S_l) sum_(j=1)^(S_l+1) (θ_(j,i)^((l)))^2`

Pour minimiser ce coût, nous allons chercher à minimiser la dérivée de cette fonction (i.e. plus la pente du coût est faible, plus on s'approche de la solution).

Exemples

Notes

`θ` ne doit pas être initialisé à zéro (cela induirait une symmétrie qui empêcherait un entraînement correct), mais à des valeurs aléatoires non <égales>.
`J(θ)` n'est pas convexe dans ce cas et peut théoriquement mener à un minimum local au lieu du minimum global. Cependant dans la pratique les résultats sont généralement corrects.

Voir

Moawad, Assaad: "Neural networks and back-propagation explained in a simple way", Medium, 2018-02-01