Back propagation.
Apprendre à partir de nombreux critères (trouver des hypothèses non-linéaires complexes).
La rétro-propagation va consister à calculer l'erreur de prédiction pour adapter les paramètres en conséquence.
Ces erreurs de chaque couche sont représentées par et sont accumulées dans .
Pour calculer le coût pour un réseau neuronal, on généralise celui de la régression logistique non pas pour une seule sortie y mais pour sorties en insérant une somme supplémentaire pour tenir compte des noeuds de sortie ainsi que des unités (y compris le noeud de biais) de chaque couche :
Pour minimiser ce coût, nous allons chercher à minimiser la dérivée de cette fonction (i.e. plus la pente du coût est faible, plus on s'approche de la solution).