K moyennes.
Identifier des groupes (clusters) dans un ensemble de données.
L'algorithme des K-moyennes est un algorithme de ML non supervisé qui va associer à chaque point de X un groupe {1..K}.
L'algorithme des K-moyennes consiste à associer des points à des groupes en fonction de leur distance à leurs barycentres (centroids) :
Pour déterminer le groupe (cluster) appartient (en attendant la convergence) chaque point x(i) (avec i de 1 à m), on va chercher de quel barycentre μk il est le plus proche. On affectera alors à c(i) l'indice du k groupe trouvé (par conséquent μc(i) représente le barycentre auquel x(i) est affecté).
Mathématiquement, cette opération revient à minimiser la fonction de coût suivante (dite "fonction de distorsion") sans changer les μk :
J(c(1),…,c(m),μ1,…,μK)=1mm∑i=1∥x(i)-μc(i)∥2
Déterminer pour chacun des K groupes μk qui est la moyenne des points (le nouveau barycentre) affectés au groupe k :
μk:=1|Ck|∑i∈Ckx(i) où Ck est l'ensemble de points affectés au barycentre k
Mathématiquement, cette opération revient à minimiser J par rapport aux μk.
Des exemples d'application de K-Means sont :