Was sind Cluster?
Cluster ist eine spezielle Bezeichnung aus der Statistik beziehungsweise der Informatik, die Datenobjektgruppen mit fast synonymen Eigenschaften umfasst. Die Gruppen der Datenobjekte können berechnet werden. Dabei steht Clustering für die Datenmenge, welche in einem Cluster vorhanden ist. Hier gibt es zwei verschiedene Arten. Dieses Verfahren wird dann Clusteranalyse genannt. Die Gegenteiler der Cluster sind Datenobjekte, welche sich bezüglich ihrer Eigenschaften unterscheiden. Diese werden Noise oder auch Ausreißer genannt. Hinter einem Cluster steckt die Idee, Objekte nach ihren Eigenschaften zu trennen und somit alle ähnlichen Datenobjekte auf einen Blick zu haben.
Welche Clusterzugehörigkeiten gibt es?
Die Cluster können in zwei verschiedene Arten, hinsichtlich ihrer Zugehörigkeit, unterschieden werden. Dabei kommt es darauf an, wie sehr ein gewisses Datenobjekt in ein Cluster passen muss. Wenn Datenobjekte entweder komplett oder gar nicht in ein Cluster passen, wird dies als hartes Clustering bezeichnet. Bei weichem Clustering ist es hingegen so, dass ein Objekt zu einem bestimmten Anteil in ein Cluster passt und in dieses eingeordnet werden kann.
Welche Bewertungsarten existieren?
Zur Beurteilung der Cluster stehen zwei Varianten, die interne Bewertung und die externe Bewertung, zur Verfügung.
Für eine interne Bewertung sind lediglich die vorhandenen Datensatzobjekte notwendig. Bei dieser Betrachtung geht es vor allem um die Abstände zwischen den einzelnen Clustern.
Bei der externen Bewertung werden zusätzlich Informationen von „außen“ genutzt. Diese Informationen fanden somit noch keinen Platz in der vorausgegangenen Clusteranalyse.