Hierarkisk vs partitionel klyngning
Clustering er en maskinlæringsteknik til at analysere data og opdele dem i grupper af lignende data. Disse grupper eller sæt af lignende data er kendt som klynger. Klyngeanalyse ser på klyngealgoritmer, der kan identificere klynger automatisk. Hierarkisk og partitionel er to sådanne klasser af klyngealgoritmer. Hierarkiske klyngealgoritmer opdeler dataene i et hierarki af klynger. Paritionelle algoritmer opdeler datasættet i indbyrdes usammenhængende partitioner.
Hvad er hierarkisk klyngedannelse?
Hierarkiske klyngealgoritmer gentager cyklussen med enten at flette mindre klynger til større eller opdele større klynger til mindre. Uanset hvad, producerer det et hierarki af klynger kaldet et dendogram. Agglomerativ klyngestrategi bruger bottom-up-tilgangen med at fusionere klynger til større, mens splittende klyngestrategi bruger top-down-tilgangen med at opdele i mindre. Typisk bruges den grådige tilgang til at beslutte, hvilke større/mindre klynger der bruges til at fusionere/opdele. Euklidisk afstand, Manhattan-afstand og cosinus-lighed er nogle af de mest almindeligt anvendte metrics for lighed for numeriske data. For ikke-numeriske data bruges metrics såsom Hamming-afstanden. Det er vigtigt at bemærke, at de faktiske observationer (forekomster) ikke er nødvendige for hierarkisk clustering, fordi kun matrixen af afstande er tilstrækkelig. Dendogram er en visuel repræsentation af klyngerne, som viser hierarkiet meget tydeligt. Brugeren kan opnå forskellige grupperinger afhængigt af det niveau, som dendogrammet skæres på.
Hvad er partitionel klyngning?
Partitionelle klyngealgoritmer genererer forskellige partitioner og evaluerer dem derefter efter et eller andet kriterium. De omtales også som ikke-hierarkiske, da hver instans er placeret i nøjagtig en af k gensidigt eksklusive klynger. Fordi kun ét sæt klynger er output fra en typisk partitionel clustering-algoritme, skal brugeren indtaste det ønskede antal klynger (norm alt kaldet k). En af de mest almindeligt anvendte partitionelle klyngealgoritmer er k-betyder klyngealgoritmen. Brugeren skal angive antallet af klynger (k) før start, og algoritmen starter først centrene (eller tyngdepunkterne) af de k partitioner. I en nøddeskal tildeler k-betyder klyngealgoritme derefter medlemmer baseret på de nuværende centre og re-estimerer centre baseret på de nuværende medlemmer. Disse to trin gentages, indtil en vis intra-klynge lighed objektiv funktion og inter-cluster ulighed objektiv funktion er optimeret. Derfor er fornuftig initialisering af centre en meget vigtig faktor for at opnå kvalitetsresultater fra partitionelle klyngealgoritmer.
Hvad er forskellen mellem hierarkisk og partitionel klyngning?
Hierarkisk og partitionel klynger har vigtige forskelle i køretid, antagelser, inputparametre og resulterende klynger. Typisk er partitionel clustering hurtigere end hierarkisk clustering. Hierarkisk clustering kræver kun et lighedsmål, mens partitionel clustering kræver stærkere antagelser såsom antallet af klynger og de indledende centre. Hierarkisk klyngedannelse kræver ingen inputparametre, mens partitionelle klyngealgoritmer kræver antallet af klynger for at begynde at køre. Hierarkisk clustering returnerer en meget mere meningsfuld og subjektiv opdeling af klynger, men partitionel clustering resulterer i præcis k klynger. Hierarkiske klyngealgoritmer er mere velegnede til kategoriske data, så længe et lighedsmål kan defineres i overensstemmelse hermed.