Nøgleforskellen mellem klyngedannelse og klassificering er, at klyngedannelse er en uovervåget læringsteknik, der grupperer lignende instanser på basis af funktioner, hvorimod klassifikation er en overvåget læringsteknik, der tildeler foruddefinerede tags til instanser på basis af funktioner.
Selvom klyngedannelse og klassificering ser ud til at være lignende processer, er der forskel på dem baseret på deres betydning. I dataminingverdenen er clustering og klassificering to typer læringsmetoder. Begge disse metoder karakteriserer objekter i grupper ved hjælp af en eller flere funktioner.
Hvad er Clustering?
Klynger er en metode til at gruppere objekter på en sådan måde, at objekter med lignende funktioner samles, og objekter med forskellige funktioner går fra hinanden. Det er en almindelig teknik til statistisk dataanalyse til maskinlæring og datamining. Udforskende dataanalyse og generalisering er også et område, der bruger clustering.
Figur 01: Klynger
Klynger hører til uovervåget datamining. Det er ikke en enkelt specifik algoritme, men det er en generel metode til at løse en opgave. Derfor er det muligt at opnå klyngedannelse ved hjælp af forskellige algoritmer. Den passende klyngealgoritme og parameterindstillinger afhænger af de individuelle datasæt. Det er ikke en automatisk opgave, men det er en iterativ opdagelsesproces. Derfor er det nødvendigt at modificere databehandling og parametermodellering, indtil resultatet opnår de ønskede egenskaber. K-betyder clustering og hierarkisk clustering er to almindelige klyngealgoritmer i data mining.
Hvad er klassificering?
Klassificering er en kategoriseringsproces, der bruger et træningssæt af data til at genkende, differentiere og forstå objekter. Klassifikation er en overvåget læringsteknik, hvor et træningssæt og korrekt definerede observationer er tilgængelige.
Figur 02: Klassifikation
Algorithmen, der implementerer klassifikation, er klassificeringsorganet, mens observationerne er tilfældene. K-Nearest Neighbor-algoritmer og beslutningstræ-algoritmer er de mest berømte klassifikationsalgoritmer inden for data mining.
Hvad er forskellen mellem klyngedannelse og klassificering?
Klynger er uovervåget læring, mens klassifikation er en overvåget læringsteknik. Den grupperer lignende forekomster på basis af funktioner, mens klassificering tildeler foruddefinerede tags til forekomster på basis af funktioner. Klynger opdeler datasættet i undersæt for at gruppere forekomsterne med lignende funktioner. Den bruger ikke mærkede data eller et træningssæt. På den anden side, kategoriser de nye data i henhold til observationerne af træningssættet. Træningssættet er mærket.
Målet med klyngedannelse er at gruppere et sæt objekter for at finde ud af, om der er nogen relation mellem dem, hvorimod klassificering har til formål at finde, hvilken klasse et nyt objekt tilhører fra sættet af foruddefinerede klasser.
Opsummering – Klynger vs klassifikation
Klynger og klassificering kan virke ens, fordi begge dataminingalgoritmer opdeler datasættet i delmængder, men de er to forskellige læringsteknikker inden for datamining for at få pålidelig information fra en samling af rådata. Forskellen mellem clustering og klassificering er, at clustering er en uovervåget læringsteknik, der grupperer lignende instanser på basis af funktioner, hvorimod klassificering er en overvåget læringsteknik, der tildeler foruddefinerede tags til instanser på basis af funktioner.
Billede høflighed:
1.”Cluster-2″ af Cluster-2.gif: hellisp derivative work: (Public Domain) via Wikimedia Commons 2.”Magnetism” af John Aplessed – Eget arbejde. (Public Domain) via Wikimedia Commons