KDD vs Data mining
KDD (Knowledge Discovery in Databases) er et felt inden for datalogi, som omfatter værktøjer og teorier til at hjælpe mennesker med at udvinde nyttig og hidtil ukendt information (dvs. viden) fra store samlinger af digitaliserede data. KDD består af flere trin, og Data Mining er et af dem. Data Mining er anvendelse af en specifik algoritme for at udtrække mønstre fra data. Ikke desto mindre bruges KDD og Data Mining i flæng.
Hvad er KDD?
Som nævnt ovenfor er KDD et felt inden for datalogi, som beskæftiger sig med udvinding af hidtil ukendt og interessant information fra rådata. KDD er hele processen med at forsøge at give mening ud af data ved at udvikle passende metoder eller teknikker. Denne proces beskæftiger sig med kortlægning af data på lavt niveau til andre former, der er mere kompakte, abstrakte og nyttige. Dette opnås ved at lave korte rapporter, modellere processen med at generere data og udvikle prædiktive modeller, der kan forudsige fremtidige sager. På grund af den eksponentielle vækst af data, især inden for områder som erhvervslivet, er KDD blevet en meget vigtig proces til at konvertere denne store rigdom af data til business intelligence, da manuel udtrækning af mønstre er blevet tilsyneladende umulig i de sidste par årtier. For eksempel er det i øjeblikket blevet brugt til forskellige applikationer såsom sociale netværksanalyse, svindeldetektion, videnskab, investering, fremstilling, telekommunikation, datarensning, sport, informationssøgning og i høj grad til markedsføring. KDD bruges norm alt til at besvare spørgsmål som hvad er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart?. Denne proces har flere trin. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Herefter følger rensning, forbehandling, reduktion og projektion af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og/eller fortolke.
Hvad er Data Mining?
Som nævnt ovenfor er Data Mining kun et trin i den overordnede KDD-proces. Der er to store Data Mining-mål som defineret af applikationens mål, og de er nemlig verifikation eller opdagelse. Verifikation er at verificere brugerens hypotese om data, mens opdagelse automatisk finder interessante mønstre. Der er fire store datamining-opgaver: klyngedannelse, klassificering, regression og association (opsummering). Clustering er at identificere lignende grupper ud fra ustrukturerede data. Klassifikation er indlæringsregler, der kan anvendes på nye data. Regression er at finde funktioner med minimal fejl til at modellere data. Og association leder efter sammenhænge mellem variabler. Derefter skal den specifikke data mining-algoritme vælges. Afhængigt af målet kan forskellige algoritmer som lineær regression, logistisk regression, beslutningstræer og Naive Bayes vælges. Derefter søges mønstre af interesse i en eller flere repræsentationsformer. Til sidst evalueres modeller enten ved hjælp af forudsigelig nøjagtighed eller forståelighed.
Hvad er forskellen mellem KDD og Data mining?
Selvom de to udtryk KDD og Data Mining er flittigt brugt i flæng, refererer de til to relaterede, men lidt forskellige koncepter. KDD er den overordnede proces med at udtrække viden fra data, mens Data Mining er et trin inde i KDD-processen, som beskæftiger sig med at identificere mønstre i data. Med andre ord er Data Mining kun anvendelsen af en specifik algoritme baseret på det overordnede mål for KDD-processen.