Nøgleforskellen mellem klassifikation og regressionstræ er, at i klassificering er de afhængige variabler kategoriske og uordnede, mens de afhængige variable i regression er kontinuerte eller ordnede hele værdier.
Klassificering og regression er læringsteknikker til at skabe modeller for forudsigelse ud fra indsamlede data. Begge teknikker præsenteres grafisk som klassifikations- og regressionstræer, eller rettere flowcharts med opdelinger af data efter hvert trin, eller rettere "gren" i træet. Denne proces kaldes rekursiv partitionering. Felter som Mining bruger disse klassifikations- og regressionslæringsteknikker. Denne artikel fokuserer på klassifikationstræet og regressionstræet.
Hvad er klassificering?
Klassificering er en teknik, der bruges til at nå frem til et skema, der viser organiseringen af data, der starter med en forløbervariabel. Det er de afhængige variabler, der klassificerer dataene.
Figur 01: Data Mining
Klassifikationstræet starter med den uafhængige variabel, som forgrener sig i to grupper som bestemt af de eksisterende afhængige variable. Det er beregnet til at belyse svarene i form af kategorisering forårsaget af de afhængige variable.
Hvad er regression
Regression er en forudsigelsesmetode, der er baseret på en antaget eller kendt numerisk outputværdi. Denne outputværdi er resultatet af en række rekursiv partitionering, hvor hvert trin har én numerisk værdi og en anden gruppe af afhængige variable, der forgrener sig til et andet par som dette.
Regressionstræet starter med en eller flere forløbervariable og slutter med en endelig outputvariabel. De afhængige variable er enten kontinuerte eller diskrete numeriske variable.
Hvad er forskellen mellem klassificering og regression?
Klassificering vs. regression |
|
En træmodel, hvor målvariablen kan tage et diskret sæt værdier. | En træmodel, hvor målvariablen kan tage kontinuerte værdier, typisk reelle tal. |
Afhængig variabel | |
For klassifikationstræ er de afhængige variabler kategoriske. | For regressionstræ er de afhængige variable numeriske. |
Værdier | |
Har et fast antal uordnede værdier. | Har enten diskrete, endnu ordnede værdier eller indiskrete værdier. |
Bygningsformål | |
Formålet med at konstruere regressionstræet er at tilpasse et regressionssystem til hver determinantgren på en måde, så den forventede outputværdi kommer frem. | Et klassifikationstræ forgrener sig som bestemt af en afhængig variabel afledt fra den forrige node. |
Opsummering – Klassificering vs. regression
Regressions- og klassifikationstræer er nyttige teknikker til at kortlægge den proces, der peger på et undersøgt resultat, uanset om det er klassifikation eller en enkelt numerisk værdi. Forskellen mellem klassifikationstræet og regressionstræet er deres afhængige variabel. Klassifikationstræer har afhængige variabler, der er kategoriske og uordnede. Regressionstræer har afhængige variabler, der er kontinuerte værdier eller ordnede hele værdier.