Nøgleforskel – overvåget vs uovervåget maskinlæring
Overvåget læring og ikke-overvåget læring er to kernebegreber inden for maskinlæring. Supervised Learning er en maskinlæringsopgave med at lære en funktion, der kortlægger et input til et output baseret på eksemplet input-output-par. Uovervåget læring er maskinlæringsopgaven med at udlede en funktion til at beskrive skjult struktur fra umærkede data. Den vigtigste forskel mellem overvåget og uovervåget maskinlæring er, at overvåget læring bruger mærkede data, mens uovervåget læring bruger umærkede data.
Machine Learning er et felt inden for datalogi, der giver et computersystem mulighed for at lære af data uden at være eksplicit programmeret. Det giver mulighed for at analysere dataene og forudsige mønstre i dem. Der er mange anvendelser af maskinlæring. Nogle af dem er ansigtsgenkendelse, gestusgenkendelse og talegenkendelse. Der er forskellige algoritmer relateret til maskinlæring. Nogle af dem er regression, klassificering og klyngedannelse. De mest almindelige programmeringssprog til udvikling af maskinlæringsbaserede applikationer er R og Python. Andre sprog som Java, C++ og Matlab kan også bruges.
Hvad er Supervised Learning?
I maskinlæringsbaserede systemer fungerer modellen efter en algoritme. I superviseret læring superviseres modellen. Først er det påkrævet at træne modellen. Med den opnåede viden kan den forudsige svar for de fremtidige instanser. Modellen trænes ved hjælp af et mærket datasæt. Når en ud af prøvedata gives til systemet, kan det forudsige resultatet. Følgende er et lille uddrag fra det populære IRIS-datasæt.
Ifølge ovenstående tabel kaldes bægerbladslængde, bægerbladsbredde, patellængde, patelbredde og arter for attributterne. Søjlerne er kendt som funktioner. En række har data for alle attributter. Derfor kaldes en række en observation. Dataene kan enten være numeriske eller kategoriske. Modellen får observationerne med det tilsvarende artsnavn som input. Når der gives en ny observation, skal modellen forudsige, hvilken type art den tilhører.
I superviseret læring er der algoritmer til klassificering og regression. Klassificering er processen med at klassificere de mærkede data. Modellen skabte grænser, der adskilte kategorierne af data. Når nye data leveres til modellen, kan den kategorisere baseret på, hvor punktet findes. K-Nærmeste Naboer (KNN) er en klassifikationsmodel. Afhængig af k-værdien bestemmes kategorien. For eksempel, når k er 5, hvis et bestemt datapunkt er tæt på otte datapunkter i kategori A og seks datapunkter i kategori B, så vil datapunktet blive klassificeret som A.
Regressionen er processen med at forudsige tendensen for de tidligere data for at forudsige resultatet af de nye data. Ved regression kan output bestå af en eller flere kontinuerte variable. Forudsigelse udføres ved hjælp af en linje, der dækker de fleste datapunkter. Den enkleste regressionsmodel er en lineær regression. Det er hurtigt og kræver ikke tuning-parametre som i KNN. Hvis data viser en parabolsk tendens, er den lineære regressionsmodel ikke egnet.
Dette er nogle eksempler på overvågede læringsalgoritmer. Generelt er resultaterne fra overvågede læringsmetoder mere nøjagtige og pålidelige, fordi inputdataene er velkendte og mærkede. Derfor skal maskinen kun analysere de skjulte mønstre.
Hvad er uovervåget læring?
I uovervåget læring overvåges modellen ikke. Modellen arbejder alene for at forudsige resultaterne. Den bruger maskinlæringsalgoritmer til at komme til konklusioner om umærkede data. Generelt er de uovervågede læringsalgoritmer sværere end overvågede læringsalgoritmer, fordi der er få informationer. Clustering er en form for uovervåget læring. Det kan bruges til at gruppere de ukendte data ved hjælp af algoritmer. Den k-middelværdi og densitetsbaserede klyngedannelse er to klyngealgoritmer.
k-middelalgoritme, placerer k tyngdepunkt tilfældigt for hver klynge. Derefter tildeles hvert datapunkt til det nærmeste tyngdepunkt. Euklidisk afstand bruges til at beregne afstanden fra datapunktet til tyngdepunktet. Datapunkterne er klassificeret i grupper. Positionerne for k centroider beregnes igen. Den nye tyngdepunktsposition bestemmes af gennemsnittet af alle punkter i gruppen. Igen er hvert datapunkt tildelt det nærmeste tyngdepunkt. Denne proces gentages, indtil tyngdepunkterne ikke længere ændres. k-mean er en hurtig klyngealgoritme, men der er ingen specificeret initialisering af klyngepunkter. Der er også en stor variation af klyngemodeller baseret på initialisering af klyngepunkter.
En anden klyngealgoritme er tæthedsbaseret klyngedannelse. Det er også kendt som Density Based Spatial Clustering Applications med støj. Det fungerer ved at definere en klynge som det maksimale sæt af tæthedsforbundne punkter. De er to parametre, der bruges til tæthedsbaseret klyngedannelse. De er Ɛ (epsilon) og minimumspoint. Ɛ er kvarterets maksimale radius. Minimumspunkterne er det mindste antal punkter i Ɛ nabolaget for at definere en klynge. Det er nogle eksempler på klyngedannelse, der falder ind under uovervåget læring.
Generelt er resultaterne, der genereres fra uovervågede indlæringsalgoritmer, ikke meget nøjagtige og pålidelige, fordi maskinen skal definere og mærke inputdataene, før den bestemmer de skjulte mønstre og funktioner.
Hvad er ligheden mellem overvåget og uovervåget maskinlæring?
Både overvåget og ikke-overvåget læring er typer af maskinlæring
Hvad er forskellen mellem overvåget og uovervåget maskinlæring?
Supervised vs Unsupervised Machine Learning |
|
Supervised Learning er maskinlæringsopgaven med at lære en funktion, der kortlægger et input til et output baseret på eksempler på input-output-par. | Usupervised Learning er maskinlæringsopgaven med at udlede en funktion til at beskrive skjult struktur fra umærkede data. |
Hovedfunktionalitet | |
I superviseret læring forudsiger modellen resultatet baseret på de mærkede inputdata. | I uovervåget læring forudsiger modellen resultatet uden mærkede data ved at identificere mønstrene på egen hånd. |
Nøjagtighed af resultaterne | |
Resultaterne genereret fra overvågede læringsmetoder er mere nøjagtige og pålidelige. | Resultaterne genereret fra uovervågede læringsmetoder er ikke meget nøjagtige og pålidelige. |
Hovedalgoritmer | |
Der er algoritmer til regression og klassificering i superviseret læring. | Der er algoritmer til klyngedannelse i uovervåget læring. |
Oversigt – overvåget vs uovervåget maskinlæring
Supervised Learning og Unsupervised Learning er to typer af Machine Learning. Supervised Learning er Machine Learning-opgaven med at lære en funktion, der kortlægger et input til et output baseret på eksempler på input-output-par. Uovervåget læring er Machine Learning-opgaven med at udlede en funktion til at beskrive skjult struktur fra umærkede data. Forskellen mellem overvåget og uovervåget maskinlæring er, at overvåget læring bruger mærkede data, mens uovervåget læning bruger umærkede data.