Forelesningsnotat: Ensemblemetoder

Slides

En samling av beslutningstrær

  • Beslutningstrær alene har noen svakheter:
    • Ikke topp nøyaktighet
    • Ikke robuste

Hva kan vi gjøre med det?

Ensemble-metoder

  • bagging
  • Random Forest

Vi skal nå bygge oss opp dit vha eple-oppgaven.

Beslutningstre: eplekvalitet

(Kode-eksempel)

Konklusjon fra bagging

Vi får bedre nøyaktighet. Andre ting?

Random forest

Så skal vi prøve med random forest.

  • Mer uavhengige trær enn bare en haug med trær

(Hvordan uavhengige? ->)

Hvordan lages vanlige beslutningstrær

Først: For hele datasettet, finn den prediktoren, og den verdien for den prediktoren som gir best prediksjon når den brukes til å dele datasettet i to.

Deretter, så mange ganger som nødvendig: For hver av bladnodene, så lenge det er mulig å forbedre prediksjonen, gjenta punktet over

Hvordan lages beslutningstrær i en random forest?

  • I stedet for å velge den prediktoren som best deler datasettet, så velger man ved hver mulighet en tilfeldig prediktor blant en undergruppe av prediktorene.
Alle: ['A_id', 'Size', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness', 'Ripeness', 'Acidity']
Tilfeldig undergruppe: ['Sweetness', 'Crunchiness', 'Juiciness', 'Ripeness']
Tilfeldig undergruppe: ['Weight', 'Crunchiness', 'Juiciness', 'Acidity']
Tilfeldig undergruppe: ['A_id', 'Weight', 'Juiciness', 'Ripeness']
Tilfeldig undergruppe: ['Size', 'Juiciness', 'Ripeness', 'Acidity']
Tilfeldig undergruppe: ['Weight', 'Sweetness', 'Juiciness', 'Acidity']
  • Ikke alle trærne blir “optimale”, men når de får virke sammen, gir mangfoldet en fordel!

La oss prøve med en random forest

(Kode-eksempel)

Hva har vi mistet?

Da vi begynte med trær, sa vi at de er bra fordi de er så enkle å tolke. Hva nå?

  • Vi trenger nye måter å karakterisere modellene våre på

Partial dependence

Hva er det?

  • Bruker modellen på alle datapunktene i treningsdataene (og eller testdataene).
  • Ser så på effekten av variere på én av prediktorene ad gangen.

Partial dependence

(Kode-eksempel)

Hvis tid

Nå har vi sett på følgende måter å lage en tre-basert modell:

  • Beslutningstre
  • Haug med beslutningstrær
  • Random forest

Oppgave

Beregn nøyaktigheten til eple-modellen som funksjon av antallet trær (weak learners) for haug med trær (bagging) og for random forest.

Hvis mer tid

  • Starte på obligen

Til neste gang

  • Starte på obligen–da får du mer ut av neste time