Forsterkningsskalaer

Forsterkningsskalaer

De fleste som har drevet med hundetrening en stund oppdager fort at hunden bør forsterkes så og si hver gang den gjør riktig tidlig i innlæringen. Dette gir den raskeste treningsframgangen. Men som oftest er det et mål at hunden etterhvert skal kunne jobbe lenger og lenger uten at vi må forsterke så ofte.


Tekst: Cecilie Køste


En lydighetshund skal kunne gå gjennom et helt lydighetsprogram med flere øvelser uten å gå lei, selv om forsterkningen først kommer når den går ut av ringen. En runderingshund skal kunne søke i lang tid før den finner figuranten, og en familiehund skal kunne gå pent i bånd hele turen uten å få godbit for hver tredje meter. Hvordan kommer vi til dette målet kun med bruk av positiv forsterkning (belønning)? Svaret ligger i forsterkningsskalaer. Dette er viktig pensum for alle hundetrenere!

Kontinuerlig forsterkning

Dette er den aller enkleste utgaven av en forsterkningsskala, og den mest effektive å bruke under innlæring av nye øvelser. Kontinuerlig forsterkning vil si at vi hunden blir belønnet hver gang den ønskede adferden presenteres. Dersom valpen skal lære å sitte gir vi f.eks. godbit hver gang den klasker rompa i bakken. En fersk runderingshund finner figurant på hvert utslag, og agilityhunden som skal lære å gå på vippa blir belønnet hver gang den kommer seg velberget over. Adferden vi ønsker forsterkes, det vil si at frekvensen av adferden øker. Siden vi forsterker kontinuerlig vil økningen av adferdens frekvens komme fort, og det er derfor vi bruker akkurat denne forsterkningsskalaen i innlæringsfasen. I starten av innlæringen er hunden slett ikke så sikker på hva den må gjøre for å få forsterkeren. Hver gang hunden finner ut at en atferd fører til forsterkning, blir den litt sikrere. Forsterkning er informasjon til hunden, og jo mer informasjon den får, jo fortere lærer den. Derfor er kontinuerlig forsterkning det mest effektive i starten av innlæringen.

Fast frekvens (FF)

Fast frekvens vil si at adferden forsterkes etter et bestemt antall repetisjoner. Hvis vi f.eks. bestemmer oss for å belønne hver tredje gang (FF3), vil valpen måtte sette seg tre ganger før forsterkningen kommer. Deretter vil den igjen måtte sette seg tre ganger for å få neste belønning. Runderingshunden finner figuranten først på tredje slaget, og så på det sjette, deretter det niende osv. (Kontinuerlig forsterkning er en type fast frekvens der vi har bestemt oss for å belønne etter én repetisjon…FF1). Det er vist i forsøk at en slik forsterkningsskala ikke bare påvirker frekvensen av adferden, men også kvaliteten på adferden. Frekvensen av adferden er ofte høy, men etter hver forsterkning oppstår det en pause der adferden ikke vises. I eksempelet med valpen som må sitte tre ganger før forsterkningen blir presentert, vil valpen sitte tre ganger, få godbiten sin, spise den og så ta en pause før den begynner å sette seg igjen. Jo flere repetisjoner av adferden som kreves, jo lengre blir pausen etter en forsterkning. I dette tilfellet vil kanskje ikke pausen bli særlig lang, men dersom vi bare belønnet hver tiende sitt (FF10) ville pausen blitt tilsvarende lengre. I hundetrening er ikke dette en ønskelig situasjon da vi helst vil ha så mange repetisjoner som mulig, og ikke har tid til å vente på hundens pauser. Det vi vil ha er en hund som etter å ha fått belønningen sin er klar til å jobbe igjen med en gang!

Kvaliteten på adferden forverres under en slik forsterkningsskala. Den siste adferden som faktisk forsterkes vil ikke forandres, men de første repetisjonene vil brytes ned. Adferden forsvinner sjelden helt, men vil forfalle til det absolutte minimum av det som er nødvendig. Runderingshunden vil trolig gå to elendige slag, kanskje med dårlig fart, kanskje for kort ut, mens det tredje slaget (der hvor figuranten alltid er) vil fortsatt være bra. Hvis man under trening av fri ved foten alltid belønner hunden sin etter tre vendinger til høyre, vil man få to slurvete vendinger før hunden «skjerper» seg og tar en perfekt høyrevending. Ikke akkurat noe å trakte etter. Vi vil jo helst at hundene alltid skal utføre hele øvelsen like bra.

Variabel frekvens (VF)

I stedet for å forsterke fast hver tredje adferd kan vi belønne gjennomsnittlig hver tredje adferd (VF3). Denne skalaen heter variabel frekvens og er det de fleste hundeeiere bruker et stykke ute i innlæringen. Vi varierer altså forsterkningen uforutsigbart rundt en middelverdi. Valpen blir belønnet etter en sitt, deretter etter fire sitt og så etter to sitt osv. Runderingshunden finner figurant på første slag, deretter på det syvende og til slutt på det tolvte. Denne typen forsterkningsskala gir oss en høyere og jevnere frekvens av adferden enn fast frekvens.

Dette er også den forsterkningsskalaen som er vanligst i naturen. En ulv som forfølger et bytte er ikke garantert å drepe og spise det hver gang (så lenge det ikke er en tykk og dårlig koordinert norsk sau – kontinuerlig forsterkning), men vil av og til lykkes i matjakten og av og til ikke (variabel frekvens). Det er umulig for ulven å vite om den vil lykkes eller mislykkes i hvert enkelt tilfelle, og den må derfor sette alt inn på forsøket. På samme måte kan heller ikke en hund vite om den blir forsterket eller ikke og vil gi full innsats for å utføre øvelsen perfekt. Denne forsterkningsskalaen er den mest effektive for å få en høy og jevn frekvens av adferd. Variabel forsterkning er derfor både veien og målet for treningen. At variabel frekvens er den forsterkningsskalaen som gir oss flest, og best, adferder er den ene grunnen til at vi prøver å bruke den i hundetrening. Den andre grunnen er forholdet mellom variabel frekvens og ekstinksjon, som vi skal komme tilbake til.

Fast intervall (FI)

Fast intervall betyr at første adferd etter et forhåndsbestemt tidsintervall blir forsterket. Dersom tidsintervallet blir bestemt til 5 sek. (FI5″) forsterker vi ikke valpens adferd hvis den setter seg i løpet av de fem første sekundene, men første sitt etter at det har gått fem sekunder blir forsterket. Hva den gjør før de fem sekundene har gått er uten betydning. Akkurat som ved fast frekvens vil det under disse forsterkningsbetingelsene oppstå en pause etter forsterkningen. Etter pausen vil adferden gradvis øke i frekvens fordi det etter som tiden går er mer og mer sannsynlig at forsterkningen kommer.

Et eksempel der mange går i fellen med å bruke fast intervall er på fellesdekken. Hunden skal ligge i to minutter, og dermed blir den belønnet etter to minutter (FI2`). Resultatet kan hvis man er uheldig bli som i denne historien:

Det er lydighetskonkurranse og første øvelse i klasse II er fellesdekk med skjult fører. En golden retriver legger seg kjapt og føreren kommanderer «bli liggende» og forlater hunden. Kort tid etter at fører har forsvunnet ut av syne reiser hunden seg opp. Den lukter på et par av de andre hundene og hilser litt på publikum. Etter en stund går den tilbake til plassen sin og legger seg ned med største selvfølgelighet. Det nærmet seg jo tid for at føreren, og belønningen, skulle komme. Fører kom tilbake og var glad og fornøyd – helt til han fikk karakteren av dommeren. Om dette er sant eller bare en morsom vandrehistorie er ikke godt å vite, men det er ihvertfall et godt eksempel på ulempene ved å bruke fast intervall.

Både mennesker og dyr har en meget godt utviklet evne til å ubevisst oppfatte tidsintervaller. Førere har lett for å kjøre seg fast i et mønster der belønningen kommmer etter en viss tid for eksempel i lineføring eller fri ved fot. Hunden vil da slurve til det begynner å nærme seg tidspunktet for belønning, og vil så gradvis «gå seg opp» til den går perfekt (eller så godt den har lært seg). At hunden endelig går bra er forsterkende for føreren som lærer seg å ikke forsterke før det gitte tidsintervallet har gått. Dermed vil ekvipasjen vikle seg inn i en spiral det er vanskelig å komme ut av. Resultatet blir en hund som under konkurranser går bedre og bedre jo lengre ut i lineføringen den kommer, eller som må «gåes opp» før ekvipasjen kan starte i ringen. Dette illustrerer godt problemene vi står overfor dersom vi ubevisst forsterker etter ett gitt tidsintervall.

Variabelt intervall

Her virker samme prinsipp som ved variabel frekvens, men variabelt antall byttes mot variabeltid. Valpen blir dermed forsterket etter første adferd etter 6 sek., deretter etter 3 sek. og så etter 8 sek. osv. (VI6″) Igjen er det uten betydning hva valpen gjør før den bestemte tiden har gått, men siden vi belønner uvilkårlig rundt et gjennomsnitt kan den umulig vite når forsterkningen kommer og vi får en jevn frekvens uten pauser etter forsterkningen. Grunnen til at vi ikke ønsker å bruke denne typen forsterkningsskala i hundetrening er at selv om vi unngår pausene vil frekvensen av adferd være lav. Selv om denne forsterkningsskalaen gir høyere frekvens enn FI-skalaen, vil frekvensen være mye lavere enn både FF- og VF-skalaene.

Det finnes også komplekse forsterkningsskalaer, men disse vil jeg ikke gå nærmere inn på. I vanlig hundetrening er det nok å være klar over de enkle forsterkningsskalaene og deres styrker og svakheter.

Strekking av forsterkningsskalaen

Når en øvelse er ferdig (ny)innlært er det mulig å få hunden til å jobbe mer eller lengre for hver forsterker. Det er dette vi benytter oss av i all trening og alle konkurranseformer med hund. Brukshunder runderer langt for å finne figuranter, elitelydighetshunder går lange lydighetsprogram og agilityhunder forserer lange hinderbaner. Disse hundene har blitt utsatt for en gradvis øking av antall utførelser av ønsket adferd før forsterkningen kommer. Dette kalles å «strekke forsterkningsskalaen» (stretching the ratio – Skinner, 1968). Det er vist at det er svært viktig å begynne denne strekkingen forsiktig og gradvis øke frekvens eller intervall. Dersom man øker for hurtig kan faktisk den ønskede adferden forstyrres eller forsvinne helt fra hundens repetoar (ratio strain). Strekkingen av forsterkningsskalaen kan sammenlignes med å strekke en gummistrikk. Trekker man fort og hardt kan strikken ryke, men trekker man rolig kan den bli utrolig lang.

Det er likevel en grense for hvor lang den kan bli selv om man er forsiktig. Overført til hundetrening kan man si at dersom hunden må legge ned så mye arbeid for å bli forsterket at belønningen ikke veier opp for innsatsen, vil adferden forsvinne. Her møter vi et annet poeng! Belønningen må stå i forhold til innsatsen. En lydighetshund orker kanskje ikke gå en hel elite fri ved foten for én fôrkule, en runderingshund vil kanskje ikke rundere 400 meter for å oppnå to klapp på hodet. En ballgal lydighetshund vil derimot gjennomføre en fri ved foten med presisjon og fart for en skikkelig ballek, og en fillegal runderingshund vil rundere både 400 og 800 meter for en heftig drakamp med filla. Har man en forsterker som hunden vil gå gjennom ild og vann for, kan man strekke forsterkningsskalaen både raskere og lengre. Det er likevel viktig å huske at selv om hunden kan jobbe svært lenge for en forsterker tar vi aldri belønningen helt bort.

Forsterkningsskalaer i praksis

Vi har allerede vært innom at vi bør bruke kontinuerlig forsterkning under innlæring av nye øvelser, men å forsterke hunden hver gang den setter seg for resten av livet er både umulig og unødvendig. En ferdig innlært øvelse kan bli opprettholdt av få forsterkninger. Etter at en adferd er innlært er det viktig å gå over til variabel frekvens slik at adferden opprettholdes med en høy frekvens og kvalitet.

Det er vist i forsøk at variabel frekvens er den forsterkningsskalaen som gir høyest frekvens av adferd, og det er dermed denne formen for trening som gir best resultater! Selv om vi ønsker å holde hundene på en variabel frekvens kjører vi ofte oss selv inn i faste rutiner som motarbeider egne intensjoner. Fungerer ikke hunden slik vi ønsker kan det være lurt å tenke på hvilke forsterkningsskalaer som virker inn på hundens adferd.

En vanlig feil i lydighetstrening, som vi allerede har vært inne på, er å la hunden jobbe på fast frekvens eller intervall. Hvem har ikke sett en hund «gå seg opp» i løpet av en øvelse, spesielt i lineføring eller fri ved foten. Feilen ligger oftest i at føreren har kjørt seg inn i et mønster (les: uvane) der forsterkningen først kommer etter et visst antall vendinger og holdter eller etter et visst tidsrom. Intensiteten i adferden er dermed lav fram til tidspunktet hunden forventer at forsterkningen kan komme. Når hunden forventer at det faktisk kan vanke forsterkning for adferden øker intensiteten, og vi ser at hunden går bra fri ved fot.

Under avstandskommando i klasse II er det også lett å gå i samme felle. Dersom hunden kun forsterkes etter siste stillingsforandring er den faktisk på en FF4 og vil kunne gi tre dårlige stillingsforandringer før siste dekkommando. Det er oftest på første stillingsforandring at førere må bruke dobbeltkommando. Denne stillingsforandringen er den første i en rekke av flere som må utføres for at belønningen skal komme, men blir aldri belønnet. Når først «sitt opp» er påbegynt går resten av seg selv fram til siste dekk der belønningen forventes å komme – altså en bra dekk. I klasse III og elite blir adferden for stillingsforandring enda verre dersom hunden alltid trenes på en FF6.

Samme feil kan også sees i andre treningssammenhenger. I rundering kan hunder gå dårlig de første slagene mens de gradvis øker intensitet, fart og dybde i utslagene mot 200-metersmerket hvor de forventer å finne figuranten.

En annen ganske vanlig feil er å strekke forsterkningsskalaen så kraftig at den «sprekker». Dersom hunden har lært å rundere 100 meter med tre figuranter strider det mot all fornuftig trening å la hunden rundere 800 meter uten figuranter. Det er helt klart at den i noen tilfeller kan klare det (ekstinksjon kan også øke intensitet og frekvens av adferd), men det er en stor feil å tro at den nå «har lært» å rundere 800 meter. Neste trening blir ofte en kalddusj der runderingsadferden er forstyrret, for eksempel med feilmeldinger, eller virker helt forsvunnet fra hundens repetoar.

Det samme gjelder under lydighetstrening. En unghund som akkurat har lært å gå noen meter fri ved fot er ikke klar til å gå en øvelse med samme vanskelighetsgrad som en elitehund. Unghunden ville trolig raskt slå over i annen adferd, som uoppmerksomhet og snusing i bakken, dersom noen prøvde å forlange slike prestasjoner.

I en lydighetskonkurranse vil det som oftest være flere gode eksempler på hunder som arbeider godt og intenst gjennom et helt lydighetsprogram. I elitelydighet er det en prestasjon det står respekt av både for fører og hund. Dette er førere som, bevisst eller ubevisst, arbeider med hunden på en høy variabel frekvens. De er levende eksempel på vellykket strekking av forsterkningsfrekvensen.

Dessverre kan også uønsket adferd forsterkes og økes i frekvens om man ikke er klar over forsterkningsskalaens makt. Dersom man ønsker at hunden skal tigge mindre ved bordet hjelper det ikke å bare gi godsaker fra bordet av og til. Det eierne da gjør er å sette hunden på en forsterkningsskala med variabel frekvens og øker dermed intensitet og presentasjon av tiggeadferden. Sett fra et læringspsykologisk synspunkt er dette vellykket læring, men sett fra eiernes side er dette langt fra en vellykket strategi.

Hvorfor går hunden bedre på trening enn på konkurranser? 

Mye av kunnskapen om forsterkningskalaer kommer fra kontrollerte forsøk med duer eller rotter i spesialkonstruerte bur. Duene lærer for eksempel å hakke på en plate i veggen for at det skal komme mat ut av en åpning i veggen. I et forsøk fikk en due valget mellom to plater. På den ene platen måtte den hakke 20 ganger for hver gang det kom mat. På den andre var det nok med 5 hakk. Etter en stund hadde duen funnet ut at det selvfølgelig var best å hakke på den platen som betalte best. Overført til hundetrening kan vi finne noen interessante paraleller. Platene kan sammenlignes med forskjellige situasjoner vi trener i. Veldig ofte lærer hunden at noen situasjoner innebærer dårligere sjanser for utbetaling enn andre.

Mange hunder går bra lydighet når føreren holder ballen synlig foran brystet mens de går. Mange runderingshunder går ut i full fart hvis de får se at figuranten dukker opp ute i skogen, men har ikke like god fart når den sendes ut uten slik hjelp. Mange hunder legger seg raskt hvis vi lokker den med en godbit, men er treg hvis vi bare kommanderer den.

Mye av dette kan forklares med henvisning til forsterkningsskalaer. Hvis man ser nøyere etter vil man sannsynligvis se at eierne belønner mye oftere når de holder ballen synlig enn når de går med belønningen skjult i lomma (det er jo så mye lettere å belønne når ballen er klar i hånda). Og når en hund får se at figuranten dukker opp får den som regel funn på akkurat dette utslaget. Etterhvert lærer hunden at det er større sannsynlighet for å få belønning når den faktisk har sett belønningen på forhånd (ballen, godbiten eller figuranten) – og dermed viser den selvfølgelig større innsats i disse situasjonene også. (akkurat som duen valgte den platen der det var størst sannsynlighet for å få mat).

For å få hunden til å gå bedre på konkurranser er det viktig at hunden ofte trenes i en «konkurransesituasjon». Du må så ofte som mulig gjøre treningen lik konkurranse. Med andre ord må du ikke «småprate» med hunden for å få den til å følge med, hunden skal følge med selv om du ikke konstant forteller den at den skal gjøre det. Ha gjerne ringbånd på alle treninger, la treningskompisene være tilskuere, tren med «dommer» og/eller «kommandant» og IKKE vis hunden at du har belønningen med deg. Dersom du ikke har mulighet til å skaffe tilveie alle «eksterne» hjelpemidler hver gang, er det viktig at i det minste du som hundefører oppfører deg på samme måte som i ringen. Lær hunden at det er svært sannsynlig at belønningen kommer «i ringen», slik at hunden ikke kjenner igjen konkurransesituasjonen som en dårlig betalt situasjon.

Hvis du både trener konkurranselikt og strekker forsterkningsskalaen litt etter litt, er det ingen grunn til at hunden skulle gå dårligere på konkurranse enn på trening. I alle fall ikke så lenge du holder de verste konkurransenervene under kontroll!

Oppsummering

Det er bevist at variabel frekvens av forsterkning er den beste strategien for opprettholdelse av høy intensitet og frekvens av adferd, enten den er ønsket eller uønsket. Dersom man tenker gjennom forsterkningsskalaens betydning i den daglige treningen av hunden vil man lettere kunne kontrollere hundens adferd. Det viktigste er å ikke kjøre seg selv inn i et fast mønster for forsterkning. Tenk gjennom hvilken forsterkningsskala hunden din jobber under, og få bedre kontroll over hundens adferd!

 

Referanser

Horne & Øyen, «Målrettet Miljøarbeid», GRD Forlag 1992.

Paul Chance, «Learning and Behavior», Brooks and Cole Publishing Company 1994

Catania C., «Learning», Prentice Hall 1986.

Karen Pryor, «Don`t Shoot the Dog» (revised edition), Bantam Books 1999.