B.F. Skinner | Operantenkonditionierung

B.F. Skinner | Operantenkonditionierung

Die Operantenkonditionierung ist eine Lernmethode, die durch Belohnungen und Strafen für das Verhalten erfolgt. Durch operante Konditionierung stellt ein Individuum eine Assoziation zwischen einem bestimmten Verhalten und einer Konsequenz her (Skinner, 1938).

In den 1920er Jahren hatte John B. Watson die akademische Psychologie verlassen, und andere Verhaltensforscher wurden immer einflussreicher und schlugen neue Formen des Lernens neben der klassischen Konditionierung vor. Der vielleicht wichtigste davon war Burrhus Frederic Skinner. Obwohl er aus offensichtlichen Gründen eher als B.F. Skinner bekannt ist.

Skinner’s Ansichten waren etwas weniger extrem als die von Watson (1913). Skinner glaubte, dass wir so etwas wie einen Geist haben, aber dass es einfach produktiver ist, beobachtbares Verhalten zu studieren, als innere mentale Ereignisse.

Die Arbeit von Skinner war in der Ansicht verwurzelt, dass die klassische Konditionierung viel zu einfach war, um eine vollständige Erklärung des komplexen menschlichen Verhaltens zu sein. Er glaubte, dass der beste Weg, Verhalten zu verstehen, darin besteht, die Ursachen einer Handlung und ihre Folgen zu betrachten. Er nannte diesen Ansatz operante Konditionierung.

BF Skinner: Betriebsmittelkonditionierung

Skinner gilt als der Vater der Operant Conditioning, aber seine Arbeit basierte auf Thorndikes (1898) Wirkungsgesetz. Nach diesem Prinzip wird sich das Verhalten, dem angenehme Folgen folgen, wahrscheinlich wiederholen, und das Verhalten, das von unangenehmen Folgen gefolgt wird, wird weniger wahrscheinlich wiederholt.

Skinner führte einen neuen Begriff in das Gesetz der Wirkung ein – Verstärkung. Verstärktes Verhalten neigt dazu, sich zu wiederholen (d.h. zu verstärken); nicht verstärktes Verhalten neigt dazu, auszusterben oder zu löschen (d.h. zu schwächen).

Skinner (1948) studierte operante Konditionierung, indem er Experimente mit Tieren durchführte, die er in eine “Skinner Box” stellte, die Thorndikes Puzzlebox ähnelte.

Skinner identifizierte drei Arten von Antworten, oder operant, die dem Verhalten folgen können.

– Neutrale Operanden: Reaktionen aus der Umgebung, die die Wahrscheinlichkeit einer Wiederholung eines Verhaltens weder erhöhen noch verringern.

– Verstärkungen: Reaktionen aus der Umgebung, die die Wahrscheinlichkeit erhöhen, dass sich ein Verhalten wiederholt. Verstärkungen können entweder positiv oder negativ sein.

– Bestrafer: Reaktionen aus der Umwelt, die die Wahrscheinlichkeit einer Wiederholung eines Verhaltens verringern. Bestrafung schwächt das Verhalten.

Wir alle können uns Beispiele dafür vorstellen, wie unser eigenes Verhalten durch Verstärker und Strafer beeinflusst wurde. Als Kind hast du wahrscheinlich eine Reihe von Verhaltensweisen ausprobiert und aus deren Folgen gelernt.

Zum Beispiel, wenn Sie, als Sie jünger waren, versuchten, in der Schule zu rauchen, und die wichtigste Konsequenz war, dass Sie in die Menge kamen, mit der Sie immer zusammen sein wollten, wären Sie positiv verstärkt (d.h. belohnt) worden und würden wahrscheinlich das Verhalten wiederholen.

Wenn die Hauptfolge jedoch darin bestand, dass du erwischt, verprügelt, von der Schule suspendiert und deine Eltern involviert wurden, wärst du sicherlich bestraft worden, und du wärst daher jetzt viel weniger wahrscheinlich rauchen würdest.

Positive Verstärkung

Skinner zeigte, wie positive Verstärkung funktioniert, indem er eine hungrige Ratte in seine Skinner-Box legte. Die Box enthielt einen Hebel an der Seite, und als sich die Ratte über die Box bewegte, schlug sie versehentlich auf den Hebel. Sofort fiel ein Lebensmittelpellet in einen Behälter neben dem Hebel.

Die Ratten lernten schnell, direkt zum Hebel zu gehen, nachdem sie ein paar Mal in die Box gesteckt wurden. Die Folge der Nahrungsaufnahme durch Drücken des Hebels war, dass sie die Aktion immer wieder wiederholen würden.

Positive Verstärkung stärkt ein Verhalten, indem sie eine Konsequenz liefert, die ein Individuum als lohnend empfindet. Wenn Ihr Lehrer Ihnen zum Beispiel jedes Mal £5 gibt, wenn Sie Ihre Hausaufgaben machen (d.h. eine Belohnung), werden Sie dieses Verhalten in Zukunft eher wiederholen und so das Verhalten bei der Erfüllung Ihrer Hausaufgaben stärken.

Negative Verstärkung

Die Entfernung eines unangenehmen Verstärkers kann auch das Verhalten stärken. Dies wird als negative Verstärkung bezeichnet, da es die Beseitigung eines negativen Reizes ist, der für das Tier oder die Person “lohnend” ist. Negative Verstärkung stärkt das Verhalten, weil sie ein unangenehmes Erlebnis stoppt oder beseitigt.

Wenn Sie zum Beispiel Ihre Hausaufgaben nicht erledigen, geben Sie Ihrem Lehrer £5. Sie werden Ihre Hausaufgaben erledigen, um zu vermeiden, 5 Pfund zu zahlen, und so das Verhalten bei der Durchführung Ihrer Hausaufgaben stärken.

Skinner zeigte, wie negative Verstärkung funktioniert, indem er eine Ratte in seine Skinner-Box legte und sie dann einem unangenehmen elektrischen Strom aussetzte, der ihr einige Unannehmlichkeiten bereitete. Als sich die Ratte über die Kiste bewegte, schlug sie versehentlich den Hebel. Sofort wurde der Strom abgeschaltet. Die Ratten lernten schnell, direkt zum Hebel zu gehen, nachdem sie ein paar Mal in die Box gesteckt wurden. Die Folge der Flucht aus dem elektrischen Strom war, dass sie die Aktion immer wieder wiederholen würden.

Tatsächlich lehrte Skinner sogar die Ratten, den elektrischen Strom zu vermeiden, indem er ein Licht einschaltete, kurz bevor der elektrische Strom einschaltete. Die Ratten lernten bald, den Hebel zu drücken, wenn das Licht aufging, weil sie wussten, dass dies das Einschalten des elektrischen Stroms verhindern würde.

Diese beiden erlernten Antworten sind bekannt als Escape Learning und Avoidance Learning.

Bestrafung (schwächt das Verhalten)

Bestrafung ist definiert als das Gegenteil von Verstärkung, da sie darauf abzielt, eine Reaktion zu schwächen oder zu beseitigen, anstatt sie zu erhöhen. Es ist ein aversives Ereignis, das das Verhalten, dem es folgt, verringert.

Wie die Verstärkung kann die Bestrafung entweder durch direkte Anwendung eines unangenehmen Reizes wie eines Schocks nach einer Reaktion oder durch Entfernen eines potenziell lohnenden Reizes funktionieren, z.B. durch Abzug des Taschengeldes, um unerwünschtes Verhalten zu bestrafen.

Hinweis: Es ist nicht immer einfach, zwischen Bestrafung und negativer Verstärkung zu unterscheiden.

Es gibt viele Probleme mit der Anwendung von Bestrafung, wie z.B.:

  • Bestraftes Verhalten wird nicht vergessen, es wird unterdrückt – das Verhalten kehrt zurück, wenn die Strafe nicht mehr vorhanden ist.
  • Verursacht erhöhte Aggression – zeigt, dass Aggression ein Weg ist, um mit Problemen umzugehen.
  • Schafft Angst, die zu unerwünschtem Verhalten führen kann, z.B. Angst vor der Schule.
  • Führt nicht unbedingt zum gewünschten Verhalten – Verstärkung sagt dir, was du tun sollst, Bestrafung sagt dir nur, was du nicht tun sollst.

Zeitpläne für die Bewehrung

Stell dir eine Ratte in einer “Häuterbox” vor. In funktionsfähiger Konditionierung, wenn kein Lebensmittelpellet unmittelbar nach dem Drücken des Hebels geliefert wird, hört die Ratte nach mehreren Versuchen auf, den Hebel zu drücken (wie lange würde jemand weiterarbeiten, wenn sein Arbeitgeber aufhört, sie zu bezahlen?). Das Verhalten wurde gelöscht.

Verhaltensforscher entdeckten, dass verschiedene Muster (oder Zeitpläne) der Verstärkung unterschiedliche Auswirkungen auf die Lern- und Ausstiegsgeschwindigkeit hatten. Ferster and Skinner (1957) entwickelte verschiedene Wege, um Bewehrung zu liefern, und stellte fest, dass dies Auswirkungen auf folgende Punkte hatte

  • 1. Die Rücklaufquote – Die Rate, mit der die Ratte den Hebel drückt (d.h. wie hart die Ratte gearbeitet hat).
  • 2. Die Extinktionsrate – Die Rate, mit der der Hebel ausgeht (d.h. wie schnell die Ratte aufgegeben hat).

Skinner fand heraus, dass die Art der Verstärkung, die die langsamste Extinktionsrate erzeugt (d.h. die Menschen werden das Verhalten für die längste Zeit ohne Verstärkung wiederholen), eine Verstärkung mit variablem Verhältnis ist. Die Art der Bewehrung, die die schnellste Löschrate aufweist, ist die kontinuierliche Bewehrung.

(A) Kontinuierliche Verstärkung

Ein Tier/Mensch wird jedes Mal, wenn ein bestimmtes Verhalten auftritt, positiv verstärkt, z.B. wenn ein Hebel gedrückt wird, wird ein Pellet abgegeben, und dann wird die Nahrungszufuhr unterbrochen.

Die Rücklaufquote ist Langsam.

Die Aussterberate ist SCHNELL.

(B) Bewehrung mit festem Verhältnis

Das Verhalten wird erst verstärkt, wenn das Verhalten eine bestimmte Anzahl von Malen auftritt, z.B. wird nach jeder so vielen richtigen Antwort eine Verstärkung gegeben, z.B. nach jeder 5. So erhält beispielsweise ein Kind für jedes fünfte richtig geschriebene Wort einen Stern.

  • Die Rücklaufquote ist SCHNELL
  • Die Extinktionsrate ist MITTEL

(C) Feste Intervallbewehrung

Eine Verstärkung wird nach einem festen Zeitintervall gegeben, wenn mindestens eine korrekte Reaktion erfolgt ist. Ein Beispiel ist die stundenweise Bezahlung. Ein weiteres Beispiel wäre, dass alle 15 Minuten (halbe Stunde, Stunde, etc.) ein Pellet geliefert wird (vorausgesetzt, es wurde mindestens eine Hebelpresse hergestellt) und die Speisenausgabe abgeschaltet wird.

  • Die Rücklaufquote ist MITTEL
  • Die Extinktionsrate ist MITTEL

(D) Verstärkung mit variablem Verhältnis

Das Verhalten wird nach einer unvorhersehbaren Anzahl von Malen verstärkt. Zum Beispiel beim Spielen oder Angeln.

  • Die Rücklaufquote ist SCHNELL
  • Die Aussterberate ist langsam (sehr schwer zu löschen, da unvorhersehbar).

(E) Verstärkung mit variablem Intervall

Sofern eine korrekte Antwort gegeben wurde, erfolgt die Verstärkung nach unvorhersehbarer Zeit, z.B. durchschnittlich alle 5 Minuten. Ein Beispiel ist ein Selbständiger, der zu unvorhersehbaren Zeiten bezahlt wird.

  • Die Rücklaufquote ist SCHNELL
  • Die Aussterberate ist langsam.

Verhaltensänderung

Verhaltensänderung ist eine Reihe von Therapien / Techniken, die auf operanter Konditionierung basieren (Skinner, 1938, 1953). Das Hauptprinzip besteht darin, Umweltereignisse zu verändern, die mit dem Verhalten einer Person zusammenhängen. Zum Beispiel die Stärkung der gewünschten Verhaltensweisen und das Ignorieren oder Bestrafen unerwünschter Verhaltensweisen.

Das ist nicht so einfach, wie es sich anhört – die Stärkung des gewünschten Verhaltens ist zum Beispiel grundsätzlich Bestechung.

Es gibt verschiedene Arten von positiven Verstärkungen. Primäre Verstärkung ist, wenn eine Belohnung ein Verhalten an sich stärkt. Sekundäre Verstärkung ist, wenn etwas ein Verhalten verstärkt, weil es zu einem primären Verstärker führt.

Beispiele für die Verhaltensmodifikationstherapie sind Tokenökonomie und Verhaltensgestaltung.

Token-Wirtschaft

Die Tokenökonomie ist ein System, bei dem gezieltes Verhalten durch Token (Sekundärverstärker) verstärkt und später gegen Belohnungen (Primärverstärker) ausgetauscht wird.

Token können in Form von Falschgeld, Buttons, Pokerchips, Aufklebern, etc. sein. Die Belohnungen können von Snacks über Privilegien bis hin zu Aktivitäten reichen. Beispielsweise verwenden Lehrer die Tokenökonomie in der Grundschule, indem sie Kleinkindern Aufkleber geben, um gutes Verhalten zu belohnen.

Die Tokenökonomie hat sich bei der Behandlung psychiatrischer Patienten als sehr effektiv erwiesen. Die Patienten können jedoch zu sehr auf die Token angewiesen sein, was es ihnen erschwert, sich an die Gesellschaft anzupassen, wenn sie das Gefängnis, das Krankenhaus usw. verlassen.

Das Personal, das ein Token-Sparprogramm durchführt, hat viel Macht. Es ist wichtig, dass die Mitarbeiter bestimmte Personen nicht bevorzugen oder ignorieren, wenn das Programm funktionieren soll. Daher muss das Personal geschult werden, um auch bei Schichtwechseln wie in Gefängnissen oder in einer psychiatrischen Klinik Token fair und konsequent zu geben.

Verhaltensgestaltung

Ein weiterer wichtiger Beitrag von Skinner (1951) ist der Begriff der Verhaltensgestaltung durch sukzessive Annäherung. Skinner argumentiert, dass die Prinzipien der operanten Konditionierung genutzt werden können, um extrem komplexes Verhalten zu erzeugen, wenn Belohnungen und Strafen so verteilt werden, dass sie dazu anregen, einen Organismus jedes Mal näher und näher an das gewünschte Verhalten heranzuführen.

Um dies zu tun, sollten sich die Bedingungen (oder Eventualitäten), die erforderlich sind, um die Belohnung zu erhalten, jedes Mal verschieben, wenn der Organismus dem gewünschten Verhalten einen Schritt näher kommt.

Laut Skinner kann das meiste tierische und menschliche Verhalten (einschließlich Sprache) als Produkt dieser Art der sukzessiven Annäherung erklärt werden.

Bildungsanwendungen

In der konventionellen Lernsituation gilt die operante Konditionierung vor allem für Fragen der Klassen- und Schülerverwaltung und nicht für Lerninhalte. Es ist sehr wichtig für die Gestaltung der Qualifikationsleistung.

Eine einfache Möglichkeit, das Verhalten zu gestalten, besteht darin, Feedback zur Leistung des Lernenden zu geben, z.B. Komplimente, Anerkennung, Ermutigung und Bestätigung. Ein variables Verhältnis ergibt die höchste Rücklaufquote für Schüler, die eine neue Aufgabe erlernen, wobei zunächst eine Verstärkung (z.B. Lob) in häufigen Abständen erfolgt und da die Leistungsverbesserung weniger häufig erfolgt, bis schließlich nur noch außergewöhnliche Ergebnisse verstärkt werden.

Wenn ein Lehrer zum Beispiel die Schüler ermutigen wollte, Fragen im Unterricht zu beantworten, sollte er sie bei jedem Versuch loben (unabhängig davon, ob ihre Antwort richtig ist). Allmählich wird der Lehrer die Schüler nur dann loben, wenn ihre Antwort richtig ist, und mit der Zeit werden nur außergewöhnliche Antworten gelobt.

Unerwünschte Verhaltensweisen wie Verspätung und dominierende Klassendiskussionen können ausgelöscht werden, indem sie vom Lehrer ignoriert werden (und nicht durch Aufmerksamkeit verstärkt werden). Dies ist keine leichte Aufgabe, da der Lehrer unaufrichtig erscheinen kann, wenn er zu viel über die Art und Weise nachdenkt, wie er sich verhalten soll.

Erfolgswissen ist ebenfalls wichtig, da es das zukünftige Lernen motiviert. Es ist jedoch wichtig, die Art der Bewehrung zu variieren, damit das Verhalten erhalten bleibt. Dies ist keine leichte Aufgabe, da der Lehrer unaufrichtig erscheinen kann, wenn er zu viel über die Art und Weise nachdenkt, wie er sich verhalten soll.

Zusammenfassung

Wenn wir uns Skinners klassische Studien über das Verhalten von Tauben / Ratten ansehen, können wir einige der wichtigsten Annahmen des behavioristischen Ansatzes identifizieren.

– Psychologie sollte als eine Wissenschaft angesehen werden, die auf wissenschaftliche Weise studiert werden muss. Skinner’s Studie über das Verhalten von Ratten wurde unter sorgfältig kontrollierten Laborbedingungen durchgeführt.

– Behaviorismus befasst sich in erster Linie mit beobachtbarem Verhalten, im Gegensatz zu internen Ereignissen wie Denken und Emotion. Beachten Sie, dass Skinner nicht gesagt hat, dass die Ratten gelernt haben, einen Hebel zu drücken, weil sie Nahrung wollten. Stattdessen konzentrierte er sich darauf, das leicht zu beobachtende Verhalten zu beschreiben, das die Ratten erworben hatten.

– Der größte Einfluss auf das menschliche Verhalten besteht darin, von unserer Umwelt zu lernen. In der Skinner-Studie, weil die Nahrung einem bestimmten Verhalten folgte, lernten die Ratten, dieses Verhalten zu wiederholen, z.B. operante Konditionierung.

– Es gibt kaum einen Unterschied zwischen dem Lernen, das beim Menschen stattfindet, und dem bei anderen Tieren. Daher kann sowohl an Tieren (Ratten / Tauben) als auch am Menschen geforscht (z.B. operante Konditionierung) werden. Skinner schlug vor, dass die Art und Weise, wie Menschen das Verhalten lernen, so ähnlich ist wie die Art und Weise, wie die Ratten lernten, einen Hebel zu drücken.

Wenn also die Vorstellung Ihres Laien von Psychologie schon immer von Menschen in Labors war, die weiße Mäntel tragen und unglücklichen Ratten zusehen, wie sie versuchen, Labyrinthe zu verhandeln, um zu ihrem Abendessen zu kommen, dann denken Sie wahrscheinlich an Verhaltenspsychologie.

Verhalten und seine Ableger gehören in der Regel zu den wissenschaftlichsten der psychologischen Perspektiven. Der Schwerpunkt der Verhaltenspsychologie liegt darin, wie wir lernen, uns auf bestimmte Weise zu verhalten.

Wir alle lernen ständig neue Verhaltensweisen und wie wir unser bestehendes Verhalten ändern können. Die Verhaltenspsychologie ist der psychologische Ansatz, der sich darauf konzentriert, wie dieses Lernen stattfindet.

Kritische Bewertung

Die Operandenkonditionierung kann verwendet werden, um eine Vielzahl von Verhaltensweisen zu erklären, vom Lernprozess über Sucht bis hin zum Spracherwerb. Es hat auch praktische Anwendung (z.B. Token Economy), die in Klassenzimmern, Gefängnissen und psychiatrischen Krankenhäusern eingesetzt werden kann.

Die operante Konditionierung berücksichtigt jedoch nicht die Rolle vererbter und kognitiver Faktoren beim Lernen und ist somit eine unvollständige Erklärung für den Lernprozess bei Mensch und Tier.

Zum Beispiel fand Kohler (1924) heraus, dass Primaten oft Probleme in einem Augenblick der Erkenntnis zu lösen scheinen, anstatt Trial and Error Learning zu sein. Auch die Theorie des sozialen Lernens (Bandura, 1977) legt nahe, dass Menschen automatisch durch Beobachtung und nicht durch persönliche Erfahrung lernen können.

Die Nutzung der Tierforschung in operanten Konditionierungsstudien wirft auch die Frage der Extrapolation auf. Einige Psychologen argumentieren, dass wir nicht von Studien an Tieren auf Menschen verallgemeinern können, da sich ihre Anatomie und Physiologie von der des Menschen unterscheidet, und sie können nicht über ihre Erfahrungen nachdenken und Vernunft, Geduld, Gedächtnis oder Selbstbehagen aufrufen.

Wichtige Begriffe

Betriebsmittelkonditionierung

Operante Konditionierung beinhaltet das Lernen durch die Folgen von Verhalten.

Positive Verstärkung

Das Thema mit etwas zu präsentieren, das ihm gefällt. z.B. belohnte Skinner seine Ratten mit Futterpellets.

Negative Verstärkung

Belohnung – im Sinne der Beseitigung oder Vermeidung eines aversiven (schmerzhaften) Reizes. Z.B. lernten Skinner’s Ratten, den Hebel zu drücken, um den elektrischen Strom im Käfig abzuschalten.

Bestrafung

Ein aversiver oder schmerzhafter Reiz wurde auferlegt. z.B. erhielten Skinner’s Ratten einen elektrischen Schlag.

Primärverstärker

Das sind Reize, die von Natur aus verstärken, weil sie ein Bedürfnis direkt befriedigen. Z.B. Nahrung, Wasser.

Sekundäre Verstärkungen

Dies sind Reize, die durch ihre Verbindung mit einem Primärverstärker verstärkt werden, d.h. sie decken ein Bedürfnis nicht direkt, können aber das Mittel dazu sein. Z.B. Geld! Du kannst es nicht essen oder trinken, aber wenn du es hast, kannst du kaufen, was du willst. So kann ein Sekundärverstärker ein ebenso starker Motivator sein wie ein Primärverstärker.

Formgebung

Bei der Gestaltung wird die Form einer bestehenden Antwort in aufeinanderfolgenden Versuchen schrittweise auf ein gewünschtes Zielverhalten umgestellt, indem genaue Verhaltensabschnitte belohnt werden.

Referenzen

Bandura, A. (1977). Theorie des sozialen Lernens. Englewood Cliffs, NJ: Prentice Hall.

Ferster, C. B., & Skinner, B. F. (1957). Bewehrungspläne.

Kohler, W. (1924). Die Mentalität der Affen. London: Routledge & Kegan Paul.

Häuter, B. F. (1938). Das Verhalten von Organismen: Eine experimentelle Analyse. New York: Appleton-Century.

Häuter, B. F. (1948). Aberglaube’ in der Taube. Zeitschrift für Experimentelle Psychologie, 38, 168-172.

Häuter, B. F. (1951). Wie man Tiere unterrichtet. Freeman.

Häuter, B. F. (1953). Wissenschaft und menschliches Verhalten. SimonandSchuster.com.

Thorndike, E. L. (1898). Tierische Intelligenz: Eine experimentelle Studie über die assoziativen Prozesse bei Tieren. Psychologische Monographien: Allgemeines und Angewandtes, 2(4), i-109.

Watson, J. B. (1913). Psychologie, wie sie der Verhaltensforscher sieht. Psychologische Überprüfung, 20, 158-177.