Ein modellfreier Ansatz für das Deep Reinforcement Learning zur Bewältigung neuronaler Steuerungsprobleme

Links: Beispiel einer Adjazenzmatrix mit angenäherter Blockdiagonalstruktur. Unter der Annahme eines linearen Mischungsmodells neuronaler Wechselwirkungen induziert diese Netzwerkstruktur eine ungefähr blockdiagonale Kovarianz ähnlicher Struktur. Rechts: die Hauptkomponenten, die mit der Adjazenzmatrix auf der linken Seite verbunden sind. Bildnachweis: Mitchell & Petzold

Brian Mitchell und Linda Petzold, zwei Forscher an der University of California, haben kürzlich modellfreies Deep Reinforcement Learning auf Modelle der neuronalen Dynamik angewendet und dabei sehr vielversprechende Ergebnisse erzielt.

Reinforcement Learning ist ein von der Verhaltenspsychologie inspirierter Bereich des maschinellen Lernens, der Algorithmen trainiert, um bestimmte Aufgaben effektiv zu erledigen, wobei ein System verwendet wird, das auf Belohnung und Bestrafung basiert. Ein prominenter Meilenstein in diesem Bereich war die Entwicklung des Deep-Q-Networks (DQN), das ursprünglich dazu diente, einem Computer das Spielen von Atari-Spielen beizubringen.

Modellfreies Reinforcement Learning wurde auf eine Vielzahl von Problemen angewendet, DQN wird jedoch im Allgemeinen nicht verwendet. Der Hauptgrund dafür ist, dass DQN eine begrenzte Anzahl von Maßnahmen vorschlagen kann, während physikalische Probleme im Allgemeinen eine Methode erfordern, die ein Kontinuum von Maßnahmen vorschlagen kann.

Beim Lesen der bestehenden Literatur zur neuronalen Steuerung bemerkten Mitchell und Petzold die weit verbreitete Verwendung eines klassischen Paradigmas zur Lösung neuronaler Steuerungsprobleme mit Strategien des maschinellen Lernens. Zunächst einigen sich Ingenieur und Experimentator über Ziel und Design ihrer Studie. Dieser führt dann das Experiment durch und sammelt Daten, die später vom Ingenieur analysiert und verwendet werden, um ein Modell des interessierenden Systems zu erstellen. Schließlich entwickelt der Ingenieur einen Controller für das Modell und das Gerät implementiert diesen Controller.

Ein modellfreier Ansatz für das Deep Reinforcement Learning zur Bewältigung neuronaler Steuerungsprobleme
Ergebnisse des Experiments zur Kontrolle der Schwingung im Phasenraum, der durch eine einzelne Hauptkomponente definiert ist. Das erste Diagramm von oben ist ein Diagramm der Eingabe in die aktivierte Zelle über die Zeit; das zweite Diagramm von oben ist ein Diagramm der Spitzen des gesamten Netzwerks, wobei verschiedene Farben verschiedenen Zellen entsprechen; das dritte Diagramm von oben entspricht dem Membranpotential jeder Zelle über die Zeit; das vierte Diagramm von oben zeigt die Zielschwingung; das untere Diagramm zeigt die beobachtete Oszillation. Die Richtlinie ist in der Lage, die Zieloszillation im beobachteten Phasenraum näherungsweise zu induzieren, obwohl sie nur eine einzelne Zelle mit Input versorgt. Bildnachweis: Mitchell & Petzold

„Dieser Arbeitsablauf ignoriert die jüngsten Fortschritte bei der modellfreien Steuerung (z. B. AlphaGo AlphaGo Zero), die das Design von Controllern effizienter machen könnten“, sagte Mitchell Tech Xplore. „In einem modellfreien Framework werden die Schritte b, c und d zu einem einzigen Schritt kombiniert und es wird nie ein explizites Modell erstellt. Vielmehr interagiert das modellfreie System wiederholt mit dem neuronalen System und lernt im Laufe der Zeit, um das gewünschte zu erreichen Wir wollten diese Lücke schließen, um zu sehen, ob die modellfreie Steuerung verwendet werden kann, um neue Probleme der neuronalen Steuerung schnell zu lösen.“

Die Forscher adaptierten eine modellfreie Reinforcement-Learning-Methode namens “Deep deterministic Policy Gradients” (DDPG) und wandten sie auf Modelle der Low-Level- und High-Level-Neuraldynamik an. Sie haben sich speziell für DDPG entschieden, weil es ein sehr flexibles Framework bietet, bei dem der Benutzer keine Systemdynamik modellieren muss.

Neuere Forschungen haben ergeben, dass modellfreie Methoden im Allgemeinen zu viel Experimentieren mit der Umgebung erfordern, was ihre Anwendung auf praktischere Probleme erschwert. Nichtsdestotrotz stellten die Forscher fest, dass ihr modellfreier Ansatz besser abschneidet als aktuelle modellbasierte Methoden und schwierigere neuronale Dynamikprobleme lösen konnte, wie etwa die Kontrolle von Trajektorien durch einen latenten Phasenraum eines unteraktivierten Neuronennetzwerks.

„Für die Probleme, die wir in diesem Papier betrachtet haben, waren modellfreie Ansätze recht effizient und erforderten nicht viel Experimentieren, was darauf hindeutet, dass bei neuronalen Problemen moderne Controller praktischer sind, als die Leute vielleicht dachten.“ “, sagte Mitchell.

Ein modellfreier Ansatz für das Deep Reinforcement Learning zur Bewältigung neuronaler Steuerungsprobleme
Zusammenfassende Ergebnisse von 10 Synchronisationsexperimenten. (a) Zeigt den Mittelwert und die Standardabweichung der globalen Synchronisation (dh q aus Gleichung 16) gegenüber der Anzahl der Trainingsperioden des Controllers. (b) Zeigt Histogramme, die den Synchronisationspegel aller Netzwerkoszillatoren mit dem Referenzoszillator (dh qi aus Gleichung 16) zeigen. Das heißt, ein Punkt entweder auf der blauen oder grünen Kurve zeigt die Wahrscheinlichkeit, einen bestimmten Wert für qi zu haben. Das blaue Histogramm zeigt die Anzahl vor dem Training, während das grüne Histogramm die Anzahl nach dem Training zeigt. Die durchschnittliche Synchronisation mit der Referenz qi ist viel höher als die globale Synchronisation q, was dadurch erklärt wird, dass die Synchronisation mit der Referenz leichter herbeizuführen ist als die globale Synchronisation. Bildnachweis: Mitchell & Petzold

Mitchell und Petzold führten ihre Studie als Simulation durch, daher müssen wichtige Praxis- und Sicherheitsaspekte berücksichtigt werden, bevor ihre Methode im klinischen Umfeld eingeführt werden kann. Weitere Forschung, die Modelle in modellfreie Ansätze einbezieht oder die modellfreien Controllern Grenzen setzt, könnte dazu beitragen, die Sicherheit zu erhöhen, bevor diese Methoden in den klinischen Bereich eintreten.

Zukünftig wollen die Forscher auch untersuchen, wie sich neuronale Systeme an die Kontrolle anpassen. Das menschliche Gehirn ist ein hochdynamisches Organ, das sich an seine Umgebung anpasst und sich als Reaktion auf äußere Reize verändert. Dies könnte zu einem Wettbewerb zwischen dem Gehirn und dem Controller führen, insbesondere wenn ihre Ziele nicht aufeinander abgestimmt sind.

„In vielen Fällen wollen wir, dass der Controller gewinnt, und das Design von Controllern, die immer gewinnen, ist ein wichtiges und interessantes Problem“, sagte Mitchell. “Wenn das kontrollierte Gewebe beispielsweise eine erkrankte Gehirnregion ist, kann diese Region eine bestimmte Progression aufweisen, die der Controller zu korrigieren versucht. Bei vielen Krankheiten kann diese Progression einer Behandlung widerstehen (z. B. ein Tumor, der sich an expel Chemotherapie ist ein kanonisches Beispiel), aber aktuelle modellfreie Ansätze passen sich nicht gut an diese Art von Veränderungen an .”

Die Forschung ist veröffentlicht in Wissenschaftliche Berichte.


Leave a Comment