ES EN DE
UPO
Erasmus+ KA3 - Europaische Politikexperimentierung
EU

Reinforcement Learning Simulation

Trainieren und optimieren Sie personalisierte Lernpfade mithilfe virtueller Schulerklone und Reinforcement-Learning-Algorithmen.

Simulationsstatus
Entwicklung

Technische Vorschau

RL-Architekturuberblick
Zustand (S)

Schulerprofil-Variablen

Aktion (A)

Auswahl der Lernaktivitat

Belohnung (R)

Lernergebnis-Signal

Zustandsraum-Komponenten
Demografische Variablen (V1-V4)
Emotionale Faktoren (V5-V6)
Kognitive Faktoren (V7-V12)
Aktuelle Leistung (V16-V20)
Simulationskonsole

> Initialisiere InfiniteLearner RL-Umgebung...

> Lade Schulerprofile aus Datenbank...

> Schuler geladen: 3 virtuelle Klone

> Aktivitatsraum: 48 Lernaktivitaten

> Schwierigkeitsstufen: [Basis, Elementar, Mittelstufe, Fortgeschritten]

>

> Starte Trainingsepisode 1/1000...

> Agent: PPO (Proximal Policy Optimization)

> Lernrate: 0.0003

>

> Episode 1: Belohnung = 0.45 | Schritte = 12

> Episode 50: Belohnung = 0.68 | Schritte = 10

> Episode 100: Belohnung = 0.82 | Schritte = 8

> Episode 500: Belohnung = 0.91 | Schritte = 7

> Training lauft... _

Technologie-Stack
Python
PyTorch
Gymnasium
Stable-Baselines3
PostgreSQL
Flask API
Virtuelle Schulerklone
MG
Maria (Klon)

Leistungsstarkes Profil

PR
Pablo (Klon)

Durchschnittliches Profil

AM
Ana (Klon)

Profil mit Forderungsbedarf

Trainingsmetriken
Durchschnittliche Belohnung 0.91
Policy Loss 0.023
Abgeschlossene Episoden 512/1000

Quellcode erkunden

Das RL-Simulationsmodul ist Open Source und fur Forschungszwecke verfugbar

Auf GitHub ansehen