Modell A · Vertiefung

Multimodalität im Unterricht

Stand: April 2026

Die aktuellen Frontier-Modelle – GPT-4o (OpenAI), Gemini 2.5 Pro (Google) und Claude 4 (Anthropic) – nehmen Text, Bild, Audio und Video als Eingabe und geben ebenso multimodal aus. Für Schulen eröffnet das Szenarien, die bisher nur mit spezialisierter Software möglich waren: Feedback auf Präsentationen, Protokoll aus Unterrichtsaudio, Skizzenkommentar, automatische Untertitel für Barrierefreiheit. Diese Seite sortiert acht schulrelevante Szenarien und die jeweils kritischen Datenschutz-Fragen.

Was technisch geht · 8 Szenarien · Datenschutz & Bild-/Tonrechte · Barrierefreiheit

Kernaussage. Multimodalität ist für Schulen kein „nice to have", sondern ein Werkzeug, das Barrieren senkt und Feedback-Schleifen verkürzt. Der kritische Punkt ist nicht technische Fähigkeit, sondern Rechte- und Zustimmungsmanagement: Bild von Schüler:in, Stimme von Lehrperson, Audio aus dem Klassenzimmer – jedes dieser Dinge ist personenbezogen, bevor es der KI zugeführt wird.
1

Was multimodale Modelle 2026 zuverlässig können

Bildverstehen

  • Handschrift, Skizzen, Diagramme entziffern und kommentieren
  • Fotografierte Seiten aus Lehrmitteln zusammenfassen, Fragen stellen lassen
  • Schritt-für-Schritt-Erklärung zu einem mathematischen Lösungsweg auf Papier
  • Defekte/Fehler auf technischen Abbildungen identifizieren

Audio

  • Transkription mit Sprechertrennung (mehrere Stimmen zuordnen)
  • Zusammenfassung einer Unterrichtsdiskussion oder eines Podcasts
  • Aussprache-Feedback in Sprachen (mit Realtime-API)
  • Akustische Szenenklassifikation (Musik, Stille, Lärm)

Video

  • Lange Vorlesungsvideos zusammenfassen, Kapitel setzen
  • Präsentations-Feedback: Inhalt, Sprechtempo, Blick, Strukturierung
  • Bewegungsanalyse im Sportunterricht (mit expliziter Zustimmung)
  • Experiment-Protokoll aus Filmaufnahme erzeugen

Grenzen der Modelle

  • Handschrift-Erkennung ist nicht perfekt, besonders bei Cursive und deutschen Umlauten.
  • Video > 30 Minuten muss oft gestückelt werden (Kontextfenster).
  • Echtzeit-Bild-Analyse ("live" Kamera) ist 2026 außerhalb spezialisierter APIs noch nicht Schulalltag.
  • Emotionsableitung technisch möglich, aber in Bildung verboten (EU AI Act Art. 5).
2

8 Einsatzszenarien für den Unterricht

1. Feedback auf fotografierte Handschrift
Schüler:in fotografiert eigene Lösung (Mathematik, Deutsch, Fremdsprache). KI markiert Fehler, erklärt den korrekten Weg. Funktioniert am besten in Kombination mit Faded Scaffolding: erst Hinweis, dann Lösung.
2. Präsentations-Coaching
Schüler:in nimmt Probe-Präsentation als Video auf, KI gibt strukturiertes Feedback zu Aufbau, Sprechtempo, Füllwörtern, Folien-Klarheit. Lehrperson validiert Schwerpunkt.
3. Experiment-Protokolle aus Video
Video eines Chemie-/Physik-Experiments → strukturiertes Protokoll (Beobachtung, Interpretation, offene Fragen). Didaktisch stark, weil Beobachtung und Dokumentation getrennt werden.
4. Lern-Podcast transkribieren & zusammenfassen
Audio-Inputs (Podcasts, Interviews, Radiobeiträge) werden für Lernende zugänglich gemacht – Transkript, Kapitelmarken, Zusammenfassung. Barrierefreiheit und Sprachenlernen profitieren.
5. Barrierefreie Materialumwandlung
PDF mit schlechter OCR-Qualität → lesbarer Fließtext mit beschriftetem Bild. Besonders relevant für Lernende mit Seh- oder Lese-Schwierigkeiten.
6. Skizzen-Review
Technische Zeichnung, Mind-Map oder Schema wird fotografiert. KI prüft Vollständigkeit gegen ein vorgegebenes Raster und macht Verbesserungsvorschläge.
7. Video-Erklärung erzeugen (für Lehrpersonen)
Text + Bilder → Erklär-Video mit automatisch generierter Sprechstimme. Nützlich für Flipped-Classroom-Einheiten. Urheberrechte und Sprechstimmen-Klonen beachten.
8. Sprachen: Aussprache- und Dialog-Training
Audio-Eingabe der Schülerin, Feedback zu Aussprache, Intonation, Grammatik. Siehe Voice-Tutoring.
3

Datenschutz & Bild-/Tonrechte

Multimodale KI verarbeitet systematisch sensiblere Daten als Text-KI. Drei Ebenen müssen stimmen, bevor ein Szenario produktiv geht:

Rechtsgrundlage

Zustimmung von Lernenden / Erziehungsberechtigten schriftlich einholen. Bei Bild und Ton in der Schweiz zusätzlich das Recht am eigenen Bild (Art. 28 ZGB) beachten, in DE/AT die Persönlichkeitsrechte / DSGVO Art. 6.

Datenfluss

Welcher Anbieter bekommt das Material, wo wird es gespeichert, wie lange? EU-Hosting mit Auftragsbearbeitungsvertrag bevorzugt. Bei kostenfreien Endnutzerdiensten gilt oft das Gegenteil.

Zweckbindung

Das hochgeladene Material wird nur für die definierte pädagogische Aufgabe genutzt – nicht für Modelltraining. Bei den meisten API- und Enterprise-Zugängen ist Opt-out möglich; bei Endnutzer-Apps oft nicht. On-Prem-Alternativen prüfen.

Vorlage für die Zustimmung: Nutzungsvereinbarung mit multimodalem Zusatz.

4

Barrierefreiheit als Stärke der Multimodalität

Der größte unbestrittene Nutzen multimodaler KI in Schulen ist der Abbau von Zugangsbarrieren.

Quellen

Belege & Vertiefung

Weiter mit