Multimodalität im Unterricht (2026): Bild, Audio, Video mit KI

Kernaussage. Multimodalität ist für Schulen kein „nice to have", sondern ein Werkzeug, das Barrieren senkt und Feedback-Schleifen verkürzt. Der kritische Punkt ist nicht technische Fähigkeit, sondern Rechte- und Zustimmungsmanagement: Bild von Schüler:in, Stimme von Lehrperson, Audio aus dem Klassenzimmer – jedes dieser Dinge ist personenbezogen, bevor es der KI zugeführt wird.

1

Was multimodale Modelle 2026 zuverlässig können

Bildverstehen

Handschrift, Skizzen, Diagramme entziffern und kommentieren
Fotografierte Seiten aus Lehrmitteln zusammenfassen, Fragen stellen lassen
Schritt-für-Schritt-Erklärung zu einem mathematischen Lösungsweg auf Papier
Defekte/Fehler auf technischen Abbildungen identifizieren

Audio

Transkription mit Sprechertrennung (mehrere Stimmen zuordnen)
Zusammenfassung einer Unterrichtsdiskussion oder eines Podcasts
Aussprache-Feedback in Sprachen (mit Realtime-API)
Akustische Szenenklassifikation (Musik, Stille, Lärm)

Video

Lange Vorlesungsvideos zusammenfassen, Kapitel setzen
Präsentations-Feedback: Inhalt, Sprechtempo, Blick, Strukturierung
Bewegungsanalyse im Sportunterricht (mit expliziter Zustimmung)
Experiment-Protokoll aus Filmaufnahme erzeugen

Grenzen der Modelle

Handschrift-Erkennung ist nicht perfekt, besonders bei Cursive und deutschen Umlauten.
Video > 30 Minuten muss oft gestückelt werden (Kontextfenster).
Echtzeit-Bild-Analyse ("live" Kamera) ist 2026 außerhalb spezialisierter APIs noch nicht Schulalltag.
Emotionsableitung technisch möglich, aber in Bildung verboten (EU AI Act Art. 5).

2

8 Einsatzszenarien für den Unterricht

1. Feedback auf fotografierte Handschrift: Schüler:in fotografiert eigene Lösung (Mathematik, Deutsch, Fremdsprache). KI markiert Fehler, erklärt den korrekten Weg. Funktioniert am besten in Kombination mit Faded Scaffolding: erst Hinweis, dann Lösung.
2. Präsentations-Coaching: Schüler:in nimmt Probe-Präsentation als Video auf, KI gibt strukturiertes Feedback zu Aufbau, Sprechtempo, Füllwörtern, Folien-Klarheit. Lehrperson validiert Schwerpunkt.
3. Experiment-Protokolle aus Video: Video eines Chemie-/Physik-Experiments → strukturiertes Protokoll (Beobachtung, Interpretation, offene Fragen). Didaktisch stark, weil Beobachtung und Dokumentation getrennt werden.
4. Lern-Podcast transkribieren & zusammenfassen: Audio-Inputs (Podcasts, Interviews, Radiobeiträge) werden für Lernende zugänglich gemacht – Transkript, Kapitelmarken, Zusammenfassung. Barrierefreiheit und Sprachenlernen profitieren.
5. Barrierefreie Materialumwandlung: PDF mit schlechter OCR-Qualität → lesbarer Fließtext mit beschriftetem Bild. Besonders relevant für Lernende mit Seh- oder Lese-Schwierigkeiten.
6. Skizzen-Review: Technische Zeichnung, Mind-Map oder Schema wird fotografiert. KI prüft Vollständigkeit gegen ein vorgegebenes Raster und macht Verbesserungsvorschläge.
7. Video-Erklärung erzeugen (für Lehrpersonen): Text + Bilder → Erklär-Video mit automatisch generierter Sprechstimme. Nützlich für Flipped-Classroom-Einheiten. Urheberrechte und Sprechstimmen-Klonen beachten.
8. Sprachen: Aussprache- und Dialog-Training: Audio-Eingabe der Schülerin, Feedback zu Aussprache, Intonation, Grammatik. Siehe Voice-Tutoring.

3

Datenschutz & Bild-/Tonrechte

Multimodale KI verarbeitet systematisch sensiblere Daten als Text-KI. Drei Ebenen müssen stimmen, bevor ein Szenario produktiv geht:

Rechtsgrundlage

Zustimmung von Lernenden / Erziehungsberechtigten schriftlich einholen. Bei Bild und Ton in der Schweiz zusätzlich das Recht am eigenen Bild (Art. 28 ZGB) beachten, in DE/AT die Persönlichkeitsrechte / DSGVO Art. 6.

Datenfluss

Welcher Anbieter bekommt das Material, wo wird es gespeichert, wie lange? EU-Hosting mit Auftragsbearbeitungsvertrag bevorzugt. Bei kostenfreien Endnutzerdiensten gilt oft das Gegenteil.

Zweckbindung

Das hochgeladene Material wird nur für die definierte pädagogische Aufgabe genutzt – nicht für Modelltraining. Bei den meisten API- und Enterprise-Zugängen ist Opt-out möglich; bei Endnutzer-Apps oft nicht. On-Prem-Alternativen prüfen.

Vorlage für die Zustimmung: Nutzungsvereinbarung mit multimodalem Zusatz.

4

Barrierefreiheit als Stärke der Multimodalität

Der größte unbestrittene Nutzen multimodaler KI in Schulen ist der Abbau von Zugangsbarrieren.

Live-Untertitelung für Lernende mit Hörbeeinträchtigung (mit Lehrpersonen-Einverständnis).
Vorlesefunktionen mit natürlichen Stimmen für Lernende mit Leseschwäche oder Sehbeeinträchtigung.
Skizze & Diagramm → Text für Lernende, die visuelle Inhalte nicht erfassen können.
Sprachwechsel für Lernende mit anderer Erstsprache – fachlich komplexe Texte in strukturierte Erklärungen in der Erstsprache und zurück.

Quellen

Belege & Vertiefung

Technische Übersicht

Pädagogische Einordnung

Weiter mit

Voice-Tutoring Agentic Classroom Interventionen Nutzungsvereinbarung EU AI Act für Schulen Glossar