Video-Footage-Sichtung und Schnittplanung
KI transkribiert Rohmaterial, erkennt nutzbare Takes, erstellt Sichtungsprotokolle und schlägt Schnittstrukturen vor — bevor der Editor die Timeline öffnet.
Es ist Freitag, 18:30 Uhr.
Lena ist Editor bei einer Berliner Videoproduktionsagentur. Auf ihrer externen Festplatte liegen 180 Gigabyte Footage vom heutigen Drehtag: vier Interview-Subjects mit je 6–8 Takes, B-Roll von drei Locations, zwei Stunden Produkt-Shots, die der Kunde in letzter Minute bestellt hat. Das Briefing für den Dokumentarfilm-Schnitt liegt irgendwo in ihrem Postfach. Der Abgabetermin für den Rohschnitt: Mittwoch.
Lena öffnet Premiere. Importiert. Wartet. Öffnet dann systematisch jeden Clip und spult durch. Notiert sich in einer Excel-Tabelle: “Take 3, Frage 2, 02:14 — gut, kein Versprecher, aber schlechte Beleuchtung. Take 5, Frage 2, 04:33 — perfekt. Take 7, Frage 3, 08:12 — guter Content, aber Kamera-Wackler am Ende.” Nach vier Stunden hat sie das Material der ersten zwei Interview-Subjects gesichtet. Morgen früh macht sie weiter.
Was Lena in vier Stunden manuell macht, kann KI heute in unter 30 Minuten als ersten Entwurf liefern. Nicht perfekt — aber gut genug, um Montag mit dem echten Schnitt zu beginnen statt mit der Sichtung.
Das echte Ausmaß des Problems
Footage-Sichtung ist das Stiefkind der Videoproduktion. Sie kommt nach dem aufregenden Drehtag und vor dem kreativen Schnitt — und ist das Gegenteil von beiden: repetitiv, zeitintensiv, kaum kreativ.
Die Zahlen sind ernüchternd:
- Professionelle Videoproduktionen haben ein typisches Shooting-Ratio von 10:1 bis 30:1 — für jede Minute Finalschnitt werden 10–30 Minuten Material gedreht
- Ein normaler Drehtag produziert 100–300 Gigabyte Material
- Manuelle Footage-Sichtung dauert erfahrungsgemäß 2–3 Mal so lange wie das Rohmaterial — 4 Stunden Material bedeutet 8–12 Stunden Sichtungszeit
- Diese Arbeit erledigt erfahrungsgemäß ein Senior-Editor oder eine Senior-Editorin — also die teuerste Person im Post-Produktions-Prozess
Das Ergebnis: Die kreativste und erfahrenste Person in der Postproduktion verbringt ein Drittel ihrer Zeit damit, Material anzuschauen, das nicht verwendet wird. Und die Schnittplanung, die danach kommt, findet oft ad hoc statt — ohne strukturierten Vergleich mit dem ursprünglichen Script oder Briefing.
Mit vs. ohne KI — ein ehrlicher Vergleich
| Kennzahl | Ohne KI | Mit KI-gestütztem Workflow |
|---|---|---|
| Sichtungszeit (4 Std. Footage) | 8–12 Stunden | 1,5–3 Stunden ¹ |
| Zeitstempel-Protokoll für O-Töne | Manuell, 2–3 Std. | Automatisch, 30 Min. |
| Take-Empfehlung nach Qualitätskriterien | Subjektiv, aus dem Gedächtnis | Strukturiert, dokumentiert |
| Schnittstruktur-Entwurf | Erst nach vollständiger Sichtung | Parallel zur Transkription |
| Senior-Editor-Zeit für Sichtung | 100 % | 20–30 % (Review statt Sichtung) |
¹ Die Zeitersparnis ist am größten bei O-Ton-lastigem Material (Interviews, Dokumentation). Bei reinen Bild-/B-Roll-Sichtungen ohne Sprache ist der Vorteil kleiner.
Einschätzung auf einen Blick
Zeitersparnis — hoch (4/5) Die absolute Zeitersparnis bei O-Ton-Produktionen ist beeindruckend: aus 8 Stunden Sichtung werden 1–2 Stunden Review. Weniger als Lokalisierung (wo aus Tagen Stunden werden), aber deutlich mehr als Feedback-Aggregation. Der Unterschied: Footage-Sichtung ist eine rein interne Aufgabe ohne Kunden-Interaktion — die Zeitersparnis kommt unmittelbar der Produktion zugute.
Kosteneinsparung — mittel (3/5) Editorzeit ist direkt berechenbar: Interne Stundensätze für Senior-Editoren liegen erfahrungsgemäß bei 60–100 Euro/Stunde. 6 gesparte Sichtungsstunden pro Projekt sind 360–600 Euro. Bei einer Agentur mit 4–6 Projekten pro Monat summiert sich das — und es ist messbar, weil Editorzeit in Zeiterfassungstools auftaucht.
Schnelle Umsetzung — mittel (3/5) Der Workflow braucht mehr Setup als reine Text-Prompts: Transkriptions-Tool einrichten (technisch bei Whisper, benutzerfreundlicher bei Riverside), LLM-Prompt an typische Produktionsformate anpassen, Team schulen. In 1–2 Wochen machbar, aber nicht sofort einsatzbereit wie ein reiner ChatGPT-Prompt.
ROI-Sicherheit — mittel (3/5) Hier ist der ROI seltener als bei Lokalisierung direkt messbar, aber immer noch klarer als bei Feedback-Aggregation. Wer Zeiterfassung macht, kann Sichtungszeit vor und nach KI-Einführung direkt vergleichen. Der Nutzen ist real und dokumentierbar.
Skalierbarkeit — hoch (4/5) Mehr Material bedeutet mehr Nutzen — linear. Eine Agentur, die von 4 auf 8 Drehtage pro Monat wächst, hat ohne KI 8-mal mehr Sichtungsaufwand. Mit KI wächst der Aufwand kaum, weil die Transkription automatisch läuft und nur der Review skaliert.
Richtwerte — stark abhängig vom Material-Typ (O-Ton vs. B-Roll), Shooting Ratio und vorhandenem Script.
Was der Footage-Sichtungs-Workflow konkret macht
Der Workflow verbindet zwei KI-Technologien, die zusammen mehr leisten als einzeln:
Schritt 1: Automatische Transkription Whisper (OpenAI) transkribiert alle O-Ton-Clips vollautomatisch mit Zeitstempeln. Das Modell ist das genaueste frei verfügbare Transkriptions-Modell und unterstützt Deutsch ausgezeichnet. Whisper läuft lokal (keine Daten verlassen das System) oder über die OpenAI API. Ergebnis: Eine vollständige Textversion aller gesprochenen Inhalte mit Timecodes.
Bei Riverside.fm oder Otter.ai bekommst du dasselbe Ergebnis ohne technisches Setup — diese Tools bauen auf Whisper-ähnlichen Modellen auf und sind über den Browser nutzbar. Nachteil: Daten gehen an US-Server.
Schritt 2: LLM analysiert Transkripte gegen Script Du gibst das Transkript und das originale Script oder Briefing in ein LLM (Claude oder ChatGPT) und nutzt einen Analyse-Prompt: “Welche Takes decken die Briefing-Ziele am besten ab? Welche O-Töne sind inhaltlich stark, welche schwach? Was fehlt noch für eine vollständige Geschichte?” Das Modell liefert eine priorisierte Take-Liste mit Empfehlungen.
Schritt 3: Frame.io für strukturierten Review-Workflow Wenn das Material bereits in Frame.io liegt (was bei professionellen Produktionen zunehmend der Standard ist), kann das KI-generierte Sichtungsprotokoll direkt mit den Frame.io-Kommentaren verknüpft werden. Frame.io V4 (2024) hat zudem native Computer Vision-Features für Natural-Language-Suche im Footage-Archiv eingeführt — du kannst nach Beschreibungen wie “Außenaufnahme, Sonnenschein, Weitwinkel” suchen statt jeden Clip manuell zu öffnen.
Schritt 4: Schnittstruktur-Entwurf Basierend auf dem Transkript und den Take-Empfehlungen erstellt das LLM einen ersten Struktur-Entwurf: “Einstieg: Take 3 (02:14–03:08), Einführung Thema X. Hauptblock: Take 7 kombiniert mit Take 12…” Das ist kein fertiger Schnittplan, aber ein Ausgangspunkt, der dem Editor Stunden manueller Planungsarbeit spart.
Was KI hier nicht leistet: Bildqualität beurteilen (Schärfe, Belichtung, Kamerawackler), Emotionen in Gesichtern erkennen, Musikgefühl bewerten oder kreative Schnittentscheidungen treffen. Das bleibt Editorarbeit.
Konkrete Werkzeuge — was wann passt
Whisper — Standard für Transkription, technisches Setup erforderlich Open-Source-Modell von OpenAI. Lokal betrieben: kostenlos, keine Daten verlassen das System. OpenAI API: 0,006 USD/Minute. Für Agenturen mit IT-Ressourcen die beste Wahl — direkt aus dem Terminal oder als Python-Script nutzbar. Für teams ohne Developer: Riverside oder Otter.ai als benutzerfreundliche Front-Ends.
Riverside — für Remote-Interviews und browser-basierte Transkription Riverside.fm ist primär ein Remote-Aufnahme-Tool (separates Interview in Studio-Qualität aufnehmen), hat aber auch eine starke Transkriptions- und Clip-Erstellungsfunktion. Für Agenturen, die remote Interviews produzieren: der vollständige Workflow in einem Tool. Kosten: Free-Plan mit Einschränkungen; Standard ab 19 USD/Monat.
Frame.io — für strukturierten Review und Kunden-Freigabe Frame.io ist der Standard für professionelle Video-Review-Workflows. Frame-genaue Kommentare, Versionierung, Kunden-Links ohne Account-Pflicht. Für Agenturen, die Adobe Premiere nutzen: Frame.io ist bereits im Creative Cloud All Apps Abo enthalten. Die 2024 eingeführte Natural-Language-Suche für das Footage-Archiv ist besonders für große Produktionsbibliotheken relevant. Nachteil: US-Hosting.
Claude oder ChatGPT — für Transkript-Analyse Beide eignen sich gut für die Analyse von Transkripten gegen Script-Vorgaben. Claude ist etwas stärker bei langen Dokumenten (mehrere Interviews gleichzeitig analysieren); ChatGPT hat den Vorteil der bekannten Oberfläche. Kosten: 18–20 Euro/Monat.
Runway — für KI-gestützte Videobearbeitung Runway ML ist kein Sichtungs-Tool, aber relevant für den nächsten Schritt: KI-basierte Videoeffekte, Hintergrundentfernung, Inpainting. Für Agenturen, die B-Roll-Footage KI-gestützt verbessern wollen. Runway ergänzt den Sichtungs-Workflow an der Grenze zum kreativen Schnitt.
Datenschutz und Datenhaltung
Interview-Footage enthält personenbezogene Daten — Gesichter, Stimmen, persönliche Aussagen. Das hat direkte DSGVO-Konsequenzen.
Whisper lokal: Wenn Whisper auf dem eigenen Rechner läuft, verlassen keine Daten das System. Das ist die sicherste Option für sensibles Interview-Material. Nachteil: technisches Setup und Rechenleistung nötig.
OpenAI API (Whisper via API): Daten gehen an OpenAI-Server in den USA. Für Interviewmaterial mit personenbezogenen Daten: AVV mit OpenAI notwendig (über API-Nutzungsbedingungen geregelt) und Einwilligung der Interview-Subjects prüfen.
Riverside.fm: US-Hosting. Für Remote-Interviews mit öffentlichen Personen oder Experten oft akzeptabel — bei sensiblen Themen oder Personen mit Schutzbedürfnis prüfen.
Frame.io: US-Hosting (Amazon Web Services). Für Kundenmaterial in DSGVO-sensitiven Projekten (öffentlicher Sektor, Gesundheit, Minderjährige) ist US-Hosting ein Ausschlusskriterium. Für reguläre Produktionsagenturen mit Standard-Kundenmaterial: DSGVO-Folgenabschätzung durchführen und im Kundenmandatsvertrag regeln.
Empfehlung: Bei sensiblem Interview-Material (persönliche Schicksale, Minderjährige, Medical/Health) nur Whisper lokal nutzen. Bei Standard-Unternehmensinterviews ist der API-Workflow akzeptabel mit AVV.
Was es kostet — realistisch gerechnet
Einrichtungskosten:
- Whisper lokal: 0 Euro Tool-Kosten; 2–4 Stunden Setup für jemanden mit Python-Grundkenntnissen
- Riverside: keine Einrichtungskosten (Browser-basiert)
- Prompt-Entwicklung für Transkript-Analyse: 3–5 Stunden intern
Laufende Kosten:
- Whisper API: 0,006 USD/Minute — bei 10 Stunden Material/Monat ca. 3,60 USD/Monat
- Riverside Standard: 19 USD/Monat
- Frame.io Team: 15 USD/Nutzer/Monat
- Claude Pro oder ChatGPT Plus: 18–20 Euro/Monat
Konservatives ROI-Szenario: Eine Agentur mit 4 Videoprojekten pro Monat (je 4 Stunden Footage) spart pro Projekt 6 Stunden Senior-Editorzeit. Bei 70 Euro/Stunde intern sind das 420 Euro pro Projekt — 1.680 Euro/Monat. Gegen Tool-Kosten von ca. 60–80 Euro/Monat. Selbst wenn die Hälfte der Einsparung realisiert wird: 800 Euro Nettonutzen bei 80 Euro Kosten.
Wichtig: Die Einsparung ist am größten bei Interview-lastigem Material. Reiner B-Roll-Schnitt oder Action-Footage profitiert weniger.
Drei typische Einstiegsfehler
Fehler 1: Whisper ohne Setup direkt auf großen Dateien testen Whisper lokal braucht ausreichend RAM und GPU-Leistung. Wer Whisper auf einem durchschnittlichen Büro-Laptop mit 8 GB RAM ohne dedizierte GPU startet, wartet Stunden — oder der Prozess bricht ab. Vor dem produktiven Einsatz: Hardware-Check. Ein MacBook Pro M1/M2 mit 16 GB RAM läuft problemlos; ältere Windows-Laptops ohne GPU nicht.
Fehler 2: Transkripte ohne Qualitätsprüfung an die Analyse übergeben Whisper ist sehr gut — aber nicht fehlerfrei. Fachbegriffe, Eigennamen und schlechte Audioqualität führen zu Fehlern. Bevor du das Transkript in den Analyse-Prompt gibst: Kurz überfliegen und offensichtliche Fehler korrigieren. Das dauert 10 Minuten und verhindert, dass die KI-Analyse auf falschen Zitaten basiert.
Fehler 3: Den Workflow nur für Transkription nutzen Viele Teams entdecken Whisper für Transkription und hören da auf. Der eigentliche Wert entsteht erst im zweiten Schritt: das Transkript gegen Script und Briefing analysieren, Take-Empfehlungen generieren, Schnittstruktur-Entwurf erstellen. Wer nur transkribiert, schöpft etwa 30 Prozent des Potenzials aus.
Fehler 4 (Maintenance): Prompts nicht an Produktionsformate anpassen Ein Sichtungs-Prompt für dokumentarische O-Ton-Interviews sieht anders aus als einer für Imagefilme oder Erklärvideos. Wenn neue Formate hinzukommen, braucht es angepasste Prompts — sonst produziert die KI-Analyse Kategorien, die nicht zum Material passen.
Was mit der Einführung wirklich passiert
Technischer Widerstand beim Editor-Team — Erfahrene Editoren haben oft ein tiefes Verhältnis zu ihrem Material: Footage kennt man durch Sichten. Die Idee, dass KI “entscheidet”, was gut ist, trifft auf Skepsis — zu Recht. Das Framing ist entscheidend: KI erstellt das Sichtungsprotokoll, der Editor entscheidet. Der Editor spart Zeit mit dem Boring Part, nicht mit dem Creative Part.
Take-Empfehlungen prüfen, nicht blind übernehmen — KI-Take-Empfehlungen sind textbasiert: Sie beurteilen, was gesagt wurde, nicht wie. Ein Take, der inhaltlich perfekt ist, kann zu leise gesprochen, schecht beleuchtet oder von einem Kamerawackler gestört sein. Der Editor muss empfohlene Takes immer noch kurz ansehen — aber geziehlt und mit Kontext statt im Blindflug.
Kunden-Freigabe-Workflow vereinfacht sich — Wenn das Team Frame.io für den Review nutzt, berichten viele Agenturen, dass Kunden-Feedback-Runden kürzer werden: Strukturierte Sichtungsprotokolle helfen dem Kunden, präziseres Feedback zu geben. Dieser Sekundärnutzen ist schwer zu planen, tritt aber konsistent auf.
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Tool-Setup | 1–2 Wochen | Whisper einrichten (oder Riverside testen), Prompt entwickeln | Whisper technisches Setup unterschätzt |
| Pilot-Projekt | 2–3 Wochen | Ersten Workflow-Test mit echtem Produktionsprojekt | Kein Script vorhanden — Analyse ohne Referenz weniger nützlich |
| Team-Schulung | 1 Woche | Editor-Team mit Transkriptions-Review und Prompt-Logik vertraut machen | Widerstand wenn als “Kontrolle” wahrgenommen |
| Optimierung | Monat 2–3 | Prompt-Varianten für verschiedene Formate entwickeln | Überengineering — ein generischer Prompt genügt oft |
Häufige Einwände — und was dahintersteckt
“Für B-Roll hilft das gar nicht — das ist kein Sprach-Content.” Richtig. Der aktuelle Workflow ist stark auf O-Ton-Material optimiert. Für reine B-Roll-Sichtung gibt es keine gute KI-Lösung, die nicht erhebliches technisches Setup erfordert. Frame.io V4’s Natural-Language-Suche hilft bei großen Archiven — aber das ist ein anderer Use Case als Drehtag-Sichtung. Wenn eine Produktion überwiegend B-Roll ist, ist der Nutzen dieses Workflows begrenzt.
“Wir haben kein Script — wir drehen Dokumentation frei.” Ohne Script als Referenz kann das LLM keine Take-Empfehlung gegen Vorgaben machen. Es kann aber trotzdem nützlich sein: Inhaltlich starke Passagen aus dem Transkript identifizieren, wiederkehrende Themen clustern, Zeitstempel-Protokoll erstellen. Die Analyse ist weniger präzise, aber immer noch schneller als vollständige manuelle Sichtung.
Woran du merkst, dass das zu dir passt
Das passt gut:
- Ihr produziert regelmäßig O-Ton-Interviews, Dokumentationen oder Corporate Films mit mehreren Interview-Subjects
- Drehtage produzieren regelmäßig mehr als 2 Stunden Footage pro Person
- Senior-Editor-Zeit ist ein spürbarer Kostenfaktor in eurer Projektkalkulation
- Ihr habt technische Grundkompetenz im Team (Python oder Developer-Zugang für Whisper-Setup)
Das passt noch nicht oder nicht gut:
- Eure Produktionen sind überwiegend reine B-Roll, Musikvideos oder Eventfootage ohne O-Ton — dann ist der Nutzen minimal
- Ihr dreht weniger als 3 Projekte pro Monat — der Setup-Aufwand rechnet sich nicht
- Kein technisches Know-how im Team und kein Budget für externe Einrichtung — dann ist Riverside als einfacher Einstieg zu prüfen, aber mit Einschränkungen
- Datenschutz-Anforderungen schließen Cloud-Transkription aus und Whisper lokal übersteigt die Hardware-Kapazität
Das kannst du heute noch tun
Wenn du ein konkretes Produktionsprojekt mit O-Ton-Material hast: Teste Riverside im Free-Plan. Lade einen Interview-Clip hoch, lass transkribieren, und gib das Transkript mit dem folgenden Prompt in Claude. Das dauert 30 Minuten — ohne technisches Setup, ohne Kosten.
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- Adobe Frame.io V4 Release Notes (2024) — Natural-Language-Suche und C2C (Camera to Cloud) als neue Features; semantische Suche im Footage-Archiv. news.adobe.com
- OpenAI Whisper Dokumentation — Transkriptionsgenauigkeit, Sprachunterstützung, API-Preise. openai.com/research/whisper
- Eigene Erfahrungswerte — Beobachtungsmuster aus Gesprächen mit Editorinnen und Editoren in Videoproduktionsagenturen (5–25 Mitarbeitende). Keine repräsentative Studie.
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
Briefing-Analyse und Strategieableitung
KI analysiert Kundenbriefings in Minuten, leitet strategische Fragen ab und erstellt strukturierte Zusammenfassungen — bevor das Kreativteam überhaupt am Tisch sitzt.
Mehr erfahrenNew-Business-Pitch automatisieren
KI strukturiert Pitch-Dokumente, entwickelt Storylines und formuliert überzeugende Pitch-Texte — so geht mehr Zeit in Strategie und Kreation statt in das Zusammenstellen von Folien.
Mehr erfahrenProjektkalkulation und Angebotserstellung
KI schlägt Stundenschätzungen vor, erkennt typische Scope-Creep-Risiken im Briefing und generiert strukturierte Angebote — bevor die erste Zeile Arbeit getan ist.
Mehr erfahren