Fernschule für Tontechnik & Musikproduktion

Schnell zum eigenen Musikvideo – mit KI?

Ein Musikvideo hilft dir, deine Musik auf YouTube und den sozialen Netzwerken zu verbreiten und eine größere Zielgruppe zu erreichen. Es gibt viele unterschiedliche Wege, um an ein eigenes Musikvideo zu kommen. Wenn es mal schnell gehen muss oder ein besonderer Look gewünscht ist, können dir diverse KI-Tools helfen. Welche es gibt und wie du diese einsetzt, erfährst du in diesem Beitrag.

Diese Möglichkeiten und Vorteile bieten KI-Tools

KI-generiertes Footage ermöglicht es dir, Bilder zu zeigen, die sonst nur mit hohem Aufwand zu produzieren wären. Fantasievolle Landschaften, aufwendige Zeichnungen oder schaurige Monster, all das kannst du jetzt – teilweise noch im „KI-Look“ – innerhalb weniger Minuten erstellen und in deine Musikvideos integrieren.

Es gibt drei verschiedene Möglichkeiten, KI-Tools für das eigene Musikvideo zu nutzen:

  1. Text to video / Audio to video:
    Du kannst komplette Szenen oder sogar ganze Videos mit KI-Tools generieren. Dabei beschreibst du selbst den gewünschten Inhalt oder lässt die KI deine Lyrics interpretieren. Auch der Rhythmus deiner Musik kann übernommen werden. Die so generierten Videos ähneln Daumenkinos.
  2. Image to video:
    Hast du ein Musikvideo gedreht, kannst du dieses mit Schnittbildern anreichern. Hierzu lässt du ein KI-Tool Bilder generieren. Anschließend kannst du diese in dein Video einbauen. Für einen besonderen Effekt lassen sich diese Fotos in bewegte Szenen umwandeln.
  3. Video to video / Transformation:
    Auch eine Transformation gedrehter Szenen mittels KI ist möglich, um den Stil dieser Aufnahmen zu verändern.

Natürlich kannst du diese Varianten der Einbindung von KI in deine Projekte auch miteinander kombinieren. Bei unserem Song zum XMAS MIX CONTEST 2023 haben wir für das Musikvideo auch mehrere KI-Tools genutzt, um die gefilmten Szenen zu transformieren und zusätzliche Bilder zu generieren:

So funktionieren KI-Tools

Zum Generieren von Bildern und Videos werden KI-Modelle wie zum Beispiel Stable Diffusion, Kandinsky, DALL-E oder Midjourney genutzt. Diese wurden mit Millionen von Paaren aus Texten und Bildern oder Texten und Videos trainiert und haben so – ähnlich wie ein Kleinkind – gelernt, Gemeinsamkeiten bei Objekten zu erkennen und abstrakt zu speichern. Wenn uns beispielsweise ein Hund auf der Straße entgegenkommt, können wir ihn als Hund klassifizieren, ohne speziell diesen Hund schon gesehen zu haben. Wir wissen einfach aus unserer Erfahrung, dass ein Tier dieser Form und Farbe ein Hund sein muss. Ein ähnliches „Wissen“ sammelt die KI im sogenannten latenten Raum.

Die KI muss nicht alle Bilder abspeichern, mit der sie trainiert wurde, sondern nur abstrakte Informationen, die sie miteinander verknüpfen kann. Das reduziert die Menge zu speichernder Daten enorm.

Die KI wird mit Text-Bild-Paaren trainiert, speichert die Daten im latenten Raum und kann daraus ein völlig neues Bild generieren.

Die eigentliche Bild-Erstellung beginnt dann mit einem zufälligen diffusen Rauschen (daher nennt man diese Tools auch Diffusionsmodelle) und der Eingabe eines Prompts. Ein Prompt ist ein Text, den wir als Anweisung an die KI eingeben. Diesen verknüpft die KI mit Informationen aus ihrem latenten Raum und steuert damit die Entrauschung hin zu einem neuen Bild. Bei Videos geschieht dies mit mehreren, zusammenpassenden Bildern. Das so generierte Video hat eine geringe Auflösung und sehr wenig Einzelbilder (Frames). Daher durchläuft es noch mehrere Algorithmen, die die Auflösung erhöhen und zusätzliche Bilder interpolieren.

Ausgestattet mit einem Grundverständnis für generative KI schauen wir uns jetzt ein die Möglichkeiten an, die uns die verschiedenen KI-Tools in der Musikvideo-Produktion bieten können.

Text to video / Audio to video

Diese Tools generieren Video aus Text-Prompts oder den Lyrics. Die meisten Tools ermöglichen daher auch einen Upload von Audio-Files. Theoretisch ist es möglich, mit so einem Tool innerhalb weniger Minuten ein vollständiges animiertes Musikvideo zu erstellen. Die Resultate sind allerdings sehr abstrakt. Wir sprechen hier nicht über klassisches Bewegtbild, sondern eher um Bilder (Fotografien, Zeichnungen, Gemälde), die sich über die Dauer des Videos verändern. Diese Animationen können der Musik angepasst werden, sodass die Veränderung zumindest im Rhythmus geschieht.

Folgendes Video wurde mit der App Plazmapunk generiert, basierend auf einem Prompt und dem Audio-File des Songs:

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Und dieses Video wurde mit Kaiber und dem Prompt „Heavy clouds over a winter landscape“ generiert:

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Dieser Weg eignet sich wie du siehst vor allem, um schnelle „Visualizer“ zu erzeugen. Ein Visualizer ist kein vollwertiges Musikvideo, sondern zeigt animierte Bilder auf Grundlage der Musik und ist ein schneller und kostengünstiger Weg, deine Musik auf YouTube und den sozialen Netzwerken zu teilen.

Einen einfachen KI-Visualizer kannst du mit Tools wie Kaiber oder Plazmapunk erstellen. Hier kannst du deine Musik hochladen und mit Prompts eingeben, welche thematisch passenden Szenen erzeugt werden sollen. Die so generierten Videos können allerdings etwas „austauschbar“ wirken. Probiere daher, kurze Sequenzen zu generieren und diese aneinanderzuschneiden. So hast du mehr Kontrolle, schaffst Abwechslung und mehr Individualität in deinem Projekt.

Empfohlene Tools:
Plazmapunk
für ganze Musikvideos mit Interpretation der Lyrics
Kaiber.ai für interessante Flipbook-Animationen

Image to video

Hier generierst du die Video-Sequenzen nicht direkt mit einem Text-Prompt, sondern du lieferst dem Modell ein Bild, aus welchem dann ein kurzer Videoclip erstellt wird. Als Bild-Vorlage kannst du eigene Fotos und Grafiken, Stock-Material und KI-generierte Bilder, zum Beispiel von ChatGPT, Midjourney oder DALL-E nutzen. Das KI-Tool kann dann beispielsweise eine Kamerafahrt durch die Szene simulieren oder die Personen oder Objekten bewegen. Diese kurzen Clips von wenigen Sekunden, die du so erstellst, schneidest du aneinander oder du nimmst sie als Schnittbilder für ansonsten konventionell erstellte Musikvideos.

Dieser Weg ermöglicht es dir, fantastische und ansprechend animierte Bilder in deine Projekte einzubeziehen – zum Beispiel einen Drachen, der über eine Burg fliegt oder die Skyline einer dystopischen Stadt. Hier ein paar Beispiele, bei denen die Bilder von Midjourney generiert und die Bewegung mit Runway erstellt wurden.

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Empfohlene Tools:

Runway (Gen-2) für realistische und subtile Bewegungen
Kaiber.ai für kreative Flipbook-Animationen

Video to video / Transformation

Eine „video to video“ KI ist eine Art künstlicher Intelligenz, die speziell für Transformation von Videomaterial entwickelt wurde.
Diese Technik ist also eher als Effekt zu verstehen, da sie vorhandenes Video-Material benötigt, um dieses mit Prompts und der Angabe von gewünschten Bildstilen zu verändern. Der Vorteil bei diesem Weg ist, dass die KI viele wichtige Informationen über die gezeigten Objekte, Personen und Bewegungen durch das Ausgangsmaterial erhält. So generieren wir “echte” Videos mit realistischen Bewegungen, die aber vor allem stilistisch stark vom Original-Footage abweichen können. Hintergründe können getauscht, Menschen verändert und ganze Szenerien überarbeitet werden.

Dieser Weg ist zwar der aufwendigste, da er Ausgangsmaterial benötigt, er liefert dafür hochwertige und ansprechende Ergebnisse.

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Auch Musiker lassen sich damit gut transformieren. Zum Einsatz kam die Technik bei unseren HOFA XMAS Song 2023 „Bloody Christmas“. Du siehst erst die unbearbeitete und dann die transformierte Version. Achte dabei auf Details wie Schnee im Raum oder auf den Personen:

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Probiere einfach aus, dich selbst mit dem Handy zu filmen – in deinem Studio, im Wohnzimmer oder Garten – und lade das Footage dann in KI-Tools hoch, die einen Transformations-Modus bieten. Und dann lass deiner Kreativität freien Lauf und probiere, die Szene mit Prompts zu verändern und dem Video einen neuen Stil zu geben.

Empfohlenes Tool:
Kaiber.ai
mit dem Modus „Transform“.

Tipps für den Einsatz generativer KI

Realismus und Natürlichkeit
Du kennst bestimmt die großartigen und sehr realistisch wirkenden Bilder, die mit KI-Tools generiert wurden. Bei Bewegtbild, insbesondere in Verbindung mit Menschen, sind wir davon noch ein gutes Stück entfernt. Wir befinden uns hier oft im sogenannten „Uncanny Valley“, dem Gruselgraben, in dem wir merken, dass die Bilder, die uns gezeigt werden, nicht real sind, auch wenn wir nicht gleich erkennen können, warum. Einen gewissen Grad fehlender Natürlichkeit musst du (noch) akzeptieren. Du kannst dieses Problem aber auch durch eine starke Stilisierung deines Videos umgehen, indem du beispielsweise bewusst auf fotorealistische Darstellung verzichtest und eher in Richtung Comic, Malerei oder Surrealismus gehst.

Nimm dir Zeit für präzise Prompts
Dieser Tipp gilt generell für den Einsatz von KI. Je besser der Prompt und das Ausgangsmaterial, desto besser das Ergebnis. Gib dem Algorithmus also am besten möglichst viele Hintergrund-Informationen wie Alter, Aussehen und Stimmung des Protagonisten oder zum gewünschten Stil des Bildes.
Manchmal können auch Beschreibungen des Offensichtlichen helfen, das Ergebnis konsistenter zu gestalten. Spielt der Gitarrist eine rote Gitarre und soll diese im Ergebnis ebenfalls rot sein, nutze in deinem Prompt am besten auch die Beschreibung „rote Gitarre“ und nicht nur „Gitarre“ – denn sonst könnte es sein, der Algorithmus nutzt seine Freiheit und die Gitarre ändert ihre Farbe.

Kontrolle und Zufall
Die KI arbeitet in einem hohen Maß mit Zufall. Die gleichen noch so detailliert beschriebenen Prompts ergeben oft sehr unterschiedliche Ergebnisse und der Einfluss einer Veränderung des Inputs auf eine Veränderung des Outputs lässt sich nur schwer vorhersagen. Lebe daher am besten mit unterschiedlichen Ergebnissen und lerne, die fehlende Kontrolle zu einem Teil des kreativen Prozesses zu machen. Den manchmal überraschen die Ergebnisse auch positiv und bereichern dein Werk mit ganz neuen Ideen.

Beschäftige dich mit Musikvideo-Produktion und nutze die KI als Werkzeug
Wenn du Spaß am Produzieren von Musikvideos hast und in diesem Gebiet mehr dazu lernen möchtest, dann beschäftige dich am besten grundlegend mit der Thematik. Lerne, wie Kameras funktionieren, wie Licht zu setzen ist, wie Drehbücher und gute Storylines funktionieren und wie du Videos schneidest und nachbearbeitest. Und dann nutze die vielen Möglichkeiten, die KI-Tools bieten, als eins von vielen Werkzeugen, die dich ans Ziel bringen.

Wusstest du, dass es am HOFA-College auch einen Kurs über Musikvideo-Produktion gibt? Dieser behandelt alle wichtigen Grundlagen – von der Auswahl des Equipments und der Konzeption eines Musikvideos über die Dreharbeiten bis zum fertigen Schnitt. Am Ende des Kurses kannst du uns dein eigenes Musikvideo zur Analyse einreichen oder von uns gedrehtes Footage schneiden. Dieser Kurs ist auch im HOFA AUDIO DIPLOMA vollständig enthalten.

Autor

Jan Bönisch
Jan Bönisch
Jan Bönisch hat 2015 bei HOFA seine Ausbildung zum Mediengestalter Bild und Ton abgeschlossen. Im Anschluss absolvierte er an der Dualen Hochschule Mannheim ein Studium in Medienmanagement & Kommunikation. Seit 2019 ist Jan Teil der Geschäftsleitung von HOFA, der Firma seines Vaters Jochen Sachse. Neben der kaufmännischen Leitung von HOFA liegen seine Schwerpunkte in Marketing, Personalwesen und Qualitätsmanagement. Außerdem leitet er als anerkannter Ausbilder den Ausbildungsbereich der HOFA GmbH.

4 Antworten

  1. Herzlichen Dank für diese klar strukturierten und gut verständlichen Erläuterungen zum Thema KI in der Musikvideoproduktion.
    Das macht Lust sich damit näher zu beschäftigen

    1. Hallo Frank,
      das freut mich, vielen Dank 🙂 Ja, es macht definitiv Spaß, sich damit auseinanderzusetzen.
      Liebe Grüße aus Karlsdorf,
      Jan

  2. Danke, für eure Informationen, betreff Musik Video Erstellung mit Hilfe von KI. Super, die Infos, so kann man kurze Videos erstellen, für die eigenen Songs, ohne großen Kosten Aufwand. Vielen Dank. Leo.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert