Fernschule für Tontechnik & Musikproduktion

Immersive Remix – Wie wird aus Stereo 3D?

Spätestens seit Apple Music die Kategorie „Spatial“ in sein Progamm aufgenommen hat, ist immersive Musik in aller Munde oder besser gesagt: In aller AirPods, Earbuds, Soundbars usw. Vor allem der verfügbare Katalog an Dolby Atmos-Mixes wächst rasant und Statistiken zeigen, dass Hörer:innen immersive Tonformate dem traditionellen Stereoton häufig vorziehen.
Bis vor kurzer Zeit waren objektbasierte Mixes jedoch fast ausschließlich größeren Major Label Artists vorbehalten. In letzter Zeit haben aber immer mehr Studios und Engineers ihre Systeme aufgerüstet und sowohl bei den DAW-Herstellern als auch bei den DIY-Distributoren hat sich einiges getan, sodass mittlerweile auch für Indie- und DIY-Artists der Weg zu Dolby Atmos, Binaural, Ambisonics, Sony 360 Reality Audio, Auro-3D und Co. geebnet ist. Aber wie genau geht man das Thema heran?

Egal ob du mit einem dedizierten Engineer für die immersive Mischung zusammenarbeitest oder selbständig deinen Stereomix in die dreidimensionale Welt übertragen möchtest: Dieser Artikel soll dir einen Einblick in das Remixing in immersiven Tonformaten geben, damit dein Stereo-Song auch in 3D erstrahlen kann.

Da es mittlerweile zahlreiche Ressourcen zur technischen Einrichtung von Dolby Atmos Mischungen gibt, konzentriere ich mich in diesem Artikel auf die konkreten Abläufe und Workflows bei der Erstellung einer immersiven Neumischung. Los geht’s!

Vorbereitung ist der halbe Mix

Wie bei jeder Mischung bestimmen vor allem die Zutaten das Ergebnis – wir brauchen also erstmal gute Signale! Diese generieren wir aus der originalen Stereomischung. Wer es mit Hip-Hop, Elektro, Rock und Pop zu tun hat, weiß, wie elementar der Effekteinsatz für die Klanggestaltung eines Songs sein kann. Aber auch bei der Arbeit mit Jazz oder Klassik ist es sinnvoll, die originale Klangvision der Stereoproduktion weitestgehend mitzunehmen und das Stück nicht völlig neu zu erfinden. Es ist Feingefühl gefragt, denn zum einen soll der immersive Raum klanglich bestmöglich genutzt werden, zum anderen gilt es die künstlerische Intention bestmöglich zu bewahren.

Was in Stereo super klingt, klingt meist auch in 3D super. Wir beginnen also nicht mit Einzelsignalen, sondern mit Stems und nehmen die originalen Effekte mit. Für 3D werden tendenziell etwas mehr Stems benötigt als man es beispielsweise für das Stem-Mastering gewohnt ist. Ungefähr 12-24 Stereosignale sind eine gute Orientierung für eine durchschnittliche Dolby Atmos Pop-Mischung.

In meiner Arbeit hat es sich bislang bewährt, alle Effekte beizubehalten und Reverbs und Echos zusätzlich als eigenständige Stereo-Stems zu bouncen. Im 3D-Mix kann die Räumlichkeit dann je nach Geschmack nach hinten oder oben gelegt, dupliziert oder variiert werden und man erspart sich die Mühe, den Hallraum nach Gehör in 3D nachzubauen. Manchmal arbeite ich auch direkt mit der originalen Pro Tools-Session weiter und kann beispielsweise einen Stereo-Hall direkt gegen einen 7.1.2-Hall austauschen.

Screenshot eines Datei-Ordners, der 17 Stems für 3D-Remix und das Master enthält.
Mögliche Stems für eine 3D-Mischung

De-Mixing statt Upmixing

Festplatte kaputt? Originale Session nicht mehr vorhanden? Direkt auf Tape zusammengemischt? Einzelspuren überschrieben? Eine gute Archivierung wird (bzw. wurde) leider häufig vernachlässigt und nicht immer sind die Einzelspuren oder Stems einer Produktion noch auffindbar. Was jetzt?

Ich erspare uns an dieser Stelle die Backup-Gardinenpredigt und springe direkt zur einfachen, aber schlechten Lösung dieses Problems: Beliebiges Upmix-Plugin auf den Stereo-Mix und voilà: 3D!
Upmix-Plugins haben zwar ihre Berechtigung, bieten aber auf einem Stereomix selten die kreative Flexibilität, die man für eine professionelle Musikmischung benötigt. Wir wollen schließlich unseren Song nicht in eine homogene Klangwolke verwandeln, sondern jedem Element seinen eigenen Platz im neuen Arrangement verleihen!

Die bessere Lösung: De-Mixing. Der Begriff „De-Mixing“ beschreibt den Vorgang, einen kompletten Song in seine Stems aufzutrennen, also im Idealfall die Mischung rückgängig zu machen. Das ist technisch bislang nur bedingt möglich und immer kompromissbehaftet, schließlich maskieren sich Signale einer Mischung gegenseitig und es muss mit steilen Filtern gearbeitet werden, um die Spuren wieder voneinander zu trennen. Manuell ist das kaum zu bewerkstelligen, deswegen kommt beim De-Mixing künstliche Intelligenz bzw. maschinelles Lernen zum Einsatz.

Screenshot einer Ordnerstruktur. Die oberste Ordnerebene enthält den Stereo-Song, im Ordner befinden sich 4 extrahierte Stems.
Extrahierte Stems

Ich habe bislang noch keinen perfekten Algorithmus gefunden, der für alle Fälle ideal funktioniert (und glaube nicht, dass es den jemals geben wird). Ich teste und kombiniere deshalb gerne verschiedene Algorithmen und Techniken für unterschiedliche Songs und Signale. Die Forschung ist in diesem Bereich aber noch in vollem Gange und die aktuellsten Algorithmen wurden vielfach noch nicht in kaufbare Produkte verwandelt. Wer sich derzeit mit dieser Thematik ernsthaft befasst, sollte also keine Angst vor Code und Kommandozeilen haben.

Der Screenshot zeigt die beispielhaften Kommandozeilenbefehle für einen De-Mixing-Algorithmus.
De-Mixing via Python-Kommandozeilen Tool

Wenn du einen einfacheren Weg suchst und nicht zwingend die aktuellsten Algorithmen miteinander vergleichen möchtest, gibt es auch diverse Software zu kaufen, die deinen Song in Stems auftrennen kann (z. B. Audionamix Xtrax oder iZotope RX Music Rebalance). Es gibt sogar entsprechende Online-Services (z. B. lalal.ai), bei denen die Auftrennung nicht auf dem eigenen System passiert und keine Software installiert werden muss.

De-Mixing mit Izotope RX Music Rebalance
De-Mixing mit iZotope RX Music Rebalance

Die aufgetrennten Stems können bei Bedarf anschließend noch manuell aufbereitet oder restauriert werden und dann wird eine neue Mischung aus den Stems angelegt. Zusätzlich kannst du nun natürlich immer noch Upmix-Plugins auf einzelnen Stems einsetzen oder die Signale über Lautsprecher abspielen und in einem passenden Raum mit großem Mikrofonarsenal in 3D aufnehmen, um Mehrkanalton zu erhalten. Du kannst auch den Stereomix als Basis verwenden und lediglich durch die aufgetrennten Stems ergänzen.

Weihnachtsaktion

Spare jetzt bis zu 1.195 beim Tontechnik-Fernkurs AUDIO DIPLOMA.
Außerdem erhältst du einen Sennheiser Studio-Kopfhörer im Wert von 539 € und alle 48 HOFA Plugins geschenkt.

Routing & Templates

In diesem Abschnitt möchte ich etwas konkreter werden und dir anhand meines eigenen Template-Workflows zeigen, wie eine professionelle 3D-Mischung angelegt werden kann. Weil aktuell vor allem die Nachfrage nach Dolby Atmos besteht und ich selbst auch primär mit Dolby Atmos arbeite, werde ich mich auf dieses Format beschränken. Die technische Implementierung unterscheidet sich zwar voneinander, aber die Voraussetzungen und Workflows lassen sich dennoch gut übertragen, falls du aktuell mit einem anderen 3D-Format arbeiten solltest. Wie die meisten professionellen Atmos-Engineers arbeite ich mit Pro Tools und der Dolby Atmos Production Suite. Die technische Einrichtung erspare ich uns an dieser Stelle, dafür gibt es an anderer Stelle mehr als genügend Material. Stürzen wir uns nun gleich in die Praxis!
Der Screenshot von ProTools zeigt den LTC-Kanal mit dem Dolby LTC Generator Plugin
LTC Channel
Für die Synchronisation zwischen Renderer und DAW wird ein Timecode benötigt (LTC), der in meinem Template auf dem ersten Kanal liegt. Er ist Solo Safe geschaltet, damit der Timecode auch beim Solo hören weiterläuft. Hier liegt bei mir auch das „Dolby Atmos Binaural Settings“ Plugin. Da es nur die binauralen Metadaten an den Renderer liefert, ist der Audiokanal in diesem Fall aber völlig egal. Ich nutze übrigens immer dasselbe Preset, in dem die binauralen Metadaten voreingestellt und die Objekte entsprechend benannt sind. So spare ich mir den extra Schritt der individuellen Einstellung, weil ich einfach ein entsprechendes Objekt („near“, „mid“, „far“ oder „off“) wähle. Dieser Workflow hat sich aber vor allem auch für die Zusammenstellung von Alben in Dolby Atmos bewährt, weil sich so keine unterschiedlichen Einstellungen in die Quere kommen können.
Der Screenshot zeigt das Dolby Atmos Binaural Settings Plugin. Die Objekte und Bed-Channels sind bereits voreingestellt auf verschiedene binaurale Metadaten ("off", "near", "mid", "far")
Binaural Settings Plugin Preset
Wenn es vom Song bereits eine Originalversion in Stereo gibt, versuche ich immer zuallererst, die gemasterte Version zu bekommen. Schließlich wird die immersive Mischung auf den Plattformen schlussendlich mit dem Master verglichen und häufig passiert beim Mastering noch so einiges am Klangbild. Das Stereomaster dient auch als Referenz für die Exportlänge des Atmos-Masters. Damit ich beim Vergleichen unkompliziert zwischen Atmos und Stereo umschalten kann, aber das Stereo-Master nicht durch den Renderer verfälscht wird, habe ich ein Objektpaar (127-128) als „Stereo Through“ in meinem Template. Die beiden Objekte liegen genau an den Positionen der beiden Frontlautsprecher und werden damit in meinem 7.1.4-Setup direkt von L und R wiedergegeben. Das binaurale Rendering ist natürlich abgeschaltet („off“), damit auch auf Kopfhörern nichts verfälscht wird.
Der Screenshot zeigt den Stereo Referenz Track in der ProTools Session. Er ist auf ein Objektpaar namens "StereoThrough" geroutet.
Stereo Referenz Track
Wenn ich in Stereo mische, arbeite ich in der Regel mit einem Routing-Folder als Mix Bus und bei Bedarf mit einem Masterkanal für Limiting oder Nachjustieren des Ausgangspegels. Statt einer Stereosumme gibt es in Dolby Atmos jedoch einen 10-Kanal Bed-Bus und 118 Monosummen (für die 118 Objekte). Um dennoch Kontrolle über den finalen Mix-Pegel zu haben, beherbergt mein Atmos-Template also stolze 119 Masterkanäle (7.1.2 Bed Master + 118 Mono-Objektmaster). Diese liegen aufgeräumt in einem Ordner, sind standardmäßig ausgeblendet und in einer VCA-Gruppe zusammengefasst, sodass ich mit einem einzigen VCA-Fader bequem meinen ganzen Mix steuern kann.
Der Screenshot von ProTools zeigt viele Master Channels in einem Ordner namens "Master Faders". Über dem Ordner liegt ein VCA-Track.
Master-Ordner und Master-VCA
Der LFE-Kanal wird von Musikschaffenden leider häufig missverstanden. Es handelt sich nicht etwa um einen Subwoofer-Kanal, der mittels Frequenzweiche mit den tiefen Frequenzen der anderen Lautsprecherkanäle versorgt wird, sondern um einen vollständig eigenständigen Kanal, der mit dem vollen Frequenzspektrum versorgt werden kann. Aus Gründen der Übersetzbarkeit auf unterschiedliche Systeme ist es jedoch ratsam, den Frequenzgang des LFE-Kanals standardmäßig zu begrenzen – ein simpler Lowpass-Filter zwischen ca. 100 und 150 Hz ist völlig ausreichend. Da sich die Consumer-Anlagen bezüglich Bassmanagement, Akustik, etc. stark voneinander unterscheiden, ist es außerdem sinnvoll, die Phasenbeziehung zwischen dem Bassanteil der Hauptlautsprecher und LFE-Kanal leicht zu verändern. Damit sinkt die Wahrscheinlichkeit, dass sich der Bass auf manchen Anlagen übermäßig aufschaukelt. In meinem Template kommt zu diesem Zweck das Subharmonic Pro Plugin zum Einsatz, das die Obertonstruktur des LFE-Kanals leicht verändert. Im Musikmix muss der LFE-Kanal nicht zwingend Verwendung finden und die Mischung sollte unbedingt auch ohne LFE noch stimmig klingen, er kann aber helfen, dramaturgische Pointen zu setzen oder das Bassfundament der Mischung „anzufetten“.
Der Screenshot von ProTools zeigt die Inserts eines LFE Kanals: Ein Subharmonic Plugin und einen Low Pass bei 120 Hz.
LFE-Inserts (beispielhaft)
Egal ob SSL, Neve, API, Fairchild, Manley oder Eigenbau – viele Rock- und Pop-Engineers schwören auf ihren Summenkompressor und wollen darauf natürlich auch in 3D nicht verzichten. Das Problem ist nur: Es gibt gar keine Summe! Für den beliebten Kompressor-Glue muss man sich also eine andere Arbeitsweise einfallen lassen. Glücklicherweise bieten uns fast alle Dynamic-Plugins einen Sidechain-Eingang an, den wir für diesen Zweck verwenden können. Der Workflow funktioniert auch mit Hardware, wird aber aufgrund der hohen Kanalzahl schnell kostspielig. In meinem Atmos-Mixing-Template liegen auf allen Master-Kanälen Kompressor-Instanzen, die via Sidechain von ein und demselben Aux-Bus angesteuert werden. Je nach Kontext und Geschmack kann man mittels Post-Fader-Send einen Stereomix erzeugen, der den Mischungsverhältnissen der Atmos-Mischung entspricht, via Pre-Fader-Send völlig individuelle Verhältnisse schaffen oder einfach den originalen Stereomix die Kompression steuern lassen. Mit Limiting verfahre ich genauso, falls Limiting überhaupt benötigt wird. Zugegeben: Individuelle Kompression mittels Sidechain klingt nicht genau gleich wie Summenkompression, erzeugt aber eine sehr ähnliche Ästhetik und gibt uns erheblich mehr Freiheiten. Ich habe übrigens die Insert-Parameter der Master Channels gelinkt, sodass ich alle Master-Kompressoren bequem an einer Instanz einstellen kann. Bei Bedarf lässt sich die Verknüpfung aber natürlich jederzeit aufheben, um individuelle Einstellungen zu treffen. Der externe Sidechain ist in meinem Fall fertig geroutet und standardmäßig ausgeschaltet, kann also jederzeit mit einem Klick eingesetzt werden, wenn ich aus der Bus-Kompression eine „falsche Summenkompression“ machen möchte:
Der Screenshot von ProTools zeigt die SSL Bus Compressor Instanz auf dem Bed Master. Auf der rechten Seite sind die Gruppeneinstellungen für alle Masters zu sehen. Die Inserts sind gelinkt.
Master Dynamics mit Sidechain-Input und Group-Link
Natürlich kommen auch ein paar Send-Effekte zum Einsatz, wenn wir aus Stereo 3D machen wollen. Wie schon erwähnt, lassen sich häufig ganz einfach die originalen Stereo-Hallräume (oder auch Echos) in 3D verwenden, indem man sie 2-3 mal dupliziert und mit leicht unterschiedlichen Einstellungen im Raum platziert. Oft reicht es schon aus, die hinteren Raumanteile leicht zu verzögern.
Der Screenshot von ProTools zeigt 3 Duplikate eines Stereo-Reverb-Kanals, die mit dem Plugin "DMG TrackControl" um 40, 60 bzw. 100 ms verzögert wurden.
Kopierte Stereo Reverbs
Für den dreidimensionalen „Glue-Faktor“ kann es hilfreich sein, Surround- bzw. 3D-Hallräume einzusetzen. Ich habe in meinem Template einen 5.1-Reverb (auf den 5.1-Submaster des Bed-Bus geroutet) und einen 7.1.2-Reverb-Kanal (direkt aufs Bed geroutet). Mit Multikanal-Reverbs sollte man jedoch bei Spatial Audio eher vorsichtig sein. Nicht alles, was auf Lautsprechern toll klingt, funktioniert auch auf Kopfhörern! Je mehr Hallkanäle es gibt, desto größer ist die Wahrscheinlichkeit, dass sich die Hallfahnen bei der Übersetzung auf Kopfhörer hochschaukeln und zu einer sehr „halligen“ Kopfhörermischung führen. Wenn ich also 3D-Hallräume überhaupt einsetze, ist der Anteil meist relativ gering.
Der Screenshot von ProTools zeigt zwei Kanalheader: Einen 7.1.2 Reverb, der auf den MainBed-Bus geroutet ist und ein 5.1 Reverb, der auf den 5.1 Submaster der MainBed-Bus geroutet ist.
Surround Reverbs
Neben Reverbs setze ich bei immersiven Mischungen wegen der besseren Übersetzbarkeit sehr viel auf Slapback Echos, um einzelnen Elementen mehr räumlichen Kontext zu geben. In meinem Template finden sich standardmäßig drei Stereo-Slapbacks: Eines für die Seiten, eines für die Surround- und eines für die Top-Kanäle. Diese können nach Belieben auf die Side- oder Surround-Speaker gelegt oder als Objektpaare frei im Raum platziert werden. Die Slap-Kanäle selbst sind sehr simpel: Eine einfache zeitliche Verzögerung und ggf. ein kleines bisschen EQ-ing reichen häufig schon aus. Häufig ändere ich aber auch die Stereobreite, tausche die Stereokanäle oder setze einen Transient Designer ein, um die Slap-Antwort stärker auf Transienten oder Ausklang zu fokussieren.
Der Screenshot von ProTools zeigt 3 Kanäle mit Slap-Effekt: Eine zeitliche Verzögerung vn 40 ms mit "DMG TrackControl" und ein Instanz von "Native Instruments Transient Master" auf bypass.
Slap-Kanäle für Seite, oben und hinten

Mastering & Ausspielung

Dolby Atmos Mastering sorgt für viel Verwirrung und Missverständnisse. Da es keine Summe im klassischen Sinne gibt, sind natürlich die herkömmlichen Stereo Mastering-Chains hinfällig. Viele schließen daraus, dass es so etwas wie Mastering für Dolby Atmos gar nicht gibt. Da würde ich zwar widersprechen, aber natürlich ist die eigentliche Frage, wie man Mastering definiert. Meiner Ansicht nach besteht Mastering aus drei primären Aufgaben:
  1. Einhaltung aller technischen Spezifikationen und Formate
  2. Klanglich-künstlerische Qualitätskontrolle
  3. Optimierung der Übersetzung auf verschiedene Abhörsysteme
Alle drei Aspekte sind auch bei Dolby Atmos von hoher Relevanz und teilweise sogar noch kritischer als jemals zuvor. Dolby Atmos hat klare Loudness-Vorgaben: Maximal -18 LUFS und -1 dBTP. Gemessen wird die Lautheit übrigens auf einem 5.1 Re-Render, weil Dolby Atmos selbst aus bis zu 128 Kanälen besteht und erst vom Renderer zu einer individuellen Mischung interpretiert wird. Die Loudness-Messung ist im Dolby Atmos Renderer integriert, also leicht überprüfbar. -18 LUFS ist relativ leise und gibt mehr als ausreichend Headroom für dynamische Musikmischungen. Das hält dich natürlich nicht davon ab, deine Mischung über den guten Geschmack hinaus zu komprimieren, aber Loudness War kennt Dolby Atmos nicht.
Der Screenshot vom Dolby Atmos Renderer zeigt das Loudness Analyse Tool.
Loudness-Analyse Dolby Atmos Renderer
Falls du für ein Label arbeitest, gibt es in der Regel noch deutlich detailliertere technische und teilweise auch kreative Vorgaben. Diese solltest du dir natürlich genau durchlesen und einhalten. Ohne Qualitätskontrolle geht es auch in 3D nicht. Jemand sollte alles noch einmal ganz genau in einer professionellen Studioumgebung durchhören und ggf. übersehene Resonanzen, technische Fehler, Störgeräusche, etc. entfernen. Auch eine geschmackliche Abrundung mit Kompressoren, EQs, Sättigung und Co. ist üblich, allerdings auf Objekt- bzw. Bed-Basis, denn eine Summe gibt es in dem Sinne nicht. Die Übersetzung auf die verschiedenen Abhörsysteme war zwar schon immer ein wichtiger Aspekt beim Mastering, hat aber meines Erachtens mit objektbasierten Formaten eine völlig neue Bedeutung gewonnen. Da das Format auf so ziemlich allen denkbaren Lautsprecherkombinationen individuell interpretiert und sogar binaural für Kopfhörer ausgespielt wird, können die Unterschiede zwischen den verschiedenen Systemen gewaltig ausfallen. Es braucht einige Erfahrung, um hier die goldene Mitte für alle Ausspielwege zu treffen. Apples Entscheidung, statt des offiziellen Dolby-Renderers einen eigenen Renderer zu verwenden, erschwert diesen Prozess ebenfalls. Konkret heißt das: Man muss das Master auf diversen Studiolautsprecherkombinationen, mindestens einer Soundbar und auf Kopfhörern mit zwei unterschiedlichen Binauralisierern prüfen (Dolby und Apple) und klangliche Anpassungen am Mix bzw. Master vornehmen, um sicherzustellen, dass der Mix überall zur Geltung kommt. Oft nimmt die Qualitätskontrolle auf den verschiedenen Geräten und ggf. ein erneutes Ausspielen beim 3D-Mixing den Großteil der Arbeitszeit in Anspruch.

Fazit

Mixing in 3D wirkt am Anfang eventuell ein bisschen komplizierter als das klassische Stereo, weil man es mit deutlich mehr Routing zu tun hat, aber glücklicherweise kann man das Ganze einmal einrichten und als Template abspeichern, sodass die tägliche Arbeit damit leicht von der Hand geht. Ich hoffe, dass dir dieser kleine Überblick hilft, die Abläufe beim 3D-Remixing noch besser zu verstehen und dich vielleicht auf ein oder zwei neue Ideen für deinen eigenen Workflow gebracht hat. Bei den praktischen Beispielen handelt es sich selbstverständlich nur um meinen aktuellen, persönlichen Workflow (der sich auch stetig leicht verändert) und jeder Engineer hat selbstverständlich seine eigenen Arbeitsweisen. Lass uns also gerne in den Kommentaren an deinen eigenen Workflow- und Plugin-Tipps für 3D-Musikmischungen teilhaben!

Autor

sgoetz
sgoetz

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert