Tom Batoy

DAS BESTE AN DER KI SIND IHRE FEHLER.

EIN INTERVIEW MIT TOM BATOY.

Interview: 2030 / Paul Wagner
Fotos: Leopold Fiala

Tom Batoy ist Komponist und Tonproduzent durch und durch. Die Nutzung von KI gehört für ihn nicht nur seit Jahren zum Alltag am Mischpult, er treibt die Entwicklung, besonders im Bereich Sprachaufnahme, leidenschaftlich voran. Manchmal vielleicht anders als gedacht. Aber darüber später mehr. Als Geschäftsführer beim Giesing Team, einer der führenden Audioproduktionen in Deutschland, und bei der Musikproduktion Mona Davis Music pendelt er regelmäßig zwischen Los Angeles, Berlin und München. Viele Kunden, besonders die amerikanischen, verdanken sich einem legendären Auftrag, der Tom und seinen Partner Franco Tortora über Nacht ziemlich berühmt machte – die Entwicklung des Audiologos für McDonald’s global. Ba Da Ba Ba Ba … Ich habe Tom in seinem Laborstudio im alten Gasteig getroffen. Live und leibhaftig. Online hätte seine Stimme ja auch KI-generiert sein können, und keiner hätte es gemerkt.

gamma-2030-magazine-tom-batoy-giesing-team-155

Tom Batoy / Foto: Leopold Fiala

Tom, bevor wir uns des KI-Themas annehmen: Erzähl doch mal bitte, wie das Giesing Team entstand.

Das ist ja wirklich schon lang her … Anfang der achtziger Jahre habe ich im Kaffee Giesing von Konstantin Wecker angefangen, Musik abzumischen und nebenher erste Funkspots aufgenommen. Das Studio von Wecker kam dann in finanzielle Schwierigkeiten, da haben wir das Giesing Team gegründet, sind schnell gewachsen und schließlich in die Wolfratshauser Straße gezogen.

Das war ein toller Ort. Da wurde Werbegeschichte geschrieben.

Oh ja. Viele sehr bekannte Tonproduktionen sind dort entstanden. Mittlerweile sind wir mit vier Studios in München präsent. Das Hauptstudio ist in der Türkenstraße bei ARRI.

Wenn man nicht aus der Branche kommt, ist einem möglicherweise gar nicht bewusst, wo man euch schon überall gehört hat. Was genau macht ihr? Für wen arbeitet ihr?

Unsere Kundenliste beeindruckt sogar uns selbst. Wir haben praktisch für jede große Marke gearbeitet, die man kennt. Wir machen alles, was mit Ton zu tun hat, in allen Formaten: Sprachaufnahmen, Vertonungen, Mischung, Kinotrailer. Die einzige Ausnahme: Wir machen keine Synchronaufnahmen. Und alles, was mit Musik zu tun hat, wird von unserer Musikproduktion Mona Davis Music gemacht, die ich vor Jahren mit Franco Tortora gegründet habe. Wir produzieren in allen Genres, von Rock, Jazz, Techno bis Klassik. Wir beherrschen die unterschiedlichsten Stile, wir wissen, welche Register man ziehen muss, um bestimmte Gefühle zu erzeugen. Das ist natürlich gerade bei Werbeproduktionen extrem wichtig. Man spürt bei allem, was wir machen, unsere Leidenschaft für Ton – und vor allem für Stimmen. Jede Sprecherin, jeder Sprecher hat einen eigenen Fingerprint, jede Stimme ist einzigartig und vermittelt einen ganz bestimmten Vibe.

Das Thema Stimme ist ein ganz gutes Sprungbrett zum Thema KI. Bevor wir über die Chancen und Herausforderungen von KI für Sprecher und Sprecherinnen reden, eine sehr allgemeine Frage: Erfindet KI etwas neu oder spuckt sie nur aus, was eh schon da ist?

Eher Letzteres. Die Gegenfrage ist: Was macht der Mensch anderes? Er liest, er eignet sich Wissen an, auch musikalisches Wissen, und formt daraus wieder etwas Neues. Was ist da groß anders? Im Bereich Werbung sieht dann der hunderttausendste Zahnpastaspot genauso uninspiriert aus wie alle davor. Es ist alles immer dasselbe, alles ist kopiert. Warum also der KI diesen Vorwurf machen? Aber wenn wir jetzt mal über Musik reden und uns Tools wie Suno oder Udio anschauen, da fällt mir sofort ein ganz anderes Thema ein als die Frage nach der Originalität und Qualität: Beide Apps stehen für Urheberrechtsverletzung im ganz großen Stil. Das ist alles abgekupfert und zwar ohne Einwilligung, weder der Labels noch der Verlage noch der Kunstschaffenden. Da wird einfach mal alles reingebuttert, was es an Songs und Musik so gibt. Deshalb sind die Ergebnisse natürlich auch so erstaunlich. Ich bilde mir ein, über ein ganz gutes Gehör zu verfügen, aber ich kann beim besten Willen nicht mehr sagen: Der Song ist KI und der ist es nicht. Universal klagt, Warner klagt, alle klagen. Ich bin sicher, dass es da in naher Zukunft große Deals geben wird.

gamma-2030-magazine-tom-batoy-giesing-team-133

gamma-2030-magazine-tom-batoy-giesing-team-228-2

gamma-2030-magazine-tom-batoy-giesing-team-173-2

Fotos: Leopold Fiala

Wann bist du zum ersten Mal mit dem Thema KI konfrontiert worden?

Vor zehn Jahren.

Doch schon vor so langer Zeit?

Ja, KI-Tools spielen im Audiobereich schon lange eine Rolle. Angenommen, du hast eine Sprachaufnahme, bei der ungünstigerweise ein Traktor im Hintergrund vorbeifährt, dann verwenden wir KI-Tools, um das Störgeräusch zu entfernen. Diese Tools leisten gute Arbeit, vor allem im Masteringbereich, wenn wir eine Mischung machen müssen. Die Bedeutung von KI bei Audioproduktionen hat sich aber komplett gedreht, seit es generative KI gibt. Die lernt und erschafft tatsächlich Neues, weil sie Muster in bestehenden Daten erkennt und kreativ kombiniert. Das ist wie ein Spielkasten. Mit generativer KI kann man sich austoben, rumexperimentieren, man kann wieder Kind sein. Der Wahnsinn, einfach toll! Gerade weil die Ergebnisse von generativer KI anfangs nicht wirklich berechenbar sind. Je mehr man da forscht und ausprobiert, desto kontrollierbarer werden sie. Aber es sind viele, viele Tage und Nächte, die da reinfließen.

Was fasziniert dich am meisten an der KI?

Am coolsten sind die Halluzinationen. Die groben Schnitzer. Ja, ich finde, das Beste an der KI sind ihre Fehler. Die sind genial. Da wird KI unbewusst und ungeplant total kreativ. Ein Beispiel: Ich habe vor kurzem durch Midjourney 56 Bilder generieren lassen, immer zu musikalischen Genres. Da gebe ich den Prompt ein: „80s rocksinger in a leather outfit standing on the wing of a parked airplane.“ Das Bild war exakt, wie ich es mir vorgestellt habe – nur, dass er – was mir erst gar nicht auffiel – drei Arme hatte. Mit einem machte er eine Rocksängergeste, mit dem zweiten hielt er das Mikro und mit dem dritten stützte er sich lässig gegen den Flugzeugrumpf. Genial. Solche Halluzinationen inspirieren mich, da wird’s spannend.

Fragst du die KI nach zehn Gründen für den Klimawandel, wird sie dir zehn Gründe nennen – auch wenn’s nur fünf gibt.

Genau. Ich habe mit der KI ein Game gemacht und ihr eine grundsätzliche Frage gestellt, auf die sie nur mit einem einzigen Wort antworten durfte. Die Frage lautete: Ist KI kreativ? Antwort: Nein! Dann habe ich sie gefragt: Kann KI kreativ sein? Da kam die Antwort: Ja! Dann habe ich gepromptet: Create a creative video – das Ergebnis war niederschmetternd, total belanglos und alles andere als kreativ. Kein Mensch will das sehen. Also habe ich mich gefragt, wie wir die KI dazu bringen, zu halluzinieren, damit crazy, interessante Ergebnisse kommen.

Und?

Ganz ehrlich: keine Ahnung. Ich habe noch keine planbare Methode im Sinn einer Bedienungsanleitung gefunden. Es bleibt vogelwild … Aber ich bin sicher, dass wir zum Beispiel mit Informations-Overload beim Prompten weiterkommen. Wir tun alles, um die KI so zu challengen, damit das Überraschende passieren kann.

gamma-2030-magazine-tom-batoy-giesing-team-303

Tom Batoy / Foto: Leopold Fiala

So gehen gemeinhin Künstler und Künstlerinnen vor. Oder?

Genau. Und das macht die Anwendung generativer KI im Rahmen einer Tonproduktion, die ja vorhersehbare Ergebnisse in einem knappen Timing liefern muss, schwierig. Da braucht es dann ein kreatives Gerüst, auf dem die KI aufsetzen kann. Ein Beispiel: Ich spreche einen Satz ein, der lauten könnte: „Das neue Sommer-Special. Jetzt bei der ARD.“ Dann lege ich eine Hülle über dieses Gerüst mit einer KI-generierten Stimme. Meine Stimme wird dann beispielsweise die Stimme von dem bekannten Sprecher XY …

Na, der wird sich freuen.

Das funktioniert richtig gut, weil ich – anders, als wenn ich den Text nur prompten würde – die Tonalität des Gesprochenen durch meine Audio-Vorgabe schon definiert habe. Wir haben übrigens bereits viele erstklassige Sprecherstimmen digitalisiert und einen der ersten KI-Verträge mit Sprechern und Sprecherinnen entwickelt. Sprecher XY weiß also, dass die Verwendung seiner Stimme für ihn total transparent ist und nur mit seiner Zustimmung erfolgt. Es ist ja schon ein Meilenstein, dass man heute – zum ersten Mal überhaupt – eine Stimme konservieren kann. Sie bleibt dann auch verkäuflich und einsetzbar, wenn du schon über neunzig bist. Das wird sehr viel verändern. Zum Beispiel im Bereich der Kinderstimmen. Einige sind ja sehr bekannt geworden – bis zum Stimmbruch, da war’s bisher dann vorbei. Jetzt kannst du sie ewig weiterverkaufen und sogar vererben. Oder deine Stimme kann selbst dann eingesetzt werden, wenn du eine Stimmband-OP hast. Über solche Vorteile haben die meisten in der Branche bisher noch gar nicht nachgedacht.

Und wie ist die Reaktion der Sprecher?

Geteilt. Es ist natürlich das Thema Nummer eins. Viele haben Angst. Was passiert mit meiner Stimme? Habe ich noch die Kontrolle? Der Verband Deutscher Sprecher*innen (VDS) steht der Digitalisierung von Stimmen, z. B. über elevenlabs.io, kritisch gegenüber und rät seinen Mitgliedern davon ab, weil diese Stimmen wiederum zum Training der KI verwendet werden könnten. Ich sehe das Ganze etwas anders. Der Zug rollt längst. Ich glaube, dass kein Sprecher und keine Sprecherin darum herumkommen wird sich zu digitalisieren. Beim Giesing Team machen wir Sprechern folgendes Angebot: Ihr könnt euch von uns digitalisieren lassen, bekommt einen eigenen Account, auf den nur ihr Zugriff habt. Ihr gebt uns die Zugriffsdaten zu eurem Account, damit wir euch, immer wenn wir etwas haben, anfragen können. Wir fixen den Preis und los geht’s – bei voller Transparenz. Denn die Sprecher können in ihrem Account jeden Prompt sehen, den wir für ihre Stimme gemacht haben. Und sie wissen immer, für welche Inhalte ihre Stimme verwendet wird. Falls er oder sie – was wir natürlich nicht hoffen – zum Schluss kommt: Mit euch will ich nicht mehr zusammenarbeiten, dann ändert er einfach sein Passwort, und wir sind raus. Die Sprecher haben bei uns alles unter ihrer Kontrolle.

Das ist die Zukunft?

Ja. Aber generell sind im Moment KI und Ton der wilde Westen. Die App-Anbieter machen es sich einfach und schieben die gesamte Verantwortung auf die Nutzer ab. Die Terms and Conditions sagen eigentlich immer: Du kannst hier etwas generieren, du kannst es hernehmen, aber: Deine Verantwortung!

Das ist eigentlich ein Showstopper für den kommerziellen Bereich, ja?

Fast. Klar ist auf jeden Fall, dass die Rechtsabteilungen zum Thema Urheberrecht viel zu tun bekommen werden. Die Majors wie Sony, Universal oder Disney sagen oft: keine KI! Das ist aber gar nicht so einfach. Finde mal einen Operator, der im 3D-Bereich ohne KI-Tools arbeitet … Letzten Endes werden die lockenden Einsparpotenziale das Ganze treiben. Ich fürchte, die Synchronsprecher im Filmbereich wird es knallhart treffen, weil die ganzen Brot-und-Butter-Jobs wegfallen werden. Heute ist es noch zu teuer, aber es ist technisch machbar, die Sprachvarianten ganzer Spielfilme automatisiert herzustellen. Und zwar lipsync.

Ist es dann absehbar, dass nur die markanten, die herausragenden Stimmen bestehen werden – als KI-Klon?

Ich fürchte, ja. Die 08/15-Stimmen gibt es jetzt schon en masse in digitaler Form. Die außergewöhnlichen Stimmen werden immer interessant bleiben.

Danke für das Gespräch, Tom!

Das wichtigste Personal Accessory ist eine Brille

Im Gespräch mit dem Head of Design Benjamin Heirich, der mit seinem Team seit vielen Jahren die Brillenkollektionen für Porsche Design Eyewear entwirft.

Many hands make light work

Paul Wagner spricht mit Axel Schmid, Head of Product & Project Design bei der legendären Licht-Marke Ingo Maurer.

Das Auto ist unsere Skulptur der Gegenwart

Ein Interview mit Dr. Thomas Girst, Leiter BMW Group Kulturengagement über die legendäre BMW Art Car Reihe.