KI in der Musik

Die Möglichkeiten von KI-gestützter Musik werden in der Musikindustrie schon seit Jahren diskutiert, aber erst mit der Veröffentlichung von ChatGPT im Jahr 2022 begann sich die breitere Debatte um KI in der Öffentlichkeit zu verbreiten. Wir befinden uns derzeit an einem Punkt, an dem einige Musiker und Fachleute aus der Musikbranche von den Möglichkeiten KI-gestützter Musik fasziniert sind, während andere dem Unbekannten skeptisch gegenüberstehen, insbesondere da die Regulierung noch in den Kinderschuhen steckt. Eine Studie des Musikvertriebsunternehmens Ditto ergab, dass fast 60 Prozent der befragten Künstler angaben, KI in ihren Musikprojekten zu verwenden, während 28 Prozent sagten, dass sie KI nicht für Musikzwecke einsetzen würden.
Christopher Wears, stellvertretender Vorsitzender der Abteilung für Musikbusiness/Management am Berklee College of Music, ist ein Befürworter der KI-Musiktechnologie. Er schrieb sogar eine Masterarbeit darüber, warum Warner Music in KI investieren sollte, und zwar bereits 2016 (Spoiler-Alarm: Das taten sie auch, zusammen mit allen anderen großen Plattenlabels). Wares hat KI in seine Kurse am Berklee College of Music eingeführt und dabei gemischte Reaktionen von den
Studierenden erfahren. „Einige meiner Studierenden lieben KI und nutzen sie bereits auf unterschiedliche Weise, während andere nichts damit zu tun haben wollen“, sagt Wares. „Es gibt viele hitzige Debatten in den Gesprächen, und ich versuche, meine Studierenden zu ermutigen, die Technologie anzunehmen und neue Wege zu finden, sie zur Verbesserung ihrer kreativen Prozesse zu nutzen.“
Ein weiterer Kursautor und Dozent mit einer ähnlichen Einstellung ist Ben Camp, Associate Professor für Songwriting am Berklee College of Music und Autor von Songs Unmasked: Techniques and Tips for Songwriting Success . Seit 2016 sind sie von KI-Musiktechnologie fasziniert, nachdem sie „Daddy's Car“ gehört haben, einen der ersten KI-Popsongs, bei dem die KI mit der Musik der Beatles trainiert wurde.
Camp gibt seinen Studenten auch die Möglichkeit, KI im Unterricht zu lernen, solange sie alle Informationen, die sie von ChatGPT oder einem anderen großen Sprachmodell erhalten, auf ihre Richtigkeit überprüfen.
„Ich denke, jeder muss seine eigene Entscheidung treffen“, sagt Camp. „Ich habe Freunde, die immer noch Klapphandys benutzen, weil sie sich nicht wohl dabei fühlen, alle ihre Informationen auf ihrem Handy zu haben. Ich habe Freunde, die immer noch Festnetzanschlüsse haben. Ich sage also nicht: ‚Hey, ihr müsst das alle machen.‘ Aber es ist definitiv da. Es wird nicht verschwinden. Es wird nur noch besser werden.“
Unabhängig davon, ob Sie KI aktiv in Ihrer Musik einsetzen oder noch Zweifel haben, wird immer deutlicher, dass KI in Zukunft eine wichtige Rolle in der Musikindustrie spielen wird. Mit dem Fachwissen von Wares und Camp diskutieren wir den aktuellen Stand der KI in der Musikindustrie, einschließlich der derzeit verfügbaren Tools.
Was ist KI-Musik?
Bevor wir definieren, was KI-Musik bedeutet, wollen wir zunächst künstliche Intelligenz definieren. Hier ist die Definition von Wares:
„Künstliche Intelligenz ist wie die Intelligenz eines Computers; es ist eine Technologie, die es Maschinen ermöglicht, menschliches Denken oder Verhalten nachzuahmen, wie z. B. Problemlösung, Lernen oder das Erkennen von Mustern.“
Im Zusammenhang mit Musik hat die KI-Technologie einen Punkt erreicht, an dem sie musikalische Inhalte, die zuvor von Menschen aufgeführt wurden, generieren, komponieren und verbessern kann. KI-Musik kann viele Formen und Arten der Unterstützung annehmen, von der Erstellung eines gesamten Songs von Anfang bis Ende über das Schreiben bestimmter Aspekte einer Komposition bis hin zum Abmischen und Mastern einer Produktion, dem Klonen von Stimmen und vielem mehr. Wir werden auch einige spezifische KI-Musiktools auflisten, die diese Aufgaben ausführen können und deren Fähigkeiten eine Büchse der Pandora voller Urheberrechtsprobleme geöffnet haben.
Geschichte
Künstliche Intelligenz hat ihren Ursprung in der Musik, mit dem Problem der Transkription: der genauen Aufzeichnung einer Darbietung in Notenschrift, während sie gespielt wird. Père Engramelles „Klavierband”-Schema, eine Methode zur automatischen Aufzeichnung von Notenzeiten und -dauern, damit diese leicht von Hand in die richtige Notenschrift transkribiert werden können, wurde erstmals 1752 von den deutschen Ingenieuren J. F. Unger und J. Holfield umgesetzt.
Im Jahr 1957 schuf der ILLIAC I (Illinois Automatic Computer) die „Illiac Suite for String Quartet”, ein vollständig computergeneriertes Musikstück. Der Computer wurde von dem Komponisten Lejaren Hiller und dem Mathematiker Leonard Isaacson für diese Aufgabe programmiert. : v–vii 1960 veröffentlichte der russische Forscher Rudolf Zaripov die weltweit erste Abhandlung über algorithmische Musikkomposition unter Verwendung des Computers Ural-1.
1965 entwickelte der Erfinder Ray Kurzweil eine Software, die musikalische Muster erkennen und daraus neue Kompositionen synthetisieren konnte. Der Computer trat erstmals in der Quizshow „I’ve Got a Secret“ in Erscheinung.
Bis 1983 hatte Yamahas Kansei Music System an Bedeutung gewonnen, und 1989 wurde ein Artikel über seine Entwicklung veröffentlicht. Die Software nutzte Musikverarbeitung und Techniken der künstlichen Intelligenz, um das Transkriptionsproblem für einfachere Melodien im Wesentlichen zu lösen, obwohl Melodien auf höherem Niveau und musikalische Komplexitäten auch heute noch als schwierige Deep-Learning-Probleme gelten und eine nahezu perfekte Transkription nach wie vor Gegenstand der Forschung ist.
Im Jahr 1997 übertraf ein künstliches Intelligenzprogramm namens Experiments in Musical Intelligence (EMI) einen menschlichen Komponisten bei der Aufgabe, ein Musikstück im Stil von Bach zu komponieren. EMI wurde später zur Grundlage für einen ausgefeilteren Algorithmus namens Emily Howell, benannt nach seiner Schöpferin.
Im Jahr 2002 entwickelte eine Gruppe von Musikforschern am Sony Computer Science Laboratory in Paris unter der Leitung des französischen Komponisten und Informatikers François Pachet Continuator, einen einzigartigen Algorithmus, der in der Lage ist, eine Komposition neu zu starten, nachdem ein Live-Musiker aufgehört hat zu spielen.
Emily Howell verbesserte die Musik-KI weiter und veröffentlichte 2009 ihr erstes Album „From Darkness, Light“. Seitdem wurden viele weitere KI-Werke von verschiedenen Gruppen veröffentlicht.
Im Jahr 2010 schuf Iamus als erste KI ein originelles Stück moderner klassischer Musik in ihrem eigenen Stil: „Iamus’ Opus 1“. Der Computer befindet sich an der Universität von Málaga (Universidad de Málaga) in Spanien und kann völlig originelle Musikstücke in einer Vielzahl von Musikstilen generieren. Im August 2019 wurde ein großer Datensatz mit 12.197 MIDI-Songs, jeder mit eigenen Texten und Melodien, erstellt, um die Machbarkeit der neuronalen Generierung von Melodien aus Songtexten unter Verwendung einer tiefen bedingten LSTM-GAN-Methode zu untersuchen.
Mit den Fortschritten in der generativen KI sind Modelle entstanden, die aus einfachen Textbeschreibungen vollständige Musikkompositionen (einschließlich Texten) erstellen können. Zwei bemerkenswerte Webanwendungen in diesem Bereich sind Suno AI, das im Dezember 2023 gestartet wurde, und Udio, das im April 2024 folgte.
Softwareanwendungen
ChucK
ChucK wurde an der Princeton University von Ge Wang und Perry Cook entwickelt und ist eine textbasierte, plattformübergreifende Sprache. Durch das Extrahieren und Klassifizieren theoretischer Techniken, die es in Musikstücken findet, ist die Software in der Lage, völlig neue Stücke auf der Grundlage der gelernten Techniken zu synthetisieren. Die Technologie wird von SLOrk (Stanford Laptop Orchestra) und PLOrk (Princeton Laptop Orchestra) verwendet.
Jukebox
Jukedeck war eine Website, auf der Nutzer mithilfe künstlicher Intelligenz originelle, lizenzfreie Musik für Videos erstellen konnten. Das Team begann 2010 mit der Entwicklung der Musikgenerierungstechnologie, gründete 2012 ein Unternehmen und startete 2015 die Website. Die verwendete Technologie war ursprünglich ein regelbasiertes algorithmisches Kompositionssystem, das später durch künstliche neuronale Netze ersetzt wurde. Die Website wurde zur Generierung von über 1 Million Musikstücken genutzt, darunter von Marken wie Coca-Cola, Google, UKTV und dem Natural History Museum in London. Im Jahr 2019 wurde das Unternehmen von ByteDance übernommen.
Morpheus
MorpheuS ist ein Forschungsprojekt von Dorien Herremans und Elaine Chu an der Queen Mary University of London, das vom EU-Projekt Marie Skłodowska-Curie finanziert wird. Das System verwendet einen Optimierungsansatz, der auf dem Algorithmus der variablen Nachbarschaftssuche basiert, um vorhandene Musterfragmente in neue Fragmente mit einem bestimmten Tonwert umzuwandeln, der sich im gesamten Fragment dynamisch ändert. Dieser Optimierungsansatz integriert Mustererkennungstechniken, um eine langfristige Struktur und wiederkehrende Themen in der generierten Musik sicherzustellen. Von MorpheuS komponierte Stücke wurden sowohl in Stanford als auch in London in Konzerten aufgeführt.
AIVA
AIVA wurde im Februar 2016 in Luxemburg gegründet und ist ein Programm, das Soundtracks für alle Arten von Medien produziert. Die Algorithmen hinter AIVA basieren auf Deep-Learning-Architekturen. AIVA wurde auch verwendet, um einen Rock-Track namens „On the Edge“ sowie einen Pop-Song namens „Love Sick“ in Zusammenarbeit mit der Sängerin Taryn Southern für ihr 2018 erschienenes Album „I am AI“ zu komponieren.
Google Purple
Das Magenta-Team von Google hat seit seiner Gründung im Jahr 2016 mehrere KI-Musik-Apps und Whitepaper veröffentlicht. Im Jahr 2017 veröffentlichten sie den NSynth-Algorithmus und Datensatz, ein Open-Source-Hardware-Musikinstrument, das Musikern die Verwendung des Algorithmus erleichtern soll. Das Instrument wurde von namhaften Künstlern wie Grimes und YACHT auf ihren Alben verwendet. Im Jahr 2018 veröffentlichten sie eine App für Klavierimprovisationen namens Piano Genie. Später folgte Magenta Studio, ein Set aus 5 MIDI-Plugins, mit denen Musikproduzenten bestehende Musik in ihrer DAW weiterentwickeln können. Im Jahr 2023 veröffentlichte ihr Machine-Learning-Team auf GitHub ein technisches Papier, in dem MusicLM beschrieben wird, ein von ihnen entwickelter proprietärer Text-zu-Musik-Generator.
Riffusion
Riffusion ist ein von Seth Forsgren und Ike Martiros entwickeltes neuronales Netzwerk, das Musik anhand von Klangmustern statt Audio generiert. Es wurde als Feinabstimmung von Stable Diffusion entwickelt, einem bestehenden Open-Source-Modell zur Erzeugung von Bildern aus Text-Cues in Spektrogrammen. Das Ergebnis ist ein Modell, das Text-Cues verwendet, um Bilddateien zu generieren, die invers Fourier-transformiert und in Audiodateien umgewandelt werden können. Obwohl diese Dateien nur wenige Sekunden lang sind, kann das Modell auch den latenten Raum zwischen den Ausgaben nutzen, um verschiedene Dateien miteinander zu interpolieren. Dies wird mithilfe einer Funktion des Stable Diffusion-Modells erreicht, die als img2img bekannt ist. Die resultierende Musik wurde als „de otro mundo” (aus einer anderen Welt) beschrieben, obwohl es unwahrscheinlich ist, dass sie von Menschen gemachte Musik ersetzen wird. Das Modell wurde am 15. Dezember 2022 veröffentlicht, und der Code ist ebenfalls frei auf GitHub verfügbar. Es ist eines von vielen Modellen, die aus Stable Diffusion abgeleitet wurden. Riffusion wird als eine Untergruppe der KI-basierten Text-zu-Musik-Generatoren klassifiziert. Im Dezember 2022 verwendete Mubert in ähnlicher Weise Stable Diffusion, um beschreibenden Text in Musikloops umzuwandeln. Im Januar 2023 veröffentlichte Google einen Artikel über seinen eigenen Text-zu-Musik-Generator namens MusicLM.
Spike AI
Spike AI ist ein KI-gestütztes Audio-Plugin, das von Spike Stent in Zusammenarbeit mit seinem Sohn Joshua Stent und seinem Freund Henry Ramsey entwickelt wurde und Tracks analysiert und Empfehlungen für Klarheit und andere Aspekte während des Mixings gibt. Die Kommunikation erfolgt über einen Chatbot, der mit den persönlichen Daten von Spike Stent trainiert wurde. Das Plugin lässt sich in eine digitale Audio-Workstation integrieren.
Musikanwendungen
Künstliche Intelligenz hat das Potenzial, die Art und Weise zu beeinflussen, wie Produzenten Musik erstellen, indem sie auf der Grundlage von Vorgaben des Schöpfers Track-Iterationen generiert. Diese Vorgaben ermöglichen es der KI, einem bestimmten Stil zu folgen, den der Künstler erreichen möchte.
KI wird auch in der Musikanalyse eingesetzt, wo sie zur Merkmalsextraktion, Mustererkennung und Musikempfehlungen verwendet wird.
Komposition
Künstliche Intelligenz hat einen großen Einfluss auf den Bereich der Komposition gehabt, da sie die Ideen von Komponisten/Produzenten beeinflusst hat und das Potenzial hat, die Branche für Neueinsteiger zugänglicher zu machen. Mit ihrer Entwicklung in der Musik wurde sie bereits in Zusammenarbeit mit Produzenten eingesetzt. Künstler nutzen diese Software, um Ideen zu generieren und Musikstile zu identifizieren, indem sie die KI anweisen, bestimmte Anforderungen zu befolgen, die ihren Bedürfnissen entsprechen. Zu den zukünftigen Auswirkungen der Technologie auf die Komposition gehören die Emulation und Fusion von Stilen sowie die Überarbeitung und Verfeinerung. Die Entwicklung dieser Art von Software kann Neulingen den Einstieg in die Musikindustrie erleichtern. Software wie ChatGPT wurde von Produzenten für diese Aufgaben verwendet, während andere Software wie Ozone11 zur Automatisierung zeitaufwändiger und komplexer Aufgaben wie dem Mastering eingesetzt wurde.
Risiken und Schäden
Musiker, Produzenten und andere nutzen seit Jahren nicht-generative KI-Tools. Cher hat Auto-Tune vor mehr als einem Vierteljahrhundert mit „Believe“ populär gemacht, und seitdem haben unzählige Künstler es verwendet, um ihren Ton zu „korrigieren“. Plattenlabels nutzen KI, um soziale Medien nach unlizenzierten Verwendungen ihrer Songs zu durchsuchen, und Shazam funktioniert ähnlich, wenn es um die Erkennung von Audio geht. Ingenieure nutzen es, um den Mixing- und Mastering-Prozess zu optimieren. Vor kurzem nutzte Peter Jackson, Regisseur von „Get Back“, diese Technologie, um einzelne Spuren aus einer gemischten Aufnahme zu isolieren, um Studiogespräche zu rekonstruieren und einen verlorenen Beatles-Song zu erstellen.
Es gibt jedoch einen entscheidenden Unterschied zwischen diesen Hilfswerkzeugen und generativen KI-Apps wie Suno und Udio, die aus nur wenigen Worten ganze Songs erstellen können. Alle neuen Musik-KIs funktionieren etwas anders und entwickeln sich ständig weiter, aber im Allgemeinen arbeiten sie ähnlich wie andere generative KI-Tools: Sie analysieren einen riesigen Datensatz und verwenden die darin gefundenen Muster, um probabilistische Vorhersagen zu treffen.
Um dies für Audio zu tun, sammeln Entwickler eine riesige Sammlung von Songs (durch Vereinbarungen mit Lizenzinhabern und/oder durch das Scraping öffentlich zugänglicher Daten ohne Genehmigung) und die dazugehörigen Metadaten (Künstler und Songtitel, Genres, Jahre, Beschreibungen, Anmerkungen, alles Relevante und Verfügbare). All dies wird in der Regel durch gering bezahlte Arbeiter im globalen Süden ermöglicht, die diese Daten in gigantischem Umfang annotieren.
Die Entwickler bereiten diesen Datensatz dann für ein maschinelles Lernmodell vor, das (kurz gesagt) ein riesiges Netzwerk von Verbindungen ist, denen jeweils ein numerisches „Gewicht” zugewiesen wird. Menschen „trainieren” das Modell dann, indem sie ihm beibringen, Muster im Datensatz zu beobachten, und dem Modell Feedback geben, indem sie seine Vorhersagen bewerten. Basierend auf diesen Mustern kann das Modell anhand eines kurzen Audio- oder Textabschnitts vorhersagen, was als Nächstes passieren sollte, und dann, was danach passieren wird, und so weiter.
Die Entwickler optimieren die Gewichte, um aus denselben Eingaben besser hörbare und vorhersehbarere Ergebnisse zu erzielen. KI-gestützte Musikgeneratoren kombinieren zwei Technologien: die Musikinstrumente, die Profis seit Jahrzehnten in Studios verwenden, und die großen Sprachmodelle, mit denen auch normale Nutzer ihre Leistungsfähigkeit nutzen können. Jeder KI-Musikgenerator ist nur so gut wie die Daten, mit denen er trainiert wurde. Diese Systeme benötigen riesige Datenmengen, und ein Modell, das mit einem voreingenommenen Datensatz trainiert wurde, wird diese Voreingenommenheit in seinen Ergebnissen reproduzieren. Wessen Stimmen sind in dieser riesigen Musikbox enthalten, und wessen Stimmen werden ausgelassen? Die heutigen KI-Modelle neigen dazu, große Teile der Musik auszuschließen, insbesondere aus Musiktraditionen, die älter sind als die Aufnahmetechnologie und nicht aus dem westlichen Kulturkreis stammen. In ihrer derzeitigen Form produzieren sie eher stereotype Klänge innerhalb eines Genres oder Stils als etwas Ungewöhnliches, geschweige denn Innovatives oder Interessantes. Generative KI-Systeme neigen zu Mittelmäßigkeit, aber transzendentale Musik findet sich an den Rändern.
„Was geht an menschlicher Kreativität und Vielfalt verloren, wenn Musiker sich auf Vorhersagemodelle verlassen, die auf selektiven Datensätzen trainiert wurden, die die meisten Kulturen und Sprachen der Welt ausschließen?“, fragte mich Lauren M.E. Goodlad, Vorsitzende der Critical AI Initiative der Rutgers University.
Aus rechtlicher Sicht haben Musiker, die beobachten, wie KI-Modelle aus ihren Werken lernen, die gleichen Bedenken wie die New York Times, Getty und andere Verlage und Urheber, die KI-Unternehmen verklagen: die Herkunft der Daten. Während einige Unternehmen darauf achten, ihre Modelle nur mit lizenzierten Daten zu trainieren, verwenden andere alles, was sie in die Hände bekommen können, und argumentieren, dass alles, was öffentlich zugänglich ist, für diesen Zweck unter die faire Nutzung fällt. Die RIAA, die dominierende Musikhandelsorganisation in den USA, verklagt derzeit Suno und Udio wegen „massiver Urheberrechtsverletzung“. (Offenlegung: Vox Media ist einer von mehreren Verlagen, die Partnerschaftsvereinbarungen mit OpenAI unterzeichnet haben. Unsere Berichterstattung bleibt redaktionell unabhängig.
Umfragen zeigen oft, dass die meisten Menschen es ablehnen, wenn KI-Unternehmen öffentliche Daten ohne Erlaubnis kopieren. Aber obwohl eine Reihe von hochkarätigen Gerichtsverfahren anhängig sind, ist noch nicht klar, wie sich das Rechtssystem auf Unternehmen auswirken wird, die ohne Erlaubnis die gesamte menschliche Kreativität ausschöpfen, geschweige denn sie entschädigen. Wenn diese Praktiken nicht bald eingedämmt werden, werden die skrupellosesten Akteure schnell an Macht gewinnen und sich die damit einhergehenden teuren Lobbyisten und Anwälte leisten können. (Gefühllosigkeit: Das gilt nicht nur für Maschinen!) Diese Probleme sind jetzt dringlich, weil sie mit der Zeit immer schwieriger zu lösen sind, und einige in diesem Bereich wehren sich dagegen. Ed Newton-Rex war Vizepräsident für Audio bei Stability AI, als das Unternehmen im vergangenen Herbst Stable Audio auf den Markt brachte, einen KI-gestützten Musik- und Soundgenerator.
Nur wenige Monate später verließ er das Unternehmen aufgrund dessen Haltung zur Datenerfassung: Das Team von Newton-Rex trainierte Stable Audio ausschließlich mit lizenzierten Daten, aber die Unternehmensleitung reichte beim US-amerikanischen Copyright Office eine öffentliche Stellungnahme ein, in der sie erklärte, dass die KI-Entwicklung „eine akzeptable, transformative und sozial vorteilhafte Nutzung bestehender Inhalte sei, die durch Fair Use geschützt sind”. Um unlizenziertes Scraping zu bekämpfen, gründete Newton-Rex Fairly Trained, das von KI-Unternehmen verwendete Datensätze überprüft und zertifiziert. Derzeit kann die gemeinnützige Organisation nur zertifizieren, ob die Inhalte im Datensatz eines Unternehmens ordnungsgemäß lizenziert wurden. Eines Tages wird sie in der Lage sein, auch feinere Details (z. B. ob der Künstler einer solchen Nutzung ausdrücklich zugestimmt oder sich einfach nicht dagegen ausgesprochen hat) und andere Aspekte wie die Verringerung von Verzerrungen zu berücksichtigen.
Als Musiker und Komponist von Chor- und Klaviermusik sieht er dies als Wendepunkt für die Branche. „Generative KI-Modelle konkurrieren in der Regel mit ihren Trainingsdaten“, sagte Newton-Rex. „Ehrlich gesagt haben die Menschen nur begrenzt Zeit, um Musik zu hören. Es gibt nur einen begrenzten Pool an Tantiemen. Je mehr Musik also durch diese Systeme entsteht, desto weniger geht an menschliche Musiker.“
Wie die Vorsitzende der FTC, Lina Khan, letzten Monat feststellte, könnte es sich um eine unlautere Wettbewerbsmethode handeln, die gegen das Kartellrecht verstößt, wenn eine Person Inhalte oder Informationen erstellt, die von einem KI-Unternehmen kopiert werden, und die vom KI-Generator produzierten Inhalte oder Informationen dann mit dem ursprünglichen Produzenten konkurrieren, „um ihn aus dem Markt zu drängen und ihm Geschäfte wegzunehmen“.
Marc Ribot ist einer von mehr als 200 Musikern, die Anfang dieses Jahres eine Erklärung der Artist Rights Alliance unterzeichnet haben, in der sie sich gegen diese Praxis aussprechen, und er ist aktives Mitglied des KI-Lenkungsausschusses der Music Workers Alliance. Ribot, der seit den 1970er Jahren als Gitarrist tätig ist, hat miterlebt, wie die Technologie die Branche geprägt hat, und beobachtet, wie die Budgets für Aufnahmen seit Jahrzehnten stetig schrumpfen.
„Ich bin in keiner Weise gegen die Technologie an sich“, sagt Ribot. Nachdem er seine Masteraufnahmen aus den 90er Jahren verloren hatte, nutzte er selbst KI, um einzelne Spuren aus dem finalen Mix zu isolieren. Aber er sieht den aktuellen Moment als entscheidende Gelegenheit, sich gegen die Technologie zu wehren, bevor die Unternehmen, denen sie gehört, zu groß werden, um sie zu regulieren. „Die eigentliche Trennlinie
zwischen nützlich und katastrophal ist sehr einfach“, sagte Ribot. „Es geht darum, ob die Produzenten der Musik oder was auch immer als Trainingsdaten eingegeben wird, ein echtes, funktionales Recht auf Zustimmung haben. [KI-Musikgeneratoren] spucken das aus, was sie konsumieren, und oft produzieren sie Dinge, die große Teile urheberrechtlich geschützten Materials enthalten. Das ist das Ergebnis. Aber selbst wenn sie das nicht täten, selbst wenn das Ergebnis keine Rechtsverletzung darstellt, ist die Eingabe selbst eine Rechtsverletzung.“
Ribot sagte, dass Musiker lange Zeit gegenüber KI gleichgültig waren, aber in den letzten Jahren habe er eine „radikale Veränderung in der Einstellung zu Fragen der digitalen Ausbeutung“ beobachtet, die durch die Streiks der SAG-AFTRA und der Writers Guild of America im letzten Jahr, laufende Gerichtsverfahren gegen KI-Unternehmen und ein besseres Verständnis des Überwachungskapitalismus und der bürgerlichen Freiheiten angeheizt wurde.
Während sich Musiker vor wenigen Jahren noch als Konkurrenten sahen – auch wenn der Kuchen kleiner wird, gibt es immer noch einige wenige Künstler, die reich werden können –, stellt KI eine Bedrohung für die gesamte Branche dar, von der selbst die Glücklichsten unter ihnen möglicherweise nicht profitieren werden.
Was KI leisten kann und könnte
Eines der ersten Beispiele für Musik, die von künstlicher Intelligenz geschaffen wurde, stammt aus dem Jahr 1956: ein Stück für Streichquartett, komponiert vom Computer ILLIAC I und programmiert von den Professoren LeJaren Hiller und Leonard Isaacson der University of Illinois in Urbana-Champaign.
Nach den technologischen Sprüngen der letzten Jahre nutzen Künstler wie Holly Herndon, Arca, YACHT, Taryn Southern und Brian Eno nun generative KI, um mit ihren kreativen Praktiken zu experimentieren. Die Tendenz der KI, „Halluzinationen” und andere unsinnige Ergebnisse zu produzieren, ist in anderen Kontexten zwar gefährlich, könnte aber in der Musik eine Quelle der Inspiration sein. Genauso wie andere Audiotechnologien durch ihre Dissonanz definiert werden – CD-Verzerrung, 8-Bit-Komprimierung, die gebrochene menschliche Stimme, die zu kraftvoll für die Kehle ist, die sie erzeugt, „Ereignisse, die zu wichtig für das Medium sind, das sie aufzeichnen soll”, wie Brian Eno in The Year with Swollen Appendices schreibt – ist KI-generierte Musik vielleicht am wertvollsten, wenn sie am ausgeprägtesten ist. Ivan Paz, ein Musiker mit einem Doktortitel in Informatik, entwickelt KI-Systeme für seine eigenen Live-Auftritte.
Ausgehend von einem leeren Bildschirm schreibt er in Echtzeit Code (der für das Publikum sichtbar angezeigt wird) und trainiert das Modell, indem er auf die von ihm erzeugten Klänge reagiert, die unerwartet, irritierend oder einfach nur katastrophal sein können. Das Ergebnis ähnelt ein wenig dem Spielen eines Instruments, aber auch dem Improvisieren mit einem anderen Musiker. „Wenn Ihr Algorithmus auf einem sehr niedrigen Niveau arbeitet, dann haben Sie das Gefühl, ein Musikinstrument zu spielen, weil Sie tatsächlich beispielsweise die Parameter der Synthese optimieren“, sagte Paz. „Wenn der Algorithmus jedoch die Form eines Musikstücks bestimmt, dann ist es, als würde man mit einem Agenten spielen, der bestimmt, was als Nächstes passiert.“
Für eine Ausstellung im Centre for Contemporary Culture in Barcelona Anfang dieses Jahres arbeitete Paz mit der Sängerin Maria Arnal zusammen, um ein Modell zur Klangfarbenwiedergabe für ihre Stimme zu entwickeln. Sie baten die Besucher, kurze Ausschnitte aus Liedern zu singen; das Modell mischte diese Stimmen dann mit denen von Arnal, um eine neue Gesangsstimme zu schaffen. In einem anderen Projekt trainierte Paz' Kollegin Shelley Knotts ein Modell anhand ihrer eigenen Kompositionen, um Wiederholungen in ihrer Arbeit zu vermeiden: Es analysiert ihre Musik, um Muster zu erkennen, schlägt aber statt der wahrscheinlichsten nächsten Bewegung eine weniger wahrscheinliche Fortsetzung vor.
Der nächste Schritt in der musikalischen Entwicklung der KI könnte in der Verarbeitungsgeschwindigkeit liegen. Live-Coding ist mit einigen Modelltypen möglich, aber andere benötigen zu viel Zeit für die Wiedergabe der Musik, um sie in einer Live-Show zu erzeugen. Elektronische Instrumente wie Synthesizer wurden ursprünglich entwickelt, um akustische Klänge zu imitieren, und haben im Laufe der Zeit ihren eigenen einzigartigen Charakter entwickelt. Paz sieht das ultimative Potenzial der generativen KI darin, neue Klänge zu schaffen, die wir uns derzeit nicht vorstellen können, geschweige denn produzieren können. In diesem Zusammenhang – in dem KI einen Interpreten unterstützt – ist es nicht wahrscheinlicher, dass KI einen Musiker „ersetzt“ als ein digitales Stimmgerät oder ein Delay-Pedal.
In anderen Bereichen der Musikindustrie wird KI jedoch für disruptivere Zwecke eingesetzt. KI kann zwar keine bessere Musik als ein Mensch schaffen (und wird dies auch nie können), aber sie kann jetzt akzeptable Musik viel schneller und in größerem Umfang erstellen – und „akzeptabel” ist oft die einzige Hürde, die ein Titel nehmen muss.
Meistens weiß man nicht, wer die Musik komponiert hat, die man hört. Der Jingle in einer Werbung. Die Hintergrundmusik in einem Film oder einer Fernsehsendung, einem Podcast oder einem Videospiel. Die Loops, die ein Hip-Hop-Produzent in einen Beat sampelt. Dies ist der Teil der Branche, der am ehesten durch generative KI auf den Kopf gestellt werden dürfte. Bloomberg berichtet, dass Lehrer Suno nutzen, um Musik-Lehrmittel zu erstellen. Gizmodo merkt an, dass die Zielgruppe für Adobes Project Music GenAI Control, einen weiteren KI-gestützten Musikgenerator, Menschen sind, die schnell und kostengünstig Hintergrundmusik erstellen möchten, wie Podcaster und YouTuber, mit der Möglichkeit, die Stimmung, den Ton und die Länge eines Tracks festzulegen.
Ob man es nun mag oder überhaupt bemerkt: Diese Art von Musik wurde in der Vergangenheit von Menschen geschaffen. Aber die automatisierte KI-Musikgenerierung könnte diese Musiker ihren Job kosten – und viele von ihnen nutzen dieses Einkommen, um ihre kreativ befriedigenden, aber finanziell weniger rentablen Aktivitäten zu finanzieren. Man wird vielleicht nie einen KI-Musiker auf der Bühne sehen, aber aufgrund dieser Technologie wird es wahrscheinlich weniger menschliche Musiker geben.
Einflussreiche Akteure der Musikindustrie sind bereits davon überzeugt, dass KI zu einem wichtigen Bestandteil ihres Geschäfts werden wird – sie machen sich jedoch Gedanken darüber, wer davon profitieren wird. Spotify wird KI-generierte Musik nicht einschränken, es sei denn, es handelt sich um eine offensichtliche Imitation, die Rechtsstreitigkeiten nach sich ziehen könnte. Universal Music Group (UMG) und YouTube haben den YouTube Music AI Incubator ins Leben gerufen, um gemeinsam mit UMG-Künstlern KI-Tools zu entwickeln. Gleichzeitig ist UMG auch eine von mehr als 150 Organisationen – darunter ASCAP, BMI, RIAA und AFL-CIO – in der Koalition „Human Artistry Campaign“, die sich für die Schaffung ethischer Rahmenbedingungen für den Einsatz von KI in kreativen Bereichen einsetzt. Sie wollen die Technologie nicht verbieten, aber sie wollen einen Anteil an den Ergebnissen.
Mit mehr als 100.000 neuen Titeln, die täglich auf Streaming-Dienste hochgeladen werden, haben digitale Streaming-Plattformen einen starken Anreiz, den Anteil der von Menschen geschaffenen, lizenzfreien Titel, die ihre Nutzer abspielen, zu reduzieren. Allein Spotify zahlte im letzten Jahr 9 Milliarden US-Dollar an Lizenzgebühren, was den Großteil seines Umsatzes von 14 Milliarden US-Dollar ausmacht. Das weltweit größte Musikstreaming-Unternehmen hat in der Vergangenheit die Verfügbarkeit und Sichtbarkeit kostenloser Titel erhöht und wird dies möglicherweise auch weiterhin tun. KI-gestützte Musikgeneratoren sind eine einfache Möglichkeit, kostenlose Musik zu erstellen, die echte, Lizenzgebühren verdienende Künstler aus beliebten Playlists verdrängen könnte, wodurch die Streaming-Einnahmen von den Künstlern weg und hin zur Plattform selbst verlagert würden.
Für etablierte Künstler gibt es eine neue Macht – und eine neue Gefahr. Nach einem Schlaganfall hat Country-Star Randy Travis Probleme beim Sprechen, geschweige denn beim Singen, aber mit Hilfe einer KI, die auf seinem bestehenden Katalog trainiert wurde, kann er seine Stimme digital reproduzieren.
Unterdessen kann ein anonymer Produzent eine glaubwürdig klingende Zusammenarbeit zwischen Drake und The Weeknd erstellen und Millionen von Streams erzielen. Im Mai geriet der Produzent Metro Boomin während Drakes realer Fehde mit Kendrick Lamar unter Beschuss. Metro Boomin veröffentlichte einen Beat mit KI-generierten Samples, den jeder verwenden konnte. Drake sampelte diesen dann und rappte darüber, woraufhin er den neuen Track auf Streaming-Diensten veröffentlichte. King Willonius, der Udio zur Erstellung des Original-Tracks verwendet hatte, den Metro Boomin remixte, beauftragte einen Anwalt, um die Rechte an seinen Beiträgen zu behalten.
Diese jüngsten Beispiele zeigen, wie schnell produzierte Musik gut gemachte Musik verdrängen kann. In der Streaming-Wirtschaft sind Volumen und Geschwindigkeit alles: Künstler werden dazu angeregt, Quantität statt Qualität zu produzieren.
„[Ein zukünftiger KI-generierter Hit] wird nicht etwas sein, das die Leute sich immer wieder anhören und studieren, wie sie es mit den großen Veröffentlichungen der Plattenära weiterhin tun“, sagte die Musikerin Jamie Brooks. Brooks hat Platten unter ihrem eigenen Namen und mit den Bands Elite Gymnastics und Default Genders veröffentlicht und bloggt in ihrem Newsletter The Seat of Loss über die Musikindustrie. „Aber es erzeugt immer noch Engagement, und so wäre eine Welt, in der das, was an der Spitze der Spotify-Charts steht, nicht von Dauer sein soll, sondern nur dazu dient, an diesem Tag zu unterhalten und nie wieder daran zu denken, eine gute Sache für all diese Unternehmen. Sie brauchen keine Kunst, um Geld zu verdienen.
“ Ein Großteil der heutigen Technologie dient in erster Linie der Nachahmung oder Vereinfachung, was den Amateurismus fördern kann. Durch Filesharing kann jeder, der über eine Festplatte und ein Modem verfügt, zwanghaft Platten sammeln, mit Handykameras kann jeder in der Menge die Show dokumentieren, und dank Audio-Streaming erhalten wir alle dynamische Playlists, die auf unsere Stimmung und unsere Werbekohorten zugeschnitten sind. Generative KI könnte auch Nicht-Experten das Musikschaffen erleichtern. Dies könnte nicht nur die Menge der Musik, die wir hören, radikal verändern, sondern auch unsere Beziehung zur Musik als Ganzes. Wenn das Schaffen eines Hits nicht mehr Aufwand erfordert als das Verfassen eines viralen Tweets, könnte ein Großteil der kreativen Energie, die derzeit in den sozialen Medien steckt, in die Erzeugung von Musik auf der Grundlage von Eingabeaufforderungen umgelenkt werden.
Brooks sieht darin ein regressives Phänomen, das das Unmittelbare über zeitlose Tiefe stellt und die Charts mit Audio-Memes und bahnbrechenden Singles für die anspruchsvollsten Hörer anführt, so wie einst die Radiowellen von leeren Songs wie „Take Me Out to the Ball Game” dominiert wurden, geschrieben von zwei Leuten, die noch nie bei einem Baseballspiel waren.
„Das ist die Richtung, in die diese Dienste die Musik treiben werden“, sagte Brooks. „Es wird überhaupt nicht mehr um Kreativität gehen. Zwischen der Funktionsweise dieser Modelle und den algorithmischen Feeds ist das alles nur noch ein großes Archiv der Vergangenheit. Das wird die Musik nicht weiterbringen. Es wird die Musik aus dem Zentrum der amerikanischen Popkultur in den Mülleimer befördern.“
Urheberrecht und KI-Musik
Eine der umstrittensten Fragen im Zusammenhang mit KI in der Musikindustrie betrifft die Frage, wer mit KI-generierten Werken Geld verdient, insbesondere wenn der Algorithmus mit vorhandenem urheberrechtlich geschütztem Material trainiert wird. Im März 2023 startete das US-amerikanische Copyright Office eine Initiative zur Untersuchung von KI-bezogenen Urheberrechtsfragen. Camp ist zuversichtlich, dass die Regulierungsbehörden eingreifen und eine Lösung finden werden, aber er befürchtet, dass das Problem aufgrund des US-amerikanischen Urheberrechtssystems, unter dem Künstler arbeiten, schwer zu lösen sein wird.
„Eine Reihe von Gesetzen und Präzedenzfällen, die letztendlich zu unserem modernen Urheberrechtssystem geführt haben, passen einfach nicht zu dem, was derzeit in der Musikbranche vor sich geht“, sagt Camp. „Ich bin der Meinung, dass Urheber das Urheberrecht haben, genannt und vergütet werden sollten. Aber auch hier ist das gesamte System, mit dem wir das erreichen, sehr veraltet.“
KI-Musik befindet sich noch immer in einer rechtlichen Grauzone, was die Frage aufwirft, ob ein Kompromiss möglich ist, bei dem Künstler genannt und vergütet werden und der Verwendung ihrer Werke oder Abbildungen durch KI zustimmen, ohne das Potenzial für musikalische Kreativität mithilfe von KI-Technologie einzuschränken. In gewisser Weise ist Kunst ein Derivat anderer Kunst, und die Grenze zwischen Inspiration und Diebstahl ist derzeit verschwommen. Einige Plattenlabels beginnen, sich zu wehren.
Im Mai 2023 forderte die Universal Music Group Streaming-Dienste auf, die Verwendung von KI-generierter Musik zu blockieren, mit der Begründung, dass diese die Musik ihrer Künstler zum Trainieren ihres Algorithmus verwende, und dass sie gegebenenfalls rechtliche Schritte einleiten werde. Spotify reagierte darauf mit der Entfernung von 7 Prozent der KI-generierten Musik auf seiner Plattform, was Zehntausenden von Songs entspricht. Im Juli 2023 forderte UMG den Kongress auf, eine landesweite Richtlinie zum Schutz von Urhebern vor KI-gestützten Urheberrechtsverletzungen zu erlassen. Das Plattenlabel ist eines von 40 Mitgliedern der Human Artistry Campaign, einer Organisation, die sich für den verantwortungsvollen Einsatz von KI einsetzt.
In den Vereinigten Staaten neigt der derzeitige Rechtsrahmen dazu, traditionelle Urheberrechtsgesetze auf KI anzuwenden, trotz ihrer Unterschiede zum menschlichen Schaffensprozess. Musikwerke, die ausschließlich von KI geschaffen wurden, sind jedoch nicht urheberrechtlich geschützt. Im Compendium of Practice des Copyright Office erklärte das Copyright Office, dass es kein Urheberrecht für „Werke ohne menschliche Urheberschaft” gewähren werde und dass „das Amt keine Werke registrieren werde, die von einer Maschine oder durch einen rein mechanischen Prozess geschaffen wurden, der zufällig oder automatisch ohne kreativen Input oder Eingriff eines menschlichen Urhebers abläuft”. Im Februar 2022 lehnte die Copyright Review Board einen Antrag auf Urheberrechtsschutz für ein von KI generiertes Kunstwerk mit der Begründung ab, dass es „nicht die erforderliche menschliche Urheberschaft aufweise, die für einen Urheberrechtsanspruch notwendig ist”.
Die Situation in der Europäischen Union (EU) ist ähnlich wie in den USA, da auch ihr Rechtsrahmen die Rolle der menschlichen Beteiligung an urheberrechtlich geschützten Werken betont. Nach Angaben des Amtes der Europäischen Union für geistiges Eigentum und der jüngsten Rechtsprechung des Gerichtshofs der Europäischen Union erfordert das Kriterium der Originalität, dass ein Werk eine eigene geistige Schöpfung des Urhebers ist, die dessen Identität widerspiegelt, was durch die während der Schaffung getroffenen kreativen Entscheidungen belegt wird und ein bestimmtes Maß an menschlicher Beteiligung erfordert. Das Projekt „reCreating Europe“, das aus dem Forschungs- und Innovationsprogramm „Horizont 2020“ der Europäischen Union finanziert wird, befasst sich mit den Herausforderungen, die durch KI-generierte Inhalte, einschließlich Musik, entstehen, und bietet Rechtssicherheit und einen ausgewogenen Schutz, der Innovationen fördert und gleichzeitig die Urheberrechtsvorschriften respektiert. Die Anerkennung von AIVA stellt eine bedeutende Abkehr von traditionellen Ansichten über Urheberschaft und Urheberrecht im Bereich der Musikkomposition dar und ermöglicht es KI-Interpreten, Musik zu veröffentlichen und Tantiemen zu erhalten. Diese Anerkennung macht AIVA zu einem Pionier bei der formellen Anerkennung von KI in der Musikproduktion.
Jüngste Fortschritte im Bereich der künstlichen Intelligenz durch Gruppen wie Stability AI, OpenAI und Google haben zu einer Vielzahl von Klagen wegen Urheberrechtsverletzungen gegen generative Technologien, darunter auch KI-Musik, geführt. Wenn diese Klagen erfolgreich sind, werden die Datensätze der maschinellen Lernmodelle, die diese Technologien antreiben, auf den öffentlichen Bereich beschränkt sein.
Drake und The Weeknd
Zwar gibt es nicht viele Präzedenzfälle für das Klonen von Stimmen, doch für Prominente kann dies unter ihr Recht auf Öffentlichkeit fallen, da es eine Verletzung ihres Images, ihres Namens und ihrer Stimme darstellt. Ein wichtiges Beispiel aus dem letzten Jahr war, als ein TikToker namens Ghostwriter KI einsetzte, um ein gefälschtes Duett zwischen Drake und The Weeknd mit dem Titel „Heart on My Sleeve” zu erstellen. Der Song wurde inzwischen entfernt, aber verschiedene Versionen kursieren immer noch im Internet.
„Einerseits könnte man argumentieren, dass es sich um ein Originalwerk handelt”, sagt Wears. „Andererseits könnte es als eine Form der Rechtsverletzung angesehen werden, da die KI durch die Analyse seines Katalogs gelernt hat, Texte im Stil von Drake zu schreiben, ohne dessen ausdrückliche Genehmigung. Ein weiteres Problem ist die unbefugte Verwendung der Namen und Konterfeis von Künstlern.”
Die Möglichkeit, mit Hilfe von KI den Namen und das Aussehen einer Person zu kopieren, beunruhigt die Musikindustrie sowie die Unterhaltungsindustrie insgesamt. Eine der Hauptforderungen des aktuellen Streiks der SAG-AFTRA ist es, Kreative davor zu schützen, dass ihre Werke zum Trainieren von KI-Generatoren verwendet werden, und Schauspieler davor, dass ihr Aussehen und ihre Stimmen ohne ihre Zustimmung kopiert werden.
Ethische Fragen im Zusammenhang mit KI
Das Urheberrecht ist nur eines von vielen ethischen Problemen im Zusammenhang mit KI, und es ist wichtig, sich vor Augen zu halten, dass diese Technologie und ihre Entwicklung nicht ohne Folgen sind.
Ein unmittelbares Problem ist die Voreingenommenheit beim Training eines Datensatzes. Ein Beispiel ist der Rapper FN Meka, der 2022 einen Vertrag mit Capitol Music Group unterzeichnete, diesen aber später aufgrund der Aufrechterhaltung rassistischer Stereotypen kündigte.
„Eines der großen Probleme ist ‚Garbage in, garbage out‘“, sagt Camp. „Wenn wir diese Sprachmodelle, Bildgeneratoren oder Musikgeneratoren mit Daten trainieren, die von Natur aus voreingenommen und rassistisch sind, dann werden alle unsere Anforderungen diese Stereotypen perpetuieren. Wir müssen sicherstellen, dass wir gute Daten eingeben und diese überwachen.“
Die Überwachung dieser Daten ist jedoch auch nicht ohne Nachteile. Ein weiteres ethisches Problem ist der Trainingsprozess, das sogenannte „verstärkende Lernen“, bei dem menschliches Feedback zu einer Reihe von verstörenden Inhalten gegeben wird. In einer kürzlich erschienenen Folge des Wall Street Journal-Podcasts „The Journal“ wird ein kenianischer Datenarbeiter vorgestellt, der neben vielen anderen dazu beigetragen hat, ChatGPT zu trainieren, „richtig von falsch“ zu unterscheiden, was jedoch auf Kosten seiner psychischen Gesundheit ging.
„Im Grunde genommen geht es darum, Antworten mit Daumen hoch oder Daumen runter zu bewerten“, sagt Camp. „Ist diese Antwort unangemessen? Ist sie zu gewalttätig, zu anschaulich oder zu verstörend? OpenAI hat diese Arbeit an Menschen in Kenia ausgelagert und ihnen 2 Dollar pro Stunde dafür gezahlt, diese Antworten zu lesen. Stellen Sie sich also vor, Sie würden 2 Dollar pro Stunde dafür bekommen, zur Arbeit zu erscheinen und einige der schrecklichsten, psychologisch verstörendsten Texte zu lesen, und das 10 Stunden lang, und dann gehen Sie nach Hause und alles schwirrt Ihnen noch im Kopf herum. Es gibt also viele Mängel in der Art und Weise, wie Würstchen derzeit hergestellt werden.“
Musik-Deepfakes
Eine noch relativ neue Entwicklung der KI in der Musik ist die Verwendung von Audio-Deepfakes, um die Texte oder den Musikstil eines bestehenden Songs so zu fälschen, dass sie der Stimme oder dem Stil eines anderen Künstlers ähneln. Dies hat viele Bedenken hinsichtlich der Rechtmäßigkeit der Technologie sowie der Ethik ihrer Verwendung aufgeworfen, insbesondere im Zusammenhang mit der künstlerischen Identität. Darüber hinaus hat es auch die Frage aufgeworfen, wem diese Werke zugeschrieben werden. Da KI keine eigene Urheberschaft haben kann, gehen aktuelle Spekulationen davon aus, dass es keine klare Antwort geben wird, bis weitere Entscheidungen über Machine-Learning-Technologien im Allgemeinen getroffen werden. Die jüngsten Präventivmaßnahmen wurden von Google und der Universal Music Group entwickelt, die Lizenzgebühren und die Zuordnung von Urheberrechten berücksichtigt haben, um Produzenten das Kopieren der Stimmen und Stile von Künstlern zu ermöglichen.
„Heart on My Sleeve”
Im Jahr 2023 schuf ein Künstler namens ghostwriter977 einen musikalischen Deepfake namens „Heart on My Sleeve”, der die Stimmen von Drake und The Weeknd klonte, indem er eine Reihe von Gesangsspuren der jeweiligen Künstler in einen Deep-Learning-Algorithmus einspeiste und so ein künstliches Modell der Stimmen der beiden Künstler schuf, das mit den Original-Referenzstimmen und den Originaltexten abgeglichen werden konnte. Der Titel wurde für die Grammy-Nominierung in den Kategorien „Bester Rap-Song“ und „Song des Jahres“ eingereicht. Er verbreitete sich viral, wurde auf TikTok populär und erhielt positive Resonanz vom Publikum, was zu seiner offiziellen Veröffentlichung auf Apple Music, Spotify und YouTube im April 2023 führte. Viele glaubten, dass der Titel vollständig von einer KI-Software geschrieben worden sei, aber der Produzent behauptete, dass das Songwriting, die Produktion und die Originalstimmen (vor der Konvertierung) weiterhin von ihm stammten. Der Song wurde später von der Grammy-Nominierungsliste gestrichen, da er die Anforderungen für eine Grammy-Nominierung nicht erfüllte. Der Track wurde von Universal Music Group von allen Musikplattformen entfernt. Der Song war ein Wendepunkt für das Klonen von Stimmen mithilfe künstlicher Intelligenz, und seitdem wurden Modelle für Hunderte, wenn nicht Tausende von beliebten Sängern und Rappern erstellt.
„Woher das kam“
Im Jahr 2013 erlitt der Country-Sänger Randy Travis einen Schlaganfall, der ihn unfähig machte zu singen. In der Zwischenzeit tourte der Sänger James Dupré in seinem Namen und sang seine Songs. Travis und sein langjähriger Produzent Kyle Lehning veröffentlichten im Mai 2024 einen neuen Song namens „Where That Came From”, Travis' erster neuer Song seit seinem Schlaganfall. Die Aufnahme nutzt künstliche Intelligenz, um Travis' Stimme nachzubilden, die aus mehr als 40 bestehenden Gesangsaufnahmen sowie Aufnahmen von Dupré zusammengestellt wurde.
KI-Musiktools
Nachdem wir nun erklärt haben, was KI ist und welche Nachteile sie hat, können wir uns mit den vorhandenen KI-Musiktools befassen. Auf der Berklee Onsite 2023, einer jährlichen Musikkonferenz auf dem Campus des Berklee College of Music in Boston, stellte Wares einige KI-Musiktools vor, die man kennen sollte; einige davon kann man sofort erlernen, andere sollte man sich vielleicht nur ansehen.
BandLab SongStarter
Die SongStarter-App von BandLab ist ein KI-gestützter Songgenerator, mit dem Sie ein Genre auswählen, Songtexte (und Emojis) eingeben können und der Ihnen dann kostenlose Ideen liefert. Diese Ideen können Sie dann in die Studio-Funktion einbringen, um sie zu Ihren eigenen zu machen. Das ist eine großartige Möglichkeit, um mit einem Song zu beginnen, wenn Sie zunächst Inspiration brauchen.
Midjourney
Als einer der beliebtesten KI-gestützten Bildgeneratoren kann Midjourney zur Erstellung von Albumcovern, Songcovern, Postern, Spotify-Loops, Merchandise-Bildern und vielem mehr verwendet werden. Was es von einigen anderen KI-gestützten Bildgeneratoren unterscheidet, ist sein surrealer, traumähnlicher Stil, der sich möglicherweise besser für Musikprojekte eignet. Das Programm ist einfach zu bedienen, aber es gibt eine gewisse Lernkurve. Wie bei vielen neuen Tech-Programmen sollten Sie sich vor dem Einstieg unbedingt ein paar Tutorials ansehen.
Mix Monolith
Das Mix Monolith-Plugin ist ein automatisches Mischsystem von AYAIC, das Ihren Mix ausgleicht. In dem Artikel von Mix Online sagt der Entwickler: „Sein Zweck ist es nicht, automatisch einen fertigen Mix zu erstellen, sondern grundlegende Gain-Beziehungen zwischen den Tracks herzustellen und für die richtigen Gain-Anpassungen zu sorgen.“
LANDR AI Mastering
Mit dem AI-Mastering-Tool von LANDR können Sie Ihren Track per Drag & Drop in das Programm ziehen, das ihn dann analysiert und einfache Optionen für Stil und Lautstärke anbietet. Sobald Sie diese beiden Optionen ausgewählt haben, mastert das Programm Ihren Track und bietet Ihnen weitere Optionen für Dateityp und Vertriebsmethode. LANDR kann sich mit über 20 Millionen Tracks rühmen, die mit ihrem Programm gemischt wurden.
AIVA
AIVA ist ein Programm mit künstlicher Intelligenz, das mit über 30.000 legendären Filmmusiken aus der Geschichte trainiert wurde. Sie können aus verschiedenen voreingestellten Musikstilen wählen, von modernem Kino bis zum Kino des 20. Jahrhunderts, von Tango bis Jazz. Anschließend haben Sie die Möglichkeit, Tonart, Taktart, Tempo, Instrumentierung, Dauer und mehr einzugeben. Wenn Sie nicht wissen, was Sie eingeben sollen, übernimmt AIVA das für Sie. Schließlich können Sie einen Track generieren, die Instrumentierung anpassen und eine Vielzahl von Dateitypen hochladen. Als Abonnent haben Sie eine vollständige Urheberrechtslizenz für alles, was Sie erstellen.
ChatGPT für Musiker
Eines der am weitesten verbreiteten KI-Tools, ChatGPT von OpenAI, bietet Musikern eine Vielzahl von Anwendungsmöglichkeiten. Das Unternehmen wird derzeit von der Federal Trade Commission untersucht, daher sollten Sie Vorsichtsmaßnahmen hinsichtlich der Informationen treffen, die Sie mit ChatGPT teilen, und alle Fakten, die Sie von ChatGPT erhalten, überprüfen.
Vor diesem Hintergrund hat das Programm jedoch das Potenzial, den Zeitaufwand für Aufgaben zu reduzieren, die Sie vom eigentlichen Musizieren abhalten. Wares und Camp experimentieren seit der Veröffentlichung von ChatGPT mit dem Programm und haben einige konkrete Tipps, die für Musiker und Musikprofis nützlich sein könnten.
Soziale Medien können für einen Amateurmusiker einen enormen Zeitaufwand bedeuten, und ChatGPT kann dabei helfen, diese Belastung zu verringern. Wares sagt, dass Sie damit beginnen können, ChatGPT mitzuteilen, was für ein Künstler Sie sind, welches Musikgenre Sie spielen und was Ihre Hobbys und Interessen sind. Anschließend können Sie 30 Inhalte für die nächsten 30 Tage auf TikTok, Instagram, Facebook oder einer anderen von Ihnen genutzten Social-Media-Plattform anfordern. Sie können nicht nur Ideen für Social-Media-Inhalte anfordern, sondern ChatGPT auch bitten, optimierte Bildunterschriften und Hashtags zu erstellen.
Wenn Musiker auf Tournee gehen, beauftragen sie in der Regel jemanden mit der Erstellung eines technischen Riders, in dem alle Details aufgeführt sind, die für die Durchführung ihrer Show erforderlich sind. Dazu können Ausrüstung, Bühnenaufbau, Tontechnik, Beleuchtung, Bewirtung, Auftrittsverträge, Tourneepläne, Veranstaltungsorte, Ticketpreise und vieles mehr gehören. Wares sagt, dass ChatGPT diesen technischen Rider schreiben könnte, und hat kürzlich mit der Band zusammengearbeitet, um ihre Tournee mit Hilfe dieser Technologie zu planen.
„Wir begannen mit der Erstellung ihres technischen Riders, der Backline-Anforderungen, eine detaillierte Liste der Eingänge und sogar spezifische Mikrofonempfehlungen enthielt, alles basierend auf ein paar einfachen Tipps“, sagt Wares. „Dann baten wir um Empfehlungen für die Tournee-Route im Nordosten, wie viel wir für Tickets verlangen sollten und um Merchandise-Ideen, die auf den besonderen Interessen und der Demografie der Fangemeinde der Band basieren. Was sonst Tage gedauert hätte, war in weniger als einer Stunde erledigt.“
Wenn Sie Hilfe beim Schreiben von Songtexten benötigen, Inspiration brauchen oder einige Wortvorschläge verwenden möchten, kann ChatGPT ein nützliches Werkzeug zum Songschreiben sein. Camp nennt als Beispiel die Zusammenarbeit mit der ehemaligen Berklee-Studentin Julia Perry (die sie für einen Artikel in Berklee Now über KI und Musik interviewt hat), um mit ChatGPT Songideen zu generieren.
„Wir sprachen darüber, wie magisch das Universum ist und wie sie diese tiefe, unergründliche Wahrheit über das Universum ausdrücken wollte“, sagt Camp. „Ich habe im Grunde alles, was sie gesagt hat, in zwei oder drei Absätzen zusammengefasst und [ChatGPT] gebeten, mir 20 Zeilen für den Anfang dieses Songs zu geben.“
Am Ende verwendeten sie eine der 20 Optionen als Ausgangspunkt für einen neuen Song.
Content-Erstellung
ChatGPT kann bei einer Vielzahl von Aufgaben im Bereich Content Writing und Copywriting helfen, sei es beim Verfassen einer Pressemitteilung, einer Biografie mit unterschiedlicher Zeichenanzahl, einer Strategie für die Veröffentlichung eines Albums, eines Blogbeitrags, eines Website-Textes, einer E-Mail und vielem mehr.
Vereinbarungen und Verträge
In einer idealen Welt würden Sie alle Ihre Vereinbarungen und Verträge von einem Anwalt verfassen und prüfen lassen, aber das ist nicht immer realistisch oder erschwinglich. In einigen Fällen ist es vielleicht besser, ChatGPT einen Vertrag entwerfen zu lassen, als gar nichts zu haben. Dies kann für Managementverträge, Bandverträge, Split Sheets, Auftrittsverträge und vieles mehr genutzt werden. Aber auch hier ist ein Anwalt für Unterhaltungsrecht immer vorzuziehen, wenn dies möglich ist.
Wo sind die Leute?
Der aktuelle Stand der KI-generativen Musik ist eher ein Mix-and-Match als eine echte Generierung. Es handelt sich nicht wirklich um eine Tribute-Band, sondern eher um einen expansiven Ansatz zur Wiederbelebung. Sie kann nur Klänge aus den Trainingsdaten erzeugen, und obwohl sie diese Elemente auf neue Weise kombinieren, mischen und brechen kann, kann sie darüber hinaus nicht wirklich experimentieren.
Musiker werden Ihnen sagen, dass es nur eine begrenzte Anzahl von Noten gibt, die gespielt werden können, oder dass alle Klänge nur eine Frage der Frequenz und Wellenlänge sind und daher rein musikalisch nur eine begrenzte Anzahl von Möglichkeiten besteht. Aber Musik ist mehr als nur das Arrangieren von Akkorden oder Rhythmen, genauso wie das Erstellen von Rezepten mehr ist als nur die Auswahl aus einer begrenzten Liste von Zutaten und Techniken.
Ribo ist ein Gitarrist, der für seine Experimentierfreudigkeit und seine Fähigkeit bekannt ist, unterschiedliche Einflüsse zu nutzen und zu etwas Neuem zu vermischen. Auf den ersten Blick klingt das sehr nach dem Wertversprechen der Befürworter generativer KI, aber er sagt, dass es grundlegende Unterschiede zwischen einem Menschen und einer Maschine gibt, die dasselbe tun.
„Ich kann kein 12-taktiges Blues-Solo spielen, ohne jemanden zu zitieren“, sagte Ribot. „Wir müssen das Privileg der Menschenrechte gewähren, um das zu tun. Ich bin ziemlich gut darin, zu erkennen, wann ich eine Grenze überschreite. Ich weiß, dass ich diesen Teil eines Songs von Charlie Parker zitieren kann, ohne dass es ein Song von Charlie Parker ist, und ich weiß, dass ich es so sehr vermasseln kann, dass es trotzdem cool ist.“
Ribots Album Rootless Cosmopolitans aus dem Jahr 1990 enthält ein Cover von Jimi Hendrix' „The Wind Cries Mary“. Als Hommage an Hendrix ist Ribots Version abstrakt, der Text wird über eine kratzige Gitarre gebellt und hat außer dem Gitarrenton wenig Ähnlichkeit mit dem Originalsong, wobei Hendrix' Melodie, Akkorde und Rhythmus weggelassen werden. Dennoch hat Ribot es als Cover auf dem Album aufgeführt und zahlt für jeden Verkauf oder Stream eine mechanische
Lizenzgebühr. „Dieses System muss erhalten bleiben und es lohnt sich, dafür zu kämpfen“, sagte Ribot. „Wir bekommen keinen Mindestlohn, wenn wir auf einer Platte sitzen. Wir haben keine Garantien, selbst wenn wir auftreten. [Das Urheberrecht] ist buchstäblich das einzige wirtschaftliche Recht, das wir haben.“
Ribots diskursive Praxis ist Teil einer langen Tradition: Musik als Medium definiert sich durch das Bewusstsein und den Respekt für das, was vorher war, was noch wachsen und sich verändern kann und nicht nur recycelt wird. „Was den Wandel in der Musik vorantreibt, sind Veränderungen in der Stimmung der Menschen, ihre Bedürfnisse und Möglichkeiten, was sie lieben und was sie ärgert. Die Menschen können lernen, Gefühle, Ereignisse und die Fülle ihres Lebens aufzunehmen und sie auf ihrer Gitarre oder ihrem Klavier darzustellen. Das Feld erweitert sich, wenn die Erfahrungen zunehmen, die Geschichte länger wird und Bands entstehen, die Ausdruck und Ideen brauchen.“
Historisch gesehen gab es immer einen heiligen Vertrag zwischen Musikern und Publikum, der Authentizität und Menschlichkeit impliziert. Von den Millionen Taylor-Swift-Fans, die die Eras Tour besucht haben, könnten viele einen detaillierten Bericht über ihr Privatleben geben. Das Gleiche gilt für das Publikum von Beyoncé, Harry Styles, Elton John oder anderen großen Tournee-Künstlern. Man braucht eine echte Person, um Stadien ausverkaufen zu können. Niemand würde sich „The Masked Singer“ ansehen, wenn er nicht glauben würde, die Darsteller zu erkennen, wenn sie entmaskt werden.
Wenn wir bewusst Musik hören, hören wir oft hermeneutisch zu, als wäre der Song ein Tor zu einem größeren Raum des Verständnisses für die Erfahrungen und Perspektiven anderer Menschen. Nehmen wir Nirvana als Beispiel. Da die ästhetische Abweichung des Grunge genau zum richtigen Zeitpunkt auf die moderne Studiotechnologie traf, fand Nevermind nicht nur wegen seines Sounds ein großes Publikum, sondern auch, weil Kurt Cobains persönlicher Werdegang – der kometenhafte Aufstieg und tragische frühe Tod eines ängstlichen Vorstadtjungen, der durch die offene Infragestellung (einiger) Popstar-Konventionen zum Rock-Superstar wurde – bei den Menschen Anklang fand.
Obwohl die Band die Musiker würdigte, die sie inspiriert hatten – die Pixies, die Gap Band und andere –, sind die Alben von Nirvana letztlich das einzigartige Produkt der Entscheidungen von Cobain, seinen Bandkollegen und ihren Mitwirkenden, ein Ausdruck und eine Reflexion ihrer Erfahrungen und Ideale. Kunst ist per Definition das Produkt menschlicher Entscheidungen.
Einige KI-generierte Musik behält, wie andere Formen des musikalischen Schaffens, immer noch dieses menschliche Element bei: Da Künstler wie Ivan Paz und Shelley Knotts stark auf automatisierte Modelle angewiesen sind, erstellen sie das System, treffen unzählige Entscheidungen darüber, wie es funktioniert, und entscheiden, was mit den von ihm erzeugten Klängen geschehen soll.
Aber die KI-Musik, die menschliche Musiker bedroht, die nur wenige Worte benötigt und daraus ganze Songs produziert, ist von Natur aus begrenzt, da sie nur nach innen und rückwärts in der Zeit aus ihren Daten schauen kann, niemals nach außen und somit niemals nach vorne. Die Gitarre wurde vor Jahrhunderten erfunden, aber ein KI-Modell, das mit Musik aus der Zeit vor Sister Rosetta Tharpes Blütezeit in den 1940er Jahren trainiert wurde, wird wahrscheinlich nichts produzieren, was einer E-Gitarre ähnelt. Hip-Hop ist ein Musikstil, der auf dem Sampling und der Neuverpackung der Werke anderer Künstler basiert (manchmal in Formen oder Kontexten, die dem ursprünglichen Künstler nicht gefallen), aber ein Modell, das mit Musik vor 1973 trainiert wurde, wird nichts dergleichen schaffen können.
Es gibt unzählige Gründe, warum Menschen Musik hören, aber es gibt ebenso viele Gründe, warum Menschen Musik machen. Seit Tausenden von Jahren machen Menschen Geräusche füreinander, und die meiste Zeit davon wäre es töricht gewesen, sich vorzustellen, damit seinen Lebensunterhalt zu verdienen – es wäre unmöglich gewesen, überhaupt daran zu denken, sie zu verstärken, geschweige denn aufzunehmen. Die Menschen machten trotzdem Musik.
Hier besteht eine Spannung, die schon vor der KI bestand. Einerseits glauben Plattenlabels und digitale Streaming-Plattformen, weitgehend zu Recht, dass der Musikmarkt vor allem Anerkennung will, sodass ein Großteil des Geldes aus dem Verkauf der Kataloge etablierter Künstler stammt. Einem Bericht zufolge machten diese Verkäufe im Jahr 2021 70 Prozent des US-Musikmarktes aus. Die Chartstürmer klingen immer ähnlicher. Die Algorithmen der Streaming-Plattformen spielen oft immer wieder dieselben Songs.
Andererseits gibt es ein intrinsisches menschliches Bedürfnis nach Überraschung, Innovation und Grenzüberschreitung. Das ist für jeden Menschen unterschiedlich. Die Ziele eines großen Unternehmens – im Wesentlichen seine Größe und sein Überblick – unterscheiden sich von denen seiner Nutzer insgesamt und der einzelnen Nutzer, und je größer seine Nutzerbasis wird, desto mehr tendiert es zur Automatisierung. Weder KI-Musikgeneratoren noch dynamisch generierte Playlists oder andere algorithmische Vorhersagesysteme sind von Natur aus gut oder schlecht: Die Ergebnisse hängen ganz davon ab, wer sie betreibt und zu welchem Zweck.
Aber was auch immer geschieht, kein Unternehmen wird jemals ein Monopol auf Musik haben. Keine Spezies hat das. Vögel tun es. Bienen tun es. Wale im Meer tun es. Für das menschliche Ohr ist einiges davon sehr schön. Aber trotz all dieser natürlichen Melodien, all der Musik, die Menschen bereits geschaffen haben, und all der Musik, die KI entweder mitgestalten oder selbst schaffen wird, bleibt der menschliche Drang, etwas zu schaffen und uns auszudrücken, bestehen. Musik existiert in unserer Welt aus anderen Gründen als kommerziellen.
Meistens ist der Grund ganz einfach: Eine Person oder eine Gruppe von Menschen hat beschlossen, dass sie existieren soll, und hat sie dann geschaffen. Sie wird weiterhin existieren, egal wie viel Klangschlamm die Maschinen auch produzieren mögen.
Annehmen oder ablehnen?
Eines der wiederkehrenden Themen im Zusammenhang mit KI und anderen neuen Technologien ist, dass sie in Zukunft einen großen Teil der Musikindustrie (und der meisten anderen Branchen) ausmachen werden und dass es den zukünftigen Führungskräften der Branche nicht helfen wird, sie zu ignorieren.
„Ich glaube, dass KI meinen Schülern helfen kann, produktiver zu sein, ihren kreativen Prozess zu unterstützen und sich auf das zu konzentrieren, was für sie am wichtigsten ist, nämlich Musik zu machen und aufzutreten oder neue Geschäftsideen zu entwickeln“, sagt Wears. „Als verantwortungsbewusster Pädagoge muss ich jedoch sicherstellen, dass meine Schüler nicht zu abhängig von diesen Tools werden, und ich bin ständig auf der Suche nach Möglichkeiten, KI zu nutzen, um ihre Fähigkeiten zum kritischen Denken zu fördern.“
Camp stimmt dem zu und ermutigt die Menschen, das zu tun, womit sie sich wohlfühlen, während sich die KI weiterentwickelt.
„Ich ermutige Sie auf jeden Fall, wenn Sie auf dem Laufenden bleiben und Technologie nutzen möchten, um das voranzutreiben, wofür Sie auf dieser Welt sind, dann ja, machen Sie mit“, sagt Camp. „Aber wie ich schon sagte, ich habe Freunde, die Festnetzanschlüsse nutzen. Ich habe Freunde, die lieber Vinylplatten kaufen. KI ist da. Sie hat einen enormen Einfluss. Man muss sie nicht nutzen, aber viele Menschen entscheiden sich dafür.“
KI bei Berklee Online
Vor kurzem hat Berklee Online eine Initiative namens ARIA ins Leben gerufen: AI-enhanced Realities & Immersive Applications (KI-gestützte Realitäten und immersive Anwendungen). Das Projekt wird von Gabriel Raifer Cohen geleitet, stellvertretender Direktor für Support und Audiotechnologie bei Berklee Online und Absolvent des Berklee College of Music.
„Wie zuvor Taschenrechner, Computer, das Internet und Suchmaschinen ist auch GenAI nicht mehr wegzudenken“, sagt Raifer Cohen. „Die Tatsache zu ignorieren, dass all diese Tools leicht verfügbar sind, ist den Studierenden gegenüber unfair. ... Den Studierenden beizubringen, wie sie diese Technologien als Werkzeuge zur Selbstermächtigung am besten und verantwortungsbewusstesten einsetzen können, ist vielleicht lohnender, als zu versuchen, sie zu bekämpfen.“
Und nur weil KI in Zukunft eine wichtige Rolle in der Musikindustrie spielen wird, heißt das nicht, dass wir diese neue Technologie nicht kritisieren oder uns für Sicherheitsmaßnahmen einsetzen können. „Gleichzeitig müssen wir uns gegen die Ausbreitung von Mittelmäßigkeit und kreativer Unsensibilität wehren, die durch den gedankenlosen Einsatz von GenAI gefördert werden, und dabei ethisch bewusst und proaktiv bleiben“, sagt er. „Das ist keineswegs einfach, aber wir müssen bedenken, dass die Entwicklungen im Bereich der KI auch Chancen für potenziell transformative Bildungserfahrungen eröffnen.“ Raifer Cohen sagt, dass Berklee Online im Rahmen der ARIA-Initiative diese neuen Tools weiter erforschen wird und dass die Schule erst nach deren Erprobung und gründlicher Untersuchung deren Einsatz im Unterricht in Betracht ziehen wird. „Letztendlich dürfen wir nicht vergessen, dass all diese leistungsstarken Tools für Schüler und Lehrer, Zuschauer und Schöpfer genau das sind: Tools“, sagt Raifer Cohen.








