Sztuczna inteligencja w muzyce

Author Avatar
Author
Antony Tornver
Published
February 25, 2025
Sztuczna inteligencja w muzyce

Możliwości muzyki opartej na sztucznej inteligencji były od lat przedmiotem dyskusji w branży muzycznej, ale dopiero wraz z pojawieniem się ChatGPT w 2022 r. szersza debata na temat sztucznej inteligencji zaczęła się rozprzestrzeniać w głównym nurcie. Obecnie jesteśmy w punkcie, w którym niektórzy muzycy i profesjonaliści z branży muzycznej są zafascynowani możliwościami muzyki opartej na sztucznej inteligencji, podczas gdy inni podchodzą do niej z nieufnością, zwłaszcza że regulacje prawne w tej dziedzinie są wciąż w powijakach. Badanie przeprowadzone przez firmę zajmującą się dystrybucją muzyki Ditto wykazało, że prawie 60 procent ankietowanych artystów twierdzi, że wykorzystuje sztuczną inteligencję w swoich projektach muzycznych, podczas gdy 28 procent twierdzi, że nie używałoby sztucznej inteligencji do celów muzycznych.

Christopher Wears, zastępca kierownika wydziału biznesu muzycznego/zarządzania w Berklee College of Music, jest zwolennikiem technologii muzycznej opartej na sztucznej inteligencji. W 2016 roku napisał nawet pracę magisterską na temat tego, dlaczego Warner Music powinno zainwestować w sztuczną inteligencję (uwaga, spoiler: tak właśnie zrobiło, podobnie jak wszystkie inne duże wytwórnie). Wares wprowadził sztuczną inteligencję do swoich kursów w Berklee i spotkał się z mieszanymi reakcjami studentów.
„Niektórzy z moich studentów uwielbiają sztuczną inteligencję i już wykorzystują ją na różne sposoby, podczas gdy inni nie chcą mieć z nią nic wspólnego” – mówi Wares. „W rozmowach toczą się gorące dyskusje, a ja staram się zachęcić moich studentów do zaakceptowania tej technologii i znalezienia nowych sposobów jej wykorzystania w celu usprawnienia procesów twórczych”.

Innym autorem kursu i instruktorem o podobnym nastawieniu jest Ben Camp, profesor nadzwyczajny songwritingu w Berklee College of Music i autor książki Songs Unmasked: Techniques and Tips for Songwriting Success . Fascynują się technologią muzyczną AI od 2016 roku, po wysłuchaniu „Daddy’s Car”, jednej z pierwszych piosenek popowych stworzonych przez AI, która została wytrenowana na muzyce The Beatles.

Camp daje również swoim studentom możliwość nauki AI w klasie, pod warunkiem, że sprawdzają oni wszystkie informacje, które uzyskują z ChatGPT lub innego dużego modelu językowego.

„Myślę, że każdy musi dokonać własnego wyboru” – mówi Camp. „Mam znajomych, którzy nadal używają telefonów z klapką, ponieważ nie czują się komfortowo, mając wszystkie swoje informacje w telefonie. Mam znajomych, którzy nadal mają telefony stacjonarne. Nie mówię więc: „Hej, wszyscy, musicie to zrobić”. Ale to zdecydowanie jest tutaj. To nie zniknie. Będzie tylko coraz lepsze”.

Niezależnie od tego, czy aktywnie wykorzystujesz sztuczną inteligencję w swojej muzyce, czy masz pewne wątpliwości, coraz bardziej oczywiste staje się, że sztuczna inteligencja będzie odgrywać ważną rolę w przyszłości branży muzycznej. Korzystając z wiedzy Waresa i Campa, omawiamy aktualny stan sztucznej inteligencji w branży muzycznej, w tym dostępne obecnie narzędzia.

Czym jest muzyka AI?

Zanim zdefiniujemy, czym jest muzyka AI, zdefiniujmy najpierw sztuczną inteligencję. Oto definicja Waresa:
„Sztuczna inteligencja jest podobna do inteligencji komputera; jest to technologia, która umożliwia maszynom naśladowanie ludzkiego myślenia lub zachowań, takich jak rozwiązywanie problemów, uczenie się lub rozpoznawanie wzorców”.

W kontekście muzycznym technologia sztucznej inteligencji osiągnęła poziom, na którym może generować, komponować i ulepszać treści muzyczne, które wcześniej były wykonywane przez ludzi. Muzyka oparta na sztucznej inteligencji może przybierać różne formy i rodzaje pomocy, od tworzenia całej piosenki od początku do końca, po pisanie konkretnych aspektów kompozycji, miksowanie i mastering produkcji, klonowanie głosu i wiele innych. Wymienimy również kilka konkretnych narzędzi muzycznych opartych na sztucznej inteligencji, które mogą wykonywać te zadania, a których możliwości otworzyły puszkę Pandory w kwestii praw autorskich.

Historia

Sztuczna inteligencja ma swoje korzenie w muzyce, a konkretnie w problemie transkrypcji: dokładnym zapisaniu wykonania w notacji muzycznej w trakcie jego wykonywania. Schemat „taśmy fortepianowej” Père Engramelle'a, sposób automatycznego rejestrowania czasu i długości nut, tak aby można je było łatwo ręcznie transkrybować do odpowiedniej notacji muzycznej, został po raz pierwszy wdrożony przez niemieckich inżynierów J. F. Ungera i J. Holfielda w 1752 roku.
W 1957 roku komputer ILLIAC I (Illinois Automatic Computer) stworzył „Illiac Suite for String Quartet”, utwór muzyczny w całości wygenerowany komputerowo. Komputer został zaprogramowany do wykonania tego zadania przez kompozytora Lejarena Hillera i matematyka Leonarda Isaacsona. : v–vii W 1960 roku rosyjski badacz Rudolf Zaripov opublikował pierwszy na świecie artykuł na temat algorytmicznego komponowania muzyki przy użyciu komputera Ural-1.
W 1965 roku wynalazca Ray Kurzweil opracował oprogramowanie, które potrafiło rozpoznawać wzorce muzyczne i syntetyzować na ich podstawie nowe kompozycje. Komputer po raz pierwszy pojawił się w teleturnieju I've Got a Secret.

W 1983 roku system Kansei Music System firmy Yamaha zyskał popularność, a artykuł na temat jego rozwoju został opublikowany w 1989 roku. Oprogramowanie wykorzystywało techniki przetwarzania muzyki i sztucznej inteligencji, aby zasadniczo rozwiązać problem transkrypcji prostszych melodii, chociaż melodie wyższego poziomu i złożoność muzyczna są nadal uważane za trudne problemy głębokiego uczenia się, a niemal idealna transkrypcja jest nadal przedmiotem badań.

W 1997 roku program sztucznej inteligencji o nazwie Experiments in Musical Intelligence (EMI) przewyższył ludzkiego kompozytora w zadaniu skomponowania utworu muzycznego naśladującego styl Bacha. EMI stało się później podstawą bardziej zaawansowanego algorytmu o nazwie Emily Howell, nazwanego tak na cześć jego twórczyni.

W 2002 roku grupa badaczy muzycznych z Sony Computer Science Laboratory w Paryżu, kierowana przez francuskiego kompozytora i informatyka François Pacheta, opracowała Continuator, unikalny algorytm zdolny do wznowienia kompozycji po zatrzymaniu się muzyka grającego na żywo.

Emily Howell nadal ulepszała muzyczną sztuczną inteligencję, wydając w 2009 roku swój pierwszy album, From Darkness, Light. Od tego czasu różne grupy opublikowały wiele innych utworów stworzonych przez sztuczną inteligencję.
W 2010 roku Iamus stał się pierwszą sztuczną inteligencją, która stworzyła oryginalny utwór muzyki klasycznej we własnym stylu: „Iamus’ Opus 1”. Znajdujący się na Uniwersytecie w Maladze (University of Malaga) w Hiszpanii komputer może generować całkowicie oryginalne utwory muzyczne w różnych stylach muzycznych. W sierpniu 2019 roku stworzono duży zbiór danych zawierający 12 197 utworów MIDI, z których każdy ma własny tekst i melodię, aby zbadać możliwość generowania melodii na podstawie tekstów piosenek przy użyciu głębokiej warunkowej metody LSTM-GAN.

Wraz z postępem w dziedzinie generatywnej sztucznej inteligencji zaczęły pojawiać się modele, które potrafią tworzyć kompletne kompozycje muzyczne (w tym teksty piosenek) na podstawie prostych opisów tekstowych. Dwie godne uwagi aplikacje internetowe w tej dziedzinie to Suno AI, uruchomiona w grudniu 2023 r., oraz Udio, która pojawiła się w kwietniu 2024 r.

Aplikacje

ChucK

Opracowany na Uniwersytecie Princeton przez Ge Wanga i Perry'ego Cooka, ChucK jest opartym na tekście, wieloplatformowym językiem. Poprzez wyodrębnianie i klasyfikowanie technik teoretycznych, które znajduje w utworach muzycznych, oprogramowanie jest w stanie syntetyzować całkowicie nowe utwory w oparciu o techniki, których się nauczyło. Technologia ta jest wykorzystywana przez SLOrk (Stanford Laptop Orchestra) i PLOrk (Princeton Laptop Orchestra).

Jukebox

Jukedeck była stroną internetową, która umożliwiała użytkownikom tworzenie za pomocą sztucznej inteligencji oryginalnej, wolnej od opłat licencyjnych muzyki do wykorzystania w filmach. Zespół rozpoczął opracowywanie technologii generowania muzyki w 2010 r., w 2012 r. utworzył wokół niej firmę, a w 2015 r. uruchomił stronę internetową. Początkowo wykorzystywano algorytmiczny system kompozycji oparty na regułach, który później zastąpiono sztucznymi sieciami neuronowymi. Witryna została wykorzystana do wygenerowania ponad miliona utworów muzycznych, a wśród marek, które z niej korzystały, znalazły się Coca-Cola, Google, UKTV i Muzeum Historii Naturalnej w Londynie. W 2019 roku firma została przejęta przez ByteDance.

Morpheus

MorpheuS to projekt badawczy autorstwa Dorien Herremans i Elaine Chu z Queen Mary University of London, finansowany przez unijny projekt Marie Skłodowska-Curie. System wykorzystuje podejście optymalizacyjne oparte na algorytmie zmiennego wyszukiwania sąsiedztwa, aby przekształcić istniejące fragmenty wzorcowe w nowe fragmenty o określonym poziomie akcentu tonalnego, który zmienia się dynamicznie w całym fragmencie. To podejście optymalizacyjne integruje techniki wykrywania wzorców, aby zapewnić długoterminową strukturę i powtarzające się motywy w generowanej muzyce. Utwory skomponowane przez MorpheuS były wykonywane podczas koncertów zarówno w Stanford, jak i w Londynie.

AIVA

Założony w lutym 2016 r. w Luksemburgu, AIVA jest programem, który tworzy ścieżki dźwiękowe dla wszelkiego rodzaju mediów. Algorytmy stojące za AIVA oparte są na architekturach głębokiego uczenia się. AIVA został również wykorzystany do skomponowania utworu rockowego zatytułowanego On the Edge, a także popowej melodii zatytułowanej Love Sick, we współpracy z piosenkarką Taryn Southern do jej albumu z 2018 r. I am AI.

Google Purple

Zespół Google Magenta opublikował kilka aplikacji muzycznych opartych na sztucznej inteligencji oraz białych ksiąg od momentu powstania w 2016 roku. W 2017 roku opublikowano algorytm NSynth i zbiór danych, a także instrument muzyczny typu open source, zaprojektowany w celu ułatwienia muzykom korzystania z algorytmu. Instrument ten został wykorzystany przez znanych artystów, takich jak Grimes i YACHT, na ich albumach. W 2018 roku wydali aplikację do improwizacji fortepianowej o nazwie Piano Genie. Później pojawiło się Magenta Studio, zestaw 5 wtyczek MIDI, które pozwalają producentom muzycznym rozwijać istniejącą muzykę w ich DAW. W 2023 roku ich zespół zajmujący się uczeniem maszynowym opublikował na GitHubie artykuł techniczny opisujący MusicLM, opracowany przez nich generator tekstu do muzyki.

Riffusion

Riffusion to sieć neuronowa opracowana przez Setha Forsgrena i Ike'a Martirosa, która generuje muzykę przy użyciu wzorców dźwiękowych zamiast audio. Została stworzona jako udoskonalenie Stable Diffusion, istniejącego modelu open source do generowania obrazów na podstawie wskazówek tekstowych w spektrogramach. W rezultacie powstał model, który wykorzystuje wskazówki tekstowe do generowania plików obrazów, które można poddać odwrotnej transformacji Fouriera i przekonwertować na pliki audio. Chociaż pliki te mają tylko kilka sekund długości, model może również wykorzystać ukrytą przestrzeń między wynikami do interpolacji różnych plików. Osiąga się to za pomocą funkcji modelu Stable Diffusion znanej jako img2img. Powstała muzyka została opisana jako „de otro mundo” (nieziemska), choć jest mało prawdopodobne, aby zastąpiła muzykę tworzoną przez ludzi. Model został wydany 15 grudnia 2022 r., a kod jest również dostępny bezpłatnie na GitHub. Jest to jeden z wielu modeli wywodzących się z Stable Diffusion. Riffusion jest klasyfikowany jako podzbiór generatorów tekstu do muzyki opartych na sztucznej inteligencji. W grudniu 2022 r. Mubert w podobny sposób wykorzystał Stable Diffusion do przekształcenia tekstu opisowego w pętle muzyczne. W styczniu 2023 r. Google opublikowało artykuł na temat własnego generatora tekstu do muzyki o nazwie MusicLM.

Spike AI

Spike AI to oparty na sztucznej inteligencji plugin audio opracowany przez Spike'a Stenta we współpracy z jego synem Joshuą Stentem i przyjacielem Henrym Ramseyem, który analizuje utwory i przedstawia rekomendacje dotyczące klarowności i innych aspektów podczas miksowania. Komunikacja odbywa się za pośrednictwem chatbota przeszkolonego na podstawie danych osobowych Spike'a Stenta. Plugin integruje się z cyfrową stacją roboczą audio.

Zastosowania w muzyce

Sztuczna inteligencja może wpływać na sposób tworzenia muzyki przez producentów, generując iteracje utworów na podstawie wskazówek podanych przez twórcę. Wskazówki te pozwalają sztucznej inteligencji podążać za konkretnym stylem, który artysta stara się osiągnąć.

Sztuczna inteligencja jest również wykorzystywana w analizie muzycznej, gdzie służy do ekstrakcji cech, rozpoznawania wzorców i rekomendacji muzycznych.

Kompozycja

Sztuczna inteligencja wywarła duży wpływ na sektor kompozycji, ponieważ wpłynęła na pomysły kompozytorów/producentów i ma potencjał, aby uczynić branżę bardziej dostępną dla nowych twórców. Dzięki rozwojowi w dziedzinie muzyki jest już wykorzystywana we współpracy z producentami. Artyści używają tego oprogramowania, aby generować pomysły i identyfikować style muzyczne, nakłaniając sztuczną inteligencję do przestrzegania określonych wymagań, które odpowiadają ich potrzebom. Przyszły wpływ tej technologii na kompozycję obejmuje emulację i fuzję stylów, a także poprawki i udoskonalenia. Rozwój tego typu oprogramowania może ułatwić nowym osobom wejście do branży muzycznej. Oprogramowanie takie jak ChatGPT było wykorzystywane przez producentów do wykonywania tych zadań, podczas gdy inne oprogramowanie, takie jak Ozone11, było wykorzystywane do automatyzacji czasochłonnych i złożonych zadań, takich jak mastering.

Ryzyko i szkody

Muzycy, producenci i inne osoby od lat korzystają z narzędzi AI, które nie są generatywne. Cher spopularyzowała autotune w utworze „Believe” ponad ćwierć wieku temu, a od tego czasu niezliczeni artyści używali go do „korekty” swojego brzmienia. Wytwórnie płytowe wykorzystują AI do skanowania mediów społecznościowych w poszukiwaniu nielicencjonowanych utworów, które są ich własnością, a Shazam działa w podobny sposób, jeśli chodzi o rozpoznawanie dźwięku. Inżynierowie używają go do usprawnienia procesu miksowania i masteringu. Niedawno reżyser filmu „Get Back” Peter Jackson wykorzystał tę technologię do wyodrębnienia poszczególnych ścieżek z zmiksowanego nagrania, aby odtworzyć rozmowy w studiu i stworzyć zaginioną piosenkę Beatlesów.

Istnieje jednak zasadnicza różnica między tymi narzędziami pomocniczymi a generatywnymi aplikacjami AI, takimi jak Suno i Udio, które potrafią stworzyć całe utwory na podstawie zaledwie kilku słów. Wszystkie nowe AI muzyczne działają nieco inaczej i wciąż ewoluują, ale generalnie funkcjonują w podobny sposób jak inne generatywne narzędzia AI: analizują ogromny zbiór danych i wykorzystują znalezione w nim wzorce do tworzenia prognoz probabilistycznych.

Aby to zrobić w przypadku audio, programiści gromadzą ogromną kolekcję piosenek (na podstawie umów z posiadaczami licencji i/lub poprzez zbieranie publicznie dostępnych danych bez pozwolenia) oraz powiązanych z nimi metadanych (wykonawcy i tytuły piosenek, gatunki, lata, opisy, adnotacje, wszystko, co jest istotne i dostępne). Wszystko to jest zazwyczaj możliwe dzięki niskopłatnym pracownikom z globalnego Południa, którzy opatrują te dane adnotacjami na ogromną skalę.

Następnie programiści przygotowują ten zbiór danych do modelu uczenia maszynowego, który jest (w skrócie) rozległą siecią połączeń, z których każdemu przypisano numeryczną „wagę”. Następnie ludzie „szkolą” model, ucząc go obserwowania wzorców w zbiorze danych i przekazując mu informacje zwrotne poprzez ocenianie jego przewidywań. Na podstawie tych wzorców model może na podstawie krótkiego fragmentu audio lub tekstu przewidzieć, co powinno nastąpić dalej, a następnie co będzie dalej i tak dalej.

Programiści dostosowują wagi, aby uzyskać bardziej słyszalne i przewidywalne wyniki na podstawie tych samych danych wejściowych. Generatory muzyki oparte na sztucznej inteligencji łączą dwie technologie: narzędzia muzyczne, z których profesjonaliści korzystają w studiach od dziesięcioleci, oraz duże modele językowe, które pozwalają zwykłym użytkownikom wykorzystać ich możliwości. Każdy generator muzyki oparty na sztucznej inteligencji jest tak dobry, jak dane, na których został wyszkolony. Systemy te wymagają ogromnych ilości danych, a model wyszkolony na tendencyjnym zbiorze danych będzie odtwarzał te tendencje w swoich wynikach. Czyje głosy są zawarte w tym ogromnym zbiorze muzycznym, a czyje zostały pominięte? Dzisiejsze modele sztucznej inteligencji mają tendencję do pomijania ogromnych fragmentów muzyki, zwłaszcza z tradycji muzycznych, które powstały przed pojawieniem się technologii nagrywania i mają pochodzenie nieeuropejskie. W obecnej postaci są one bardziej skłonne do tworzenia stereotypowych dźwięków w ramach danego gatunku lub stylu niż czegokolwiek niezwykłego, a tym bardziej innowacyjnego lub interesującego. Generatywne systemy sztucznej inteligencji są podatne na przeciętność, ale muzyka transcendentalna znajduje się na ich obrzeżach.

„Co stracimy w zakresie ludzkiej kreatywności i różnorodności, jeśli muzycy zaczną polegać na modelach predykcyjnych opartych na selektywnych zestawach danych, które wykluczają większość kultur i języków świata?” – powiedziała mi Lauren M.E. Goodlad, przewodnicząca inicjatywy Critical AI na Uniwersytecie Rutgers.

Z prawnego punktu widzenia muzycy obserwujący, jak modele sztucznej inteligencji uczą się na podstawie ich twórczości, mają takie same obawy jak New York Times, Getty i inni wydawcy oraz twórcy, którzy pozywają firmy zajmujące się sztuczną inteligencją: pochodzenie danych. Podczas gdy niektóre firmy starają się szkolić swoje modele wyłącznie na podstawie licencjonowanych danych, inne wykorzystują wszystko, co tylko mogą zdobyć, argumentując, że wszystko, co znajduje się w domenie publicznej, podlega dozwolonemu użytkowaniu w tym celu. RIAA, dominująca organizacja branżowa w Stanach Zjednoczonych, pozywa obecnie firmy Suno i Udio za „naruszenie praw autorskich... na ogromną skalę”. (Ujawnienie: Vox Media jest jednym z kilku wydawców, którzy podpisali umowy partnerskie z OpenAI. Nasze reportaże pozostają niezależne redakcyjnie).

Sondaże często pokazują, że większość ludzi nie aprobuje kopiowania danych publicznych bez zgody przez firmy zajmujące się sztuczną inteligencją. Jednak pomimo wielu głośnych spraw sądowych, nie jest jeszcze jasne, w jaki sposób system prawny wpłynie na firmy wykorzystujące bez zgody ludzką kreatywność, nie mówiąc już o rekompensatach dla nich. Jeśli praktyki te nie zostaną wkrótce ograniczone, najmniej skrupulatni gracze szybko zdobędą władzę i związanych z nią wpływowych lobbystów i prawników. (Bezwzględność: nie dotyczy tylko maszyn!) Kwestie te są obecnie pilne, ponieważ z upływem czasu stają się coraz trudniejsze do rozwiązania, a niektórzy przedstawiciele branży sprzeciwiają się temu. Ed Newton-Rex był wiceprezesem ds. audio w Stability AI, kiedy jesienią ubiegłego roku firma wprowadziła na rynek Stable Audio, generator muzyki i dźwięku oparty na sztucznej inteligencji.

Kilka miesięcy później opuścił firmę z powodu jej stanowiska w sprawie gromadzenia danych: zespół Newton-Rex trenował Stable Audio wyłącznie na licencjonowanych danych, ale kierownictwo firmy złożyło publiczną opinię do amerykańskiego urzędu ds. praw autorskich, że rozwój sztucznej inteligencji był „akceptowalnym, transformacyjnym i społecznie korzystnym wykorzystaniem istniejących treści chronionych prawem do dozwolonego użytku”. Aby zwalczać nielicencjonowane scrapowanie, Newton-Rex założył Fairly Trained, które weryfikuje i certyfikuje zbiory danych wykorzystywane przez firmy zajmujące się sztuczną inteligencją. Na razie organizacja non-profit może jedynie certyfikować, czy treści w zbiorze danych firmy zostały odpowiednio licencjonowane. Pewnego dnia będzie w stanie uwzględniać bardziej szczegółowe kwestie (np. czy artysta wyraźnie wyraził zgodę na takie wykorzystanie lub po prostu nie zrezygnował) oraz inne kwestie, takie jak ograniczanie stronniczości.

Jako muzyk i kompozytor muzyki chóralnej i fortepianowej, Newton-Rex postrzega to jako punkt zwrotny dla tej dziedziny. „Generatywne modele sztucznej inteligencji zazwyczaj konkurują ze swoimi danymi szkoleniowymi” – powiedział Newton-Rex. „Szczerze mówiąc, ludzie mają tylko ograniczoną ilość czasu, aby słuchać muzyki. Pula tantiem jest ograniczona. Im więcej muzyki powstaje dzięki tym systemom, tym mniej trafia do ludzkich muzyków”.

Jak zauważyła w zeszłym miesiącu przewodnicząca FTC Lina Khan, jeśli dana osoba tworzy treści lub informacje, które są kopiowane przez firmę zajmującą się sztuczną inteligencją, a następnie treści lub informacje wygenerowane przez generator sztucznej inteligencji konkurują z oryginalnym producentem „w celu wyparcia go z rynku i przejęcia działalności... może to stanowić nieuczciwą metodę konkurencji”, która narusza przepisy antymonopolowe.
Marc Ribot jest jednym z ponad 200 muzyków, którzy podpisali oświadczenie Artist Rights Alliance sprzeciwiające się tej praktyce na początku tego roku, a także aktywnym członkiem komitetu sterującego Music Workers Alliance ds. sztucznej inteligencji. Ribot, który od lat 70. jest aktywnym gitarzystą, obserwował, jak technologia kształtowała branżę, obserwując stopniowe zmniejszanie się budżetów na nagrania przez dziesięciolecia.

„Nie jestem w żaden sposób przeciwny samej technologii” – mówi Ribot. Po utracie nagrań master, które wykonał w latach 90., sam użył sztucznej inteligencji do wyodrębnienia poszczególnych ścieżek z ostatecznego miksowania. Uważa jednak, że obecny moment jest krytyczną okazją do przeciwstawienia się tej technologii, zanim firmy, które ją posiadają, staną się zbyt duże, aby można je było regulować. „Prawdziwa
granica między tym, co użyteczne, a tym, co katastrofalne, jest bardzo prosta” – powiedział Ribot. „Chodzi o to, czy producenci muzyki lub innych treści wprowadzanych [jako dane szkoleniowe] mają rzeczywiste, funkcjonalne prawo do wyrażenia zgody. [Generatory muzyki oparte na sztucznej inteligencji] wypluwają to, co konsumują, i często tworzą utwory zawierające duże fragmenty materiałów chronionych prawem autorskim. Tak wygląda wynik. Ale nawet gdyby tak nie było, nawet gdyby wynik nie narusza prawa autorskiego, samo wprowadzenie danych stanowi naruszenie”.

Ribot powiedział, że muzycy od dawna byli obojętni wobec sztucznej inteligencji, ale w ciągu ostatnich kilku lat zaobserwował „radykalną zmianę nastawienia do kwestii wykorzystania cyfrowego”, napędzaną przez zeszłoroczne strajki SAG-AFTRA i Writers Guild of America, toczące się procesy sądowe przeciwko firmom zajmującym się sztuczną inteligencją oraz lepsze zrozumienie kapitalizmu nadzoru i swobód obywatelskich.

Chociaż jeszcze kilka lat temu muzycy postrzegali się nawzajem jako konkurentów – nawet jeśli tort się kurczy, wciąż jest kilku artystów, którzy mogą się wzbogacić – sztuczna inteligencja stanowi zagrożenie dla całej branży, które może nie przynieść korzyści nawet tym najszczęśliwszym z nich.

Co sztuczna inteligencja może i mogłaby zrobić

Jeden z pierwszych przykładów muzyki stworzonej przez sztuczną inteligencję pochodzi z 1956 roku: utwór na kwartet smyczkowy skomponowany przez komputer ILLIAC I i zaprogramowany przez profesorów LeJaren Hiller i Leonarda Isaacsona z University of Illinois w Urbana-Champaign.

W ślad za technologicznymi postępami ostatnich lat artyści tacy jak Holly Herndon, Arca, YACHT, Taryn Southern i Brian Eno wykorzystują obecnie generatywną sztuczną inteligencję do eksperymentowania ze swoimi praktykami twórczymi. Skłonność sztucznej inteligencji do tworzenia „halucynacji” i innych nonsensownych wyników, choć niebezpieczna w innych kontekstach, może być źródłem inspiracji w muzyce. Podobnie jak inne technologie audio, które zyskały sławę dzięki swojej dysonansowości – zniekształceniom płyt CD, kompresji 8-bitowej, pękniętym głosom ludzkim zbyt potężnym dla gardła, które je wydaje, „wydarzeniom zbyt ważnym dla medium, które ma je rejestrować”, jak pisze Brian Eno w The Year with Swollen Appendices – muzyka generowana przez sztuczną inteligencję może być najbardziej wartościowa, gdy jest najbardziej wyrazista. Ivan Paz, muzyk z doktoratem z informatyki, opracowuje systemy sztucznej inteligencji do swoich własnych występów na żywo.

Zaczynając od pustego ekranu, pisze kod w czasie rzeczywistym (wyświetlany dla publiczności) i trenuje model, reagując na dźwięki, które generuje, a które mogą być nieoczekiwane, drażniące lub po prostu katastrofalne. Rezultat przypomina nieco grę na instrumencie, ale także improwizację z innym muzykiem. „Jeśli algorytm działa na bardzo niskim poziomie, czujesz się jakbyś grał na instrumencie muzycznym, ponieważ faktycznie dostosowujesz na przykład parametry syntezy” – powiedział Paz. „Ale jeśli algorytm określa kształt utworu muzycznego, to jest to jak gra z agentem, który decyduje o tym, co będzie dalej”.

Na potrzeby wystawy w Centrum Kultury Współczesnej w Barcelonie na początku tego roku Paz współpracował z piosenkarką Marią Arnal, aby stworzyć model renderowania barwy jej głosu. Poprosili odwiedzających o zaśpiewanie krótkich fragmentów piosenek, a następnie model zmiksował te głosy z głosem Arnal, aby stworzyć nowy głos śpiewający. W innym projekcie koleżanka Paza, Shelley Knotts, wyszkoliła model na podstawie własnych kompozycji, aby uniknąć powtórzeń w swojej pracy: model analizuje jej muzykę w celu wykrycia wzorców, ale zamiast sugerować najbardziej prawdopodobny następny ruch, sugeruje mniej prawdopodobną kontynuację.

Kolejny krok w ewolucji muzycznej sztucznej inteligencji może sprowadzać się do szybkości przetwarzania. Kodowanie na żywo jest możliwe w przypadku niektórych typów modeli, ale inne wymagają zbyt dużo czasu na renderowanie muzyki, aby można było ją stworzyć podczas występu na żywo. Instrumenty elektroniczne, takie jak syntezatory, zostały pierwotnie zaprojektowane w celu imitowania dźwięków akustycznych i z czasem rozwinęły swój własny, niepowtarzalny charakter. Paz dostrzega ostateczny potencjał generatywnej sztucznej inteligencji w tworzeniu nowych dźwięków, których obecnie nie jesteśmy w stanie sobie wyobrazić, a tym bardziej wyprodukować. W tym kontekście — w którym sztuczna inteligencja wspomaga wykonawcę — sztuczna inteligencja nie ma większych szans na „zastąpienie” muzyka niż cyfrowy tuner lub pedał opóźniający.

Jednak inne sektory przemysłu muzycznego wykorzystują sztuczną inteligencję do bardziej przełomowych celów. Chociaż sztuczna inteligencja nie może (i nigdy nie będzie mogła) tworzyć muzyki lepszej niż człowiek, obecnie może tworzyć akceptowalną muzykę w znacznie szybszym tempie i na większą skalę — a „akceptowalność” jest często jedynym kryterium, które musi spełniać utwór.

W większości przypadków, gdy słuchasz muzyki, nie wiesz, kto ją stworzył. Jingle, który słyszysz w reklamie. Muzyka w tle w filmie lub programie telewizyjnym, podcaście lub grze wideo. Pętle, które producent hip-hopowy sampluje do rytmu. Jest to część branży, która najprawdopodobniej zostanie zrewolucjonizowana przez generatywną sztuczną inteligencję. Bloomberg donosi, że nauczyciele używają Suno do tworzenia pomocy dydaktycznych do nauki muzyki. Gizmodo zauważa, że docelowymi odbiorcami projektu Adobe Project Music GenAI Control, kolejnego generatora muzyki opartego na sztucznej inteligencji, są osoby, które chcą szybko i tanio tworzyć muzykę w tle, takie jak podcasterzy i youtuberzy, z możliwością określenia nastroju, tonu i długości utworu.
Niezależnie od tego, czy lubisz ten rodzaj muzyki, czy nawet ją zauważasz, historycznie rzecz biorąc, była ona tworzona przez ludzi. Jednak automatyczne generowanie muzyki przez sztuczną inteligencję może kosztować tych muzyków utratę pracy — a wielu z nich wykorzystuje te dochody do wspierania swoich bardziej satysfakcjonujących twórczo, ale mniej opłacalnych finansowo przedsięwzięć. Być może nigdy nie zobaczysz muzyka-sztucznej inteligencji na scenie, ale prawdopodobnie zobaczysz mniej muzyków-ludzi z powodu tej technologii.

Ze swojej strony wpływowi gracze z branży muzycznej już teraz uważają, że sztuczna inteligencja stanie się podstawą ich działalności — martwią się jednak, kto będzie czerpał z tego korzyści. Spotify nie będzie ograniczać muzyki generowanej przez sztuczną inteligencję, chyba że będzie to jawna imitacja, co grozi sporami sądowymi. Universal Music Group (UMG) i YouTube uruchomiły YouTube Music AI Incubator, aby opracować narzędzia sztucznej inteligencji wraz z artystami UMG. Jednocześnie UMG jest jedną z ponad 150 organizacji — w tym ASCAP, BMI, RIAA i AFL-CIO — należących do koalicji Human Artistry Campaign, która dąży do ustanowienia ram etycznych dotyczących wykorzystania sztucznej inteligencji w dziedzinach twórczych. Nie chcą one zakazać stosowania tej technologii, ale chcą mieć udział w wynikach.

Ponieważ każdego dnia do serwisów streamingowych trafia ponad 100 000 nowych utworów, cyfrowe platformy streamingowe mają silną motywację do zmniejszenia udziału utworów tworzonych przez ludzi i wolnych od opłat licencyjnych, które odtwarzają ich użytkownicy. W zeszłym roku sama platforma Spotify wypłaciła 9 miliardów dolarów z tytułu opłat licencyjnych, co stanowi większość jej 14 miliardów dolarów przychodów. Największa na świecie firma zajmująca się strumieniowym przesyłaniem muzyki historycznie zwiększała dostępność i widoczność bezpłatnych utworów i może nadal to robić. Generatory muzyki oparte na sztucznej inteligencji to łatwy sposób na tworzenie bezpłatnej muzyki, która może wyprzeć prawdziwych artystów zarabiających na tantiemach z popularnych list odtwarzania, przenosząc przychody ze strumieniowego przesyłania muzyki z artystów na samą platformę.

Dla uznanych artystów oznacza to nową siłę – i nowe zagrożenie. Po udarze mózgu gwiazda muzyki country Randy Travis ma problemy z mówieniem, nie mówiąc już o śpiewaniu, ale dzięki pomocy sztucznej inteligencji przeszkolonej na podstawie jego dotychczasowego katalogu może odtwarzać swój głos cyfrowo.

Tymczasem anonimowy producent może stworzyć brzmiącą wiarygodnie współpracę Drake'a i The Weeknda i zgromadzić miliony odtworzeń. W maju producent Metro Boomin znalazł się pod ostrzałem podczas prawdziwego sporu Drake'a z Kendrickiem Lamarem. Metro Boomin wypuścił beat z próbkami wygenerowanymi przez sztuczną inteligencję, z którego każdy mógł korzystać, a Drake następnie samplował go i rapował, wydając nowy utwór w serwisach streamingowych. King Willonius, który użył Udio do stworzenia oryginalnego utworu, który Metro Boomin zremiksował, zatrudnił prawnika, aby zachować prawa do swoich utworów.
Te najnowsze przykłady pokazują, jak szybko stworzona muzyka może wyprzeć dobrze wykonaną muzykę. W gospodarce strumieniowej wszystko zależy od ilości i szybkości: artyści są motywowani do produkcji ilościowej, a nie jakościowej.

„[Przyszły hit wygenerowany przez sztuczną inteligencję] nie będzie czymś, do czego ludzie będą wracać i studiować, tak jak nadal robią to w przypadku wielkich wydawnictw z ery płytowej” – powiedziała muzyk Jamie Brooks. Brooks wydała płyty pod własnym nazwiskiem oraz z zespołami Elite Gymnastics i Default Genders, a także prowadzi bloga o branży muzycznej w swoim biuletynie The Seat of Loss. „Ale nadal generuje zaangażowanie, więc świat, w którym to, co znajduje się na szczycie list przebojów Spotify, nie ma trwać, ma tylko dostarczać rozrywki tego dnia i nigdy więcej nie być przedmiotem refleksji, byłby dobry dla wszystkich tych firm. Nie potrzebują one sztuki, aby zarabiać pieniądze.

Wiele z dzisiejszych technologii istnieje głównie po to, aby naśladować lub upraszczać, co może sprzyjać amatorstwu. Udostępnianie plików sprawiło, że kompulsywne kolekcjonowanie płyt stało się dostępne dla każdego, kto ma dysk twardy i modem, aparaty w telefonach komórkowych pozwoliły wszystkim w tłumie dokumentować koncerty, a teraz streaming audio daje nam wszystkim dynamiczne playlisty dostosowane do naszego nastroju i grup reklamowych. Generatywna sztuczna inteligencja mogłaby również ułatwić tworzenie muzyki osobom niebędącym ekspertami. Mogłoby to radykalnie zmienić nie tylko ilość muzyki, której słuchamy, ale także nasz stosunek do tej formy jako całości. Jeśli stworzenie przeboju nie wymaga więcej wysiłku niż napisanie popularnego tweeta, większość energii twórczej zawartej obecnie w mediach społecznościowych mogłaby zostać przekierowana na generowanie muzyki na podstawie podpowiedzi.

Brooks postrzega to jako zjawisko regresywne, podkreślające natychmiastowość ponad ponadczasową głębią, dominujące na listach przebojów memami audio i przełomowymi singlami skierowanymi do najbardziej wyrafinowanych słuchaczy, tak jak kiedyś fale radiowe były zdominowane przez puste piosenki, takie jak „Take Me Out to the Ball Game”, napisane przez dwie osoby, które nigdy nie były na meczu baseballowym.

„W tym kierunku usługi te będą popychać muzykę” – powiedział Brooks. „Nie będzie to miało nic wspólnego z kreatywnością. Biorąc pod uwagę sposób działania tych modeli i algorytmiczne kanały informacyjne, wszystko to jest po prostu wielkim repozytorium przeszłości. Nie przyczyni się to do rozwoju muzyki. Przyspieszy to tylko proces przenoszenia płyt z centrum amerykańskiej popkultury do kosza na śmieci”.

Prawa autorskie a muzyka generowana przez sztuczną inteligencję

Jedną z najbardziej dyskutowanych kwestii dotyczących sztucznej inteligencji w branży muzycznej jest to, kto zarabia na utworach generowanych przez sztuczną inteligencję, zwłaszcza jeśli algorytm jest szkolony przy użyciu istniejących materiałów chronionych prawem autorskim. W marcu 2023 r. Amerykański Urząd ds. Praw Autorskich uruchomił inicjatywę mającą na celu zbadanie kwestii związanych z prawami autorskimi w odniesieniu do sztucznej inteligencji. Camp jest przekonany, że organy regulacyjne wkroczą do akcji i stworzą poprawkę, ale obawia się, że kwestia ta jest trudna do rozwiązania ze względu na system praw autorskich obowiązujący w Stanach Zjednoczonych, w ramach którego działają artyści.

„Wiele przepisów i precedensów, które ostatecznie doprowadziły do powstania naszego współczesnego systemu praw autorskich, po prostu nie pasuje do tego, co dzieje się obecnie w muzyce” – mówi Camp. „Uważam, że twórcy powinni mieć prawo do autorstwa, powinni być wymieniani jako autorzy i powinni otrzymywać wynagrodzenie. Ale powtarzam, cały system, dzięki któremu to robimy, jest bardzo przestarzały”.

Muzyka tworzona przez sztuczną inteligencję nadal znajduje się w szarej strefie prawnej, co rodzi pytanie, czy możliwe jest osiągnięcie kompromisu, w ramach którego artyści byliby wymieniani, wynagradzani i wyrażaliby zgodę na wykorzystanie ich utworów lub wizerunku przez sztuczną inteligencję bez ograniczania potencjału kreatywności muzycznej przy użyciu technologii sztucznej inteligencji. W pewnym stopniu sztuka jest pochodną innej sztuki, a granica między inspiracją a kradzieżą jest obecnie zatarta. Niektóre wytwórnie płytowe zaczynają walczyć.

W maju 2023 r. Universal Music Group wezwała serwisy streamingowe do zablokowania wykorzystania muzyki generowanej przez sztuczną inteligencję, twierdząc, że wykorzystuje ona muzykę ich artystów do szkolenia swojego algorytmu i że w razie potrzeby podejmie działania prawne. Spotify zareagowało usunięciem 7% muzyki generowanej przez sztuczną inteligencję ze swojej platformy, co odpowiada dziesiątkom tysięcy utworów. W lipcu 2023 r. UMG wezwało Kongres do uchwalenia ogólnokrajowej polityki chroniącej twórców przed naruszeniami praw autorskich przez sztuczną inteligencję. Wytwórnia płytowa jest jednym z 40 członków Human Artistry Campaign, organizacji promującej odpowiedzialne wykorzystanie sztucznej inteligencji.

W Stanach Zjednoczonych obecne ramy prawne mają tendencję do stosowania tradycyjnych przepisów dotyczących praw autorskich do sztucznej inteligencji, pomimo jej różnic w stosunku do ludzkiego procesu twórczego. Jednak utwory muzyczne stworzone wyłącznie przez sztuczną inteligencję nie są chronione prawem autorskim. W Kompendium praktyk Urzędu ds. Praw Autorskich Urząd stwierdził, że nie przyzna praw autorskich do „utworów, które nie zostały stworzone przez człowieka” oraz że „Urząd nie będzie rejestrował utworów stworzonych przez maszynę lub w wyniku czysto mechanicznego procesu, który działa losowo lub automatycznie, bez udziału twórczego lub interwencji autora będącego człowiekiem”. W lutym 2022 r. Komisja ds. Przeglądu Praw Autorskich odrzuciła wniosek o przyznanie praw autorskich do dzieła sztuki wygenerowanego przez sztuczną inteligencję, argumentując, że „nie posiada ono wymaganego autorstwa ludzkiego niezbędnego do utrzymania roszczenia o prawa autorskie”.

Sytuacja w Unii Europejskiej (UE) jest podobna do sytuacji w Stanach Zjednoczonych, ponieważ jej ramy prawne również kładą nacisk na rolę udziału człowieka w utworach chronionych prawem autorskim. Zgodnie z Europejskim Urzędem Własności Intelektualnej i najnowszym orzecznictwem Trybunału Sprawiedliwości Unii Europejskiej kryterium oryginalności wymaga, aby utwór był własnym dziełem intelektualnym autora, odzwierciedlającym jego tożsamość, czego dowodem są kreatywne wybory dokonane podczas jego tworzenia, wymagające określonego poziomu udziału człowieka. Projekt reCreating Europe, finansowany przez program badań i innowacji Unii Europejskiej „Horyzont 2020”, zgłębia wyzwania związane z treściami generowanymi przez sztuczną inteligencję, w tym muzyką, zapewniając pewność prawną i zrównoważoną ochronę, która zachęca do innowacji przy jednoczesnym poszanowaniu zasad praw autorskich. Uznanie AIVA stanowi znaczące odejście od tradycyjnych poglądów na temat autorstwa i praw autorskich w dziedzinie kompozycji muzycznej, umożliwiając wykonawcom AI wydawanie muzyki i otrzymywanie tantiem. Uznanie to sprawia, że AIVA jest pionierem w formalnym uznaniu AI w produkcji muzycznej.

Ostatnie postępy w dziedzinie sztucznej inteligencji osiągnięte przez takie grupy jak Stability AI, OpenAI i Google doprowadziły do wniesienia ogromnej liczby pozwów o naruszenie praw autorskich przeciwko technologiom generatywnym, w tym muzyce generowanej przez sztuczną inteligencję. Jeśli pozwy te zakończą się sukcesem, zbiory danych modeli uczenia maszynowego, które napędzają te technologie, zostaną ograniczone do domeny publicznej.

Drake i The Weeknd

Chociaż nie ma zbyt wielu precedensów prawnych dotyczących klonowania głosu, w przypadku celebrytów może to podlegać ich prawu do wizerunku jako naruszenie ich wizerunku, nazwiska i głosu. Jednym z kluczowych przykładów z zeszłego roku było wykorzystanie przez TikTokera o pseudonimie Ghostwriter sztucznej inteligencji do stworzenia fałszywego duetu Drake'a i The Weeknda zatytułowanego „Heart on My Sleeve”. Piosenka została już usunięta, ale jej wersje nadal krążą w Internecie.

„Z jednej strony można argumentować, że jest to oryginalne dzieło” – mówi Wears. „Z drugiej strony można to postrzegać jako formę naruszenia praw, ponieważ sztuczna inteligencja nauczyła się pisać teksty w stylu Drake'a, analizując jego katalog, bez jego wyraźnej zgody. Kolejną kwestią budzącą obawy jest nieuprawnione wykorzystanie nazwisk i wizerunków artystów”.

Możliwość kopiowania nazwisk i wizerunków innych osób za pomocą sztucznej inteligencji niepokoi branżę muzyczną, a także całą branżę rozrywkową. Jednym z głównych postulatów obecnego strajku SAG-AFTRA jest ochrona twórców przed wykorzystywaniem ich dzieł do szkolenia generatorów sztucznej inteligencji oraz ochrona aktorów przed kopiowaniem ich wizerunków i głosów bez zgody.

Kwestie etyczne związane ze sztuczną inteligencją

Prawa autorskie to tylko jedna z wielu kwestii etycznych związanych ze sztuczną inteligencją i należy pamiętać, że technologia ta i jej rozwój nie są pozbawione konsekwencji.

Jedną z najpilniejszych kwestii jest stronniczość w szkoleniu zbioru danych. Przykładem jest raper FN Meka, który podpisał kontrakt z Capitol Music Group w 2022 roku, ale później zrezygnował z niego z powodu utrwalania stereotypów rasowych.

„Jedną z największych kwestii jest zasada „garbage in, garbage out” (śmieciowe dane wejściowe, śmieciowe dane wyjściowe)”, mówi Camp. „Jeśli szkolimy te modele językowe, generatory obrazów lub generatory muzyki na danych, które są z natury stronnicze, z natury rasistowskie, to wszystko, o co prosimy, będzie utrwalać te stereotypy. Musimy upewnić się, że mamy dobre dane wejściowe i że je monitorujemy”.

Monitorowanie tych danych również nie jest pozbawione wad. Kolejną kwestią etyczną jest proces szkolenia, zwany „uczeniem się przez wzmocnienie”, który polega na dostarczaniu ludzkich opinii na temat szeregu niepokojących treści. W ostatnim odcinku podcastu Wall Street Journal „The Journal” przedstawiono kenijskiego pracownika zajmującego się danymi, który wraz z wieloma innymi osobami pomógł wyszkolić ChatGPT w rozróżnianiu „dobra od zła” kosztem bardzo wysokiego zdrowia psychicznego.

„Zasadniczo polega to na ocenie odpowiedzi kciukiem w górę lub w dół” – mówi Camp. „Czy jest to nieodpowiednia odpowiedź? Czy jest zbyt brutalna, drastyczna lub niepokojąca? OpenAI zleciło tę pracę osobom w Kenii, płacąc im 2 dolary za godzinę za czytanie tych odpowiedzi. Wyobraź sobie więc, że płacą ci 2 dolary za godzinę za przychodzenie do pracy i czytanie najbardziej przerażających, niepokojących psychicznie tekstów, a ty robisz to przez 10 godzin, a potem wracasz do domu i wszystko to krąży ci w głowie. Obecny sposób tworzenia kiełbasy ma więc wiele wad”.

Muzyczne deepfake

Bardziej nowatorskim zastosowaniem sztucznej inteligencji w muzyce jest wykorzystanie deepfake'ów audio do fałszowania tekstów lub stylu muzycznego istniejących utworów, aby upodobnić je do głosu lub stylu innego artysty. Wywołało to wiele obaw dotyczących legalności tej technologii, a także etyki jej stosowania, zwłaszcza w kontekście tożsamości artystycznej. Ponadto pojawiło się również pytanie, komu należy przypisywać autorstwo tych utworów. Ponieważ sztuczna inteligencja nie może mieć własnego autorstwa, obecne spekulacje sugerują, że nie będzie jasnej odpowiedzi, dopóki nie zostaną podjęte dalsze decyzje dotyczące technologii uczenia maszynowego w ogóle. Najnowsze środki zapobiegawcze zaczęły być opracowywane przez Google i Universal Music Group, które wzięły pod uwagę tantiemy i przypisanie autorstwa, aby umożliwić producentom kopiowanie głosów i stylów artystów.

„Heart on My Sleeve”

W 2023 roku artysta znany jako ghostwriter977 stworzył muzyczny deepfake zatytułowany „Heart on My Sleeve”, który sklonował głosy Drake'a i The Weeknda, wprowadzając zestaw ścieżek wokalnych poszczególnych artystów do algorytmu głębokiego uczenia się, tworząc sztuczny model głosów każdego z artystów, który można było dopasować do oryginalnych wokali referencyjnych z oryginalnymi tekstami. Utwór został zgłoszony do nagrody Grammy w kategorii Najlepsza piosenka rapowa i Piosenka roku. Stał się viralem i zyskał popularność na TikToku, a także spotkał się z pozytywnym odbiorem publiczności, co doprowadziło do jego oficjalnego wydania w serwisach Apple Music, Spotify i YouTube w kwietniu 2023 roku. Wielu uważało, że utwór został w całości napisany przez oprogramowanie AI, ale producent twierdził, że kompozycja, produkcja i oryginalne wokale (przed konwersją) nadal były jego dziełem. Piosenka została później usunięta z listy nominacji do nagrody Grammy, ponieważ nie spełniała wymagań niezbędnych do zakwalifikowania się do tej nagrody. Utwór został usunięty ze wszystkich platform muzycznych przez Universal Music Group. Piosenka ta była punktem zwrotnym dla klonowania głosu przy użyciu sztucznej inteligencji i od tego czasu stworzono modele dla setek, jeśli nie tysięcy popularnych piosenkarzy i raperów.

„Skąd to się wzięło”

W 2013 roku piosenkarz country Randy Travis doznał udaru mózgu, który uniemożliwił mu śpiewanie. W międzyczasie wokalista James Dupré koncertował w jego imieniu, wykonując jego utwory. Travis i jego wieloletni producent Kyle Lehning wydali w maju 2024 roku nową piosenkę zatytułowaną „Where That Came From”, pierwszą nową piosenkę Travisa od czasu udaru. Nagranie wykorzystuje technologię sztucznej inteligencji do odtworzenia głosu Travisa, skompilowanego z ponad 40 istniejących nagrań wokalnych wraz z nagraniami Dupré.

Narzędzia muzyczne oparte na sztucznej inteligencji

Teraz, gdy omówiliśmy już, czym jest sztuczna inteligencja, a także niektóre z jej głównych wad, możemy porozmawiać o istniejących narzędziach muzycznych opartych na sztucznej inteligencji. Podczas Berklee Onsite 2023, corocznej konferencji muzycznej odbywającej się na terenie kampusu Berklee College of Music w Bostonie, Wares podzielił się kilkoma narzędziami muzycznymi opartymi na sztucznej inteligencji, o których warto wiedzieć; niektóre z nich można zacząć poznawać już teraz, a inne warto po prostu poznać.

BandLab SongStarter

Aplikacja SongStarter firmy BandLab to generator utworów oparty na sztucznej inteligencji, który pozwala wybrać gatunek, wprowadzić tekst piosenki (i emoji), a następnie generuje darmowe pomysły. Następnie można przenieść te pomysły do funkcji studia, aby dostosować je do własnych potrzeb. Jest to świetny sposób na rozpoczęcie pracy nad piosenką, jeśli potrzebujesz początkowej inspiracji.

Midjourney

Midjourney, jeden z najpopularniejszych generatorów obrazów opartych na sztucznej inteligencji, może być używany do tworzenia okładek albumów, okładek piosenek, plakatów, pętli Spotify, obrazów merchandisingowych i nie tylko. To, co odróżnia go od innych generatorów obrazów opartych na sztucznej inteligencji, to jego surrealistyczny, oniryczny styl, który może lepiej pasować do projektów muzycznych. Program jest łatwy w użyciu, ale wymaga pewnej nauki. Podobnie jak w przypadku wielu nowych programów technologicznych, przed rozpoczęciem pracy warto obejrzeć kilka tutoriali.

Mix Monolith

Wtyczka Mix Monolith to automatyczny system miksowania firmy AYAIC, który wyrównuje miks. W artykule Mix Online twórca programu pisze: „Jego celem nie jest automatyczne tworzenie gotowego miksowania, ale ustalenie podstawowych relacji między ścieżkami i zapewnienie odpowiedniej regulacji wzmocnienia”.

LANDR AI Mastering

Narzędzie do masteringu AI firmy LANDR pozwala przeciągnąć i upuścić utwór do programu, który następnie analizuje go i oferuje proste opcje dotyczące stylu i głośności. Po wybraniu tych dwóch opcji program zmasteruje utwór, dając więcej opcji dotyczących typu pliku i metody dystrybucji. LANDR może pochwalić się ponad 20 milionami utworów, które zostały zmiksowane za pomocą ich programu.

AIVA

AIVA to program oparty na sztucznej inteligencji, który został przeszkolony na ponad 30 000 kultowych utworów muzycznych z historii. Możesz wybierać spośród kilku różnych gotowych stylów muzycznych, od kina współczesnego po kino XX wieku, od tanga po jazz. Następnie masz możliwość wprowadzenia tonacji, metrum, tempa, instrumentacji, czasu trwania i innych parametrów. Jeśli nie wiesz, co wprowadzić, AIVA zrobi to za Ciebie. Na koniec możesz wygenerować utwór, dostosować instrumentację i przesłać różne typy plików. Jako subskrybent masz pełną licencję praw autorskich do wszystkiego, co stworzysz.

ChatGPT dla muzyków

Jedno z najczęściej używanych narzędzi AI, ChatGPT firmy OpenAI, ma wiele zastosowań dla muzyków. Firma jest obecnie przedmiotem dochodzenia Federalnej Komisji Handlu, dlatego należy zachować ostrożność w zakresie informacji udostępnianych ChatGPT, a także weryfikować wszelkie fakty otrzymane od ChatGPT.

Mając to na uwadze, program ten ma potencjał, aby skrócić czas poświęcany na zadania, które odciągają Cię od faktycznego tworzenia muzyki. Wares i Camp eksperymentują z ChatGPT od momentu jego premiery i mają kilka konkretnych wskazówek, które mogą okazać się przydatne dla muzyków i profesjonalistów zajmujących się muzyką.

Strategia w mediach społecznościowych

Media społecznościowe mogą być ogromną stratą czasu dla amatorskiego muzyka, a ChatGPT może pomóc w zmniejszeniu tego obciążenia. Wares twierdzi, że można zacząć od poinformowania ChatGPT, jakim artystą się jest, jaki gatunek muzyczny się wykonuje oraz jakie są hobby i zainteresowania. Następnie możesz poprosić o 30 treści na następne 30 dni na TikTok, Instagram, Facebook lub inną platformę społecznościową, z której korzystasz. Możesz nie tylko poprosić o pomysły na treści w mediach społecznościowych, ale także poprosić ChatGPT o stworzenie zoptymalizowanych podpisów i hashtagów.

Wymagania techniczne dotyczące tras koncertowych

Wybierając się w trasę koncertową, muzycy zazwyczaj zatrudniają kogoś, kto stworzy wymagania techniczne zawierające wszystkie szczegóły potrzebne do realizacji ich występu. Mogą one obejmować sprzęt, konfigurację sceny, inżynierię dźwięku, oświetlenie, obsługę, umowy koncertowe, trasy koncertowe, opcje miejsc, ceny biletów i wiele innych. Wares twierdzi, że ChatGPT może być tym, który napisze te wymagania techniczne, i niedawno współpracował z zespołem przy planowaniu trasy koncertowej przy użyciu tej technologii.

„Zaczęliśmy od stworzenia specyfikacji technicznej, która zawierała wymagania dotyczące sprzętu, szczegółową listę wejść, a nawet konkretne zalecenia dotyczące mikrofonów, wszystko w oparciu o kilka prostych wskazówek” – mówi Wares. „Następnie poprosiliśmy o rekomendacje dotyczące planu trasy koncertowej na północnym wschodzie, wysokości cen biletów oraz pomysłów na gadżety promocyjne w oparciu o specyficzne zainteresowania i dane demograficzne fanów zespołu. To, co zajęłoby kilka dni, zostało zrobione w niecałą godzinę”.

Pisanie tekstów piosenek

Jeśli potrzebujesz pomocy w pisaniu tekstów piosenek, potrzebujesz inspiracji lub chcesz skorzystać z sugestii słownych, ChatGPT może być przydatnym narzędziem do pisania piosenek. Camp podaje przykład współpracy z byłą studentką Berklee, Julią Perry (która przeprowadziła z nimi wywiad dla artykułu Berklee Now na temat sztucznej inteligencji i muzyki) w celu generowania pomysłów na piosenki za pomocą ChatGPT.

„Rozmawialiśmy o tym, jak wszechświat jest magiczny i jak ona chciała wyrazić tę głęboką, niepoznawalną prawdę o wszechświecie” – mówi Camp. „Zasadniczo skondensowałem wszystko, co powiedziała, w dwóch lub trzech akapitach i powiedziałem [ChatGPT]: podaj mi 20 pierwszych wersów do tej piosenki”.

Ostatecznie wykorzystali jedną z 20 opcji jako punkt wyjścia dla nowej piosenki.

Tworzenie treści

ChatGPT może pomóc w różnych zadaniach związanych z tworzeniem treści i copywritingiem, niezależnie od tego, czy chodzi o pisanie komunikatów prasowych, biografii o różnej długości, strategii wydania albumu, postów na blogu, treści stron internetowych, e-maili i innych.

Umowy i kontrakty

W idealnym świecie wszystkie umowy i kontrakty byłyby sporządzane i sprawdzane przez prawnika, ale nie zawsze jest to realistyczne lub opłacalne. W niektórych przypadkach lepiej jest poprosić ChatGPT o sporządzenie umowy niż nie mieć nic. Można to wykorzystać w przypadku umów dotyczących zarządzania, umów zespołów muzycznych, arkuszy podziału, umów dotyczących występów i innych. Jednak ponownie, jeśli to możliwe, zawsze lepiej jest skorzystać z pomocy prawnika specjalizującego się w branży rozrywkowej.

Gdzie są ludzie?

Obecny stan generatywnej muzyki AI bardziej przypomina mieszanie i dopasowywanie niż prawdziwą generację. Nie jest to tak naprawdę zespół grający covery, ale raczej ekspansywne podejście do odrodzenia. Może on wytwarzać dźwięki tylko na podstawie danych szkoleniowych i chociaż może łączyć, miksować i refraktować te elementy w nowy sposób, nie może naprawdę eksperymentować poza tym.

Muzycy powiedzą Ci, że istnieje tylko ograniczona liczba nut, które można zagrać, lub że wszystkie dźwięki są tylko kwestią częstotliwości i długości fali, a zatem w kategoriach czysto muzycznych można zrobić tylko tyle. Ale muzyka to coś więcej niż tylko aranżowanie akordów lub rytmów, tak samo jak tworzenie przepisów to coś więcej niż tylko wybieranie z ograniczonej listy składników i technik.

Ribo jest gitarzystą znanym ze swoich eksperymentów i umiejętności czerpania z różnych wpływów i łączenia ich w coś nowego. Na pierwszy rzut oka brzmi to bardzo podobnie do propozycji wartości przedstawionej przez zwolenników generatywnej sztucznej inteligencji, ale twierdzi on, że istnieją fundamentalne różnice między człowiekiem a maszyną wykonującą tę samą czynność.

„Nie jestem w stanie zagrać 12-taktowego solo bluesowego bez cytowania kogoś innego” – powiedział Ribot. „Musimy przyznać ludziom prawo do tego. Jestem całkiem dobry w rozpoznawaniu, kiedy przekraczam granicę. Wiem, że mogę zacytować tę część utworu Charliego Parkera, nie tworząc utworu Charliego Parkera, i wiem, że mogę to tak bardzo zepsuć, że nadal będzie fajnie”.
Album Ribota z 1990 roku, Rootless Cosmopolitans, zawiera cover utworu Jimi Hendrixa „The Wind Cries Mary”. W hołdzie dla Hendrixa wersja Ribota jest abstrakcyjna, tekst wykrzykiwany jest przy akompaniamencie szorstkiej gitary i nie ma wiele wspólnego z oryginalną piosenką poza brzmieniem gitary, pomijając melodię, akordy i rytm Hendrixa. Mimo to Ribot umieściła ją na albumie jako cover i płaci mechaniczne tantiemy od każdej sprzedaży lub
odtworzenia. „Ten system należy zachować i warto o niego walczyć” – powiedziała Ribot. „Nie otrzymujemy minimalnego wynagrodzenia, gdy siedzimy na płycie. Nie mamy żadnych gwarancji, nawet gdy występujemy. [Prawa autorskie] to dosłownie jedyne prawa ekonomiczne, jakie mamy”.

Dyskursywna praktyka Ribota wpisuje się w długą tradycję: muzyka jako medium definiowana jest przez świadomość i szacunek dla tego, co było wcześniej, co może nadal się rozwijać i zmieniać, a nie tylko być poddawane recyklingowi. „Siłą napędową zmian w muzyce są zmiany nastrojów ludzi, ich potrzeb i możliwości, a także tego, co kochają i co ich denerwuje. Ludzie mogą nauczyć się czerpać z uczuć, wydarzeń i pełni swojego życia i przedstawiać je na gitarze lub fortepianie. Rozszerza to pole działania wraz z poszerzaniem się doświadczenia, wydłużaniem się historii i pojawianiem się zespołów, które potrzebują wyrazu i pomysłów”.

Historycznie rzecz biorąc, między muzykami a publicznością istniała święta umowa, która zakładała autentyczność i człowieczeństwo. Spośród milionów fanów Taylor Swift, którzy uczestniczyli w trasie Eras Tour, wielu mogłoby opowiedzieć szczegółowo o jej życiu osobistym. To samo dotyczy publiczności Beyoncé, Harry'ego Stylesa, Eltona Johna lub innych największych artystów koncertujących. Aby wypełnić stadiony, potrzebna jest prawdziwa osoba. Nikt nie oglądałby programu The Masked Singer, gdyby nie sądził, że rozpozna wykonawców po zdjęciu masek.

Kiedy słuchamy muzyki świadomie, często słuchamy jej hermeneutycznie, tak jakby piosenka była bramą do większej przestrzeni zrozumienia doświadczeń i perspektyw innych ludzi. Weźmy na przykład Nirvanę. Ponieważ estetyczne odstępstwo grunge'u spotkało się z nowoczesną technologią studyjną w odpowiednim momencie, Nevermind znalazło ogromną publiczność nie tylko ze względu na brzmienie, ale także dlatego, że osobista historia Kurta Cobaina – błyskawiczny wzrost popularności i tragiczna przedwczesna śmierć niespokojnego dzieciaka z przedmieścia, który stał się gwiazdą rocka, otwarcie podważając (niektóre) konwencje gwiazd popu – znalazła oddźwięk wśród ludzi.

Chociaż zespół docenił muzyków, którzy go zainspirowali – Pixies, Gap Band i innych – płyty Nirvany są ostatecznie unikalnym produktem wyborów dokonanych przez Cobaina, jego kolegów z zespołu i ich współpracowników, wyrazem i odzwierciedleniem ich doświadczeń i ideałów. Sztuka, z definicji, jest produktem ludzkich decyzji.

Niektóre utwory muzyczne generowane przez sztuczną inteligencję, podobnie jak inne formy procesu muzycznego, nadal zachowują ten ludzki element: ponieważ artyści tacy jak Ivan Paz i Shelley Knotts w dużym stopniu polegają na zautomatyzowanych modelach, tworzą system, podejmują niezliczone decyzje dotyczące jego działania i decydują, co zrobić z dźwiękami, które on wytwarza.
Jednak muzyka generowana przez sztuczną inteligencję, która stanowi zagrożenie dla ludzkich muzyków, ponieważ wystarczy jej kilka słów, aby stworzyć z nich całe utwory, jest z natury ograniczona, ponieważ może patrzeć tylko do wewnątrz i wstecz w czasie na podstawie swoich danych, nigdy na zewnątrz, a zatem nigdy do przodu. Gitara została wynaleziona wieki temu, ale model sztucznej inteligencji wyszkolony na muzyce sprzed okresu świetności Sister Rosetta Tharpe w latach 40. XX wieku raczej nie stworzy niczego, co przypominałoby gitarę elektryczną. Hip-hop to styl muzyczny oparty na samplowaniu i przerabianiu utworów innych artystów (czasami w formach lub kontekstach, które nie podobają się oryginalnemu artyście), ale model wyszkolony na muzyce sprzed 1973 roku nie będzie w stanie stworzyć niczego podobnego.

Istnieje niezliczona ilość powodów, dla których ludzie słuchają muzyki, ale istnieje równie wiele powodów, dla których ją tworzą. Ludzie tworzyli dźwięki dla siebie nawzajem od tysięcy lat i przez większość tego czasu głupotą byłoby wyobrażać sobie, że można z tego żyć – niemożliwe było nawet pomyśleć o wzmocnieniu dźwięku, nie mówiąc już o jego nagraniu. Ludzie i tak tworzyli muzykę.

Istnieje tu napięcie, które pojawiło się jeszcze przed pojawieniem się sztucznej inteligencji. Z jednej strony wytwórnie płytowe i platformy streamingowe uważają, w dużej mierze słusznie, że rynek muzyczny pragnie przede wszystkim uznania, więc większość pieniędzy pochodzi ze sprzedaży katalogów uznanych artystów. Jedno z badań sugeruje, że sprzedaż ta stanowiła 70 procent amerykańskiego rynku muzycznego w 2021 roku. Utwory z czołówki list przebojów brzmią coraz bardziej podobnie. Algorytmy platform streamingowych często odtwarzają w kółko te same utwory.

Z drugiej strony istnieje nieodłączna ludzka potrzeba zaskoczenia, innowacji, przekraczania granic. Jest to różne dla każdej osoby. Cele wielkiej korporacji – zasadniczo jej skala i nadzór – różnią się od celów jej użytkowników jako całości i poszczególnych osób, a im większa jest baza użytkowników, tym bardziej będzie ona dążyć do automatyzacji. Ani generatory muzyki oparte na sztucznej inteligencji, ani dynamicznie generowane listy odtwarzania, ani żadne inne systemy oparte na algorytmach predykcyjnych nie są z natury dobre lub złe: wyniki zależą wyłącznie od tego, kto je obsługuje i w jakim celu.

Jednak bez względu na to, co się stanie, żadna firma nigdy nie będzie miała monopolu na muzykę. Żadne gatunki tego nie mają. Ptaki to robią. Pszczoły to robią. Wieloryby w morzu to robią. Niektóre z tych dźwięków są dla ludzkiego ucha bardzo piękne. Jednak nawet pomimo tych wszystkich naturalnych melodii, całej muzyki stworzonej już przez ludzi oraz całej muzyki, którą sztuczna inteligencja pomoże stworzyć lub stworzy sama, ludzka potrzeba tworzenia i wyrażania siebie pozostaje niezmienna. Muzyka istnieje w naszym świecie z powodów innych niż komercja.

Najczęściej powód jest dość prosty: osoba lub grupa osób zdecydowała, że powinna istnieć, i tak się stało. Będzie istnieć nadal, bez względu na to, ile dźwiękowego szlamu wyprodukują maszyny.

Przyjąć czy się opierać?

Jednym z powracających tematów związanych ze sztuczną inteligencją i innymi nowymi technologiami jest to, że w przyszłości będą one odgrywać dużą rolę w branży muzycznej (i większości branż), a ignorowanie ich nie pomoże przyszłym liderom branży.

„Uważam, że sztuczna inteligencja może pomóc moim studentom być bardziej produktywnymi i wspierać ich proces twórczy, a także pozwolić im skupić się na tym, co dla nich najważniejsze, czyli tworzeniu i wykonywaniu muzyki lub poszukiwaniu nowych pomysłów biznesowych” – mówi Wears. „Jednak jako odpowiedzialny pedagog muszę zadbać o to, aby moi studenci nie stali się zbyt zależni od tych narzędzi i nieustannie poszukuję sposobów wykorzystania sztucznej inteligencji do rozwijania ich umiejętności krytycznego myślenia”.

Camp zgadza się z tym i zachęca ludzi do robienia tego, co im odpowiada, w miarę rozwoju sztucznej inteligencji.

„Zdecydowanie zachęcam, jeśli chcesz być na bieżąco i wykorzystywać technologię do rozwoju tego, po co jesteś na tej planecie, to tak, dołącz do nas” – mówi Camp. „Ale jak już powiedziałem, mam przyjaciół, którzy używają telefonów stacjonarnych. Mam przyjaciół, którzy wolą kupować płyty winylowe. Sztuczna inteligencja jest tutaj. Ma ogromny wpływ. Nie musisz jej używać, ale wiele osób decyduje się na to”.

Sztuczna inteligencja w Berklee Online

Niedawno Berklee Online uruchomiło inicjatywę o nazwie ARIA: AI-enhanced Realities & Immersive Applications (Rzeczywistość wzbogacona o sztuczną inteligencję i aplikacje immersyjne). Projekt jest prowadzony przez Gabriela Raifera Cohena, zastępcę dyrektora ds. wsparcia i technologii audio w Berklee Online oraz absolwenta Berklee College of Music.

„Podobnie jak kalkulatory, komputery, internet i wyszukiwarki przed nią, GenAI jest tutaj, aby pozostać” – mówi Raifer Cohen. „Ignorowanie faktu, że wszystkie te narzędzia są łatwo dostępne, szkodzi studentom. . . . Nauczanie studentów, jak najlepiej – i odpowiedzialnie – wykorzystywać te technologie jako narzędzia wzmacniające pozycję, może być bardziej wartościowym przedsięwzięciem niż próba walki z nimi”.

A to, że sztuczna inteligencja będzie odgrywać ważną rolę w przyszłości przemysłu muzycznego, nie oznacza, że nie możemy krytykować tej nowej technologii lub opowiadać się za środkami bezpieczeństwa. „Jednocześnie musimy przeciwstawiać się rozprzestrzenianiu się przeciętności i braku wrażliwości twórczej, napędzanym bezmyślnym wykorzystaniem GenAI, pozostając jednocześnie świadomymi etycznie i proaktywnymi” – mówi. „Nie jest to łatwe, ale musimy wziąć pod uwagę, że rozwój sztucznej inteligencji otwiera również możliwości potencjalnie transformacyjnych doświadczeń edukacyjnych”. Raifer Cohen twierdzi, że w ramach inicjatywy ARIA Berklee Online będzie nadal badać te nowe narzędzia i dopiero po ich przetestowaniu i dokładnym zbadaniu szkoła rozważy wdrożenie ich w salach lekcyjnych. „Ostatecznie nie możemy zapominać, że dla uczniów i nauczycieli, widzów i twórców wszystkie te potężne narzędzia są właśnie tym: narzędziami” – mówi Raifer Cohen.


Author Avatar
Author
Antony Tornver
Published
February 25, 2025
Make Music Now.
No Downloads, Just
Your Browser.
Start creating beats and songs in minutes. No experience needed — it's that easy.
Get started