Die kreative Leistung von KI in der Musikkomposition ist begrenzt
Eine Studie der Hochschule für Musik, Theater und Medien Hannover zeigt: Bei Melodie-Fortsetzungsaufgaben sind künstliche Intelligenzen menschlichen Lösungen deutlich unterlegen.
In der Musikwelt sorgt der Aufstieg von künstlicher Intelligenz für Aufsehen. Insbesondere im Bereich der Komposition gewinnt das Thema KI sprunghaft an Dynamik. Aber sind KI-Systeme bei einer standardisierten Melodie-Fortsetzungsaufgabe wirklich konkurrenzfähig? Zu einem ernüchternden Ergebnis kommen Musikpsychologen der Hochschule für Musik, Theater und Medien Hannover (HMTMH): Ihrer aktuellen Studie zufolge werden die Resultate zweier KI-Systeme im Vergleich zu menschlichen Lösungen ästhetisch deutlich schlechter bewertet. Die Forschergruppe unter der Leitung von Prof. Dr. Reinhard Kopiez beurteilt die aktuelle öffentliche Diskussion um das musikalisch-kreative Potenzial von KIs kritisch und sieht Tendenzen zur Überbewertung.
Lange Zeit schien die Erschaffung von Musik allein eine menschliche Domäne zu sein. Frühe Versuche der automatisierten Komposition wie Mozarts „Musikalisches Würfelspiel“ hatten keinen Kunstanspruch und dienten allein der Unterhaltung. Erst in den 1990er Jahren kamen mit David Copes „Experiments in Musical Intelligence“ Zweifel am menschlichen Alleinstellungsmerkmal der musikalischen Kreativität auf: Nach ausgiebigem Training mit dem klassischen Musikrepertoire konnte das KI-basierte Computersystem des US-Amerikaners u. a. überzeugende Stilkopien von Klavierstücken von Mozart und Beethoven erstellen.
Durch die Verfügbarkeit leistungsfähiger KI-Systeme seit 2022 kann die Aufgabe des Songwritings heute Plattformen wie ChatGPT, Google Magenta Studio oder Suno übertragen werden. Die Systeme bieten einen quasi voraussetzungslosen Zugang zur Komposition in einem breiten stilistischen Bereich vom Streichquartett bis zum Heavy Metal. Das Grundprinzip ist simpel: Anweisungen werden per Text über die Eingabe sogenannter „Prompts“ erteilt. Außer dem Wissen um die Bezeichnung von Formteilen wie „Strophe“ oder „Refrain“ sind hierfür keinerlei musiktheoretische Kenntnisse erforderlich. Das vorhergehende umfangreiche Training der KIs mit dem „musikalischen Weltwissen“ des Internets macht es möglich und bietet mittlerweile sogar bei den Singstimmen eine überzeugende Qualität.
KI bleibt unterhalb des kreativen Niveaus von Musikstudierenden
Aber wie sind die Leistungen der KI-Agenten zu bewerten, wenn die Systeme nicht frei komponieren – oder besser: rekombinieren – können, sondern stattdessen eine standardisierte Aufgabe erhalten? Und wie schneiden sie im Blindtest im Vergleich zu menschlichen Lösungen ab? In ihrem Experiment wies die Arbeitsgruppe um den Wissenschaftler Prof. Dr. Reinhard Kopiez eindeutig die Unterlegenheit der KI-Systeme nach: „Zumindest die aktuell verfügbaren leistungsfähigsten KI-Systeme bleiben bei standardisierten Bedingungen unterhalb des kreativen Niveaus von Musikstudierenden.“
Als Stimulus wählten die Hannoverschen Musikpsychologen die Anfangstakte einer Melodie aus einem weitgehend unbekannten Musikstück im Stil von Filmmusik aus. Basierend auf einem Melodiefortsetzungs-Paradigma wurden insgesamt 111 Kompositionen mit den KIs ChatGPT (Version 3.5) und Google Magenta Studio (Version 2.0) erstellt. Musikstudierende generierten insgesamt 57 Fortsetzungsvarianten.
Die Eingabe in ChatGPT erfolgte über ein Python-Skript, die in Magenta durch eine MIDI-Datei, die Rückwandlung der Lösungen in Klang wiederum über ein Python-Skript. Als konstante Rahmenbedingungen waren die maximale Anzahl der Töne, der tiefste und höchste Ton, die Aufforderung zur Verwendung unterschiedlicher Tonlängen und die Forderung nach einem eindeutigen melodischen Höhepunkt vorgegeben.
Mängel bei ästhetischen Qualitäten und musikalischer Logik
In einem randomisierten Blindtest bewerteten 71 Teilnehmende mit überdurchschnittlicher musikalischer Erfahrung die ästhetischen Qualitäten der Melodien auf den fünfstufigen Skalen „Gefallen“, „Interessantheit“, „logisch und sinnvoll“ und „überzeugend“. Das Ergebnis erstaunte die Musikpsychologen: Die menschlichen Lösungen wurden auf allen Skalen deutlich besser bewertet als die KI-Versionen, wobei das ältere System Google Magenta Studio noch hinter ChatGPT lag.
Die Studie liefert wichtige Erkenntnisse für die zukünftige Entwicklung von KI-Systemen im Musikbereich und unterstreicht die Notwendigkeit weiterer Forschung, um das Potenzial und die Grenzen von KI in der Musik besser zu verstehen. Die Musikpsychologen der HMTMH plädieren dafür, die in der Öffentlichkeit oftmals überhöhte Bewertung der kreativen Leistungsfähigkeit von KI-Systemen kritisch zu begleiten und auch auf Schwachstellen der Systeme hinzuweisen. So fehlt den verwendeten KIs aktuell beispielsweise ein Konzept von Tonalität, wodurch Melodiefortsetzungen häufig in einer anderen Tonart endeten als sie begonnen hatten.
Die Ergebnisse der Hannoveraner Studie sind in der Fachzeitschrift „Jahrbuch Musikpsychologie“ veröffentlicht: Schreiber, A., Sander, K., Kopiez, R., & Thöne, R. (2024). The creative performance of the AI agents ChatGPT and Google Magenta compared to human-based solutions in a standardized melody continuation task. Jahrbuch Musikpsychologie, 32, Article e195. https://doi.org/10.5964/jbdgm.195
Wissenschaftlicher Ansprechpartner:
Prof. Dr. Reinhard Kopiez
Hochschule für Musik, Theater und Medien Hannover
Musikwissenschaftliches Institut und Hanover Music Lab
Neues Haus 1, 30175 Hannover
Telefon: 0511 3100-7608
E-Mail: reinhard.kopiez@hmtm-hannover.de
Web: http://www.hml.hmtm-hannover.de
Originalpublikation:
Schreiber, A., Sander, K., Kopiez, R., & Thöne, R. (2024). The creative performance of the AI agents ChatGPT and Google Magenta compared to human-based solutions in a standardized melody continuation task. Jahrbuch Musikpsychologie, 32, Article e195. https://doi.org/10.5964/jbdgm.195