2025年12月11日星期四

讀論文 Maria, Fá, Yee-King, Matthew and Kirby, Jenn (2025) Entangled Voices: AI, Intra-action, and the Body Multiple in Creative Practice. In: AI Music Creativity, 2025-9-10 - 2025-9-12, Brussels.

Maria, FáYee-King, Matthew and Kirby, Jenn (2025) Entangled Voices: AI, Intra-action, and the Body Multiple in Creative Practice. In: AI Music Creativity, 2025-9-10 - 2025-9-12, Brussels.

資料來源:Entangled Voices: AI, Intra-action, and the Body Multiple in Creative Practice - The University of Liverpool Repository (參考書目亦見此)


糾纏之聲:創意實踐中的人工智慧、內動作用與多重身體

(Entangled Voices: AI, Intra-action, and the Body Multiple in Creative Practice)

作者: Fá Maria, Matthew Yee-King, Jenn Kirby

單位:

倫敦大學金匠學院 運算學系 (Goldsmiths, University of London)

利物浦大學 音樂系 (University of Liverpool)

聯絡信箱: fpere002@gold.ac.uk, m.yee-king@gold.ac.uk, jenn.kirby@liverpool.ac.uk

摘要

本文探討人工智慧(AI)如何塑造藝術家的創作產出,不僅在技術和美學層面上,更探討在使用這些工具時,關於藝術控制、能動性(agency)和倫理的問題如何浮現並塑造藝術過程。這些關注點透過《ERASURE》(2025)這件影音作品進行探索,該作品質問了 AI 生成聲音中的性別偏見。借鑑 Karen Barad 的「內動作用」(intra-action)概念和 Annemarie Mol 的「多重身體」(the body multiple),本文檢視 AI 工具如何共同構成(co-constitute)創作過程,挑戰了藝術家與工具之間的二元區分。本文採用結合自我民族誌(autoethnography)與這兩個概念的混合方法,調查 AI 工具如何使真實性(authenticity)、同意權(consent)和再現(representation)的概念變得複雜。最終,本文主張 AI 工具絕非中立,它們將藝術家拉入一場超出美學範疇、延伸至社會與政治層面的權力協商之中。


1. 緒論 (Introduction)

在當代電子與實驗音樂中,整合人工智慧(AI)作為創作工具已變得日益普遍,反映了運算美學與人機協作的廣泛轉變(Dean and McLean, 2018; Bown, 2021)。這一趨勢與人機互動及音樂科技研究中的廣泛運動相呼應,即將數位音樂工具視為糾纏的(entangled)、主動的參與者,而非被動的樂器(Mudd, 2019; Frauenberger, 2020; Morrison and McPherson, 2024; Reed et al., 2024)。

本文探討 AI 如何塑造藝術家的創作產出,不僅在技術和美學層面,還包括在使用這些工具時,關於藝術控制、能動性和倫理的問題如何產生並塑造藝術過程。為此,我們反思了《ERASURE》(2025)的創作過程,這是一件探討 AI 語音合成技術中的再現與性別偏見問題的影音作品。該作品基於一個前提:非二元性別者(gender non-conforming people)的聲音通常被 AI 模型忽視或誤解,因為這些模型往往是用受「陽剛氣質」和「陰柔氣質」文化假設所塑造的聲音編程的(Sindoni, 2024)。

藝術過程始於對 AI 聲音再現侷限性的推測性與聲音探究。然而,隨著計畫的演變,顯而易見的是,語音合成技術不僅僅是複製聲音;它們還能重新配置身分認同、倫理和能動性的概念(Crawford, 2021)。透過與一個精心策劃的酷兒(queer)和跨性別(trans)歌手資料集合作,這件作品也直面了關於同意權、真實性、再現以及聲音具身性(embodiment)政治的問題。所有這些關注點都需要一種「情境化」(situated)的方法——不僅關注 AI 系統的產出,也關注這些系統所觸及的更廣泛歷史、身體和關係(倫理、政治、社會等)。

本文的分析透過一種混合方法展開,結合第一作者(以藝名 Fá Maria 工作)的第一人稱自我民族誌,並融合 Karen Barad 的「內動作用」(intra-action, Barad, 2007)概念與 Annemarie Mol 的「多重身體」(body multiple, Mol, 2002)理論視角。Barad 的內動作用概念加深了這一分析,它拒絕將人類與技術視為互動的獨立實體模型;相反,它將它們視為透過糾纏而相互構成的。在《ERASURE》的脈絡中,我們主張聲音、藝術家、工具和藝術作品是相互塑造和共同構成的,它們透過訓練、合成和表演的藝術與技術過程,以及 AI 工具所觸及的政治、社會、經濟和生態主題而湧現(emerge)。

Annemarie Mol 的「多重身體」概念在此被用來概念化聲音:聲音並非單一、連貫的身分,而是在不同情境中被差異化地「實作」(enacted):在人類聲音中、在資料集中、在合成輸出中、在政治論述中以及在觀眾感知中。每種工具和場景都呈現出不同的「聲音」,使真實性、所有權和具身性的概念變得複雜。透過這個視角,聲音被理解為多重的、情境化的(與脈絡相關)和偶然的,它不是固定的,而是持續被重新構成的。

這種方法不將技術視為被動工具,而是突顯藝術家與系統、聲音與機器、自我與數據的相互構成。內動作用與多重身體的理論框架提供了一種方式,以凸顯我們所使用工具的非中立性,並認可 AI 與人類身體如何在藝術實踐中共同構成彼此。

本文結構如下:第 2 節描述《ERASURE》的概念目標。第 3 節介紹內動作用和多重身體的理論框架,這將作為理解藝術家與 AI 工具動態關係的透鏡。第 4 節描述《ERASURE》中使用的具體 AI 技術,如透過 RAVE 架構訓練 AI 模型、使用 Neutone 外掛程式運行本地音訊模型,以及在 ElevenLabs 線上平台進行聲音克隆,並強調它們對創作過程的影響。第 5 節分析這些工具如何塑造藝術過程,並引發關於同意權、透明度和所有權的倫理問題。最後,我探討使用內動作用和多重身體等概念如何幫助我們釐清在藝術實踐中使用 AI 工具的複雜性,並反思諸如以下問題:當創作工具本身引入意想不到的轉變時,作曲意味著什麼?倫理、同意和透明度如何成為藝術過程的一部分,而非外部考量?最終,本文主張 AI 工具絕非中立,它們將藝術家拉入一場超出美學範疇、延伸至社會與政治層面的權力協商之中。


2. 《ERASURE》:AI、偏見與酷兒發聲 (ERASURE: AI, bias, and queer vocality)

聲音在身分認同和政治再現的物理與象徵層面上都扮演關鍵角色(Cavarero, 2005; McGarry, 2024)。對於酷兒和跨性別群體而言,聲音不僅是自我表達的重要載體,也是被邊緣化的來源(Stryker, 2008; Eguchi, 2018; Muchitsch, 2023)——從「同志聲音」(gay voice)到說話焦慮(speech dysphoria),甚至是賀爾蒙治療導致的聲音變化。然而,這些外於規範標準的說話和發聲方式,在許多音樂流派中找到了表達空間並產生深遠影響,從 Hyperpop 到 House、Techno、Folk 和實驗音樂(Maus, 2022; Goldfine, 2023; Muchitsch, 2023)。

AI 技術尤其可能放大特定性別、種族主義、階級主義和其他偏見(Kartal, 2022; Ferrara, 2023; Çırtlık and Cosar, 2024)。問題的核心在於,AI 系統(包括 Siri、Alexa 和 Google Assistant 等數位語音助理)通常被編程為模仿人類性別特徵的聲音。這些選擇並非中立(Sindoni, 2024);由設計師和工程師創建與策劃的 AI 聲音,受到關於陽剛與陰柔氣質的歷史和文化假設影響,並以延續「性別是固定且二元」觀念的方式展演性別(2024)。這也呼應了 Judith Butler 的展演性(performativity)理論(Butler, 2015),即性別並非天生素質,而是由社會期望塑造的表演。這種在數位空間的表演透過排除不符合傳統性別規範的聲音,複製了線下的壓迫系統,如性別歧視、恐同和恐跨(Çırtlık and Cosar, 2024)。編碼為女性的聲音常被設計為聽起來具養育性、耐心或從屬性,反映了社會對女性角色的傳統期望(2024)。相比之下,編碼為男性的聲音常被賦予權威、力量或自信,強化了將陽剛氣質等同於領導力和能力的父權觀點(2024)。目前已有一些嘗試旨在提高人們對這些工具內建性別刻板印象的認識,例如全球首個語音助理服務 Project Q。Project Q 的聲音提供了一種「性別中立」的聲音,不屬於男性也不屬於女性(Carpenter, 2019)。

(影片 1:《ERASURE》預告片。)

《ERASURE》是作為倫敦藝術大學(UAL)和 Responsible AI UK(RAI UK)公開徵件的一部分而開發的。正如 RAI UK 網站所述,「Music RAI 資助了 3 個小型計畫,以創造對負責任 AI(RAI)關注 AI 模型偏見的影響和興趣。這些小型計畫使用低資源 AI 模型和小數據集等 AI 工具,展示 AI 偏見的挑戰以及如何使用 RAI 技術來解決這些問題。」

為了創作《ERASURE》,我召集了一群酷兒和跨性別歌手(包括我自己),成員包括藝術家 Eli Huehuentro、Lyra Pramuk、megouem、Nadia Marcus、Odete,並用我們的聲音訓練了客製化的 AI 模型來創作這件作品。我想創造推測性的、性別流動的聲音身分,橋接人類與機器,揭示 AI 應用於邊緣化聲音時的表現潛力。為此,我透過交織原始錄音及其 AI 生成的聲音來創作音樂。AI 生成的聲音範圍從幾乎無法與原始錄音區分,到具有機器般的質感。在某些情況下,我混合了不同的聲音來創造新聲音。在作品的大部分段落中,聽到的詞句實際上從未被人類歌手說過,但在某些情況下,AI 工具讓我能夠如此精確地複製他們的聲音,以至於很難辨別差異,我將在第 4 節詳細討論這一點。如果說這些工具一方面能擴展我們的能力,另一方面也引發了關於能動性以及「將話語放入別人口中」的深刻倫理問題。誰控制了聲音?透過科技複製或改變某人的身分意味著什麼?透過創作這件作品的過程,這些問題浮現出來——從再現的概念出發,我被迫在 AI 時代質問作者身分(authorship)和同意權(consent)的界線。


3. 理論框架:內動作用與多重身體 (Theoretical Framework: intra-action and the body multiple)

要理解 AI 共同塑造創作工作的不同方式,必須重新思考傳統觀念中藝術家作為自主創作者、藝術工具作為被動(Partch, 1979)、中立樂器的看法。近年來,我越來越多地將 AI 語音合成整合到我的作品中。在這個過程中,我發現藝術家與工具之間,或人類與機器之間的二元區分,已不足以涵蓋我創作過程的複雜性。這些二元對立不足以描述一個能動性、決策和意義是透過糾纏過程湧現的工作流程。在這些情境中,AI 系統不僅僅是被控制的工具;相反,它參與塑造了藝術過程,也被藝術過程所塑造。為了更好地說明這種動態,本文採用混合方法,將自我民族誌(一種強調研究者主體性的自我反思定性研究方法)與兩個理論框架編織在一起:Karen Barad 的「內動作用」(intra-action)概念和 Annemarie Mol 的「多重身體」(body multiple)理論。我主張,這些框架允許我們對創造力有更細緻的理解,視其為一種關係性和分散式的現象,其中的角色不是固定和預先定義的,而是透過作曲家與 AI 之間持續的互動——更準確地說是「內動作用」——而湧現。

第一人稱和第二人稱方法使藝術家和研究者能夠從內部闡述設計實踐或概念的經驗,將自己及其實踐作為研究主體(Ellis, Adams and Bochner, 2011; Rapp, 2018; Devendorf, Andersen and Kelliher, 2020)。這些方法允許闡述通常被忽視的見解,範圍涵蓋設計敘事(Howell, Desjardins and Fox, 2021)、圍繞機器學習(ML)和 AI 的論述(Jourdan et al., 2024)到表演和音樂創作(Brown and Vasquez, 2020; Mainsbridge, 2022; McMillan, 2022; Tapparo and Zappi, 2022)。本文的核心是自我民族誌方法,藉由我個人與語音合成工具互動的經驗,質問並反思藝術家使用的工具如何共同塑造藝術過程。

Barad 的著作(Barad, 2007)受到 Judith Butler 展演性概念(Butler, 1993)的影響。Barad 透過對 Niels Bohr 科學見解的「繞射閱讀」(diffractive reading),特別是他關於「科學實踐的原型展演性解釋」(Barad, 2007: 31),來探討這一概念。根據 Barad 的說法,Bohr 的觀點表明科學儀器和方法論不僅僅是描述或測量預先存在的物體,而是積極促進這些物體的形成和定義。她稱此為「能動實在論」(agential realism)。這個術語取代了傳統的「互動」(interaction)概念(即預先存在的元素進行互動),取而代之的是「內動作用」(intra-action),即元素相互湧現並共同構成彼此(Blackman, 2020)。

在音樂表演的脈絡中,透過上述概念思考,並從互動轉向內動作用,可以為表演者與樂器的關係提供獨特的見解:傳統思維可能將樂器視為表演者「使用」來創作音樂的被動客體(Partch, 1979; Emmerson, 2007)。內動作用則表明,表演者和樂器都是透過彼此的關係而進入其角色的——即共同構成(co-constitution);它允許更廣泛的能動性概念,這種能動性可以分布在表演者和樂器之間。例如,特定音樂工具的功能可供性(affordances)可以引導創作出的音樂類型。內動作用允許我們複雜地理解音樂製作中的能動性並非僅是人類的屬性;內動作用表明「表演者」和「樂器」這些類別並非預先存在,而是透過它們的關係湧現的。Barad 的觀點還可以幫助我們密切關注物質條件(如樂器的設計或狀態)和論述實踐(如我們談論或概念化音樂和樂器的方式)是如何糾纏在一起的。這使我們能夠看到人類和非人類元素如何共同促成音樂的實踐和理論。

與 Barad 的框架相輔相成的是 Annemarie Mol 的「多重身體」概念。我最初是在她的書《多重身體:醫療實踐中的本體論》(The Body Multiple: Ontology in Medical Practice)中接觸到 Mol 的作品。她以動脈粥樣硬化(動脈變窄)為例,說明醫療本體論——即醫療從業者如何理解和分類身體——並非固定或普遍認同的。相反,它們是透過醫療領域中各種行動者(健康專業人員、病患、照護者)之間的互動、協商和合作構建的。Mol 不遵循教科書中的概念,而是研究動脈粥樣硬化在荷蘭一家醫院中是如何被「做」(done)、「實踐」(practised)或「實作」(enacted)的(Jensen and Winthereik, 2005)。多重身體將多重性(multiplicity)、實作(enactment)和實踐(practices)的概念以引人入勝且激進的方式結合在一起(Jensen and Winthereik, 2005)。在社會科學中,通常的做法是指涉對同一物件的不同觀點,即 Mol 所稱的「視角主義」(perspectivalism)——即所有相關方都在觀看單一物件(2005)。但對 Mol 來說,一個物件(在此例中為疾病)不能被視為一個固定的實體,而是一個「部分連貫且部分協調的實作紋理」(2005)。在 Mol 的描述中,物件的本體論因此去中心化為多種實踐。物件並非自存的,而是僅透過「多重的情境化實踐」而存在(2005)。

儘管聚焦於被倍增的身體、技術和實踐,但多重身體並不代表碎片化。Mol 觀察到,一個待解的謎題是分歧的物件如何對齊以致它們能「掛在一起」(hang together)。這不一定作為一個連貫的身體,而是以一種使它們的「矛盾和張力以非常特定的方式產生影響(matter)」的方式對齊(125)。根據 Mol 的說法,物件不是作為自存實體存在,而是僅透過多重情境化實踐存在,因此是多重身體。從這個立場出發,我們不能僅透過描述和定義物件來理解多重身體。相反,我們應該描述遇到多重身體的多種活動、實踐和實作,這就是 Mol 創造的「本體論多重性」(ontological multiplicity)。這種實作的概念意味著不將身體視為單一、封閉和穩定的實體,而是一個過程。學者 Lisa Blackman 認為,「對過程的關注在於『正在組成』(composing)而非已組成、預先形成的實體。對組成的關注檢視了身體如何透過與特定物件、實踐、技術和人工製品的結合或連結而以特定方式組裝,使它們始終是『製作中』(in the making)的身體,而非現成的」(Blackman 2009:107)。

內動作用和多重身體的概念處理了身分、能動性以及人類與非人類實體之間關係的複雜性。它們源於女性主義理論、科學與技術研究(STS)以及後人文主義哲學。它們從一組關係中湧現,而非擁有內在、不可變的身分。這些糾纏表明沒有任何實體是孤立存在的,而是透過其關係不斷地被製造和重製。它們對我們如何理解能動性、責任和倫理行動具有意涵,挑戰我們超越個人主義和人類中心主義的框架思考,並承認我們所嵌入系統的複雜性。透過整合這些概念,我們可以將表演者與音樂工具的關係視為人類與非人類代理者(agents)的動態網絡,它們不斷地相互影響並反過來受影響。我認為,這種觀點允許對表演者與音樂工具的關係有更豐富、更細緻的理解,能夠容納音樂或藝術生產中涉及的複雜性和多重性。

透過整合這些概念,我們可以重新概念化表演者與音樂工具的關係,不將其視為人類與樂器之間的階層交換,而是視為物質-論述內動作用(material-discursive intra-actions)的動態、互惠網絡。當考慮到從我們的身體和聲音中「學習」的 AI 系統,以及它們反過來如何改變我們對自己的感知時,這種框架特別切題。因此,像 Barad 和 Mol 這樣的理論視角並非抽象的;它們提供了一種語言來描述後人類景觀中藝術實踐的生活複雜性。它們讓我能夠追溯我的作品是如何嵌入並被具身性、技術和身分的糾纏系統所塑造。


4. AI 作曲技術 (AI Compositional Techniques)

在本節中,我將描述用於創作《ERASURE》的步驟和一些作曲技術。

資料集 (Dataset): 我從柏林實驗音樂場景中召集了一群酷兒和跨性別歌手。目標是從每位歌手(包括我自己)那裡獲得兩組錄音:一組檔案使用說話聲音,朗讀詩歌(其中一些包含在作品中);另一組檔案是歌唱聲音,探索不同的聲音質地,包括長音、呼吸和非語言的發聲。目的是捕捉個體聲音的顆粒感和特性,以便後續進行合成與轉換。每個檔案的長度在 30 到 60 分鐘之間。

AI 訓練 (AI training): 採用了不同類型的 AI 工具來探索不同的訓練方法如何影響聲音輸出。這些方法包括:

  • RAVE: RAVE(即時音訊變分自動編碼器,Caillon and Esling, 2021)架構透過 Google Colab 進行訓練。訓練過程漫長且技術要求高,常因錯誤需要多次重啟。在某些情況下,訓練單個模型可能需要長達十天。一旦訓練完成,生成的模型將透過 Neutone FX 外掛程式部署,並整合到 Logic Pro X 中進行作曲工作。

  • Neutone: 在 Neutone 的自家平台 (https://neutone.ai/) 上,透過直接上傳音訊檔案到其線上訓練儀表板來訓練客製化模型。這個過程明顯較快,通常在三天內完成。生成的 AI 模型隨後可在其專用的 Morpho 外掛程式中使用。

  • ElevenLabs: 此外,使用 ElevenLabs 線上平台 (https://elevenlabs.io/) 來克隆參與者的聲音。這種方法生成的聲音輸出範圍從幾乎無法與原始說話者區分的複製品,到多種聲音的高度合成混合與變形。

(圖 1:《ERASURE》作曲過程圖解。)

聲音操作與作曲 (Sound Manipulation and Composition): 為了創作《ERASURE》,我結合了口語(spoken word)、合唱、氛圍音樂和節奏元素。ElevenLabs 主要用於合成口語和詩意段落,因為其聲音克隆能力允許對錄製的聲音進行高度的操作和轉換。Neutone 外掛程式(Neutone FX 和 Morpho)用於生成新的聲音質地和音色,專注於更抽象、氛圍或混合的聲音輸出。例如,在作品的第三首歌中,我將我的聲音與 Lyra Pramuk 的 AI 聲音模型進行變形融合(morphed)。在兩條音軌中(圖 2),我錄製了自己清唱非語言發聲。在其中一條音軌上,我使用了應用 Pramuk AI 模型的 Morpho 外掛程式。這個外掛程式讓我能夠透過各種變形參數,將我的聲音與 Pramuk 的合成聲音混合,產生一個新的混合聲音層。要達到我滿意的結果需要多次迭代和仔細調整外掛程式的參數。這反映了我在整部作品中使用這些 AI 工具的整體經驗:要達到滿意的聲音需要多次迭代和仔細調整不同參數,凸顯了在作曲過程中使用 AI 工具所需的探索性和實作性質。


5. 藝術實踐與 AI 技術:新問題的湧現 (Artistic Practice and AI Techniques: the emergence of new questions)

該計畫的最初目標是創作音樂,探索主流 AI 模型如何透過使用低資源 AI 模型和小數據集,通常忽視或錯誤呈現非規範聲音(如酷兒和跨性別者的聲音)。這個想法是展示不同類型的聲音,並探索透過結合類比和數位聲音,我們如何能夠解構關於「男性」或「女性」聲音應該如何聽起來的既定觀念,挑戰性別二元對立,轉而呈現性別光譜。

如果說最初我的目標是透過這個計畫挑戰 AI 生成聲音中的再現和性別規範問題,那麼透過與這些工具的「內動作用」,其他問題也隨之浮現,例如同意權的問題。像 ElevenLabs 這樣的工具允許克隆聲音,在某些情況下,這些聲音幾乎無法與原始聲音區分。這意味著我可以將歌手沒有說過的話「放」進他們嘴裡。涉及聲音克隆的兩個說明性例子包括藝術家 Eli Huehuentro,當向他展示英文詩歌時,他表示由於某些發音對他來說具有挑戰性,他不願意發音某些單字。因此,他將部分詩歌翻譯成西班牙文。透過克隆他那幾乎無法區分的聲音,我可以創建一個 Eli 用英文朗讀這些詩歌的版本(我後來在其中一首歌中使用了這個版本);另一個例子是藝術家 Lyra Pramuk 的聲音,可以聽到她朗讀一首她從未讀過的詩。這讓我意識到這些工具的力量,以及不僅需要獲得藝術家同意,還需要將這些聲音來源的社群進行脈絡化的重要性。

最初僅是對嵌入 AI 工具中的性別偏見進行的聲音調查,演變成了對支撐這些技術的結構性主題進行更廣泛的批判性參與。隨著作品的展開,顯而易見的是,質問主流 AI 系統中酷兒和跨性別聲音的缺席——或錯誤呈現——不能僅停留在美學層面。該計畫需要一種情境化和在地化(situated)的方法,一種能夠解釋與聲音和聲音再現糾纏在一起的生活現實和政治歷史的方法。作為回應,我整合了採取更具資訊性語氣的文本元素,也包括了 Nadia Marcus、megouem 和我自己的詩歌,這些詩歌訴說了具身的跨性別和酷兒經驗、情感和抵抗。

在整個過程中,內動作用和多重身體的概念不僅作為理論參考點,更作為方法論指引。這些觀點促進了一種轉變:從將聲音視為穩定的、個體化的實體,轉向理解為在個人、關係、技術和社會政治情境中被差異化實作的事物。回顧起來,這些框架支持了作品的倫理重構,幫助將其從聲音探究推向更廣泛的調查,即身分認同是如何透過物理、數位和意義的糾纏而共同建構的。這個視角最終重新定位了我作為音樂家的角色:不僅是聲音的作曲者,也是自我、系統和社會之間複雜內動作用的共同導航者,支持我的探索並將我的作品擴展到概念藝術和美術領域。這種轉變與我實踐中更廣泛的演變相一致,我開始探索將作品擴展至作曲家和音樂製作人角色之外的方式,以結合視覺、文本和概念維度。透過多種媒介參與這些問題,給了我一個框架和基礎,不僅擴展了我作品的形式語言,也透過結合聲音、理論、倫理和技術來重新定位我作為藝術家的角色。

至關重要的是,我所使用的工具的功能可供性(affordances)和限制(constraints)也在塑造創作過程和作品最終形式方面發揮了積極作用。許多 AI 工具——如 RAVE、Neutone 和 ElevenLabs——對我來說都是新的。這種陌生感需要一種開放和實驗的姿態,邀請我「相信過程」,並將這些工具的語言和特性視為作品美學語言的內在部分。雖然我在計畫開始時對作品的聲音有大致的設想,但這個願景不可避免地透過與工具本身的相遇而轉變。或許有人會說任何樂器都是如此。一件樂器、一個工具介面及其限制和功能可供性,不僅僅是技術特徵,而是作曲過程和最終結果的共同構成要素。在下一節中,我將更詳細地討論使用內動作用的概念如何幫助我們更好地理解這一點。

值得一提的是,視覺部分是使用 Runway AI 創作的,混合了手動拍攝的數位素材(後來使用 AI 處理)和透過文本提示生成的全 AI 視覺效果。然而,由於篇幅限制,本文將聚焦於作品的音訊部分。

5.1. 連結內動作用與多重身體至《ERASURE》

內動作用 (Intra-Action)

Karen Barad 的內動作用概念可以幫助我們理解 AI 在開發《ERASURE》中的角色。Barad 的理論強調代理者(在此例中為人類與 AI)在作品技術和創意層面上的相互依存性。內動作用不將藝術家和 AI 視為相互互動的獨立實體,而是假定藝術家和 AI 都是透過他們的參與而共同構成的。藝術家的意圖與 AI 的回應之間的界線變得多孔,意義並非單由藝術家產生,而是為了回應所使用工具的功能可供性和輸出而發展出來的。

在《ERASURE》的脈絡中,AI 技術如語音合成、聲音變形和聲音操作,並不僅僅是作為我藝術意志的延伸。它們帶來了意想不到的轉變、聲音的變化以及我無法預先預測或完全控制的新配置。這種內動作用對於理解計畫如何演變至關重要,並反映了 Barad 關於藝術家與技術之間共同構成糾纏的觀點。

多重身體 (The Body Multiple)

Annemarie Mol 的多重身體概念為探索《ERASURE》中藝術實踐的具身和碎片化本質提供了一個引人注目的透鏡。Mol 的理論挑戰了單一、統一身體的傳統觀念,反而假定身體(或研究對象)是多重的——取決於其不同的實作情境,透過各種實踐和相遇構建而成。

從這個角度來看,在《ERASURE》中,其每個部分,無論是人聲、使用的工具(外掛程式、AI 工具)或最終作品本身,都需要在其不同的實作中被檢視。例如,以我自己的聲音為例:我有「清唱」的類比聲音、我的 AI 克隆聲音,以及我透過外掛程式的 AI 重組聲音。這每一個不同的身體根據其不同的實作都有其特徵,揭示了不同的身體、屬性、挑戰和可能性。所有這些不同的聲音,這些不同的身體變成了這種方式,我的聲音——一個多重身體。這個透鏡可以應用於任何研究「對象」。

內動作用、多重身體與非二元性別聲音

用於語音合成的 AI 技術傾向於將聲音視為去身(disembodied)的訊號,一種待捕捉、複製或優化的東西,往往忽視了聲音、身分和生活經驗之間複雜的交互作用(Bendel, 2019; Chadwick, 2020; Bergner, Hildebrand and Häubl, 2023)。然而,聲音從不是中立的。它透過身體、透過語言湧現,嵌入在特定的文化、社會和政治情境以及個人經驗中——這對於酷兒和跨性別等少數群體尤為重要。將這些聲音簡化為頻譜元素,只是展示了它們的一小部分。《ERASURE》不僅成為聲音實驗的空間,也是酷兒和跨性別歌手的生活經驗被中心化而非抽象化(也被倍增)的空間。同樣地,Mol 的多重身體概念邀請我們考慮對象所參與的不同實作。Mol 的理論表明,身體(或此處的聲音)並非單一、穩定的實體,而是根據情境進行不同的展演。在《ERASURE》中,聲音以如下形式出現:作為技術人工製品,被 AI 處理和重新配置;作為酷兒/跨性別證詞,由生活經驗和具身性塑造;作為政治主體,揭示嵌入資料集和技術設計中的偏見與沈默;作為聲音美學,在作曲上用於表達情感、扭曲、碎片化和抵抗。每一個都是「聲音」的不同實作,由不同的實踐——技術的、藝術的、具身的和論述的——所塑造。

Mol 主張,身體被實作的方式也是政治性的。同樣地,在《ERASURE》中,這件作品不僅呈現不同的聲音;它干預了 AI 如何實作所謂的聲音。它透過納入酷兒/跨性別的聲音經驗,質問資料集假設的中立性。


6. 結論:藝術實踐中 AI 的整體觀 (Conclusion: A Holistic View of AI in Artistic Practice)

透過內動作用和多重身體的框架,本文討論了 AI 不僅擴展了音樂的可能性——它重新配置了藝術家的能動性,同時引入了新的倫理、政治和社會糾纏。

關鍵要點:

  1. AI 工具不僅協助藝術家;它們轉變了藝術家的角色,從控制轉向協商。

  2. 始於對偏見的關注,可能導向更大的倫理關注,如同意權、透明度和所有權。

  3. AI 工具不僅關乎技術和藝術產出,也迫使我們參與這些工具的社會政治維度。

透過採用 Karen Barad 的內動作用概念和 Annemarie Mol 的多重身體理論,本文探索了《ERASURE》中藝術家與 AI 之間動態、不可預測且糾纏的關係。這些理論框架有助於闡明 AI 工具絕非中立儀器,而是積極參與創作過程,改變藝術家的角色並引發關於控制、能動性和倫理的問題。透過承認人類與 AI 互動的共同構成性質,本文提供了關於將 AI 整合到藝術實踐中如何挑戰傳統作者身分、倫理和身分觀念的見解,為理解在創意過程中使用 AI 的複雜性提供了新途徑。

致謝 (Acknowledgments)

我感謝葡萄牙科學與技術基金會(FCT)對第一作者博士獎學金的支持,以及資助《ERASURE》計畫的 Music RAI 專案、RAI UK 國際合作夥伴關係(UKRI EPSRC 補助參考編號 EP/Y009800/1)musicrai.org。我也衷心感謝共同作者在編輯方面的寶貴協助,以及他們作為博士導師的指導與支持。

 

沒有留言: