(資料圖片)
谷歌用 280000 小時的音樂數(shù)據集訓練出了 MusicLM,卻不愿冒著法律風險發(fā)布它。谷歌繼續(xù)向音樂領域發(fā)起挑戰(zhàn)!近日, 谷歌發(fā)布的 MusicLM 模型簡直是生成音樂界的小能手,會的樂曲五花八門,你能想到的,它都會滿足。 MusicLM 不是第一個生成歌曲的 AI 系統(tǒng)。其他更早的嘗試包括 Riffusion,這是一種通過可視化來創(chuàng)作音樂的 AI,以及 Dance Diffusion,谷歌自己也發(fā)布過 AudioML,OpenAI 則推出過 Jukebox。 雖然生成音樂的 AI 系統(tǒng)早已被開發(fā)出來,但由于技術限制和訓練數(shù)據有限,還沒有人能夠創(chuàng)作出曲子特別復雜或保真度特別高的歌曲。不過,MusicLM 可能是第一個做到的。 為什么這么說,我們先聽聽效果如何? 曲風隨便選,你要做的就是動動手指輸入文本就可以。比如讓 MusicLM 來段街機游戲配樂,我們就可以輸入文本「街機游戲的主配樂,音樂給人的感受節(jié)奏快且樂觀,帶有朗朗上口的電吉他即興重復段,但又伴隨著意想不到的聲音,如鐃鈸撞擊聲或鼓聲」: 還想讓 MusicLM 來段電子舞曲,也沒問題,輸入字幕「雷鬼和電子舞曲的融合,帶有空曠的、超凡脫俗的聲音,引發(fā)迷失在太空中的體驗,音樂的設計旨在喚起一種驚奇和敬畏的感覺,同時又適合跳舞」: 工作累了,想聽聽放松的音樂,MusicLM 也能安排: 你可能認為上述生成的音樂時長太短了,不用擔心,MusicLM 生成長音樂的質量也很出色。來段輕松的爵士樂,時長足足 5 分鐘: MusicLM 還有故事模式,你可以要求 MusicLM 在不同的時間段生成不同的音樂風格。例如爵士樂(0:00-0:15)、流行樂(0:15-0:30)、搖滾樂(0:30-0:45)、死亡金屬樂(0:45-1:00)、說唱(1: 00-1:15)、弦樂四重奏與小提琴(1:15-1:30)、史詩電影配樂與鼓(1:30-1:45)、蘇格蘭民歌與傳統(tǒng)樂器(1:45-2:00): MusicLM 也可以通過圖片和標題的組合來指導,生成相應風格的音樂。例如拿破侖翻越阿爾卑斯山配樂: MusicLM 根據圖片和文本描述生成的音樂如下: 除此以外,MusicLM 還能生成由特定類型的樂器「演奏」的特定流派的音頻。甚至可以設置「AI 音樂家」的經驗水平,系統(tǒng)可以根據地點、時代或要求創(chuàng)作音樂(例如體育鍛煉時的勵志音樂)。 有人對這一研究給予極高的評價:這比大火的 ChatGPT 還重要,谷歌幾乎解決了音樂生成問題。 MusicLM 肯定不是完美無缺的 —— 事實上,遠非如此。一些樣本有質量問題,不可避免地對訓練過程產生副作用。雖然 MusicLM 在技術上可以生成人聲,包括合唱的和聲,但它們還有很多地方需要改進。大多數(shù)「歌詞」可能是蹩腳的英語或純粹的胡言亂語,然后由合成的聲音演唱,聽起來像是幾個藝術家的「混合物」。 論文地址:https://arxiv.org/pdf/2301.11325.pdf 論文主頁:https://google-research.github.io/seanet/musiclm/examples/ 方法層面,谷歌采用三個模型來提取音頻表示,這些模型將用于條件自回歸音樂生成,如圖 1 所示。SoundStream 模型用來處理 24 kHz 單聲音頻,從而得到 50 Hz 的嵌入;具有 600M 參數(shù)的 w2v-BERT 模型用于建模中間層;MuLan 模型用于提取目標音頻序列的表示。 然后將上述得到的離散音頻表示與 AudioLM 相結合,從而實現(xiàn)基于文本的音樂生成。為了達到這一效果,谷歌提出了一個分層的序列 - 序列建模任務,其中每個階段都由單獨的解碼器 Transformer 自回歸建模。所提出的方法如圖 2 所示。 谷歌在 FMA(Free Music Archive)數(shù)據集上訓練 SoundStream 和 w2v-BERT 模型,而語義和聲學建模階段的 tokenizer 以及自回歸模型是在 500 萬音頻剪輯的數(shù)據集上訓練的,在 24kHz 下 總計 280000 小時的音樂。 實驗部分,谷歌將 MusicLM 與文本生成音樂的基線方法 Mubert 、 Riffusion 進行比較。結果顯示在 FAD_VGG 指標上,MusicLM 所捕獲的音頻質量比 Mubert 和 Riffusion 得分更高。在 FAD_Trill 上,MusicLM 的得分與 Mubert 相似 (0.44 vs。 0.45),優(yōu)于 Riffusion (0.76)。 圖 3 是對提示長度分析的結果: 飽受爭議的生成式 AI與此同時,谷歌的研究人員也注意到了像 MusicLM 這樣的系統(tǒng)所帶來的許多道德挑戰(zhàn),包括將訓練數(shù)據中受版權保護的材料納入生成的歌曲中的傾向。在一次實驗中,他們發(fā)現(xiàn)該系統(tǒng)生成的音樂中約有 1% 是直接復制自其訓練的歌曲,這個問題足以讓 研究人員不愿意以目前的狀態(tài)發(fā)布 MusicLM。 「我們承認與該用例相關的盜用創(chuàng)意內容潛在風險,」作者們在論文中寫道。「我們強調的是,在解決這些與音樂生成相關的風險方面,未來需要更多的工作。」 假設有一天 MusicLM 或類似的系統(tǒng)可用,似乎仍將不可避免地會出現(xiàn)重大法律問題,即使這些系統(tǒng)被定位為輔助藝術家而不是取代他們的工具。這類的爭議此前已經發(fā)生過:2020 年,Jay-Z 的唱片公司對 YouTube 頻道 Vocal Synthesis 提出版權警告,理由是它使用 AI 創(chuàng)作了 Jay-Z 翻唱 Billy Joel 的《We Didn"t Start the Fire》等歌曲。盡管在刪除視頻后,YouTube 發(fā)現(xiàn)刪除請求「不完整」且恢復了它們,但 Deepfake 式的音樂仍然處于模糊的法律基礎之上。 Eric Sunray 撰寫的一份白皮書認為,像 MusicLM 這樣的 AI 音樂生成器通過「從訓練攝取的作品中創(chuàng)建連貫音頻」侵犯了音樂版權,從而侵犯了美國版權法的復制權。隨著 OpenAI 音樂生成神經網絡 Jukebox 的發(fā)布,批評者也開始質疑在受版權保護的音樂材料上訓練 AI 模型是否構成合理使用。圍繞圖像、代碼和文本生成 AI 系統(tǒng)中使用的訓練數(shù)據也引起了類似的擔憂,這些數(shù)據通常是在創(chuàng)作者不知情的情況下從網絡上收集的。 從用戶的角度來看,Andy Baio 推測由 AI 系統(tǒng)生成的音樂將被視為衍生作品,在這種情況下,只有原創(chuàng)元素會受到版權保護。當然,暫不清楚在這種音樂中什么可以被視為「原創(chuàng)」,將這種音樂用于商業(yè)用途就像是進入未知水域。如果將生成的音樂用于受合理使用保護的目的,比如模仿和評論,那就更簡單了,但預計法院將不得不根據具體情況做出判斷。 近期法院審理的幾起訴訟可能會對生成音樂的 AI 產生影響,比如微軟、GitHub 和 OpenAI 目前在一場集體訴訟中被起訴,指控其 Copilot 違反版權法。還有一項涉及藝術家的權利,這些藝術家的作品在他們不知情或未同意的情況下被用于訓練 AI 系統(tǒng)。流行的 AI 藝術工具幕后的兩家公司 Midjourney 和 Stability AI 正被指控通過在網絡抓取的圖像上訓練他們的工具,侵犯了數(shù)百萬藝術家的權利。就在上周,庫存圖片供應商 Getty Images 將 Stability AI 告上法庭,據報道,該公司未經許可使用其網站上的數(shù)百萬張圖片來訓練 Stable Diffusion。 問題主要在于,生成式 AI 偏好從用于訓練它的數(shù)據中復制圖像、文本等,包括受版權保護的內容。在最近的一個例子中,CNET 用來編寫文章的 AI 工具被發(fā)現(xiàn)抄襲了人類撰寫的文章,這些文章可能在其訓練數(shù)據集中被清除了。與此同時,2022 年 12 月發(fā)表的一項學術研究發(fā)現(xiàn),像 DALL-E-2 和 Stable Diffusion 這樣的圖像生成 AI 模型,能夠且確實從它們的訓練數(shù)據中復制了圖像的各個方面。 因此,一些圖片托管平臺已經禁止了 AI 生成的內容,因為擔心會遭到法律訴訟。幾位法律專家警告說,如果公司無意中將這些工具生成的受版權保護的內容整合到他們銷售的任何產品中,那么生成式 AI 工具可能會使公司面臨風險。 伴隨著關注與爭議,或許在不遠的未來,這些問題都將有清晰的答案。 參考鏈接:https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/https://techcrunch.com/2023/01/27/the-current-legal-cases-against-generative-ai-are-just-the-beginning/
?THE END
轉載請聯(lián)系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com