音樂人工智慧面面觀

Posted on 2020/07/27 in AI報你知, AI科普講座, 人工智慧, 應用 with 沒有迴響 13,103 views

音樂人工智慧面面觀
講者／蘇黎（中央研究院資訊科學研究所助研究員）｜彙整／葉珊瑀
整理自2019.05.24〈AI報你知．同名〉

人工神經網路在電腦視覺已經有相當亮眼的成績。語音辨識，雖然常被放在自然語言處理的脈絡下被討論，但也可算是電腦聽覺的一大進展；然而對於另一種非言語的人類語言──音樂呢？

為什麼是音樂？

20年前人們會花一兩個小時逛唱片行只為了找到自己想聽的音樂，後來網路興起，想聽什麼音樂只要上網搜尋就可以找到。科技看似便利，卻也衝擊了全球音樂市場：根據Global Music Report報導，從1999到2012年，全球音樂產值掉了40%。MP3的出現，讓人們能自由地分享，卻也助長了盜版音樂的猖獗；直到2014年，付費收聽線上串流音樂的觀念才逐漸被建立起來。也是在同一年，數位內容首度超越了實體內容，全球音樂市場才開始逐漸復甦，表演權、同步權（在公共場合播放音樂）也日漸受到重視。由於公共場所的背景音樂主要以氣氛為主、重複性高，遂成為音樂人工智慧的發展契機。

另一方面，音樂本身其實是結合了物理、數學與認知行為科學的跨領域研究。舉例來說，多數樂器與人聲所發出的聲音並非只有單一頻率，而是基礎頻率（fundamental frequency）以及頻率為其整數倍（統稱泛音，overtone）的聲音疊加在一起；一系列的泛音也造就了即使是演奏相同的樂譜，也有不同音色（timbre）的變化。另外如音高（pitch），其實也不是一個物理量，而是人類的心理感受。對於人耳而言，當一個音的頻率倍增為兩倍時，兩個音會被認為是同一個音（音名由Do又回到Do，也就是高八度）。為了在一倍頻與兩倍頻間劃分出八度音程，於是又有古中國的三分損益生律法、古希臘畢氏調音法，與後續出現的十二平均律。因此，「音樂」一直以來都是人工智慧的熱門研究議題，許多大型科技公司，例如Google、Facebook，甚至騰訊都有相關的研發團隊。

資料的來源與處理

既然要將AI應用在音樂上，資料的收集與整理當然是一項關鍵。一般有MIDI（Musical Instrument Digital Interface，音樂數位介面）與原始音訊兩種形式。

MIDI是一類紀錄、儲存與交流音樂的檔案格式，發展已經相當純熟，早在MP3之前便已存在。MIDI本身並不錄製聲音，而是將諸如音調、音高、音長、力度（velocity）與演奏樂器種類等資訊記錄下來，可以在各種電子樂器、電子產品中重現。

原始音訊則是比較複雜的資料來源，除了需要利用傅立葉轉換（Fourier transform）分析頻譜外，我們所聽到的音樂也有不同層次的階層架構，從較低階的符號──如音高、音色、節奏與和弦等──層層推砌到如曲式、情緒與曲風等高階語意。因此音樂所承載的資訊量與複雜度遠超出於語音或環境音等一般聲音訊號。

模仿音樂家

當然，音樂AI的應用不僅止於背景音樂的生成。其終極目標是模仿人類音樂家，具備理解音樂的能力。依據2001年電腦音樂大師Robert Rowe的說法，AI在音樂上的應用可以分為四個面向：

聽力（聆聽者）：分辨音色、音高聽力、自動採譜
跟隨（演出者）：跟譜、自動伴奏
創作（作曲者）：自動作曲、自動編曲
論斷（評論者）：評分、修正

其中多數應用其實已經存在，但技術未臻成熟。

以曲式分析為例，音樂也有如自然語言的句法結構：動機（motif）就像是詞，一個以上的詞組成一個完整句子──樂句（phrase），終止式（cadence）則相當於文章最後的句號。如何光聽到一首曲子便能夠自動斷句、辨認音樂結構？曲式分析目前已經可以透過電腦代勞，只是準確率遠不如人類自己的判斷。

自動採譜

自動採譜則是蘇黎自身正在進行的研究項目。除了許多鄉野民謠僅靠口耳相傳而無記譜外，某些只存在於表演中的音樂特徵也不容易以樂譜的方式記錄，此時自動採譜便有其重要性。台灣布農族著名的Pasibutbut（又稱「八部合音」）便是一例。

你我或許都有操作過手機中的語音辨識功能，然而自動採譜要達到同樣的技術成熟度有其先天條件上的限制：一首樂曲中通常不會只有單一樂器或單一聲部，如何同時定出不同的音高，多重音高估計（Multi-F0 estimation）是核心關鍵。另一方面，如何將所採集到的音樂由符號音樂（symbolic music，MIDI的記譜模式）轉化為易於人類閱讀的樂譜，也是另一個需要克服的難題。整體而言，自動採譜仍是電腦聽覺中的聖杯。

走音救星

與一般大眾關係最密切的音樂AI，非音準修正莫屬。將失準的音高平移至正確的位置，雖然早已有Auto-Tune這類的軟體問世，但經過調整後的聲音顯得不自然。如何保持原有的唱腔又有完美、專業的音準，其中牽涉人聲旋律偵測與自動同步兩種技術。

人聲旋律偵測的目的，是要將音樂中的人聲由伴奏中獨立出來。這一點，對於擅長辨識各種──尤其是圖形上──樣態（pattern）的人工神經網路而言，並非難事。因為人聲容易失準，且常伴有顫音（vibrato）、滑音（sliding）等現象，因此在頻譜上與樂器平滑的音高軌跡有明顯的區別。

自動同步則是讓電腦能夠精準定位人聲正演唱到樂曲的哪一個音符，如此才能將失準的音調整回其原本應有的音高位置。除此之外，這項技術還可以應用在機器的即時或非即時同步伴奏，如此當我們唱KTV時，就不再需要遷就伴唱帶的速度，想唱多快就能多快。

DeepBach

至於發展最成熟的音樂AI，或許是音樂作品的仿作或風格轉移。與機器學習的發展類似，早期人們嘗試窮舉所有已知的作曲規則，讓電腦可以按部就班地創作出成熟的音樂作品，只是成效不佳，後來多走上巨量資料、人工神經網路這條路。DeepBach，這個能夠模仿巴赫聖詠曲（Choral）風格的音樂生成模型，是其中最著名的例子；其所生成的作品雖仍有些明顯錯誤，但對於一般聆聽者而言難分真贋。

這是否意味著音樂AI終有一天會取代人類音樂家？蘇黎認為我們還有很長一段路要走。但在此之前，AI真正從我們手中奪去的，是那些枯燥乏味的過程，使人們可以把精力集中在更美好的事物上。