AI研習丨陳松燦:自監督學習的最新進展與展望

由 蘇智會 發布于 2020-03-04

轉自 CAAI會員中心

摘 要
當前我們雖已身處大數據時代,但代價高昂、不易獲取的标記數據依舊是機器學習發展的瓶頸。相比而言,無标記數據廉價且易獲取,因此,如何高效利用它們一直是學者們關注的焦點。最近,一種無監督學習的新範式——自監督學習已開始受到廣泛關注,其旨在減少對大量标記/ 注釋數據的需求。為此本文圍繞該學習範式作出簡要回顧及展望,并力圖從一個新的視角來考察該範式,以期為後續研究提供一些洞察。

關 鍵 字
機器學習;自監督學習;多視圖學習;數據增廣

0 引言
目前機器學習技術已獲得了令人印象深刻的進展,尤其是深度學習已在計算機視覺和自然語言處理等多個領域取得了突破。然而,它仍存在許多不足。例如,當前許多機器學習技術(如分類)的成功大都處在一個封閉、靜态的環境下,即訓練數據和測試數據來自相同的标記和特征空間。但更實際的場景通常是動态、開放和非平穩的,如無人駕駛、醫療診斷等。在此類場景下,一些意外情形常會出現,緻使這些現有模型往往難以奏效,甚至變得無用。為迎接這些挑戰,學界開始探索諸如安全的AI(Safe AI-Open World/Dynamic Learning)、終身/連續/預測/元學習(Lifelong/Continual/Predictive/ Meta Learning)、遷移學習和域适應(Transfer Learning&Domain Adaptation)等的相關研究,由此産生出了衆多成果。

與此同時,另一個面臨的嚴重局限是,當前學得的強大模型(特别是深度模型)往往需要大量的帶有注釋/标記的訓練示例,而在衆多實際任務中,收集這樣的數據既耗時又昂貴。在當前大數據背景下,相比代價高昂的标記數據,無标記數據廉價且易獲取。另一方面,正如Yoshua Benjio在MLSS 2014上所指出的那樣,對于成功的機器學習,好的特征是其本質所在。那麼如何利用這些無标記數據學習好的特征?常規的手段首選是采用無監督學習。然而,由于監督信号的缺乏,其所學特征通常難以保證判别性。近年來,一種根據數據的某些屬性自動生成監督信号來引導特征學習的新範式——自監督學習(Self-Supervised Learning)漸受關注。對此,Yann LeCun在2018國際人工智能聯合會議(IJCAI)的主題演講中特别指出:機器學習的未來不會是監督學習,也不會純粹是強化學習,它更應該是(包含了深度模塊 的)自監督學習。其關鍵想法就是利用所設計的自監督信号幫助學得判别性的特征。因此,盡管目前發展出了大量針對新場景的機器學習方法,然而鑒于自監督學習範式的重要性和廣泛的可用性,本文更多地關注自監督學習的最新進展,嘗試從一個全新的角度來重新審視自監督學習的實質, 由此為後續研究提供若幹洞察。

1 自監督學習
1.1 何為自監督學習
自監督學習(Self-Supervised Learning)是一種介于無監督和監督學習之間的一種新範式,旨在減少對大量帶注釋數據的挑戰性需求。它通過定義無注釋(annotation-free)的前置任務(pretext task),為特征學習提供代理監督信号。圖1展示了卷積網絡(ConvNet)自監督學習的一般流程,為克服無監督特征學習的不足,它在訓練階段通過為ConvNet設計一個附有僞标記的前置任務(pretext task)進行求解。因此自監督學習的關鍵在于如何在前置任中引入僞标記,手段之一是根據數據的某些屬性自動生成。在前置任務訓練完成後,可将學得的特征作為已訓練的模型進一步遷移到下遊任務(downstream tasks),使其獲得更好的解的起點。

1.2 常用的前置任務
針對ConvNet前置任務的訓練,已提出了許多無需人工标注的方法,這些方法使用各種線索和代理任務,包括前景對象分割(foreground object segmentation)、 圖像修補(image inpainting)、聚類(clustering)、圖像着色(image colorization)、拼圖遊戲(jigsaw puzzles)、噪聲作為目标(noise-as-targets)、預測編碼(predicting coding)和預測旋轉(predicting rotation)等。此外,也有許多方法使用額外的信息來學習特征(比如對于視頻,其内含的時間信息用作自監督信息)。目前典型的前置任務有基于時間上下文(temporalcontext)、基于時空線索(spatio-temporal cues)、基于光流(optical-flow)、基于未來幀合成(futureframe synthesis)、基于視頻的音頻預測(audio prediction from video)、基于音頻-視頻對齊 (audio-video alignment)信息、基于自我運動估計 (ego-motion estimation),以及采用高階時間相幹性的慢特征分析(slow feature analysis with higher order temporal coherence)等。更多細節,參見最近自監督學習的綜述。

1.3 廣泛的應用場景
當前自監督學習被廣泛用于語義分割、目标檢測、圖像分類和人體動作識别等。同時,作為一種輔助性的學習任務,最近已被擴展到域适配(Domain Adaptation)、少樣本或零樣本學習(Few/Zero-shot Learning)、分布外檢測(Out-ofDistribution Detection) 、生成對抗網絡和圖卷積網絡等學習場景。

2 對自監督學習的重新審視
最近有學者分别從卷積網絡和魯棒學習的角度剖析了自監督學習的内含,對此簡要梳理如下。

2.1 卷積網絡 (CNN) 的角度
Kolesnikov等學者通過研究多種網絡結構與 多種自監督學習前置任務的組合得到以下啟發性的經驗結論。

(1)與監督學習不同,自監督學習任務的 性能顯著依賴于所使用的卷積網絡(CNN)的結構,例如,對于rotation預測,RevNet50性能最好;但是對于jigsaw預測,ResNet50v1性能最好。

(2)相比于AlexNet(在網絡末端特征質量會下降),具有skip-connections結構的網絡(如ResNet),高層特征的性能不會下降。

(3)增加CNN模型中濾波器的數量,可顯著提高所學特征的質量。

(4)所訓練線性模型的評估過程非常依賴學習率的調整策略。另外,作者實驗驗證了前置任務更好的性能,并不總能轉化為下遊任務更好的特征表示。

2.2 魯棒學習的角度
Hendrycks等學者從魯棒學習的角度重新剖析了自監督學習。他們發現自監督學習可以通過多種方式提高魯棒性,包括對抗樣本的魯棒性、标簽損壞(label corruption)的魯棒性和常見輸入損壞(common input corruptions)的魯棒性等。此外,自監督學習在困難的、近分布的(neardistribution)異常點的分布外檢測中也大有益處,以至于超過了完全監督方法的性能。這些結果顯示了自監督學習在提高魯棒性和不确定性估計方面的前景,同時也為将來自監督學習的研究提供了新的評估方式。

3 多視圖視角——我們的視角
通過引入自監督标簽/信号來為下遊任務學得有效的特征表示,自監督學習确實顯著地提高了下遊任務的學習性能。但是現階段如何設計前置任務,或如何進一步提高自監督學習方法的性能,仍是一個很大的問題。據我們所知,當前仍缺乏相關理論對其設計進行指導。

事實上,從多視圖角度看,自監督學習中引入的自監督信号實質上是對原始數據進行了各種變換(如旋轉、着色和拼圖等)從而産生多個變換數據(可視為多個視圖數據),這恰好落入我們早期提出的單視圖的多視圖學習框架。換句話說,自監督學習的本質就是對原數據進行多視角的數據增廣,這不同于傳統的數據增廣,因為它考慮到了所附的自監督信号。從該視角來看,我們相信在理論上能借鑒已有的多視圖學習理論,彌補自監督學習理論的缺乏,并對其進一步拓展。

(1)解釋現有自監督任務(如圖像修補、着色)在某些學習任務性能不佳的原因,即這些變換實際産生了相對原數據信息缺失的不完全視圖數據,從而對某些下遊任務的執行造成幹擾。因此,如何聚合這些有缺陷視圖數據提升自監督學習值得深入研究。

(2)産生更加多樣性的自監督信号,比如通過變換合成,可對數據示例作變換的複合/嵌 套/層次等運算。

(3)除了在數據層面,還可在模型層面(如擾動模型)、優化算法層面、任務層面等進行自監督學習的開拓;

(4)針對多層網絡,不僅在其輸入層,而且對其各内層進行自監督信息的生成等。對上述幾點,我們正在進行初步探索。

反過來看,自監督學習充分利用自監督信号 (從多視圖視角看就是視圖标記),同樣啟發我們探索多視圖學習中視圖标記的利用。當前幾乎所有多視圖學習都忽略了視圖标記這一附帶信息,這值得進一步深入讨論。另外,它也為産生同構的多視圖數據提供了一種手段。

4 結束語
面對當前的挑戰,衆多針對新場景的機器學習算法研究已取得突破性進展,然而限于文章有限的篇幅和本人能力的局限,本文主要關注自監督學習,并嘗試從一個新的視角——多視圖視角來重新審視它,由此為其後續研究提供一些思路。

陳松燦:南京航空航天大學教授、CAAI機器學習專委會主任、乐虎国际常務理事長

  • 智領江蘇(資訊)

  • 加入JSAI學會