人工智能推動神經(jīng)網(wǎng)絡技術開發(fā)熱潮
神經(jīng)網(wǎng)絡幾乎成了人工智能的代名詞,正在被應用于各種領域,包括影像識別、語音識別、自然語言處理、自動駕駛、訊號分析、大數(shù)據(jù)分析和游戲。
這是一個瞬息萬變的世界,每年都有新的神經(jīng)網(wǎng)絡模型被更新,大量的開放原始碼到處流傳,專用人工智能芯片開發(fā)企業(yè)更是如雨后春筍般涌現(xiàn)。
因此全球研究人員正透過模仿人類大腦組織方式,積極開發(fā)類神經(jīng)網(wǎng)絡技術,雖然一直有突破性的進展,但是現(xiàn)階段的神經(jīng)網(wǎng)絡,還是缺乏實時變化的靈活性,以及難以快速適應陌生的狀況,使得神經(jīng)網(wǎng)絡技術普及實用化的進程還是相當遙遠。
根據(jù)不同應用開發(fā)出的神經(jīng)網(wǎng)絡模型
神經(jīng)網(wǎng)絡是模仿人類神經(jīng)細胞網(wǎng)絡的模型,由輸入層、中間層(隱藏層)和輸出層的神經(jīng)元,以及連接它們的突觸組成。而機器學習就是在大量數(shù)據(jù)的基礎上,自動構建連接和它們的權重。
深度學習是指,使用具有多個中間層的神經(jīng)網(wǎng)絡的機器學習。深度學習使計算機能夠提取自己的特征量,作為發(fā)現(xiàn)模式和規(guī)則時應該注意些什么,同時也能進行識別和其他作業(yè),因此促進了人工智能熱潮。
模型根據(jù)應用的不同,又分為影像識別的深度神經(jīng)網(wǎng)絡(DNN)、卷積神經(jīng)網(wǎng)絡(CNN)、語音識別的循環(huán)神經(jīng)網(wǎng)絡(RNN)和自然語言處理的Transformer。模型可以在不同的應用中進行整合,也可為每個應用開發(fā)出新模型。
深度神經(jīng)網(wǎng)絡(DNN)
DNN的隱藏層由一個卷積層和一個池化層組成。卷積層利用過濾上一層附近的節(jié)點,而可得到一個特征圖。池化層進一步縮小卷積層輸出的特征圖,得到新的特征圖,同時可在保持影像特性的同時,可以極大地壓縮影像中的信息量。例如,在2012年ILSVRC影像識別比賽中,以壓倒性的優(yōu)勢獲勝,采用八層結構的AlexNet就引發(fā)了深度學習的熱潮,隨后經(jīng)過改進而來的ResNet,其層數(shù)就達到了152層。因此,透過導入簡化處理塊的Residual模塊,即使是在高層數(shù)的結構下,也能達到高效學習。
循環(huán)神經(jīng)網(wǎng)絡(RNN)
具有自我回饋的遞歸網(wǎng)絡RNN,是一個適合處理包括語音波形、視訊和文本文件(字符串)等等時間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡。例如神經(jīng)網(wǎng)絡中為了處理如語音等,可變長時間序列數(shù)據(jù),將隱藏層的值再次回饋輸入到隱藏層。當存取很久以前的數(shù)據(jù),或出現(xiàn)運算量爆炸等問題時,可透過應用于自然語言處理的LSTM(長短時記憶)來解決。
Transformer
在自然語言處理方面,既不是透過RNN,也不是CNN,而是據(jù)由深度學習的Transformer取得了重大進展:這是一個只使用Attention(表示要注意句子中哪些單詞的分數(shù))的Encoder-Decoder模型,也可透過并行化來減少學習時間。在后續(xù)的技術改進下也相繼開發(fā)出的BERT、GPT-2、T5等,甚至已超過了人類的語言處理能力。
而Conformer是一個結合CNN的模型,可被應用于語音識別,其能力已經(jīng)超過RNN的最高準確性。Conformer結合了善于提取長時空依賴關系的Transformer,和善于提取局部關系的CNN。此外,一個新的影像識別模型-Vision Transformer也被開發(fā)出來,在進行影像識別時,所需要的運算資源比CNN少更少。
大型數(shù)據(jù)處理業(yè)者相爭投入開發(fā)AI芯片
神經(jīng)網(wǎng)絡中的訊號處理,相當于將神經(jīng)元乘以權重的數(shù)值加在一起,再透過高速運算乘積之和的操作來模仿大腦行為(高速積和加速器)。最近的主流配置是盡可能多鋪設必要數(shù)量的圖磚(Tile)來進行AI運算,例如,一個圖磚被用于終端傳感器控制,4-16個圖磚用于中等規(guī)模的邊緣處理,64個或更多圖磚用于數(shù)據(jù)中心等服務器。
人工智能芯片的功能大致可分為推理和學習。兩者都需要相同的高速乘積運算,但與推理相比,學習需要進行大量的乘積和運算,因此各大數(shù)據(jù)處理業(yè)者正積極投入這方面的研發(fā),例如,Google目前正積極開發(fā)TPU來作為本身數(shù)據(jù)中心的AI芯片。第一代(2017年)有8位定點操作,只能用于推理,但第二代有16位浮點運算,則可以應用在學習。接下來第三代的性能則是120Tops @ 250W,最新的第四代載板設計了4顆TPU,且采用液體冷卻,指令周期更是上一代的2.7倍。這些電路板被安裝在一個個機柜內(nèi),然后通過高速傳輸線相互連接。
用于推理的人工智能芯片要求體積小、功耗低和實時處理。例如,Gyrfalco銷售一種形狀像USB隨身碟的AI棒。采用的AI芯片是一款具有矩陣處理引擎,利用PIM(內(nèi)存中處理器)技術來進行神經(jīng)網(wǎng)絡模型的計算處理,這個架構可降低與內(nèi)存和計算電路之間的數(shù)據(jù)存取的功耗,芯片內(nèi)部有大約28000個節(jié)點和10M bytes的內(nèi)存,據(jù)稱能夠?qū)⑼ㄓ媚P退璧乃行阅芏寄苷系叫酒小?br/>
NTT與東大合作開發(fā)新型類腦學習算法
對于深度神經(jīng)網(wǎng)絡的運算,日本NTT與東京大學合作下,開發(fā)了一種不需要準確掌握物理系統(tǒng)信息,適用于物理神經(jīng)網(wǎng)絡的新算法-「擴展DFA(Detrended Fluctuation Analysis)」。
圖一A是這種算法的概況和結果的定位,這是基于深入研究了一種名為直接回饋排列法的學習算法,是將反向傳播算法(Back Propagation;BP)修改為在大腦信息處理更容易實現(xiàn)的形式,并將其擴展到可在物理神經(jīng)網(wǎng)絡中實現(xiàn)。
這個方法是將神經(jīng)網(wǎng)絡最后一層的輸出與所需輸出訊號(誤差訊號)之間的差值,透過隨機元素的矩陣的線性變換來更新學習參數(shù)。運算過程不需要測量物理系統(tǒng)的狀態(tài),也不需要像BP法需要利用微分響應的物理模擬進行近似運算。
此外,這個運算可以在包括光路等物理系統(tǒng)上執(zhí)行,除了可以在物理系統(tǒng)上有效地運算推理,還可以進行學習。這種新的學習方法不僅適用于物理實現(xiàn)中實現(xiàn)的神經(jīng)網(wǎng)絡模型,也適用于各種機器學習模型,包括實際用于機器翻譯和其他應用的高級深度神經(jīng)網(wǎng)絡模型。
因此NTT與東京大學構建了一個光學神經(jīng)網(wǎng)絡(圖一 B),證明了以前難以進行的光學神經(jīng)網(wǎng)絡學習,可以利用光學計算輔助推理和學習運算的可行性。這一成果將解決人工智能的計算時,功耗和計算時間增加的問題。
圖一 : 物理系統(tǒng)的計算被納入學習部分來提高效率;以及實際設備應用的光學神經(jīng)網(wǎng)絡。(source:日本NTT;作者整理)
適用于物理神經(jīng)網(wǎng)絡的擴展DFA法
DFA法是受到大腦信息處理的啟發(fā),因而進一步擴展為適合在物理神經(jīng)網(wǎng)絡中實現(xiàn)的形式。如圖二A所示,傳統(tǒng)的DFA法是透過隨機矩陣對最后一層的誤差,進行線性變換來訓練深度神經(jīng)網(wǎng)絡學習;盡管比BP法更適用于物理神經(jīng)網(wǎng)絡,但仍然需要計算物理神經(jīng)網(wǎng)絡時,使用的非線性變換及其導數(shù)。
而NTT與東大擴展了DFA法技術,使這部分可以由一個任意的非線性函數(shù)代替。這完全省去了對物理系統(tǒng)的狀態(tài)測量、基于微分響應的物理模擬的近似值,以及基于這些近似值的順序反向傳播演算。學習過程已被大幅度簡化,實現(xiàn)了用物理神經(jīng)網(wǎng)絡幾乎不可能的學習。此外在對各種深度學習模型的適用性應用于各種深度學習模型時,也可以適用于廣泛的深度神經(jīng)網(wǎng)絡模型,包括從實際用于影像識別,和其他應用的高級模型(圖二B)。
圖二 : A現(xiàn)有和新開發(fā)的學習方法概述;B各種模型的基準檢驗結果。(source:日本NTT;作者整理)
圖三A是使用構建系統(tǒng)對圖像處理基準任務性能的比較結果,光學神經(jīng)網(wǎng)絡可達到最高性能。圖三B則是顯示了每單位影像的學習時間對神經(jīng)元數(shù)量的依賴性。在小規(guī)模網(wǎng)絡模型的情況下,速率決定了信息傳輸?shù)焦鈱W硬件的處理時間,因此效果不如光學計算的計算加速效果大。
但是隨著神經(jīng)元數(shù)量的增加,可以發(fā)現(xiàn)光學神經(jīng)網(wǎng)絡計算在指令周期上比傳統(tǒng)的數(shù)字電子計算更有優(yōu)勢。此外,由于人工智能運算的功耗,是由效率和計算時間的積和所決定的,因此加速計算有助于降低功耗。
圖三 : A使用光學神經(jīng)網(wǎng)絡進行影像辨識測試(手寫字符辨識、衣服影像辨識;B 每單位影像的運算時間對神經(jīng)元數(shù)量的依賴性。(source:日本NTT;作者整理)
靈感來自于線蟲的液體神經(jīng)網(wǎng)絡技術
2020年,由麻省理工學院Ramin Hasani和Matthias Lechner所領導的一個研究小組,推出了一種液體神經(jīng)網(wǎng)絡(Liquid Neural Network)的新形態(tài)神經(jīng)網(wǎng)絡,其靈感來自微小的線蟲。這項技術是以模仿具有細長的線狀身體的「線性動物」為參考基礎,來開發(fā)出神經(jīng)網(wǎng)絡技術,達到前所未有的速度和靈活性,來實現(xiàn)「質(zhì)」的跨越性進步,足以在某些應用中取代傳統(tǒng)網(wǎng)絡。
據(jù)加州大學伯克利分校的機器人工程師Ken Goldberg表示,根據(jù)實驗結果顯示,比起需要透過隨時間變化,來進行建立模型的「連續(xù)時間神經(jīng)網(wǎng)絡」,這款「液體神經(jīng)網(wǎng)絡技術」,要來得更快、更準確(圖四)。
圖四 : 麻省理工學院Ramin Hasani和Matthias Lechner開發(fā)出新形態(tài)的液體神經(jīng)網(wǎng)絡。(source:麻省理工學院Ramin Hasani博士)
Hasani和Lechner在思考如何能建立出一個夠靈活,且能快速適應新狀況的反應性神經(jīng)網(wǎng)絡時,發(fā)現(xiàn)線蟲是一個非理想可參考的生物體。線蟲是少數(shù)具有完全反射的神經(jīng)系統(tǒng)的生物之一,可以透過一個大約1mm長的神經(jīng)系統(tǒng),來完成一系列復雜的行為,包括遷移、覓食、睡眠、交配,甚至從經(jīng)驗中不斷的學習,而且在現(xiàn)實世界中,線蟲無論在任何環(huán)境或狀況下都具有相當優(yōu)秀的適應能力。
液體神經(jīng)網(wǎng)絡技術與傳統(tǒng)的神經(jīng)網(wǎng)絡有很大的不同,傳統(tǒng)的神經(jīng)網(wǎng)絡只提供特定時刻的結果。而液體神經(jīng)網(wǎng)絡技術是一種非常特別的神經(jīng)網(wǎng)絡架構,可以將神經(jīng)元都是聯(lián)系在一起,并且透過彼此之間具有相互依賴的特性,來描述系統(tǒng)于任何特定時間下的狀態(tài)。
此外,在處理突觸的方式上也有所不同,突觸是人工神經(jīng)元之間的連接。在標準的神經(jīng)網(wǎng)絡中,突觸連接的強度,可以用單一的數(shù)值來表示「權重(weight)」。而另一方面,在液體神經(jīng)網(wǎng)絡中,神經(jīng)元之間的訊號交換是透過「非線性」函數(shù)控制的隨機過程,這意味著不會傳回與輸入成比例的響應(圖五)。
圖五 : MIT的研究人員基于蠕蟲的啟發(fā),發(fā)現(xiàn)了一種更靈活的機器學習方法-液體神經(jīng)網(wǎng)絡,可以實時轉換其底層算法,達到前所未有的速度和適應性。(source:Quanta Magazine)
只需利用基本運算獲得精確的近似解
傳統(tǒng)的神經(jīng)網(wǎng)絡算法是利用在訓練期間調(diào)整「權重」的最佳值,但在面對大量數(shù)據(jù)的環(huán)境下,液體神經(jīng)網(wǎng)絡的適應性會來得更強。因為液體神經(jīng)網(wǎng)絡可以根據(jù)觀察到的輸入改變基礎程序。例如在對自動駕駛汽車操作進行測試時,傳統(tǒng)的神經(jīng)網(wǎng)絡只能定期分析來自汽車攝影機的視覺數(shù)據(jù),雖然液體神經(jīng)網(wǎng)絡僅由19個神經(jīng)元和253個突觸所組成,按機器學習標準來說這個能力根本是非常薄弱,但事實上,該模型是允許對例如蜿蜒的道路等,復雜的道路進行更頻繁的采樣,因此液體神經(jīng)網(wǎng)絡能比傳統(tǒng)神經(jīng)網(wǎng)絡,表現(xiàn)出更高的反應能力。
不過,在突觸和神經(jīng)元的非線性方程式,通常需要計算機多次運算才能得出解決方案。因此這也是液體神經(jīng)網(wǎng)絡的死穴,因為液體神經(jīng)網(wǎng)絡的突觸和神經(jīng)元的軟件,由于是單獨進行計算,再加上所使用的突觸和神經(jīng)元數(shù)量不多,因此運行速度非常慢。不過,這樣的困境也被克服了。
在2022年11月新發(fā)表的一篇論文中表示,研究團隊提出了一種新網(wǎng)絡架構,不必透過復雜困難的運算來解決非線性方程式。這個架構是只需要利用基本運算,就可以獲得近乎精確的近似解,大幅度的減少運算時間和能量,以及明顯地提高了處理速度。
目前這個小組正用一架無人機測試最新的液體神經(jīng)網(wǎng)絡,最初的測試是在森林中進行的,但希望將來能移到城市環(huán)境中,看看在面對新的環(huán)境條件時自我調(diào)適能力。
結語:過度投入將導致泡沫熱潮
神經(jīng)運算是人工智能熱潮的基礎技術,在許多業(yè)者和機構的投入下,從材料到設備、硬件、軟件到應用,都呈現(xiàn)迅速地發(fā)展的態(tài)勢。此外,還有全方位的開放架構,進入門坎相當?shù)?,尤其是從應用的角度來看,也有相當多的開發(fā)工具可使用。
以目前來看,但最大的障礙可能是收集所需要的大量學習數(shù)據(jù),例如在某些領域,由于隱私和其他問題,數(shù)據(jù)收集是非常困難的。
另外,有些應用領域更是缺乏關于缺陷和故障的數(shù)據(jù),如預測性故障和故障分析。由于神經(jīng)運算是一個以歸納方式給出答案的系統(tǒng),因此有些人會抱怨,這和訴諸理性的演繹法不同。
然而,無論如何神經(jīng)運算已經(jīng)開始啟動了,也呈現(xiàn)出非要達到目標的勢頭。為了解決上述問題,仍然需要技術的創(chuàng)新,可以說所有的技術領域都有商業(yè)機會。因此更要冷靜地分析形勢,不要被繁榮的景象所引誘,而又出現(xiàn)另一個泡沫熱潮。
評論