面向可解釋性的知識(shí)圖譜推理研究(1)
報(bào)告分為以下 5 個(gè)部分:
研究背景
前沿進(jìn)展
研究動(dòng)機(jī)
近期研究
研究展望
01 研究背景
1. 引言
首先,介紹一下背景。人工智能經(jīng)過 70 多年的發(fā)展,已經(jīng)從計(jì)算智能的能存、會(huì)算,進(jìn)步到了感知智能的能聽、能看、會(huì)認(rèn)、會(huì)說,并已有很多系統(tǒng)在此方面做的很出色,但與理想的認(rèn)知智能還有很大的距離。認(rèn)知智能希望機(jī)器能夠?qū)?shù)據(jù)模型、原理進(jìn)行理解、推理、解釋等,這種認(rèn)知智能很大的特點(diǎn)是依賴背景知識(shí),例如,對(duì)于新的網(wǎng)絡(luò)概念或網(wǎng)絡(luò)熱詞,如“996”、“YYDS”等,這種新的概念是建立在群體共識(shí)下的,非常依賴背景知識(shí),對(duì)這種非常符合認(rèn)知智能特點(diǎn)的概念的學(xué)習(xí)和建模是目前的難點(diǎn),學(xué)習(xí)和表示這種背景知識(shí)是非常關(guān)鍵的技術(shù)。
2. 知識(shí)圖譜
知識(shí)圖譜即是承載和表示背景知識(shí)的技術(shù)和工具,以圖的形式,將真實(shí)世界中的實(shí)體、關(guān)系組織成網(wǎng),將知識(shí)進(jìn)行結(jié)構(gòu)化。以上圖知識(shí)圖譜為例,可以知識(shí)圖譜中的實(shí)體和關(guān)系抽象為圖中的節(jié)點(diǎn)和邊,其特點(diǎn)是:
它是一個(gè)有向圖,其邊是有向的
它是一個(gè)異質(zhì)圖,節(jié)點(diǎn)和邊有不同的類型,又稱為異質(zhì)信息網(wǎng)絡(luò)
它具有豐富的信息,可以給節(jié)點(diǎn)和邊綁定豐富的屬性信息,對(duì)知識(shí)進(jìn)行更加細(xì)致的描述
它通常規(guī)模會(huì)很大
3. 知識(shí)圖譜的下游應(yīng)用
知識(shí)圖譜在需要背景知識(shí)或知識(shí)獲取中應(yīng)用比較廣泛,比較典型的包括:信息檢索、問答/聊天系統(tǒng),語言、圖像理解等。
信息檢索,利用知識(shí)圖譜進(jìn)行概念之間的智能推理、模糊查詢,同時(shí)可給關(guān)鍵概念提供知識(shí)卡片,方便用戶體驗(yàn)。
問答/聊天系統(tǒng),當(dāng)和問答助手或聊天系統(tǒng)進(jìn)行交互時(shí),可解決任務(wù)型問答的問題,則知識(shí)圖譜將發(fā)揮比較核心的作用。
語言、圖像理解,利用知識(shí)圖譜實(shí)現(xiàn)對(duì)語言數(shù)據(jù)、文本數(shù)據(jù)、圖像數(shù)據(jù)的理解,利用知識(shí)增長(zhǎng)的方式幫助學(xué)習(xí)概念之間的關(guān)系,如最近研究比較活躍的VQA、圖像關(guān)系推理等。
4. 知識(shí)圖譜推理
以上提到的應(yīng)用中,核心的功能就是知識(shí)圖譜推理。所謂知識(shí)圖譜推理,就是在知識(shí)圖譜中根據(jù)已有的知識(shí)來獲得新知識(shí)的能力。以上圖中人物關(guān)系知識(shí)圖譜為例,已知 X 與 Z、Z 與 M 之間的關(guān)系,Z 是 X 的妻子,M 是 Z 的孩子,則系統(tǒng)可以推理出X是M的父親,這是一種最簡(jiǎn)單的推理關(guān)系。
知識(shí)圖譜推理可以從兩個(gè)角度來看,一是從邏輯演繹的角度,它是一個(gè)多個(gè)命題約束下真值判斷的問題。二是可以從圖的角度來理解知識(shí)圖譜推理,可以建模分析鏈接預(yù)測(cè)的問題,可根據(jù)圖中的節(jié)點(diǎn)來預(yù)測(cè)節(jié)點(diǎn)之間的關(guān)聯(lián);如:給出兩個(gè)實(shí)體,預(yù)測(cè)兩者之間有哪種邊,即哪種關(guān)系;給定某一個(gè)實(shí)體、某一條邊,能預(yù)測(cè)出哪些實(shí)體與這個(gè)實(shí)體有某種關(guān)聯(lián)。
02 前沿進(jìn)展
1. 主要方法
這里將前沿進(jìn)展的主要方法分為 4 個(gè)部分,一是演繹邏輯及規(guī)則;二是基于圖結(jié)構(gòu)的推理;三是知識(shí)圖譜嵌入表示;四是深度神經(jīng)網(wǎng)絡(luò)模型。
2. 演繹邏輯及規(guī)則
該方法是非常經(jīng)典且常見的方法。將自然語言查詢轉(zhuǎn)化為邏輯操作符的組合,通過組合來表達(dá)這種查詢,再以具體的編程語言進(jìn)行實(shí)現(xiàn)得到查詢,比較著名圖的查詢的實(shí)現(xiàn)包括 SPARQL、Cypher、Datalog 等語言的歸納邏輯編程?;谘堇[邏輯推理的特點(diǎn)是:
推理的準(zhǔn)確性非常好
可解釋性好,其是具有邏輯性的
其需要專家制定大量的推理規(guī)則
對(duì)于不知道規(guī)則的泛化性能力比較差
近期研究的一個(gè)熱點(diǎn)和熱門是,如何利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí),自動(dòng)地發(fā)掘推理的規(guī)則。
3. 基于圖結(jié)構(gòu)的推理
這里認(rèn)為圖結(jié)構(gòu)有兩個(gè)特征:一是路徑特征,代表算法是 PRA 及擴(kuò)展算法,通過圖的遍歷算法或隨機(jī)游走方法來提取節(jié)點(diǎn)間的路徑特征,通過路徑特征來對(duì)節(jié)點(diǎn)連接進(jìn)行預(yù)測(cè),其特點(diǎn)是在推理的同時(shí)提供路徑可解釋性,但其問題是對(duì)于推理節(jié)點(diǎn)沒有連接的問題就不能解決?;趥鹘y(tǒng)的方法,其搜索空間比較大。二是基于圖結(jié)構(gòu)的方法,代表方法是 Grall,利用消息傳遞機(jī)制提取目標(biāo)實(shí)體的結(jié)構(gòu)信息,提供子圖可解釋性;但目前子圖結(jié)構(gòu)的方式還不是很成熟,因知識(shí)圖譜通常很大,如果遍歷圖中所有的子圖結(jié)構(gòu),遍歷的方式方法非常重要。
4. 知識(shí)圖譜嵌入表示
將知識(shí)圖譜高維、離散的數(shù)據(jù),通過設(shè)計(jì)某種得分函數(shù),將高維知識(shí)圖譜嵌入到低緯連續(xù)的向量空間之中,將實(shí)體和關(guān)系表示成數(shù)值型的向量進(jìn)行計(jì)算,其代表性的模型為 TransE 類型,近期研究的事 RotateE 模型或在雙曲空間中嵌入的模型,其方法的特點(diǎn)是淺層的神經(jīng)網(wǎng)絡(luò),通過特定的嵌入空間的結(jié)構(gòu)實(shí)現(xiàn)知識(shí)圖譜語義的表示。
5. 深度神經(jīng)網(wǎng)絡(luò)模型
深度神經(jīng)網(wǎng)絡(luò)模型是通過將實(shí)體和關(guān)系設(shè)計(jì)成查詢對(duì),通過查詢對(duì)與實(shí)體、關(guān)系的匹配,通過深度神經(jīng)網(wǎng)絡(luò)得到推理的相似度得分,來進(jìn)行推理的判斷。近期研究的熱點(diǎn)是 Transformer 或圖神經(jīng)網(wǎng)絡(luò)。
知識(shí)圖譜嵌入模型和深度網(wǎng)絡(luò)模型都視為神經(jīng)網(wǎng)絡(luò)模型,其相同點(diǎn)是都會(huì)設(shè)計(jì)一個(gè)得分函數(shù),通過數(shù)據(jù)驅(qū)動(dòng)的方式,以梯度反向傳播方法進(jìn)行訓(xùn)練。其優(yōu)點(diǎn)是泛化性能比較好,易于數(shù)值計(jì)算及并行化,規(guī)模性好,可以有效緩解圖結(jié)構(gòu)維度災(zāi)難的問題。其缺點(diǎn)是只能看到輸入和輸出數(shù)值的相似度,缺乏可解釋性,不知道模型內(nèi)部發(fā)生了什么,是一個(gè)黑盒的過程,因此可解釋性差,對(duì)噪音的魯棒性不強(qiáng),只能進(jìn)行單步的推理。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。