來(lái)源:THU數(shù)據(jù)派 時(shí)間:2017-09-26 11:10:13 作者:舒怡 曾祥輝
[導(dǎo)讀]知識(shí)圖譜技術(shù)日益成為人工智能的基礎(chǔ),它是機(jī)器理解自然語(yǔ)言和構(gòu)建知識(shí)網(wǎng)絡(luò)的重要方法。近年來(lái),知識(shí)圖譜在司法領(lǐng)域的運(yùn)用悄然興起,它幫助從業(yè)人員快速地在線(xiàn)檢索相關(guān)的法務(wù)內(nèi)容,從而提高法院審判工作質(zhì)量和效率。
本期清華大數(shù)據(jù)“應(yīng)用·創(chuàng)新”系列講座,我們邀請(qǐng)到來(lái)自國(guó)雙科技的專(zhuān)家舒怡和曾祥輝分享知識(shí)圖譜在司法領(lǐng)域應(yīng)用的探索。
國(guó)雙科技 舒怡
舒怡:很開(kāi)心能夠來(lái)到清華進(jìn)行分享,首先講一下我對(duì)知識(shí)圖譜的理解和認(rèn)識(shí)。
我認(rèn)為數(shù)據(jù)、信息和知識(shí)的共享傳播已經(jīng)創(chuàng)造了極大的市場(chǎng)價(jià)值,但是在知識(shí)的處理上還有很大的挖掘空間。我們認(rèn)為知識(shí)圖譜在現(xiàn)階段要解決的問(wèn)題就是實(shí)現(xiàn)數(shù)據(jù)和信息的智能化處理,讓計(jì)算機(jī)像人一樣用知識(shí)處理信息。
知識(shí)圖譜在司法領(lǐng)域的探索和應(yīng)用
1、知識(shí)圖譜的定義
業(yè)界普遍使用圖作為表示知識(shí)的數(shù)據(jù)結(jié)構(gòu),因此稱(chēng)為知識(shí)圖譜。
結(jié)點(diǎn)-邊-節(jié)點(diǎn)組成了表示知識(shí)和事實(shí)的陳述語(yǔ)句。
知識(shí)和事實(shí)陳述語(yǔ)句關(guān)聯(lián)起來(lái),可以表達(dá)領(lǐng)域的專(zhuān)業(yè)知識(shí)。
2、知識(shí)圖譜的特點(diǎn)
知識(shí)圖譜在語(yǔ)義層面表示客觀(guān)世界的知識(shí)和事實(shí)。
集成(空間)。它是一個(gè)空間的概念,可以把相關(guān)的概念和實(shí)體用任何的維度去描述,組成一個(gè)整體。
積累(時(shí)間)。我們可以逐步增加知識(shí)圖譜上的知識(shí)結(jié)點(diǎn),新的知識(shí)結(jié)構(gòu)和知識(shí)內(nèi)容能夠自然累積成一個(gè)完整的知識(shí)結(jié)構(gòu)。
總體來(lái)說(shuō),我們認(rèn)為知識(shí)圖譜最大的作用就是降低了結(jié)構(gòu)化知識(shí)的構(gòu)建和使用難度。
3、司法知識(shí)圖譜是司法智能應(yīng)用的必然路徑
知識(shí)圖譜表達(dá)的知識(shí)方法與人類(lèi)認(rèn)知的模式相一致。與自然語(yǔ)言表達(dá)語(yǔ)義的方式相一致,對(duì)領(lǐng)域的概念分類(lèi)、分層也一致,可以疊加無(wú)限的維度,允許知識(shí)與語(yǔ)言相對(duì)獨(dú)立的相關(guān)性。這其實(shí)跟知識(shí)圖譜技術(shù)、方法的本質(zhì)有關(guān)系。
法律知識(shí)體系是多種邏輯的結(jié)合。法律的知識(shí)體系非常復(fù)雜,可以從法律法規(guī)自上而下構(gòu)建體系,也可以從法學(xué)概念的相關(guān)性去構(gòu)建體系。
成文法體系。我們國(guó)家是一個(gè)成文法體系的國(guó)家,它跟英美不同,不是遵循先例的角度去看。這就有了一個(gè)條件,我們可能用一種比較統(tǒng)一的方法去處理整個(gè)中國(guó)的法律知識(shí)。
專(zhuān)業(yè)領(lǐng)域的知識(shí)圖譜的構(gòu)建和百科類(lèi)知識(shí)的融合和構(gòu)建不同,需要非常嚴(yán)格的專(zhuān)家指導(dǎo)和監(jiān)督。如果說(shuō)百度類(lèi)的知識(shí)圖譜搭建屬于起步階段,那么專(zhuān)業(yè)領(lǐng)域內(nèi)的知識(shí)圖譜構(gòu)建更是處于初級(jí)階段,要經(jīng)歷非常長(zhǎng)時(shí)間的發(fā)展。
4、司法知識(shí)體系建設(shè)思路
我們的思路就是把應(yīng)用當(dāng)成知識(shí)圖譜構(gòu)建的鑰匙,每一種法學(xué)領(lǐng)域內(nèi)的應(yīng)用都是一把觸動(dòng)不同結(jié)點(diǎn)的鑰匙,應(yīng)用的結(jié)果都是結(jié)點(diǎn)上概念與屬性的預(yù)算。
司法知識(shí):
法律概念知識(shí)
司法實(shí)踐知識(shí)
司法實(shí)踐涉及的領(lǐng)域知識(shí)
一般社會(huì)知識(shí)
我們對(duì)于法律的概念知識(shí)對(duì)接的是傳統(tǒng)的知識(shí)庫(kù),而司法的實(shí)踐知識(shí)是通過(guò)批量的文書(shū)處理和專(zhuān)家的干預(yù)去構(gòu)建,以應(yīng)用為導(dǎo)向,小規(guī)模進(jìn)行突破。司法實(shí)踐涉及的領(lǐng)域知識(shí)是以專(zhuān)家構(gòu)建為主,以應(yīng)用為導(dǎo)向,在一定的領(lǐng)域內(nèi)做,而一般的社會(huì)知識(shí)對(duì)接的是百科的數(shù)據(jù)庫(kù)。
5、怎么去對(duì)接傳統(tǒng)的數(shù)據(jù)庫(kù)呢?
我們現(xiàn)在所接觸的傳統(tǒng)數(shù)據(jù)庫(kù),就是法律類(lèi)的專(zhuān)業(yè)數(shù)據(jù)庫(kù),很多是以樹(shù)狀結(jié)構(gòu)去做。第一,它的構(gòu)建邏輯單一;第二,分層的隨意性大,第三層級(jí)之間的關(guān)系比較亂。右邊紅框,它的層級(jí)有的之間是父子包含關(guān)系,有的之間是并列關(guān)系;而左邊紅框的層級(jí)非常多,必須用目錄索引才能很好的使用它的知識(shí)庫(kù)。
如果我們把已經(jīng)做好了的傳統(tǒng)知識(shí)庫(kù)去復(fù)建知識(shí)圖譜,成本比較高。我們是以尊重現(xiàn)有的傳統(tǒng)知識(shí)庫(kù)為基礎(chǔ),將主要的精力放在兩個(gè)方面:
第一方面,探索多個(gè)不同邏輯傳統(tǒng)知識(shí)庫(kù)的知識(shí)融合。
第二方面,在弱化層級(jí)的概念上。(舉例略)
我們把知識(shí)圖譜用在了很多產(chǎn)品上。舉一個(gè)例子——文書(shū)生成系統(tǒng)。我們先解析前置文書(shū),前置文書(shū)指的是起訴書(shū)、答辯狀,開(kāi)庭筆錄等,我們解析了起訴書(shū)、答辯狀和開(kāi)庭筆錄之后就會(huì)生成一個(gè)判決模板,從前置文書(shū)中解析出來(lái)當(dāng)事人、法官、適用程序,訴訟請(qǐng)求等數(shù)據(jù)填充到相應(yīng)的位置,同時(shí)給法院推送適當(dāng)?shù)慕裹c(diǎn)和裁判規(guī)則,并且我們還對(duì)裁判規(guī)則適用等進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)。
事理圖譜在司法領(lǐng)域上的嘗試
事理圖譜是一個(gè)比較新的概念,哈工大提出事理圖譜的時(shí)候就非常明確地認(rèn)為:事件是人類(lèi)社會(huì)的核心概念之一,人們的社會(huì)活動(dòng)往往是事件驅(qū)動(dòng)的。事件之間在時(shí)間上相繼發(fā)生的演化規(guī)律和模式是一種十分有價(jià)值的知識(shí),而探索事件和事件之間的演化和演化的概率是事理圖譜非常重要的研究方向和研究點(diǎn)。
這是一張出行的事理圖譜,結(jié)點(diǎn)表示抽象、淡化的事件,有效的邊表示事件之間的順承、因果關(guān)系,邊上標(biāo)注有事件間轉(zhuǎn)移概率的信息。事理圖譜旨在揭示事件間的邏輯演化規(guī)律與模式,由此可作為對(duì)人類(lèi)行為活動(dòng)的直接刻劃。
為什么我們?cè)谒痉I(lǐng)域去研究事理圖譜?是因?yàn)槲覀冋J(rèn)為事件不但是事理圖譜的研究起點(diǎn),而且對(duì)司法領(lǐng)域有非常大的意義,所有判決的作出都是基于原被告之間在同一時(shí)序下的行為及行為形成的客觀(guān)結(jié)果。
這是我們研發(fā)事理圖譜的主要技術(shù)路徑,技術(shù)核心點(diǎn)就是事實(shí)類(lèi)別識(shí)別和識(shí)別要素提取。
第一步,人工標(biāo)注事件,做每句話(huà)的標(biāo)注;
第二步,把人工標(biāo)注的事件做一個(gè)聚合;
第三步,人工標(biāo)注事件主體和客體。
司法圖譜的實(shí)踐啟發(fā)
我們認(rèn)為司法圖譜可實(shí)現(xiàn)智慧法院的技術(shù)底層,事理圖譜運(yùn)用于司法領(lǐng)域具有開(kāi)創(chuàng)性的意義。短時(shí)間內(nèi)可以做一個(gè)文書(shū)的摘要,長(zhǎng)時(shí)間則可以把涉案事實(shí)結(jié)構(gòu)化,找到知識(shí)圖譜中間對(duì)應(yīng)的實(shí)體概念,觸發(fā)知識(shí)圖譜里的一些推送知識(shí)。我們還可以有一些配對(duì)的規(guī)則,用概率來(lái)實(shí)現(xiàn)推薦的排名,對(duì)類(lèi)案作出法律事件發(fā)生概率及演化路徑的分析,還可以廣泛運(yùn)用于要素式的審判,法律行為分析的預(yù)測(cè),判決結(jié)果的高概率分析等等。知識(shí)圖譜和事理圖譜的搭建,可以支持法官和當(dāng)事人的語(yǔ)義問(wèn)答以及探索性地獲取答案等等。
我們做的其實(shí)都是在模擬人的思維方式,該干什么、怎么干。該干什么,就是事理圖譜告訴我們下一步該干什么;怎么干,就是知識(shí)圖譜的事,通過(guò)知識(shí)告訴你方法,或者回答你需要的問(wèn)題。我今天的分享就到這里,謝謝大家。
國(guó)雙科技 曾祥輝
隨后,曾祥輝先生從技術(shù)的角度告訴我們知識(shí)圖譜是如何搭建的。
知識(shí)圖譜概述
曾祥輝:知識(shí)圖譜的來(lái)源,屬于知識(shí)工程的一部分。谷歌提出之后,國(guó)內(nèi)的公司也在跟進(jìn)。
這是在司法領(lǐng)域的案例,我們平常在文書(shū)中看到的是一個(gè)文本的表述,然后結(jié)構(gòu)化圖譜,這是在我們案件中要做的事情。
1、知識(shí)表達(dá)方式各優(yōu)缺點(diǎn)
文本是自然語(yǔ)言的表達(dá)方式,但是它對(duì)機(jī)器來(lái)說(shuō)是非常難以理解,現(xiàn)在的NLP還不足以達(dá)到理解的程度。
數(shù)據(jù)庫(kù)是我們用的最多的數(shù)據(jù)儲(chǔ)存的方式,它的好處就是機(jī)器獲取信息的效率比較高,技術(shù)鏈比較成熟;它的缺點(diǎn)在于對(duì)復(fù)雜信息或者復(fù)雜關(guān)系的表達(dá)比較難,因?yàn)樗哪J绞羌榷ǖ?,要演化這種模式所花費(fèi)的成本會(huì)比較高。同時(shí)它對(duì)復(fù)雜關(guān)系的多度查詢(xún),也就是跨表查詢(xún),三個(gè)表就達(dá)到幾十秒的時(shí)間,這個(gè)對(duì)于我們實(shí)施系統(tǒng)來(lái)說(shuō)無(wú)法接受。
我們現(xiàn)在開(kāi)始走向非關(guān)系型的數(shù)據(jù)庫(kù),圖就是其中一種。圖的好處就是在于它非常適合復(fù)雜關(guān)系和信息的表達(dá)和查詢(xún)。它的模式是一種路模式,對(duì)于信息的儲(chǔ)存非常易氧化,你要增加新的信息或者新的結(jié)點(diǎn)進(jìn)去,可以隨時(shí)加。那么它對(duì)多個(gè)以上的查詢(xún)就無(wú)法輸出這個(gè)結(jié)果,但是在圖上始終能夠保持在秒級(jí)的速度,這是我們對(duì)實(shí)施系統(tǒng)一個(gè)非常重要的條件;它的缺點(diǎn)就是對(duì)于我們常用的一些數(shù)據(jù)庫(kù),它的技術(shù)還沒(méi)有成熟。
2、應(yīng)用方向
信息搜索和可視化分析
為自然語(yǔ)言理解提供背景知識(shí)庫(kù)
問(wèn)答系統(tǒng)、醫(yī)療診斷、金融反欺詐、電商搜索推薦
圖譜構(gòu)建及應(yīng)用技術(shù)
1、整體的構(gòu)建流程:
1.1 明確需求
通用或垂直領(lǐng)域
業(yè)務(wù)需求關(guān)注的實(shí)體類(lèi)型、關(guān)系類(lèi)型
分類(lèi)體系
1.2 確定數(shù)據(jù)來(lái)源
通用圖譜:百科網(wǎng)站、互聯(lián)網(wǎng)文本等
領(lǐng)域圖譜:垂直網(wǎng)站(法律咨詢(xún)網(wǎng)站、文書(shū)網(wǎng))、期刊、書(shū)籍等。
1.3 知識(shí)抽取
實(shí)體抽?。∟ER)及關(guān)系(屬性)抽取
基于規(guī)則和詞典的方法:在詞法、句法分析基礎(chǔ)上,見(jiàn)效快;規(guī)則難以窮盡、瓶頸
基于統(tǒng)計(jì)的方法:帶標(biāo)語(yǔ)料難以獲得,尤其是垂直領(lǐng)域
二者結(jié)合的方法:半監(jiān)督學(xué)習(xí),bootstrapping,種子學(xué)習(xí)+pattern,效果有待優(yōu)化
神經(jīng)網(wǎng)絡(luò):LSTM+CRF
事件抽?。红o態(tài)轉(zhuǎn)向動(dòng)態(tài),將事件作為實(shí)體的一種,拓寬實(shí)體關(guān)系,豐富圖譜。事件識(shí)別與分類(lèi):觸發(fā)詞、機(jī)器學(xué)習(xí)分類(lèi)。事件要素的抽取,包括實(shí)體和屬性:語(yǔ)法、語(yǔ)義分析。
概念抽?。簩⒏拍钭R(shí)別引入,主要豐富圖譜中IsA的關(guān)系,建立層級(jí)關(guān)系。
1.4 知識(shí)融合
實(shí)體對(duì)齊:不同數(shù)據(jù)同一實(shí)體、關(guān)系或?qū)傩缘膶?duì)齊,基于規(guī)則或者統(tǒng)計(jì)
關(guān)系(屬性)對(duì)齊:如出生日期與出生時(shí)間
知識(shí)驗(yàn)證:來(lái)源可靠性,概率評(píng)估
1.5 知識(shí)推理
基于規(guī)則的推理:如父親的父親是爺爺
基于統(tǒng)計(jì)的推理:如圖中三角關(guān)系的推斷
基于規(guī)則的推理:假設(shè)我們承認(rèn)A的父親是B,B的父親是C,但A和C的關(guān)系沒(méi)有儲(chǔ)存,或者在已有的信息是沒(méi)有獲取到,怎么辦呢?
第一種方法,可以通過(guò)人給圖譜做一些規(guī)則,我們說(shuō)A的父親是B,B的父親C,我們就可以得到這個(gè)關(guān)系,A的爺爺是C。
第二種方法,基于統(tǒng)計(jì)的方法,比如我們現(xiàn)有的圖譜中已經(jīng)存在很多三角關(guān)系,通過(guò)很多三角關(guān)系的實(shí)例,讓機(jī)器學(xué)習(xí)父親的父親是爺爺,得到A和C的關(guān)系。
1.6 知識(shí)分布式表示
我們可以把知識(shí)圖譜的關(guān)系表示成一個(gè)向量,向量之間的相似度可以通過(guò)一些方法來(lái)計(jì)算,可以計(jì)算相似度,做一些融合,也可做一些推薦。
2、應(yīng)用方向:
這是知識(shí)圖譜應(yīng)用到的一些方向,大概都差不多,可能會(huì)涉及到實(shí)體鏈接、關(guān)系識(shí)別和路徑推理。問(wèn)答系統(tǒng),它最重要的一點(diǎn)是意圖識(shí)別和語(yǔ)義分析?,F(xiàn)在百度為什么只能識(shí)別某一類(lèi)型的問(wèn)題而有些問(wèn)題就識(shí)別不了,因?yàn)樗麄冏隽艘恍┠0宓膯?wèn)題。
總結(jié)
第一點(diǎn),面向業(yè)務(wù)需求,決定用什么技術(shù)。我們做工程或者做項(xiàng)目跟做研究有點(diǎn)不同,知識(shí)圖譜的確非常有用,但是你的業(yè)務(wù)或許根本用不到這個(gè)技術(shù)。
第二點(diǎn),工程性質(zhì)及快速迭代,粒度有大到小。我們?cè)跇?gòu)建知識(shí)圖譜的過(guò)程中發(fā)現(xiàn)這個(gè)度非常難以控制,因?yàn)橐龅綄?shí)體層和概念層是非常難的。
第三點(diǎn),有效果的技術(shù)就是最好的技術(shù)。不用去拘泥于非得用什么高深的技術(shù)和最前沿的技術(shù),這和做學(xué)術(shù)研究不一樣。
第四點(diǎn),重視人工協(xié)作的力量?;诰S基百科和百度百科的知識(shí)抽取,它們的基礎(chǔ)是什么?就是大量的網(wǎng)民朋友們無(wú)私的奉獻(xiàn),都是人工編輯出來(lái)的。
?
責(zé)任編輯:陳近梅