【原標(biāo)題:如故app用戶質(zhì)量高:軟件架構(gòu)發(fā)展歷程 人工智能開源軟件現(xiàn)狀】財金網(wǎng)消息 知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)(Semantic Network)。目前知識圖譜這個概念最早由Google在2012年提出,主要是用來優(yōu)化現(xiàn)有的搜索引擎。最近,知識圖譜慢慢地被泛指各種大規(guī)模的知識庫。知識圖譜的構(gòu)建屬于知識工程的范疇,其發(fā)展歷程如圖1所示。
圖1知識圖譜的發(fā)展歷程
知識圖譜從其知識的覆蓋面來看可以分為開放域知識圖譜和垂直領(lǐng)域知識圖譜,前者主要是百科類和語義搜索引擎類的知識基礎(chǔ),后者在金融、教育、醫(yī)療、汽車等垂直領(lǐng)域積累行業(yè)內(nèi)的數(shù)據(jù)而構(gòu)成。
知識圖譜相關(guān)的關(guān)鍵技術(shù)包括構(gòu)建和使用。知識圖譜的構(gòu)建有自頂向下和自底向上兩種方法,現(xiàn)在大部分情況會混合使用這兩種方法。知識圖譜的構(gòu)建應(yīng)用了知識工程和自然語言處理的很多技術(shù),包括知識抽取、知識融合、實體鏈接和知識推理。知識的獲取是多源異構(gòu)的,從非結(jié)構(gòu)化數(shù)據(jù)中抽取知識是構(gòu)建時的難點,包括實體、關(guān)系、屬性及屬性值的抽取。對不同來源的數(shù)據(jù)需要做去重、屬性歸一及關(guān)系補齊的融合操作。同時,根據(jù)圖譜提供的信息可以推理得到更多隱含的知識,常用知識推理方法有基于邏輯的推理和基于圖的推理。知識圖譜的使用需要自然語言處理和圖搜索算法的支持。
知識圖譜在語義搜索、百科知識及自動問答等方面有著很典型的應(yīng)用。在語義搜索領(lǐng)域,基于知識圖譜的語義搜索可以用自然語言的方式查詢,通過對查詢語句的語義理解,明確用戶的真實意圖,從知識圖譜中獲取精準(zhǔn)的答案,并通過知識卡片等形式把結(jié)果結(jié)構(gòu)化地展示給用戶,目前具體應(yīng)用有Google、百度知心、搜狗知立方等。在百科知識領(lǐng)域,知識圖譜構(gòu)建的知識庫與傳統(tǒng)的基于自然文本的百科相比,有高度結(jié)構(gòu)化的優(yōu)勢。在自動問答和聊天機器人領(lǐng)域,知識圖譜的應(yīng)用包括開放域、特定領(lǐng)域的自動問答以及基于問答對(FAQ)的自動問答。比如IBM的Watson,Apple的Siri,Google Allo,Amazon Echo,百度度秘以及各種情感聊天機器人、客服機器人、教育機器人等。
開源知識庫
Freebase是一個大規(guī)模鏈接數(shù)據(jù)庫,是由硅谷創(chuàng)業(yè)公司MetaWeb于2005年啟動的基于Creative Commons Attribution協(xié)議的語義網(wǎng)項目。Freebase主要采用社區(qū)成員協(xié)作方式構(gòu)建,其數(shù)據(jù)源主要包括Wikipedia、NNDB、Fashion Model Directory、MusicBrainz和社區(qū)用戶貢獻(xiàn)等。Freebase基于RDF三元組模型,共有19億條三元組,底層采用圖數(shù)據(jù)庫進(jìn)行存儲。2010年,F(xiàn)reebase被Google收購作為其知識圖譜數(shù)據(jù)來源之一。2016年,Google宣布將Freebase的數(shù)據(jù)和API服務(wù)都遷移至Wikidata,并正式關(guān)閉了Freebase。
WikiData是免費開放、多語言、任何人或機器都可以編輯修改的大規(guī)模鏈接知識庫,是由維基百科于2012年啟動的基于Creative Commons Attribution協(xié)議的項目。WikiData繼承了Wikipedia的眾包協(xié)作構(gòu)建機制,但與Wikipedia不同,WikiData基于以三元組為基礎(chǔ)的知識條目的自由編輯,目前已經(jīng)有超過4667萬條知識條目。
DBPedia是由OpenLink Virtuoso托管和發(fā)布的基于GPL協(xié)議的開源知識庫。DBpedia以互聯(lián)網(wǎng)挖掘的方式從各種維基媒體項目創(chuàng)建的信息中提取結(jié)構(gòu)化內(nèi)容,以機器可讀的形式存儲知識,并提供信息收集、組織、共享、搜索和利用的手段。DBpedia 2014年發(fā)布的版本包含30億條三元組。DBpedia知識庫與現(xiàn)有的知識庫相比有幾個優(yōu)點:涵蓋領(lǐng)域多、代表真實的社區(qū)協(xié)議、會隨著維基百科的變化而自動演變、多語言。DBpedia知識庫的用例非常廣泛,包括企業(yè)知識管理、Web搜索以及維基百科搜索的革命。
YAGO是一種基于鏈接數(shù)據(jù)庫的開放語義知識庫,是由德國馬普研究所與巴黎電訊科技大學(xué)于2007開始的基于Creative Commons Attribution協(xié)議的聯(lián)合項目。YAGO主要集成了Wikipedia、WordNet和GeoNames三個來源的數(shù)據(jù),包含1.2億條三元組知識,其功能包括作為一個分類單元直接連接到DBpedia云知識庫。目前YAGO在SUMO Ontology項目、DBpedia計劃、UMBEL Ontology項目以及Freebase等項目中提供相關(guān)知識庫支持,同時它也是IBM Watson的后端知識庫之一。
其他的開放知識圖譜有:ConceptGraph、BabelNet、CN-DBPeidia、OpenKG等。
開源構(gòu)建工具
Protege是基于Java語言開發(fā)的本體編輯和知識獲取軟件,是斯坦福大學(xué)醫(yī)學(xué)院生物信息研究中心于1999年發(fā)布的基于BSD 2-clause協(xié)議的開源軟件。Protege提供本體概念類、關(guān)系、屬性和實例的構(gòu)建,不基于具體的本體描述語言,因此用戶可以在概念層次上構(gòu)建領(lǐng)域本體模型。
除了Protege,還有Stanford OpenIE、Tuffy、OpenKE、Grakn等應(yīng)用于知識圖譜構(gòu)建的開源軟件。但它們普遍受到的關(guān)注度不高,這在一定程度上體現(xiàn)出了知識圖譜領(lǐng)域用于構(gòu)建圖譜的開源軟件的匱乏。
完整的知識圖譜構(gòu)建還包括知識的存儲。知識圖譜有兩類存儲方式,一類是傳統(tǒng)的RDF結(jié)構(gòu)存儲,RDF 標(biāo)準(zhǔn)的結(jié)構(gòu)化查詢語言是SPARQL;另一類是圖數(shù)據(jù)庫,它可以彌補傳統(tǒng)關(guān)系型數(shù)據(jù)庫在存儲知識圖譜時查詢復(fù)雜、緩慢的缺陷。目前常用的圖數(shù)據(jù)庫軟件包括Neo4j、OrientDB、ArangoDB和AllegroGrap等。
小結(jié)
知識圖譜提供了一種新的數(shù)據(jù)和知識組織方式,能夠讓多源異構(gòu)的數(shù)據(jù)知識化,基于知識圖譜能夠建立各種知識服務(wù)和智能應(yīng)用。知識圖譜在金融、醫(yī)療、農(nóng)業(yè)、法律等很多垂直領(lǐng)域的應(yīng)用已經(jīng)得到了迅速地展開,范圍越來越廣,程度由淺入深。但知識圖譜的構(gòu)建和應(yīng)用具有很大的技術(shù)難度,需要自然語言處理、數(shù)據(jù)庫和語義推理等多重技術(shù)的支持。
連載預(yù)告
人工智能開源軟件發(fā)展現(xiàn)狀連載預(yù)告:
第一集:人工智能開源軟件發(fā)展歷程
第二集:人工智能開源計算平臺
第三集:開源機器學(xué)習(xí)框架
第四集:自然語言處理開源軟件
第五集:計算機視覺開源軟件
第六集:智能語音開源軟件
第七集:無人系統(tǒng)開源軟件
第八集:知識圖譜開源軟件
第九集:虛擬現(xiàn)實與增強現(xiàn)實開源軟件
第十集:游戲智能與信息安全開源軟件
第十一集:人工智能開源軟件特性分析
第十二集:基于開源軟件的人工智能技術(shù)典型解決方案
《中國人工智能開源軟件發(fā)展白皮書(2018)》
為推動人工智能開源軟件產(chǎn)業(yè)發(fā)展,工業(yè)和信息化部信息化和軟件服務(wù)業(yè)司指導(dǎo)中國電子技術(shù)標(biāo)準(zhǔn)化研究院,聯(lián)合上海計算機軟件技術(shù)開發(fā)中心、北京大學(xué)、中國科學(xué)院、北京京東尚科信息技術(shù)有限公司、深圳前海微眾銀行股份有限公司、螞蟻小微金融服務(wù)集團(tuán)、北京百度網(wǎng)訊科技有限公司、東軟集團(tuán)股份有限公司、順豐科技有限公司等企事業(yè)單位,編撰形成了《中國人工智能開源軟件發(fā)展白皮書(2018)》。白皮書現(xiàn)已公開發(fā)布,點擊左下方閱讀全文免費獲取下載鏈接。