知識圖譜原理與建構流程及數據可視化展示
作為專業領域知識圖譜一般以屬性圖為基本的表示形式,強調的是節點(vertices)和邊(edges),節點上有屬性 (鍵值對),而邊也可以有屬性。邊有名字和方向,並總有一個開始節點和一個結束節點,節點可以有內部結構 (三元組)。而知識將以事實為單位進行存儲。有助於人們建立知識體系,理解各種實體概念以及它們的關聯。
以《香港文學作家傳略》三蘇條目為例:
三蘇 一九一八年生於廣州。祖籍浙江紹興。曾讀廣州市立師範小學…
以實體、屬性、屬性值這樣的三元組來表達事實:
三蘇[實體1-Person] displayBirthDate 1918 [屬性值]
三蘇[實體1-Person] gender 男 [屬性值]
三蘇[實體1-Person] hasBirthDate 1918-00-00 [屬性值]
以實體1、關係、 實體2這樣的三元組來表達事實:
三蘇[實體1-Person] hasPlaceOfBirth 廣州 [實體2-Place]
三蘇[實體1-Person] hasNativePlace 浙江紹興[實體3-Place]
三蘇[實體1-Person] HasEducation EducationEvent[實體4-Event] HasEducatedAt 廣州市立師範小學 [實體5-Organization]
知識圖譜的建置大致分為以下流程:
- 知識建模:為知識和資料進行抽象建模並以本體規範
知識圖譜本體主要以由下而上(bottom-up)的構建方式 – 文學專著事實建模以切合香港地區文化研究需要,同時參考其他關聯資料本體,定義近 300 種關係屬性 。以下為香港作家及藝術家傳記資料庫其中人物本體:
- 知識獲取:從不同來源形成知識存入到知識圖譜內同結構的資料中進行知識抽取利用權威專著並建構資料來源數據集,方便日後查閱,當中值得注意兩點:
- 關係存在“正向推理(Forward-Chaining)”和“反向推理 (Backward-Chaining)”兩種推理方式。如hasOrganization 正向推理 及isParticipantOf 反向推理
- 利用子屬性結構化關係。如hasBrother, hasBrotherInLaw 為hasKinship子屬性
- 知識融合:將不同來源、不同結構的資料中抽取的知識融合成一個統一的知識圖譜
分類實體為人物或組織,以人名/組織名數據集或人名規範庫進行消岐及融合實體工作
- 知識存儲:用於資料存儲,同時支援上層的知識推理、快速檢索、圖即時計算等應用
- 知識計算:通過各種演算法,發現其中顯式或隱含的知識、模式或規則圖挖掘和圖計算、圖遍歷、路徑計算與探尋、權威節點分析、族圖遍歷計算群分析、相似點發現等基於圖的分析與計算,SPARQL (SPARQL Protocol and RDF Query Language) 查詢及數據輸出利用於資料庫如下:
- 視覺化技術:結合視覺化工具進行資料分析,視覺化技術利用於資料庫如下:
- 生平列表
- 家譜
- 時間軸
- 社會關係網絡