Skip to content
CUHK LogoCUHK Library LogoCUHK small library logo

If you like this page, please feel free to share it to your social networks!

香港作家及藝術家傳記資料庫 : 知識圖譜構建及應用

Construction and application of a knowledge graph in Hong Kong Writers and Artists Biographical Database

 

香港作家及藝術家傳記資料庫(下稱資料庫) 為「香港文學資料庫」改版更新的第二期項目,第一階段以摘取非結構化的文本資料,包括《香港文學作家傳略》內569位作家資料、及以半結構化表格排版的《香港古典詩文集經眼錄》收錄的514位香港舊體文學家資料及《香港視學藝術年鑑》內約五萬一千條相關出版、展覽資料。截至2022年5月,資料庫包含人物十二萬三千多條及組織一萬四千多條命名實體資料 (named entries) 和一千四百萬條關聯 (relations)。資料庫作為香港地區文學/藝術領域知識庫,冀善用以上內容彙編研究整理香港文學/藝術的資料為起點,保存和呈現香港文化的發展面貌。

 

近二、三十年來,各國圖書館、檔案館、博物館掃描大量館藏,進行數碼化(數字化) (digitization) 的建設,但開始時這些數碼資料只以一些結構化的描述資訊(metadata)來傳播,當中蘊含的豐富知識卻長期處於封閉狀態,嚴重影響了知識的傳播與數碼人文研究應用。另外進行人文研究需要借助大量的人力參與文本化過程,人文學者研究團隊各自從大量人物傳記中爬梳、彙整資料;即使在研究中得出數據,卻未有互為融合利用。不過近年 ,不少國家或地區都開始建構本土人物傳記資料庫, 如「中國歷代人物傳記資料庫」、「臺灣歷史人物資料庫」、「上海圖書館人名規範庫」等,當中結合本體、(語義) 知識圖譜、機器學習等語義技術對文本化的資源進行資料化和智慧化建設。

數字人文研究框架

(圖片來源:陳濤, 劉煒, 單蓉蓉, 朱慶華. 知識圖譜在數字人文中的應用研究.《中國圖書館學報》, 2019年第6期.)

 

本資料庫的建構是將香港文學/作家傳記資料 (爾後加入藝術家) 以知識圖譜(knowledge graph) 的方法和推理機制,並提供平台獲取相關的香港地區人物傳記資料轉化為結構化數據,讓研究者利用電腦可讀的知識從而發掘研究新視角。資料庫展示人物及參與組織之間的關係,透過三元組模型表達實體 - 屬性和屬性值以描述各類事物 (如人、地、事件等)。資料庫內構建的知識圖譜乃以圖資料庫(graph database) 通過本體(ontology) 來規範一系列表達事實的資料層。圖資料庫著重以點 (node)和邊 (edges) 解釋複雜關係貼近現實世界,可經無限伸延節點幫助找出未知知識/現象, 尤其利用數碼人文研究中社會網路分析、及各種資料視覺化,以知識推理 – 即根據圖譜中已有的知識,推斷出新的、未知的知識。

 

未來方向

資料庫正在不斷添加不同的來源資料,發展方向可分為兩部份: