簡介

香港作家及藝術家傳記資料庫 : 知識圖譜構建及應用

香港作家及藝術家傳記資料庫(下稱資料庫) 為「香港文學資料庫」改版更新的第二期項目,第一階段以摘取非結構化的文本資料,包括《香港文學作家傳略》內569位作家資料、及以半結構化表格排版的《香港古典詩文集經眼錄》收錄的514位香港舊體文學家資料及《香港視學藝術年鑑》內約五萬一千條相關出版、展覽資料。截至2022年5月,資料庫包含人物十二萬三千多條及組織一萬四千多條命名實體資料 (named entries) 和一千四百萬條關聯 (relations)。資料庫作為香港地區文學/藝術領域知識庫,冀善用以上內容彙編研究整理香港文學/藝術的資料為起點,保存和呈現香港文化的發展面貌。

近二、三十年來,各國圖書館、檔案館、博物館掃描大量館藏,進行數碼化(數字化) (digitization) 的建設,但開始時這些數碼資料只以一些結構化的描述資訊(metadata)來傳播,當中蘊含的豐富知識卻長期處於封閉狀態,嚴重影響了知識的傳播與數碼人文研究應用。另外進行人文研究需要借助大量的人力參與文本化過程,人文學者研究團隊各自從大量人物傳記中爬梳、彙整資料;即使在研究中得出數據,卻未有互為融合利用。不過近年 ,不少國家或地區都開始建構本土人物傳記資料庫, 如「中國歷代人物傳記資料庫」、「臺灣歷史人物資料庫」、「上海圖書館人名規範庫」等,當中結合本體、(語義) 知識圖譜、機器學習等語義技術對文本化的資源進行資料化和智慧化建設。

(圖片來源:陳濤, 劉煒, 單蓉蓉, 朱慶華. 知識圖譜在數字人文中的應用研究.《中國圖書館學報》, 2019年第6期.)

本資料庫的建構是將香港文學/作家傳記資料 (爾後加入藝術家) 以知識圖譜(knowledge graph) 的方法和推理機制,並提供平台獲取相關的香港地區人物傳記資料轉化為結構化數據,讓研究者利用電腦可讀的知識從而發掘研究新視角。資料庫展示人物及參與組織之間的關係,透過三元組模型表達實體 – 屬性和屬性值以描述各類事物 (如人、地、事件等)。資料庫內構建的知識圖譜乃以圖資料庫(graph database) 通過本體(ontology) 來規範一系列表達事實的資料層。圖資料庫著重以點 (node)和邊 (edges) 解釋複雜關係貼近現實世界,可經無限伸延節點幫助找出未知知識/現象, 尤其利用數碼人文研究中社會網路分析、及各種資料視覺化,以知識推理 – 即根據圖譜中已有的知識,推斷出新的、未知的知識。

未來方向

資料庫正在不斷添加不同的來源資料,發展方向可分為兩部份:

  • 數據來源:與學者及研究單位合作進一步擴充其他領域香港人物傳記資料,梳理錯綜複雜的人際網絡,呈現更全面香港文化發展原貎從而開拓數碼人文研究在香港文化的新視野;
  • 數據利用:
    • 人物方面:利用資料平台整合相關圖書館藏研究資料,以人名/筆名及組織名稱作為權威字典進行文本分析和內容分類及分析圖書館檔案資料相關人物及組織研究資料及關係。另外,亦會使用名稱權威字典對數碼化的文本內容(日記)進行文本化識別,並使用文本分析工具對資源內容以支援數碼人文研究;
    • 地方資料:資料庫地名與傳記資料則會建設文化地景及文人南來研究及展示;
    • 利用知識圖譜特點推理和計算,發現未知知識並視覺化,實現諸如提問式檢索例如自動問答系統(Chatbot) 的知識來源、時空展示等功能,推動人工智慧環境下數碼人文研究方法的創新。