項目簡介

中文文字資料處理:使用R語言處理盛宣懷信件集資料

文字探勘是一種利用電腦軟件從文本來源(如文檔,書信,書籍和雜誌)提取及分析文本的技術。在數碼學術的領域內,透過文字探勘去研究文本當中隱藏的模式及關係亦漸見流行。此技術旨在利用最少的人手參與,透過應用了語言學,統計學和機器學習方法的軟件去整理及理解結構化或非結構化的文本來源。由於市面上大部份文字探勘的軟件主要是分析西方語系資料,透過電腦處理中文及分析自然語言已經不容易,再去處理古代中國文字則更為困難。香港中文大學圖書館收藏了大量珍貴及罕有的中文資料及逐步將其轉化為電子格式。圖書館數碼學術團隊亦正嘗試透過文字探勘方式去探示圖書館數碼館藏中隱藏的資料。

此項目由圖書館提出,由數碼學術研究博士後研究員戴昀博士開展,利用“R”及中文大學文物館所藏的盛宣懷檔案示範如何處理及分析中文電子文本。盛宣懷檔案包含晚清企業家盛宣懷先生與其他人的書信往來,而圖書館早前已將結集成77冊書信集內的30,000頁次、超過七百五十萬字的書信數碼化。電子文本儲存為WORD檔案,文本檔案亦包括每封書信的題名、上款人、下款人、日期、關鍵字、文本提及過的地名。從海量的文本資料,數碼學術團隊認為將檔案文本轉換成機器可讀格式可以方便研究人員透過計算文本分析和其他相關方法進行研究。因此,這個項目的目的是探索不同的方式對盛檔收錄的文本進行研究。

團隊利用R 的斷詞套件(例如: jiebaR)來進行中文斷詞。我們選了其中兩冊作為試點,以證明概念是否可行。在此篇文章裡,戴昀博士描述了整個實驗的過程包括由設置R環境到創建一個文件矩陣 (Term Document Matrix (TDM))到文字雲(wordcloud)。相關的R 指令及文件可點擊這裡下載。不過,這只是第一階段的工作,團隊希望藉此引起研究人員對盛檔文件進行下一步研究的可能性,例如文本聚類分析(text clustering)或主題模型(topic modelling)等等。 如你有興趣與我們團隊合作,請電郵至dslab@lib.cuhk.edu.hk 與我們聯絡。