项目简介

中文文字资料处理:使用R语言处理盛宣怀信件集资料

文字探勘是一种利用电脑软件从文本来源(如文档,书信,书籍和杂志)提取及分析文本的技术。在数码学术的领域内,透过文字探勘去研究文本当中隐藏的模式及关系亦渐见流行。此技术旨在利用最少的人手参与,透过应用了语言学,统计学和机器学习方法的软件去整理及理解结构化或非结构化的文本来源。由于市面上大部份文字探勘的软件主要是分析西方语系资料,透过电脑处理中文及分析自然语言已经不容易,再去处理古代中国文字则更为困难。香港中文大学图书馆收藏了大量珍贵及罕有的中文资料及逐步将其转化为电子格式。图书馆数码学术团队亦正尝试透过文字探勘方式去探示图书馆数码馆藏中隐藏的资料。

此项目由图书馆提出,由数码学术研究博士后研究员戴昀博士开展,利用“R”及中文大学文物馆所藏的盛宣怀档案示范如何处理及分析中文电子文本。盛宣怀档案包含晚清企业家盛宣怀先生与其他人的书信往来,而图书馆早前已将结集成77册书信集内的30,000页次、超过七百五十万字的书信数码化。电子文本储存为WORD档案,文本档案亦包括每封书信的题名、上款人、下款人、日期、关键字、文本提及过的地名。从海量的文本资料,数码学术团队认为将档案文本转换成机器可读格式可以方便研究人员透过计算文本分析和其他相关方法进行研究。因此,这个项目的目的是探索不同的方式对盛档收录的文本进行研究。

团队利用R 的断词套件(例如: jiebaR)来进行中文断词。我们选了其中两册作为试点,以证明概念是否可行。在此篇文章里,戴昀博士描述了整个实验的过程包括由设置R环境到创建一个文件矩阵 (Term Document Matrix (TDM))到文字云(wordcloud)。相关的R 指令及文件可点击这里下载。不过,这只是第一阶段的工作,团队希望藉此引起研究人员对盛档文件进行下一步研究的可能性,例如文本聚类分析(text clustering)或主题模型(topic modelling)等等。 如你有兴趣与我们团队合作,请电邮至dslab@lib.cuhk.edu.hk 与我们联络。