研究方法 – 资料提取
《经眼录》内容都是以表列而且数据较零碎,因此我们只以人手方法去处理它们相关的对象:
- 名字: 书中著录的作者及在其栏目中所提及过的人名
- 标题: 作者栏目中所收录所有诗文集及其他相关作品
- 地方: 包括作者籍贯及其他在栏目中出现的相关地方
- 机构: 于作者栏目出现过的,包括参与过的团体如诗社,他们工作过的机构、学校等
内容页例子:
为什么只能利用人手处理数据?
本项目其实主要目的为希望能够完整地把《经眼录》的内容处理成可作研究的数据,因此我们把所有作者在栏目中的数据都抽出分类于表格内。我们有尝试利用非人手方法 (即利用编码或软件):
- Python: 它无法把《经眼录》的内容很细致地表列出来,因此我们在这个步骤放弃使用
- CORPRO 库博: 这是由国立台湾大学阙河嘉教授开发作中文文本的勘探工具,词语可抽出表列统计。试验之后发现它虽然能把人物的名字都表列出来,但我们仍然要花时间把他们去分辨种类
我们在测试过后决定暂时以人手处理书中数据,务求把所有理数据都能够分类表列出来;虽然这是一个痛苦的过程,但我们希望能够做到一个完整的数据表,把所有对象及他/它们之间的关系能一一列出,然后当这个表格能够开放使用时可以对相关研究有所帮助。
以下截图为《经眼录》的总表,内容包括跟每个作者相关的所有对象: