
原标题:王涛 | 历史学家的新技艺:如何处理成为史料的电子邮件
长久以来,对历史学者弥足珍贵的传统史料形态,诸如日记、书信、回忆录等,已经被“数字化”的名头剿杀了。大约十年前,我还以传统的思路和方法研究奥古斯丁的书信,并提出了“书信空间”的概念,还在后记中展望了个人的“书信空间”。简言之,“书信空间”就是用书信编织的一个独具特色的人际网络体系,参与其中的人发生关联、互动、影响;通过对“书信空间”的描述与研究,我们可以了解人群的交往行为。不曾料想,今天我却面临着无“信”可以构建的尴尬。——我们现在都用电子邮件!

据说中国的第一封电子邮件是1980年代末从北京发出的,其中“越过长城,走向世界”的话语,令人唏嘘。后来,电邮的便利让我们愈发懒惰和贪婪,不愿提笔多写一个字,也不愿多等一刻平邮的信件。
某日,在整理电脑文件时,我突然在某个隐秘的文件夹里发现了一个旧文档,里面是多年前为了解决电子邮箱的容量问题不得不删除的旧信件。出于历史学者的职业敏感,我事先下载了部分电子邮件,现在随手点击鼠标看了看,居然读到了2002年的电邮!一个想法在我脑海中闪现,这些电邮是很有意味的新形态史料,它们能否勾勒出我过去十多年的生活轨迹,构建我个人的“书信空间”呢?
在这个灵感的推动下,我开始了一场实验。我以一名历史学者的身份,尝试去处理一批“天生数字化”的资料。这个过程充满了新奇,既有传统历史研究的共性问题和解答,也有意想不到的处境和方法。或许,我的实验将成为未来5-10年历史学家工作的常态。
数据整理
多年前存档电子邮件时,我并没有想过去研究它们,也就没有考虑到格式的问题,现在就不得不面临如何将它们结构化的麻烦。这个工作主要由南京大学软件工程学院的郭建朋同学帮忙写代码,将结构混乱的电邮数据进行解析,整理出包括收件人、发件人、主题、文本、时间等在内的字段,并放在了Excel表格中供后续处理。
但这个样态的数据还不能直接用于分析。电子邮件的存档跨度十几年,虽然主要以新浪邮箱为载体,但邮件结构并不是100%统一,寄件人的邮箱体系与新浪邮箱不兼容,发件人姓名与电子邮箱地址脱节,再加上乱码、地址错误、垃圾邮件等各种问题,解析后的资料并不完美。
还要对数据做进一步清洗,主要包括删除重复信息,修正错误的邮箱地址(有些错误是发件人在录入地址的时候打错了),将人与不同的邮箱匹配(一个人没有两三个邮箱都不好意思出来打招呼)。最典型的一个情况是,2013年8月,雅虎邮箱暂停服务,导致很更换邮箱地址,也增加了消歧的工作量。虽然我编写了Python代码帮助提高工作效率,但还是有一些工作要手动完成,耗费了不少精力。所以,最终呈现在我面前的资料并不是一份完美的。但没有哪位历史学家见到过完美的史料,重点是能否从中引发有价值的话题。
下面的分析只能基于一份不完美的电邮,所有的邮件共计10076封,时间跨度2002-2013年,它们确实帮我搭建了一个可以与奥古斯丁媲美的“书信空间”。活跃在这个书信空间中的人,并不知道我会做这个奇怪的研究,也没有征得他们的同意,所以我会隐去所有敏感的隐私信息。在行文当中,除非必要,我都用代码表示发件人与收件人,似乎面目模糊。但我想强调,他们都是一群个性鲜明的人,在“书信空间”中热闹而有趣!
的分析
我先假装与我自己不熟,在“书信空间”中,TA的代码是“Chauvin”。
这个人是谁?应该是一位男性,因为一些信件直呼其“先生”。有很多信件叫他“老师”,或许他的职业是一名老师?单纯从称呼判断有些勉强,虽然统计到“老师”出现的频率颇高。现在,“老师”已经成为比较保险的一种称谓,很有可能与真实身份并不匹配。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-65436-1.html
多多也超棒的