紧随其后的163邮箱似乎不能说明什么,因为它几乎是最常用的公用邮箱了。雅虎邮箱后缀163的后缀虽然过于笼统,但@前的信息意义重大,那个夺去H“发件王”桂冠的G,正是使用的163邮箱;再联系到排名第三的NJU,如果把G的数量加入进来,那么NJU排名第二,与PKU不相上下。这恰好暗合了Chauvin从2009年进入NJU的时间轴。人生经历的转换,居然被电邮的后缀给暴露了。
不止如此。我们看到了cmbchina.com,还有dangdang.com、jd.com以及ctrip.com这些商业公司的后缀名。太明显不过了,Chauvin使用着招商银行的,经常在当当网上买书,在京东上购买电子产品,出差用携程订票。
我们还看到了令人唏嘘的邮箱后缀:yahoo.com以及chinaren.com。我们都知道,雅虎邮箱于2013年停止服务,在Chauvin的书信空间中,雅虎邮箱退去的同时,另外一种邮箱却在崛起——qq.com。雅虎邮箱后缀把邮箱地址做一个时间轴的演变,就会发现QQ邮箱的增量明显。很大程度上,Chauvin作为大学老师,很多学生都是用QQ邮箱与他联系的。腾讯公司用QQ抓住了一大批稳定的用户。

关于Chauvin,我们从电邮中已经了解到比较丰富的信息,以我对Chauvin的了解,这些推测都是正确的。最后,我们来对这个“书信空间”做一个全景的扫描,把寄件人与收件人的行为理解为最基本的社会关系,看看能否用Gephi绘制出有趣的社会网络图案来。
在经历了各种消歧后,我将Chauvin的所有邮件转换成了囊括9661条边文件以及4536个节点的节点文件。放到i5第三代酷睿的旧电脑里跑了30分钟,用ForcheAtlas2的布局,描绘了一张真正意义上的“书信空间”。由于节点太多,我担心密集恐惧症的人士看到会有所不适,故对背景做了一些处理,然后根据算法进行了社团分析。Chauvin的交际圈就这样被暴露出来了。

从远距离阅读的方式扫描Chauvin的书信空间,可以获得全貌的认知;不过由于存在大量噪点,其实看不到太多细节,比如Chauvin跟谁互动最为频繁?谁给Chauvin写了最多邮件,Chauvin又寄给谁最多邮件?通过算法过滤掉联络频次较低的节点,再将边的权重体现出来,得出了另外一幅交往图。


如上图所示,Chauvin的大部分通信关系主要在同学与同事之间展开。一如既往地,Chauvin作为书信空间的中心节点,入度和出度极其不平衡。孜孜不倦地向Chauvin写邮件的是招商银行和当当网,粗粗的深蓝线条表明,它们从来没有得到过Chauvin的回应;而Chauvin向WH2和WH12两位同事写了最多的书信,但总体上,仍然是收到的比寄出的多。惟一的例外是他与R的互动异常频繁。回归到真实的交往活动,这个特征有迹可循。R是Chauvin在南京大学的德国同事,她在入职南京大学之前、之中以及之后,遇到了各种问题,为了帮助R顺利度过适应期,他们在电子邮件上进行了大量沟通。
另外,在Gephi对网络可视化的界面,如果我们把鼠标悬停在某个节点上,系统会自动测算出有直接联系的不同节点。根据这个算法,我们能够看到不同节点的关系。在不断尝试的过程中,我突然发现了下面的关联。

进入邮件的内部
到目前为止,我们一直在电邮的打转,还没有开始对邮件内容进行分析。关于这节,我先卖个关子:欲知后续如何,请听下回分解。
短暂小结
信件、日记等私人化的文字,向来是历史学者重视的史料,虽然它们并不一定尽显客观。奥古斯丁早在一千多年前就知道,记录在案的文字一定会成为呈堂证供,所以刻意留下了自己的书信副本,让我们有机会窥见这位旷世奇才的精神世界。但奥古斯丁的行为太过前瞻性,甚至让人有理由怀疑他在写信的时候会掩盖自己的真实想法。在这点上,电子邮件反而体现了客观的价值。
电子邮件虽然不像传统书信那样长篇大论,但收件人和寄件人在当下都还没有意识到这些文字将来有可能供人研究,它们或许更能准确表达使用者的心境。而且,发出去的邮件如同泼出去的水,只要还在服务器上,就无法撤销,也无法删除和修改,真正演变为脱离了作者的独立存在。它们能够发挥何种作用,那就靠读者自由发挥了。
上述的分析在很大程度上是游戏之作,并不属于严格的学术研究。但是也许在不久将来,如何处理电子邮件会成为历史学家的必备技能。正如有学者提到的那样,掌握古董硬盘的修复技术可能会是未来历史学者的必杀技。当然,当AI技术成熟,对这种“天生数字化”资料的分析,可能是小菜一碟。不过,现在AI还在路上,我们在这里构建一位历史学者的“书信空间”,算得上是一次技术路演吧!
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-85995-3.html
说的是真的
谋求战略转折点