EPFL的研究人员使用世界上访问量最大的网站之一来研究网络结构的动态:维基百科。除了更好地了解在线网络外,他们的工作还为人类社会行为和集体记忆带来了令人兴奋的见解。
有没有访问维基百科页面来回答一个问题,只是发现自己在页面之间点击,直到你最终找到一个与你开始的主题截然不同的主题?如果是这样,你不仅不是一个人,而且其他人可能会采取相同的迂回路线,比如“权力的游戏”,“杜布罗夫尼克”,“旅游景点”,“世界上最大的麻线球”。
由EPON工程学院(STI)和计算机与通信科学学院(IC)的Pierre Vandergheynst教授领导的信号处理实验室(LTS2)的研究人员希望了解这一过程的工作原理。
更具体地说,他们开始使用信号处理和网络理论研究网络结构的动态,开发一种算法来自动检测不断变化的复杂系统(如维基百科)中的异常活动。
“人类的大脑”
检测和研究在线网络中的异常事件的能力 - 例如,在特定时间段内访问特定维基百科页面的次数突然增加 - 可以告诉我们很多关于人类交互,集体行为,记忆和信息的信息研究人员说,交换。
我们的想法是将维基百科想象成人类的大脑,其页面访问量与大脑活动的峰值相当,”研究员兼博士Volodymyr Miz说。LTS2的学生。Miz是一篇关于新算法的文章的主要作者,该文章最近在美国加利福尼亚州旧金山举行的Web Conference 2019上发表。
共同作者Kirell Benzi,前LTS2研究员和EPFL数据可视化讲师,现在担任数据艺术家,他补充说,使维基百科作为数据源如此吸引人的是它的可访问性和大小。
“维基百科每年仅对英语进行约50亿次访问。通过这种技术,我们可以识别出属于一起的网页组,”他说。
从集体记忆到假新闻
研究人员的算法是独一无二的,因为它不仅可以识别这种异常事件,而且还可以准确地了解它们发生的位置,方式和原因。
核心区别在于,由于网络结构的原因,我们提供了更多的上下文。例如,如果我们查看有关2015年巴黎恐怖袭击的维基百科页面,我们可以看到有关该攻击的页面与Charlie Hebdo的页面直接相关。杂志,以及代表恐怖组织的一系列网页,“Miz解释道。
Benzi和Miz将这种寻求信息的“ 集体记忆 ”称为“ 集体记忆 ”,因为它可以揭示当前事件如何触发过去的记忆。
“维基百科的研究是试图探索关于人性本身的新发现。维基百科是一个非常有趣的数据集,因为它或多或少地反映了我们人类决定要记住的东西。总的来说,我们有相同的思路和浏览相同的主题,“奔驰说。
那么,根据这项研究,人们最关心的主题是什么?简而言之:其他人。
“大约80%的访问是为了娱乐或名人。在过去的研究中,我们发现点击的所有链接中有40%是关于人和他们的关系,”Benzi说,并补充说,不到1%的访问是为了与科学相关的主题。
LTS2目前正在与免费离线网络浏览器Kiwix的开发者合作,该浏览器旨在将维基百科的压缩版本带给那些无法免费访问互联网的人。
“我们的方法可能对Kiwix帮助识别和压缩维基百科的相关部分非常有帮助,例如,基于语言和文化,”Miz说。
该算法的其他应用可能包括通过监控转发中的峰值来研究假新闻在Twitter上的传播,或者理解电子邮件网络动态与现实世界事件之间的联系。然而,由于可用数据量较少,这些主题比维基百科更具挑战性。
案例研究:权力的游戏
Miz,Benzi和他们的同事使用他们的方法来检测与HBO热门节目“权力的游戏”最后一季有关的维基百科页面上的异常活动。生成的开放数据集允许他们创建与节目的不同方面相关的页面的数据可视化,包括演员,角色,季节,剧集和其他主题。
研究人员还可以使用该方法根据维基百科页面随时间的访问次数来确定角色的受欢迎程度,目前正在尝试查看哪些其他页面是由节目中特定角色的死亡激活的。这项工作建立在2016年类似的努力基础上,以分析星球大战的世界。
Benzi指出,这项研究是数字人文学科的一个很好的例子,其中数据科学方法和数字技术被应用于社会学,文学,历史和其他人文领域。
“数字人文学科作为一个非常有趣的领域,但只有当你拥有数据科学,工程学,心理学,社会学,艺术等不同技能组合时才能发挥作用。因此,其中一项优势就是能够在实验室,“奔驰说。