加州理工学院的研究人员已经证明,机器学习算法可以监控在线社交媒体的对话,随着它们的发展,这可能有一天会导致一种有效和自动化的方式来发现在线漫游。
该项目将人工智能(A I)研究人员Anima Anandkumar、计算和数学科学Bren教授和政治学教授MichaelAlvare z合在一起。他们的工作于12月14日在2019年在加拿大温哥华举行的神经信息处理系统会议上提交了AI社会良好讲习班。他们的研究团队包括博士后学者刘安琪、加州理工学院大三学生玛雅·斯里坎特和尼古拉斯·亚当斯-科恩(MS‘16,博士)。斯坦福大学博士。
阿尔瓦雷斯说:“这是我所热爱的关于加州理工学院的东西之一:能够弥合界限,发展社会科学和(在这种情况下)计算机科学之间的协同作用。
防止网上骚扰需要快速发现攻击性、骚扰性和负面的社交媒体帖子,这反过来又需要监控在线互动。目前获取这类社交媒体数据的方法要么完全自动化,不可解释,要么依赖于一组静态的关键词,这些关键词很快就会过时。斯里坎特说,这两种方法都不是很有效。
她说:“让人类尝试手工完成这项工作是不可扩展的,而这些人类可能有偏见。另一方面,关键词搜索也受到在线对话发展速度的影响。新的术语出现了,旧的术语改变了意义,所以一个被真诚地使用的关键词可能意味着第二天的讽刺。
相反,该团队使用GloVe(全球向量的Word表示)模型来发现新的和相关的关键字。GloVe是一个词嵌入模型,意思是表示向量空间中的词,其中两个词之间的“距离”是衡量其语言或语义相似性的尺度。从一个关键词开始,这个模型可以用来找到与该词密切相关的其他关键词,以揭示实际使用的相关术语的集群。例如,在Twitter上搜索“MeToo”在对话中的用途,就会产生一系列相关的标签,如“支持幸存者”、“ImWithHer”和“NotSilent”。这种方法为研究人员提供了一个动态的、不断发展的关键字集来搜索。
但仅仅知道某一段对话是否与感兴趣的话题有关是不够的;上下文很重要。为此,GloVe显示了某些关键字的关联程度,为它们的使用提供了投入。例如,在专门针对厌恶女性的在线Reddit论坛中,“女性”一词与“性”、在推特上有关#MeToo运动的帖子中,“女性”一词更有可能与“公司”、“欲望”和“受害者”等词联系在一起。“
这个项目是一个概念的证明,旨在有一天给社交媒体平台一个更强大的工具来发现在线骚扰。Anandkumar参与了将神经信息处理系统会议的简写名称从最初的首字母缩写“NIPS”改为“NeuriIPS”的活动,从而使她对这个话题的兴趣更加浓厚。