每天从全世界的大约350亿电子邮件帐户发送超过150亿的电子邮件消息。所以,很容易理解为什么我们错过了重要的信息,因为我们为跟上电涌而斗争。对于一些人来说,这种情况已经变得如此糟糕,因为电子邮件不再是与他们联系的可靠方式,因为他们不能很快地整理出重要的东西。
来自以色列的一个新的研究项目试图通过使用大数据将电子邮件信息浓缩到最重要的信息,并总结这些信息以更快地被消化,特别是在移动设备上,来解决部分问题。
该项目由MarkLast领导,本古里安大学的助理教授是以色列的“er-sheva”,它的重点是使用算法来将文本块汇总到它们最重要的元素中。从电子邮件的角度来看,这可能有两个主要优点:
1.创建一个句子的电子邮件摘要,以便在预览窗格中使用,这样用户就可以快速浏览邮件列表并查看每封电子邮件的主要内容,而不必打开它。
2.把长时间的电子邮件概括成100到200个字,突出要点。
最后,他在Bugu的研究团队通过使用大数据工具实现了这一点。事实上,去年他一直致力于大数据,并利用它解决1996年以来的问题,当时他是特拉维夫大学的博士生。这在它被称为““大数据。””之前很久了,然后它只是用非结构化数据进行数据挖掘,这是大数据的关键元素之一,而最后一个“S”的PHD赞助商几乎不了解他正在做的Web挖掘和文本挖掘研究。
现在,Laster出生在俄罗斯,1977年小时候来到以色列,他把这一经历很好地应用到了这个已经成为IT领域中最热门的领域之一。2008年,他成为了本古里安大学(BenGurion University)的信息系统工程教授,他的一个重大项目就是利用文本挖掘在网络上发现恐怖网站。
在互联网上有成千上万的恐怖组织网站,但他们通常将自己伪装为新闻、信息或社区网站。最后,他的团队使用了名为““表征模型””的算法来扫描网络,并通过识别他们反复使用的单词,例如“敌人”和“烈士,”和短语,比如“人类炸弹”而不是"自杀炸弹手。",来识别恐怖分子的网站。
显然,这种数据挖掘不同于在提及的电子邮件研究中使用的文本摘要。
“在数据挖掘中,在文本挖掘中,我们有不同的方法,不同的工具,”Lastal说。
然而,这些工作相辅相成,都是大数据的方面。文本摘要工作已开始作为一项举措,旨在帮助总结网站上的许多新闻文章、短书和文档。这对情报机构来说尤其有用,他们用这种技术快速地梳理了数以千计的新闻报道和网络文档。他们可以查看页面/文档的100-200个单词摘要,然后决定哪些文档值得进一步看,这样他们可以避免浪费时间。
其中产生了LAST和他的团队把这个想法应用到电子邮件中的想法,在电子邮件中可以使用摘要来帮助快速整理信息,并找到那些您需要注意的信息和那些您可以安全忽略的信息。
这项工作以英文开始,因为大部分的网页主要是英语,而且英语中已经有很好的自然语言处理工具。然而,这项工作现已发展为希伯来语、阿拉伯语和其他语言。最终,他们开发了一种新的文本摘要方法,它是语言无关的,这是魔法的一个很大一部分。
以色列如何改写网络安全的未来并创造下一个硅谷
如果你在寻找下一个硅谷的崛起,你可以看到以色列的内盖夫地区。其新的网络安全巨头正在公私伙伴关系中开辟新的领域。
该算法首先对文档中的句子进行扫描,然后计算出句子中的词数、词之间的关系等度量指标。第二阶段是对句子进行加权,找出最重要的句子。该算法还查找由人类创建的摘要(在文档和新闻文章中),然后查找类似的单词、短语和主题,以帮助文本摘要。
虽然这项技术正在突飞猛进地进步,但这并不一定意味着它将在不久的将来进入任何商业电子邮件服务领域。
"通常,我们不在这里开发产品,"说最后一个."我们是来开发方法学的。"
最后说,他的团队已经申请了美国专利的文本摘要方法。本·古里安大学(Ben Gurion University)在向商业公司发放专利和将其专利出售给商业公司方面非常足智多谋(正如我在关于以色列寻求建设下一个硅谷的文章中所讨论的那样),因此,它最终将被生产出来。谷歌这样的公司也有可能已经在做类似的事情了。
然而,可能首先受益于文本摘要的电子邮件服务可能是Yahoo Mail,因为雅虎在3月份收购了文本摘要先驱Sumely。萨默里是英国青少年企业家尼克·达洛西奥的创意。他最后说,他的团队与达洛伊西奥就他们工作的相似之处(在雅虎收购达洛伊西奥公司之前)进行了多次电子邮件交流,并对达洛伊西奥所做的工作和受到的关注表示赞赏。最后,将其视为对文本摘要功能及其重要性的验证。
我喜欢把文本摘要看作是大数据的成果之一,它将对消费者和专业人士产生直接影响。