镇江市互联网协会

 找回密码
 立即注册
镇江市互联网协会 首页 网络技术 查看内容

全球最大的内存数据挖掘系统实战维基百科

2012-7-4 09:07| 发布者: admin| 查看: 1302| 评论: 0|来自: 赛迪网

摘要: 来源:赛迪网,发布时间:2012-7-4 09:07,关键词:全球最大的内存数据挖掘系统实战维基百科

      近日,我们报道了全球最大内存系统SGI UV 2000的消息,相信很多朋友都非常感兴趣,目前基于该系统的应用也已经透露。SGI与伊利诺伊大学的Kalev H. Leetaru(卡莱弗·H·李塔鲁)合作,有史以来第一次实现了从时空上对英文版维基百科的全部文本进行映射和探索。其成果包括:利用内存数据挖掘技术,看到一天之内捕捉到的现代历史。只要将整个英文版维基百科加载到SGI UV 2000中,Leetaru(李塔鲁)先生就能展示维基百科中过去两个世纪的世界。以及与这些参考资料相关的位置、年份和正面或负面观点


      尽管之前的几个项目通过编辑手动分配的位置元数据来映射维基百科条目,这些尝试只占维基百科位置单元信息很小的一部分。该项目解锁了文章本身的内容,确定了所有四百万页面中的每个位置和日期,以及它们之间的联系,以此创建出了一个庞大的网络。


      以全新的方式“看”维基百科


      SGI首席营销官兼战略负责人Franz Aman(弗朗茨•阿曼)表示:“该分析让世界能够从繁杂的单个文章文本中退出来,从而看到维基百科中海量知识的全景,而不仅仅是每一页的树形视图。我们可以看到这个人类最大的知识宝库是如何演进的,并看到我们之前所不能看到的东西,如一定时空内的全球情绪,或者知识覆盖不到的盲区。我们之所以喜欢使用谷歌地图是因为我们能够缩放视图,并得到大图片视图。凭借SGI UV 2,我们能够将同样的概念运用到大数据中,从整体上了解我们的大数据。”


      从这项分析中我们可以看出,维基百科将其历史覆盖分为四个发展阶段:1001-1500(中世纪),1501-1729(近现代时期),1730-2003(启蒙时代),2004-2011(维基时代),其不断发展似乎把更多地焦点放在了历史事件的介绍上,而非增加当代记录的文件。维基百科里关于每个年代的论调与当时的全球重大事件相吻合,比如过去1000年中,最具负面色彩的时期就是美国内战,紧随其后的是第二次世界大战。分析还显示,数字印刷收藏中20世纪的内容出现很大空白的“版权差距”,可对于维基百科这不是问题,因为维基百科上从1924年到现在的内容一直都在稳定地以指数方式增长。


      让研究人员能够以大数据的速度挖掘大数据


      Leetaru(李塔鲁)先生表示:“维基百科中的单向连接、连接缺乏,以及分布不均的信息框——所有这些因素都导致基于元数据的数据挖掘在维基百科这样的馆藏中有着极大的局限性。凭借SGI UV 2,可用的大型共享内存让我能够接近实时地提出整个数据集的问题。轻轻点击便可调出大量缓存相关的共享内存,我只需简单地写下几行代码,并在整个数据集上运行,提出任何想到的问题。而这通过向外扩展计算方式是无法实现的。它非常类似于使用文字处理器而不是打字机——我能够以完全不同的方式来进行研究,专注于成果而不是算法。”


      分析方式


      加载到SGI UV 2000超级大脑计算机中,这个庞大的数据集利用可识别维基百科上每个词条中的每个位置和日期的算法,从而进行全文的地理编码和完整的日期编码。公元1000年到2012年间超过8000万个位置和4200万个日期都被提取出来,每篇文章平均有19个位置和11个日期(分别为每44个单词出现一次位置,每75个单词出现一次日期)。每个日期与每个位置间的连接被捕捉到一个代表维基历史观的庞大网络中。通过这个设备,Leetaru(李塔鲁)先生能够对SGI UV 2上的整个数据集进行接近实时的分析,以便在整个时空创建视觉地图,不仅看到历史如何展现,也看到过去一千年世界的整体景象,并交互测试各种理论和研究问题,所有这一切都能在一天之内完成。


      新的SGI UV:超级大脑计算机


      SGI UV 2产品系列让用户能够在一个系统上找到世界上最难解问题的答案,对于管理员来说,这个系统就像工作站一样简单。通过英特尔至强处理器E5系列而开发、运行标准Linux,并支持各种存储选项,SGI UV 2为无限制计算提供完整、行业标准的解决方案。


      SGI UV 2能够从仅配备16个内核和32GB内存的最小配置起步,无缝进行扩展。相比前代产品,这一全新平台的内核数量增加了一倍(多达4,096个内核),连贯主内存容量翻了两番(高达64TB),且能够在单一映像系统中为内存计算提供更有力的支持。SGI UV 2可扩展至8PB共享内存,最高I/O速率可达4TB/秒(14PB/小时),能够在不到3秒的时间内导入美国国会图书馆纸质藏书的全部内容。

 

相关阅读


回顶部