LinkedIn开源数据挖掘软件WhereHow

来源:Linux公社 2016-03-17 20:55:14

商业社交网站LinkedIn宣布,将旗下数据挖掘软件WhereHows开源,从各资料来源收集数据,作为整合数据的储存库,主要用于企业资讯分析,未来计划整合其他资料工具,如Kafka、Samza、Gobblin、Nuage等。现在已放于GitHub上。

LinkedIn表示WhereHows是整合所有LinkedIn的资料处理环境,并且从中萃取Metadata,并加以管理,主要用于挖掘企业资讯。

WhereHows从各种资料来源收集数据,并且标准化和模型化这些Metadata,以及作为一种整合Metadata的储存库(Repository),用于多种分析目的。

LinkedIn表示,WhereHows已经获取5万个资料集的状态、1.4万个评论和3.5千万个工作实行和关联性资讯,而这些资料分别储存在Hadoop、Teradata或其他丛集,且佔了超过15PB的储存空间。

WhereHows提供开发者从API或Web应用程序存取资料,其中API提供其他资料处理和应用程序的自动化,而Web应用程序则提供搜寻、视觉化资料集间的关系、註解、讨论、社群参与等功能。

WhereHows完整架构图

而WhereHows主要由资料储存库、Web服务器和后端服务器所组成,其中资料储存库用来储存所有Metadata内容,Web服务器则是透过UI和API来呈现资料,另外,后端服务器则会定期从其他系统抓取Metadata。

点击查看原文

相关链接