写代码的人

Posts tagged ‘opensoft’

海量数据:开源工具VS专有工具 你选谁?

这是个信息“泛滥”的时代,大数据量司空见惯,企业处理大数据的需求也越来越大。本文梳理一下“大数据”的解决方案。

首先,关系型数据库和桌面分析或者虚拟化包不能处理大数据,相反,运行在数千台服务器上的大量并行软件需要做这个工作。

许多机构转向开源工具,比如Apache的 Hadoop来处理大数据。比如Twitter发送登陆信息到Hadoop,并直接写入HDFS,Hadoop文件系统。

Hadoop支持数据密集的应用部署在数千节点和数个PB, David Hill, Mesabi Group 主席表示。

但是,大数据在针对不同类型的应用时,确不能一概而论。比如Hadoop并不一定适合所有的案例,Hill警告说。

大数据的捕捉、存储、分析,依靠特殊的应用的特性,Hill强调。举例scale-out网络连接的存储EMC Isilon或IBM的SONAS,可能对于使用非结构化的数据比如图片、视频,会更好。

大数据处理的类型

大数据的处理,可以归为3个基本类型,Revolution Analytics的执行副总Mike Minelli表示,信息管理、商业智能,以及智能分析。

信息管理捕捉和存储信息,BI分析数据,看过去发生的情况,智能分析则是对于数据的预测。Minelli说。

Revolution analytics提供开源R语言和 Revolution R Enterprise,提供TB量级数据的高级分析。Revolution Analytics正在开发Hadoop连接器和R语言在Google的Map/Reduce框架上的能力。

处理大数据的工具

提供了处理大数据分析能力的专有软件包括 AsterData;IBM的专有软件Netezza ; Datameer, 建立在Apache的Hadoop上的专有软件,以及Paraccel。

IBM的Netezza,在它的InfoSphere产品中。Oracle 的Exadata,,以及EMC的Greenplum也是处理大数据量的专有工具。

EMC引入了Greenplum数据库的免费社区版本,该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。

处理大数据量的开源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具,提供了报告、分析、ETLETL (解压、转换、加载) ,针对大量的并行分析数据库,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告,通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。

开源工具VS专有工具

开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。Revolution Analytics的Minelli表示。

数据量在持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。Twitter选择Hadoop,其中重要的原因是专有工具的费用太高。

更长远的来看,开源工具使企业创建新的分析技术,更好的处理非结构化的语言,比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。

另外一个领域就是开源与专有工具的混合使用。

短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。

译文链接:http://www.oschina.net/news/15856/Big-Data-Big-Open-Source-Tools

 

Advertisements

迅雷下载开放引擎发布

迅雷下载开放引擎是迅雷开放下载技术的重要产品,依托迅雷强大的下载加速技术和将近4亿互联网用户覆盖,开放下载相关调用接口,为第三方客户端软件提供免费、高速、省带宽的下载加速服务。

官网:http://thunderplatform.xunlei.com
下载:http://down.sandai.net/xlplatform/ThunderPlatform_SDK_1.0.0.zip
接口说明:http://xldoc.xl7.xunlei.com/

SDK说明:1,开放引擎库文件和头文件
2,开放引擎示例程序及示例程序源代码 完全开放、完全免费、互利、共赢,欢迎业界厂商和第三方开发者采用迅雷下载开放引擎为您的产品提供更高的价值和更好的用户体验。

20个开源项目托管站点推荐

托管站点Top20如下:

1. SourceForge

SF为大家所熟知,开源项目的大本营,SF托管至少28万个开源项目,一天的下载量超过200万。

2. GitHub

GitHub托管使用Git版本控制系统的公开和私有项目。 目前该网站托管超过170万存储项目,包括许多开源软件。

3. Google Code

Google提供免费的使用Subversion或是Mercurial版本控制系统的开源项目托管服务。 它提供2G的存储空间,整合了代码查看工具、wiki、问题跟踪。Google Code站点也提供了大量的Googe自己的APIs和其他开发工具。

4. Eclipse Labs

同样由Google Code托管, Eclipse Labs 是建立在Ecipse平台上的开源项目存储。提示,这些并不是官方的Eclipse基金会项目。

5. BitBucket

类似GitHub, BitBucket托管公开和私有项目。在这个站点上,开源项目和私有项目的用户少于5人,则免费。它托管了超过4.8万个项目,多数可在站点上搜索。

6. LaunchPad

由Ubuntu的东家Canonical维护,LaunchPad目标是运行在Ubuntu上的项目。它托管超过2.1万个使用Bazaar版本控制系统的项目。

7. Codehaus

Codehaus定义自己为“开源软件的协作开发环境”。托管需要审查,是否符合站点的声明。

8. RubyForge

从名字您就可猜出,它托管Ruby程序语言开发的开源项目,目前托管项目超过9000个。

9. Tigris

Tigris具有很强的专注性,仅限于“为协作软件开发创建更好的工具”。它目前包括700个项目。

10. BerliOS Developer

BerliOS Developer为各种类型的开源项目提供免费的托管服务,并且支持的语言众多。目前它托管的项目超过4600个。

11. Savannah—GNU

Savannah定义自己为“官方GNU软件的开发、维护、发行的中心”。它托管410个官方GNU项目。

12. Savannah—non-GNU

与Savannah-GNU相对应,Savannah-non-GNU托管其他类型的开源项目,总是超过2800个。

13. Gna!

如果你访问过Savannah项目,Gna!会非常类似,因为它使用同样的软件,并同样关注GNU相关的项目。目前它托管1350个项目。

14. CodePlex

由微软托管,Codepex提供微软开发的开源软件和一些社区项目。它提供下载的项目超过2万。

15. Java.net

最早由Sun公司创立,Java.net托管和链接大量的Java相关的项目。另外,它也包括许多的博客、论坛和其他Java社区资源。

16. Gitorious

Gitorious提供使用Git版本控制系统的开源项目免费的托管服务。它托管了一些著名的软件,包括OpenSUSE、Qt相关项目。

17. TuxFamily

TuxFamily为开源软件提供免费托管服务,托管数量超过2300。提示,这是一个法语组织。

18. KnowlegeForge

KnowlegeForge规模较小,托管250个项目。它由Open Knowledge基金会支持,使用多种版本控制系统。

19. OSOR

OSOR是欧盟站点,目前托管200个开源项目,链接项目超过2500个。该站点包含自由和开源软件的相关搜索和新闻。

20. OW2

OW2(the ObjectWeb Forge)提供基础软件相关的开源项目托管服务,目前托管188个项目。

来自:http://www.oschina.net/news/15806/20-opensource-host-websites