b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

nosql库 查询性能 2015 Bossie评选:最佳的一10款开的源大恒彩官网数据儿工具

电脑杂谈  发布时间:2018-02-21 05:52:46  来源:网络整理

nosql 条件查询_nosql库 查询性能_nosql查询速度

2015 Bossie评选:最佳的10款开源大数据工具

Bossie 奖是知名英文 IT 网站 InfoWorld 针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次 InfoWorld 评选出了 22 款最佳的开源大数据工具,像 Spark、Storm 都名列榜单之上。

InfoWorld 在分布式数据处理、流式数据分析、机器学习以及数据分析领域精选出了 2015 年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。

1. Spark

在 Apache 的大数据项目中,Spark 是最火的一个,特别是像 IBM 这样的重量级贡献者的深入参与,使得 Spark 的发展和进步速度飞快。

与 Spark 产生最甜蜜的火花点仍然是在机器学习领域。去年以来 DataF

rames API 取代 SchemaRDD API,类似于R和 Pandas 的发现,使数据访问比原始 RDD 接口更简单。

Spark 的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。

在 Spark1.5 的默认情况下,TungSten 内存管理器通过微调在内存中的数据结构布局提供了更快速的处理能力。最后,新的 spark-packages.org 网站上有超过 100 个第三方贡献的链接库扩展,增加了许多有用的功能。

2. Storm

Storm 是 Apache 项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和 Spark 不同,Storm 可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。

Spark 掩盖了很多 Storm 的光芒,但其实 Spark 在很多流失数据处理的应用场景中并不适合。Storm 经常和 Apache Kafka 一起配合使用。

3. H2O

nosql库 查询性能_nosql查询速度_nosql 条件查询

H2O 是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0 版本开始支持 Python 和 Java 语言,同时它也可以作为 Spark 在后端的执行引擎。

使用 H2O 的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如 REST API 与 H2O 集群通讯,H2O 来处理大量的数据工作。

几个有用的R扩展包,如 ddply 已经被打包,允许你在处理数据集时,打破本地机器上内存容量的限制。你可以在 EC2 上运行 H2O,或者 Hadoop 集群/YARN 集群,或者 Docker 容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问 Spark RDDS,在数据帧被 Spark 处理后。再传递给一个 H2O 的机器学习算法。

4. Apex

Apex 是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。它可以是一个 YARN 的原生程序,能够支持、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性(精确一次处理、最少一次、最多一次)

以前 DataTorrent 公司开发的基于 Apex 的商业处理软件,其代码、文档及架构设计显示,Apex 在支持 DevOps 方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-86766-1.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    热点图片
    拼命载入中...