b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

分布式系统理解 长沙达内Java大数据:学Java大数据必须先懂的25个名词(2)

电脑杂谈  发布时间:2017-12-19 23:06:28  来源:网络整理

08 云计算(Cloud computing)

虽然云计算这个词现在已经家喻户晓,这里大可不必赘述,但是为了全篇内容完整性的考虑,笔者还是在这里加入了云计算词条。本质上讲,软件或数据在远程服务器上进行处理,并且这些资源可以在网络上任何地方被访问,那么它就可被称为云计算。

分布式控制系统_什么是分布式系统_分布式系统理解

09 集群计算(Cluster computing)

【长沙达内Java大数据】这是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是,在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(cluster management layer)、负载平衡(load balancing)和并行处理(parallel processing)等等。

10 暗数据(Dark data)

这是一个生造词,在笔者看来,它是用来吓唬人,让高级管理听上去晦涩难懂的。基本而言,所谓暗数据指的是,那些公司积累和处理的实际上完全用不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交网络中的信息,电hua中心的记录,会议记录等等。很多估计认为所有公司的数据中有60%到90%不等可能是暗数据,但实际上没人知道。

11 数据湖(Data lake)

当笔者第1次听到这个词时,真的以为这是个愚人节笑话。但是它真的是一个术语。所以一个数据湖(data lake)即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是,它保存的是经过清理和并且其它资源整合后的结构化数据。

数据仓库经常被用于通用数据(但不一定如此)。一般认为,一个数据湖可以让人更方便地接触到那些你真正需要的数据,此外,你也可以更方便地处理、有效地使用它们。

12 数据挖掘(Data mining)

数据挖掘关乎如下过程,从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。它与前文所述的「分析」息息相关,在数据挖掘中,你将会先对数据进行挖掘,然后对这些得到的结果进行分析。为了得到有意义的模式(pattern),数据挖掘人员会使用到统计学(一种经典的旧方法)、机器学算法和人工智能。

13 数据科学家

【长沙达内Java大数据】数据科学家是时下非常性感的一门行业。它指那些可以通过提取原始数据(这就是我们前面所谓的数据湖)进而理解、处理并得出洞见的这样一批人。部分数据科学家必备的技能可以说只有超人才有:分析能力、统计学、计算机科学、创造力、讲故事能力以及理解商业背景的能力。难怪这帮人工资很高。

14 分布式文件系统(Distributed File System)

大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。

15 ETL

ETL代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。即使ETL源自数据仓库,但是这个过程在获取数据的时候也在被使用,例如,在大数据系统中从外部源获得数据。

16 Hadoop

【长沙达内Java大数据】当人们思考大数据的时候,他们会立即想到Hadoop。Hadoop是一个开源软件架构(logo是一头可爱的大象),它由 Hadoop分布式文件系统(HDFS)构成,它允许使用分布式硬件对大数据进行存储、抽象和分析。如果你真的想让某人对这个东西印象深刻,你可以跟他说 YARN(Yet Another Resource Scheduler),顾名思义,就是另一个资源调度器。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-54571-2.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 海陵王萧昭文
      海陵王萧昭文

      我喜欢他们这种

    • 赵开放
      赵开放

      美国被普京打了左边脸

    热点图片
    拼命载入中...