b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

小白可以理解的白话告诉你: 什么是分布式计算系统?

电脑杂谈  发布时间:2020-04-24 16:04:56  来源:网络整理

分布式 云计算_分布式 云计算 区别_什么是分布式计算

本文讨论了一个主题: 什么是分布式计算系统?

(1)新闻门户网站案例介绍

现在许多学生经常看到一些名词,例如分布式服务框架,分布式系统,分布式存储系统,分布式消息传递系统.

但是这些术语可能会使一些经验不足的学生容易混淆. 因此,本文将对“分布式计算系统”的概念进行科普分析.

如果您想了解什么是分布式计算,则必须首先了解什么是分布式存储,现在我们从一个小例子开始介绍.

例如,如果您现在有一个网站,则假定它是新闻门户. 每天有成千上万的用户会看到您的新闻吗?

好的,那么他们将如何阅读新闻?

实际上非常简单. 首先,他们将点击某些部分,例如“体育部分”,“娱乐部分”.

然后什么是分布式计算,单击一些新闻标题,例如“ 20年来最激动人心的游戏即将开始”,然后您可以发表一些评论或单击以收集好消息.

分布式 云计算 区别_分布式 云计算_什么是分布式计算

因此,您的用户在做这些事情时都有一个术语,称为“用户行为”.

由于肯定会在您的网站或APP上,用户将执行各种操作,单击各种按钮并发布一些信息. 这些都是各种各样的行为,统称为“用户行为”.

好吧,现在让我们说新闻门户网站的老板希望发挥作用,每天在网站上排行榜,并计算每天每个部分被点击的次数,其中包括一些热门新闻.

然后什么是分布式计算,该网站的后台系统中需要有一些报告,以便让他查看不同编辑者撰写的文章的点击摘要,进行编辑者的绩效排名,并且还有很多类似的事情. <

这些东西叫什么?您可以将其视为基于用户行为数据的分析和统计,并生成各种数据统计分析报告和结果,供网站用户和管理员查看.

还有一个术语称为“用户行为分析”.

(2)估计您需要分析多少数据?

好的,让我们继续. 如果要分析用户行为,是否首先需要收集有关这些用户行为的数据?

例如,一个好友现在单击“体育”部分,您需要立即将日志发送到网页或APP前端的后台,并清楚记录“在该部分上单击ID为117的用户ID位为003“.

分布式 云计算_什么是分布式计算_分布式 云计算 区别

类似地,这东西也有一个术语,称为“用户行为日志”.

然后,您可以计算出,如果这些用户行为是通过日志收集的,那么每天将生成多少数据?

假设每天有1000万人访问您的新闻网站,并且每个人平均获得30次点击,评论和收藏夹,那么就有3亿用户行为日志.

假设每个用户行为日志的大小为100字节,因为它可能包含许多字段,例如他单击网页还是单击移动APP,那么该移动APP中使用什么操作系统,Android或IOS,有很多类似的字段.

那么您每天大约有28GB的数据,其中总共包含3亿个项目.

如果有3亿条数据,则可以自己编写一个Java程序,从28GB的大日志文件中逐一读取日志以进行统计分析和计算,直到计算出所有3亿条数据为止. 完成后,您认为需要多少时间?

不可思议,取决于您的计算逻辑的复杂性,将花费数十个小时来犯错误.

那么您认为在这种大数据场景中进行分析是如此可靠吗?不可靠.

(3)黄金搭档: 分布式存储+分布式计算

什么是分布式计算_分布式 云计算_分布式 云计算 区别

因此,此时,您可以首先使用分布式存储在30台计算机上分配3亿条数据,例如,每台计算机将放置1000万条数据,约1GB数据.

看下面的图片:

https://img1.sycdn.imooc.com/5cb6c57600017d9c05640271.jpg

然后,您可以进行分布式计算. 您可以将统计分析数据的计算任务分为30个计算任务,并将每个计算任务分配到一台计算机上运行.

也就是说,专门针对机器的本地1GB数据来分析和计算1000万条数据.

这样做的好处是您可以依靠30台计算机的资源来并行执行数据统计和分析,这也称为分布式计算.

每台机器的计算结果出来之后,您可以进行全面的总结,然后得出最终的分析结果. 让我们看下图.

https://img4.sycdn.imooc.com/5cb6c5840001d94705440414.jpg

假设您的3亿条数据全部存储在一个30GB的大文件中,然后一次读取并缓慢地计算一个Java程序,则将花费30个小时.

分布式 云计算 区别_分布式 云计算_什么是分布式计算

然后,通过将计算任务并行化到30台计算机,您可以将计算速度提高30倍. 完成计算只需要1个小时吗?

这就是所谓的分布式计算. 他通常会计算非常大的数据集,这些数据集现已成为流行的大数据.

首先,您需要将超大型数据集拆分为多个数据块,并将它们分散在多台计算机上,然后将计算任务分配给每台计算机,并使用计算资源(例如CPU和多台计算机的内存)来计算.

这种分布式计算方法可以将非常大的数据集的计算效率提高数十倍甚至数百倍. 实际上,这种理论和概念也是大数据技术的基础.

例如,在最流行的大数据技术堆栈中,Hadoop HDFS用于分布式存储. 他可以将一个非常大的文件分割成许多小数据块,然后将它们放在许多机器上.

Spark是一个分布式计算系统. 他可以将计算任务分配给各种机器,并可以对各种数据块执行并行计算.

以上内容是使用白话+绘图为小白学生提供有关分布式计算系统的科学知识. 我相信每个人都会对分布式计算系统有一个初步的了解.

结束

虎山的建筑笔记(id: shishan100)

作者: 中国人施山,英美烟草公司在建筑钱包方面的多年经验


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-187308-1.html

    相关阅读
      发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

      • 邬小静
        邬小静

        突然看到易烊千玺的巨幅海报

      热点图片
      拼命载入中...