首页 > 操作系统 >

Jeff Dean在SysML会议上机器学习改善系统设计的论

电脑杂谈　发布时间：2019-06-20 10:05:40　来源：网络整理

基于c#房屋租赁管理系统的设计和实现_基于hash表的索引结构设计与实现_基于hash表的索引结构设计与实现

论文《幼儿园 cai 课件制作初探》分获省一等奖，论文《转变角色，促进幼儿主动探索》获市一等奖，论文《幼儿教学中设计的探索》获市一等奖，论文《计算机辅助教学与幼儿园语言教育活动》获市二等奖案例《武汉梅花节》、《美丽的房子》获市一等奖、案例《花的世界》获区二等奖，观察记录《我有好办法》获市二等奖，课件《5 的形成》、《小红帽》分获市二等奖、课件《美丽的房子》获市三等奖，课件《我的数学》获市三等奖，观察案例《童心、童趣、童真》荣获市优秀奖，备课本获区三等奖辅导幼儿区科幻画获奖十次，同时被评为“优秀园丁” 。案例索引：载《最高人民关于发布第五批指导性案例的通知·。案例索引：载最高人民中国应用法学研究所编：《人民案例选》2010年第1辑（总第71辑），人民出版社2010年版，第1-4页。

论文中一些公式可能显示不是太正常，有兴趣看以及想后续一起学习的小伙伴可以到这里 https://gitee.com/hardysimpson/sysML 详细留言及讨论 0. 摘要索引是模型：B树索引可以被看作是一个模型，用于将键(Key)映射到排序数组中的值记录(Value)位置，Hash索引作为模型将键(Key)映射到未排序数组的值记录(Value)位置，BitMap索引作为模型来指示值记录(Value)是否存在。在这个探索性研究论文中，我们从这个前提开始，并假定所有现有的索引结构都可以用其他类型的模型取代，包括我们称为学习索引的深度学习模型。关键(Key)的想法是，模型可以学习查找键(Key)的排序顺序或结构，并使用这个信息来有效地预测值记录(Value)的位置或存在。我们从理论上分析了在哪些条件下，学习索引优于传统索引结构，并描述了设计一个好的学习索引的主要挑战。我们的初步结果表明，通过使用神经网络，学习索引能达到比高速缓存优化的B-Tree快70%的速度，并且节省几个数量级的内存，来索引几个真实世界的数据集。更重要的是，我们相信通过深度学习模型取代数据管理系统的核心组件对于未来的系统设计有着深远的影响，而且这项工作只是提供了一些可能的一瞥。

1. 介绍无论何时需要有效的数据访问，索引结构都是答案，并且存在各种各样的选择来满足各种访问模式的不同需求。例如，B树是范围查找的最佳选择（例如，在特定时间范围内检索一段值记录(Value)）; HashMap在单Key查找这个领域是无敌的; 而Bloom-filter通常用于检查值记录(Value)是否存在。由于和许多其他应用的索引非常重要，因此在过去的几十年里基于hash表的索引结构设计与实现，它们已经得到了广泛的优化，以获得更高的内存、缓存和CPU效率[ 28,48,22,11]。然而，所有这些索引仍然是通用数据结构，假设数据的最坏情况分布，并没有利用现实世界数据中存在的更常见模式。例如，如果目标是建立高度特定的系统，用来存储和查询具有连续整数键(Key)的固定长度值记录(Value)（例如，键(Key)从1到100M），那么设计者就不会使用常规的B树索引，因为键(Key)本身可以用作偏移量来作查找或者范围查询，达到O(1)而不是O(long n)的时间复杂度。而且，索引内存大小将从O(n) 减小到O(1) 。也许令人惊讶的是，对于其他数据结构，相同的优化仍然是可能的。换句话说，了解确切的数据分布可以高度优化系统使用的几乎所有索引。

基于c#房屋租赁管理系统的设计和实现_基于hash表的索引结构设计与实现_基于hash表的索引结构设计与实现

当然，在大多数现实世界的用例中，数据并不完全遵循已知的模式，为每个用例构建专门解决方案的代价都太高了。然而，我们认为机器学习为挖掘数据里面的模式和相关性提供了一个机会，从而能够以低工程成本，自动合成我们称为学习索引的索引结构。在本文中，我们探讨了学习模型（包括神经网络）在多大程度上可以用来代替传统的B树到Bloom-filter的索引结构。这似乎与直觉相反，因为机器学习并不提供传统的索引数据结构的输入输出，并且因为最强大的机器学习模型，神经网络的计算一般认为是非常昂贵的。然而，我们认为，这些明显的障碍都不像它们看起来那么坑爹。相反，我们使用学习模型的方式可能会带来巨大的好处，特别是在下一代硬件上。就输入输出的语义来说，索引在很大程度上已经是学习模型，使得用神经网络等其他类型的模型取代它们变得非常简单。例如，B树可以被看作是一个模型，它将一个键(Key)字作为输入并预测数据值记录(Value)的位置。 Bloom-Filter是一个二元分类器，它基于一个键(Key)来预测键(Key)是否存在于一个集合中。显然，这就存在微妙但重要的差异。例如，Bloom-filter可能有假阳性(false positives)，但没有假阴性(false negatives)。

然而，正如我们将在本文中展示的那样，可以通过新颖的学习技术和/或简单的辅助数据结构解决这些差异。在性能方面，我们观察到每个CPU都具有强大的SIMD功能，并且我们推测许多笔记本电脑和手机很快将拥有图形处理单元（GPU）或张量处理单元（TPU）。推测CPU-SIMD / GPU / TPU的功能将越来越强大，这是合理的，因为比通用指令集更容易扩展神经网络使用的有限的（并行）数学运算。这样，今后执行神经网络的高成本在未来可能实际上可以忽略不计。例如，Nvidia和Google的TPU已经能够在单个指令周期中执行数千次（如果不是数万次）神经网络操作[ 3 ] 。此外基于hash表的索引结构设计与实现，有人表示，到2025年，GPU的性能将提高1000 倍，而CPU发展已经停滞，不按摩尔定律发展[ 5 ] 。通过用神经网络取代重分支的索引结构，可以从这些硬件趋势中受益。重要的是要指出，我们并不主张用学习索引结构来完全取代传统的索引结构。相反，我们概述了一种建立索引的新方法，它补充了现有的工作，并且可以说为一个有数十年历史的领域开辟了一个全新的研究方向。虽然我们专注于分析只读工作负载，但我们还概述了如何将这种想法扩展到对写入频繁工作负载的索引做加速。

此索引索引结构已经是模型，因为它们可以“预测”给定键(Key)的值的位置。要看到这一点，请在主键(Key)已排序的分析内存（即只读）中考虑一个B树索引，如图[1]（a）所示。在这种情况下，B-Tree提供从查找键(Key)到排序的值记录(Value)阵列内的位置的映射，并保证值记录(Value)位置大于等于查找到的位置。请注意，必须对数据进行排序以允许范围请求。还要注意，这个相同的一般概念适用于次级索引，其中底层将是对的列表，其中键(Key)是索引属性的值，指针是对值记录(Value)的引用。

基于hash表的索引结构设计与实现_基于hash表的索引结构设计与实现_基于c#房屋租赁管理系统的设计和实现

出于效率的原因，通常不会对已排序值记录(Value)的每个关键(Key)字进行索引，而只是每个n个值记录(Value)的一个键(Key)，即每页面的第一个键(Key)。 [2] 这有助于显着减少索引必须存储的键(Key)数量，而不会有任何显着的性能损失。因此，B树是一个模型，在ML术语中是回归树：它将键(Key)映射到具有最小和最大误差的位置之间（最小误差0，最大误差页面大小）并保证可以在该地区找到该键(Key)锁对应的值记录(Value)（如果存在）。因此，我们可以用其他类型的机器学习模型（包括深度学习模型）取代B树索引，只要它们也能够提供类似的有关最小误差和最大误差的有力保证。乍一看，可能很难为其他类型的ML模型提供相同的错误保证，但它实际上非常简单。 B-Tree仅为存储的数据提供这种保证，而不是针对所有可能的数据。对于新数据，B树需要重新平衡，或者在机器学习的术语里面叫重新训练，通过训练来提供相同的误差保证。这就极大地简化了问题：最小误差和最大误差是经过训练的（即存储的）数据的最大误差。也就是说，我们唯一需要做的就是对每个键(Key)执行训练，并记住一个位置的最好和最差的位置预测。

map是键值对映射容器，与list和set有明显的区别，而set存储的零散的元素且不允许有重复元素（数学中的集合也是如此），list是线性结构的容器，适用于按数值索引访问元素的情形。所谓索引，即是快速定位与查找，那么索引的结构组织要尽量减少查找过程中磁盘i/o的存取次数(b+树相比b树，其非叶子节点占用更小的空间，可以有更多非叶子节点存放在再内存中，减少大量的io)。通常情况下应先将仪表的非线性误差调成线性误差，然后再调整线性误差，为此，一般情况下调整拉杆与扇形齿轮的夹角须与调整调节螺钉的位置配合，进行多次调整。

机器学习，尤其是神经网络的优点在于，他们能够学习各种各样的数据分布/混合和其他数据特征和模式。显然，挑战在于平衡模型的复杂性与准确性。# 2.1 我们可以承受模型有多复杂？来做个估算吧为了更好地理解模型的复杂性，需要知道同样的一段时间内，遍历B树可以执行多少操作，以及学习索引需要达到什么样的精度来超过B树的精度。考虑一个B树索引100M值记录(Value)，页面大小为100（译注：也就是单个节点的子节点数量，国内有翻译为阶的）。我们可以将每个B-Tree节点视为划分空间的一种方式，减少“误差”并缩小区域以查找数据。因此，我们说B-Tree的页面大小为100，每个节点的查找精度为1/100 ，所以我们需要遍历log(100, N)个节点。因此，第一个节点将查找空间从100 M缩小到100 M / 100 = 1 M ，第二个节点从1 M到1 M / 100 = 10 k等等，直到找到值记录(Value)为止。同时，遍历单个B-Tree页面需要大约50个时钟周期（我们测量了对超过100个缓存驻留记录的二分查找与遍历查找具有大致相同的性能），并且非常难以并行化 [3]。相比之下，现代CPU可以在每个周期执行8-16个SIMD操作。

基于hash表的索引结构设计与实现_基于hash表的索引结构设计与实现_基于c#房屋租赁管理系统的设计和实现

因此，只要学习索引模型的查找精度/运算数超过 (1/100) / 50 * 8 = 400个算术运算，学习索引模型就会更快（译注：这里隐含了一个公式，查找速度 = 查找精度/运算数，也就是单位时间内的查找概率）。请注意，这个估算仍假定所有B数的页都在缓存中。单个缓存未命中花费50-100个额外的周期，因此可以允许更复杂一些的模型。此外，机器学习的快速发展正在彻底改变游戏。它们允许在相同的时间内运行更复杂的模型，并从CPU中卸载计算（到GPU或TPU上）。例如，NVIDIA最新的Tesla V100 GPU能够实现120 TeraFlops的低精度的深度学习算术运算（每个时钟周期≈60,000次运算） [ 7 ]。假设整个学习索引都载入了GPU的内存（我们在3.6节中展示这是一个非常合理的假设），在30个时钟周期内，我们可以执行100万次神经网络操作。当然，传输输入和从GPU获取结果的延迟仍然明显较高，大约为2微秒或数千个时钟周期，但这个问题并非不可克服，可以通过批处理方式，或者更加紧密的集成CPU/ GPU / TPU [ 4 ] 。最后，可以预期，GPU / TPU每秒的浮点/整型操作的能力和数量将继续增加，而提高CPU执行if语句性能的进展基本上停滞不前[ 5 ]。

tree是mysql使用最频繁的一个索引数据结构,数据结构以平衡树的形式来组织,因为是树型结构,所以更适合用来处理排序,范围查找等功能.相对hash索引,b+。5、用tab键切换到"查找范围"，再用下光标键把查找范围设置为："光盘"。于是乎，每条索引配合一条记录，构成了一个ip范围，如果你要查找166.111.138.138所在的位置，你就会发现166.111.138.138落在了166.111.0.0 - 166.111.255.255 这个范围内，那么你就可以顺着这条索引去读取国家和地区名了。

2001年吴世农等则以140家上市公司为样本比较了费歇尔判别、多元线性回归分析和多元逻辑回归分析的预测效果，发现多元逻辑回归模型的判定能力最好。一元线性回归的统计分析拒绝h 0回归模型有效回归模型有效利用一元线性回归模型进行预测x 0 给定, y 0 的预测值:0 1 0 0&circ。因为树是非线性结构，因此其遍历也不想线性表的遍历那么简单。

基于hash表的索引结构设计与实现_基于hash表的索引结构设计与实现_基于c#房屋租赁管理系统的设计和实现

Tensorflow旨在有效地运行较大的模型，而不是小型模型，因此具有显着的调用开销，尤其是在Python作为前端时。

一般来说，B树，或者一般意义上的决策树，使用少量的操作就能过拟合数据，因为它们使用简单的if语句递归地分割空间。相比之下，其他模型可以更有效地估计CDF的总体形状，但在单个数据实例级别的精确定位上有障碍。要看到这个，请再次看看图[2] 。该图表明，从大的视图看，CDF 函数看起来非常平滑和规则。但是，如果放大单个值记录(Value)，越来越多的非规律显示出来; 一个众所周知的统计效应。许多数据集恰恰具有这种行为：从大局看，数据分布显得非常平滑，而越放大越难接近CDF，由于个体层面上的“随机性”。因此，像神经网络，多项式回归等模型可能需要更多的CPU和空间从整个数据集缩小到到数千项中选择单个（译注，这里也就是在上文中指的预测误差，min/max error），单个神经网络通常需要更多的空间和CPU时间为“最后一公里”减少从数千到数百的误差。

典型的ML优化目标是最小化平均误差。但是，对于索引，我们不仅需要猜测项目的最佳位置，而且还需要实际找到它，但前面讨论的最小和最大误差率更重要。

在训练过程中，深度学习模型用于控制模型结构和训练过程的超参数(hyper parameters)明显多于其他机器学习方法.重要的超参数包括隐藏层节点个数、激活函数选择、无监督或有监督过程、学习速率、训练次数、稀疏系数等.超参数的配置直接影响深度模型的训练效果，因此需要找到适当的超参数配置来进行训练才能得到最好的结果，目前这一问题主要依靠经验.但研究者也在积极寻找解决方案，如snoek等[]提出的超参数自动优化方法，可根据当前训练结果和训练历史自动在超参数空间中搜寻最优超参数配置，避免了繁琐且盲目的手动调节过程.。模型参数辨识采用rls法进行参数辨识的编程步骤确定各向量及矩阵的维数对各向量及矩阵初始化参数向量初始化为thitazeros 初始化为hzeros 用matlab及labview实现动态称重算法的过程用labview从文件中读取原始数据用labview实现窗函数选取有效数据段在labview中调用matlab脚本节点用matlab实现数据滤波和模型辨识算法得到质量值并用labview显示。前面说了 zookeeper 主要是用来维护和监控一个目录节点树中存储的数据的状态，所有我们能够操作 zookeeper 的也和操作目录节点树大体一样，如创建一个目录节点，给某个目录节点设置数据，获取某个目录节点的所有子目录节点，给某个目录节点设置权限和监控这个目录节点的状态变化。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-107250-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

田方敏

是一条

2026年06月12日回复顶转发
万俟绍之

可能

2026年06月12日回复顶转发

每日福利

【上海校区】（一）：Hadoop概述及MapReduce程序工作原理

中国计算机产业发展大事记

长输管线3层结构聚烯烃防腐蚀涂层阴极剥离的研究进展_二烯烃的加聚_荣聚诈骗案进展

重新安装系统后，我不小心重新分区了，如何获取其他分区的数据

热点图片

热点排行