首页 > 操作系统 >

一种使用ApacheSpark分类与解析海量日志的方法与流程

电脑杂谈　发布时间：2019-07-30 18:09:34　来源：网络整理

应用日志分类_日志创建分类_windows日志分类

本发明涉及信息技术领域，并且更具体地涉及一种使用Apache Spark分类与解析海量日志的方法。

背景技术：

现在要求我们开发的记录日志的组件，除了要支持记录和文本文件记录两种方式外，我们还需要在不同的应用环境中增加一些额外的功能，比如需要记录日志信息的错误严重级别，需要记录日志信息的优先级别，还有日志信息的扩展属性等功能。应用通常从android.util.log类中调用一个方法，而调用的方法对应于不同的日志条目优先级别，例如，log.i方法记录“信息性”日志，log.d方法记录“调试”日志，而log.e方法记录“错误”日志（很像syslog）。苹果没有保证应用内购买api或任何相关服务将继续提供给你,或者他们会满足你的要求,不间断,及时、安全或无错误,应用内购买的任何信息获得api或任何相关服务将准确或可靠或纠正任何缺陷。

应用和系统频繁地生成日志文件，因此这些日志文件的数量相当庞大。目前，对日志文件的常见解析方法是用MR分析日志文件数据，但是MR有很多缺陷：抽象层次低，需要手工编写代码来完成，使用上难以上手；只提供两个操作，Map和Reduce，表达力欠缺；处理逻辑隐藏在代码细节中，没有整体逻辑；中间结果也放在HDFS文件系统中；ReduceTask需要等待所有MapTask都完成后才可以开始；时延高，只适用Batch数据处理，对于交互式数据处理，实时数据处理的支持不够；对于迭代式数据处理性能比较差；不适合描述复杂的数据处理过程。

技术实现要素：

针对上述现有技术中存在的问题，本发明的目的在于提供一种使用Apache Spark分类与解析海量日志的方法。其以Apache Spark计算框架为基础，利用Scala特有的模式匹配对海量日志文件进行分类，然后利用关键字段解析并提取日志文件中出现的有用信息。

为了实现上述目的，本发明采用的技术方案如下：

日志创建分类_应用日志分类_windows日志分类

一种使用Apache Spark分类与解析海量日志的方法，其包括以下步骤：

步骤1：利用日志数据接口，选取一段分析时间内的日志文件并将日志文件导入Apache Spark环境中；

tailx 模式：以通配的路径模式读取，读取所有被通配符匹配上的日志文件，对于单个日志文件使用 file 模式不断追踪日志更新，例如匹配路径的模式串为/home/*/path/*/logdir/*.log*, 此时会展开并匹配所有符合该表达式的文件，并持续读取所有有数据追加的文件。步骤2 字段解析模块s304，根据报文格式定义s302中对应的规则，对字段进行解析，取出各字段的值。转到“步骤”选项卡，新建作业步骤，填写步骤名称，类型为脚本，为需要清理日志的，在下边命令中填写以下命令：。

步骤3：根据决策树分类器，对关键字段进行分类，并形成日志文件的分类信息；

步骤4：根据Hive表结构，基于Scala从日志文件中匹配所需信息形成数据条并将数据条导入Hive表中；

步骤5：从Hive表中读取数据并统计状态信息；

步骤6：分析状态发生的频率、幅度，并形成最终数据状态报告。

windows日志分类_应用日志分类_日志创建分类

进一步地，上述关键字段包括主机名、路径、日志类型。

进一步地，上述日志文件的类型包括Warning日志、Error日志、Critical日志。

进一步地，上述数据条包括日志类型、应用类型、日志级别关键字、日志级别、日志内容。

进一步地，上述状态包括异常状态、错误状态。

进一步地，上述数据状态报告包括异常次数、异常频率、异常种类和相互关系、错误次数、错误频率。

与传统的单机日志解析或者Hadoop框架下的MR日志解析相比，本发明的实施简单、易行，解析日志文件流程可分布式计算，大大地提高了集群使用效率和日志解析速度。同时，本发明引入日志分类器(即决策树分类器)，实现了先分类后入库的稳定、准确的解析方案，有效地提高了最终的解析准确性。进一步地，本发明表述了不同场景下不同分类的发生比率、幅度等信息，能够更好地指导后续的工作。

附图说明

应用日志分类_windows日志分类_日志创建分类

图1为本发明的一种使用Apache Spark分类与解析海量日志的方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1示出了本发明的一种使用Apache Spark分类与解析海量日志的方法的流程图。首先，获取重要的运行参数，包括运行时间、运行分布式节点数目、日志运行总量等参数，其中，所述分布式节点数目(用sumcount表示)需要经过一段时间的学习确认，以达到最优值。其次，将日志文件导入Spark环境，选取节点数文件应用日志分类，将其中一个日志文件读入决策树分类器，并基于Scala的模式匹配命令对日志文件的文件名和日志文件的说明字段进行词条解析，读取其中的关键字段，包括主机名、路径、以及日志类型。再次，根据已有的词库和预构建的决策树分类器，将读取的关键字段与上述词库进行对照分类，形成上述日志文件的类型信息，包括Warning日志、Error日志、以及Critical日志。接着，成功获取日志文件的类型信息后，根据每个类型的Hive表结构，基于Scala从日志文件内容中匹配需要的信息，形成数据条(包括日志类型、应用类型、日志级别关键字、日志级别、日志内容等)并将数据条导入每个类型的日志文件的Hive表中。接着，当提交一个节点数据后，判断当前的集群节点(用numcount表示)是否被用尽，如果没有则读入新的日志文件到决策树分类器，并提交未使用节点计算对应的入库词条；如果集群节点被用尽则等待节点计算完毕并释放存储空间后，判断所有的日志文件是否分类解析完成，如果所有的日志文件已完成分类解析，则退出分类解析循环，如果所有的日志文件未全部完成分类解析，则读取下一个日志文件至决策树分类器，直到所有的日志文件完成分类解析。最后，对于不同类型的日志文件，从各自的Hive表中读取数据，统计包括异常状态、错误状态等状态信息应用日志分类，分析上述状态发生的频率、幅度。

其中，各种状态发生的频率通过下式各状态的乘积系数来表示：

引入压力阈值调整参数后，根据同一聚合set内各个同级cache set上的压力最高值和最低值，通过计算可以获得相应的高压阈值和低压阈值，从而将同一聚合set中各个同级set分为高压、中压和低压三类[10-11]，即high-utility， median-utility和low-utility.大于高压阈值的结点被分类为高压结点，小于低压阈值的结点被分类为低压结点，其他结点则属于中等压力结点.csfp中的压力阈值计算、set分类和划分决策依据如图2所示.。◆可以直接搜索以下数量的直选号码：64注（4*4*4）/100注（1个合值）/125注（5*5*5或1种奇偶/大小/质合类型）/200注（2个合值）/216注（6*6*6） /250注（2种奇偶/质合/大小类型）/300注（3个合值）/343注（7*7*7）/375注（3种奇偶/质合/大小类型）/400注（4个合值） /500注（5个合值或4种奇偶/质合/大小类型）/512注（8*8*8）/600注（6个合值）/625注（5种奇偶/质合/大小类型）/700注（7个合值）/729注（9*9*9）/750注（6种奇偶/质合/大小类型）/800注（8个合值）。等等◆可以直接搜索以下数量的直选号码：64注（4*4*4）/100注（1个合值）/125注（5*5*5或1种奇偶/大小/质合类型）/200注（2个合值）/216注（6*6*6） /250注（2种奇偶/质合/大小类型）/300注（3个合值）/343注（7*7*7）/375注（3种奇偶/质合/大小类型）/400注（4个合值） /500注（5个合值或4种奇偶/质合/大小类型）/512注（8*8*8）/600注（6个合值）/625注（5种奇偶/质合/大小类型）/700注（7个合值）/729注（9*9*9）/750注（6种奇偶/质合/大小类型）/800注（8个合值）。

其中，各种状态发生的幅度通过下式各状态的综合系数来表示：

应用日志分类_日志创建分类_windows日志分类