Hadoop日志分析工具：White Elephant-PingCAP

Hadoop日志分析工具：White Elephant

网友投稿 924 2023-04-25

Hadoop日志分析工具：White Elephant

快速入门

你可以在GitHub上的 White Elephant项目check out代码，或者下载***的snapshot版本。

可以使用一些测试数据尝试这个服务：

cd server ant ./startup.sh

服务端

服务端是一个JRuby的web应用，在生产环境中它可以部署到tomcat中，然后可以直接从Hadoop中读取收集到的数据。数据存储在 HyperSQL提供的 in-memory 类型的数据库中，图表由 Rickshaw提供。

开始使用

开始使用这个服务之前，首先需要设置环境：

cd server ant

默认会做以下的事情：

安装JRuby 到 .rbenv下的本地目录安装RubyRuby gems到上述目录下载JAR包在 data/usage下创建测试数据

这时候你可以通过下面的命令启动服务：

./startup.sh

这里使用trinidad在开发环境中运行JRuby 网页应用。由于这是在开发模式，应用假设本地数据（在config.yml中指定的路径）可以使用。

配置

服务端的配置在config.yml中指定，你可以在sample_config.yml中查看示例。

当通过./startup.sh 运行在开发模式中时，sample_config.yml会被使用，并且它和 local目录下的配置一起生效。这里唯一的可配置参数是file_pattern，它指定了从本地加载数据的目录。

当打包成WAR并运行在生产模式下，使用hadoop下指定的配置，假设收集到的数据可用，下述配置必须指定：

file_pattern: 从Hadoop加载使用文件的全局的文件模式。

libs: 包含Hadoop JAR文件的目录 (加到classpath)。

conf_dir: 包含Hadoop配置的目录(加到 classpath)。

principal: 用户名用于访问安全的Hadop。

keytab: keytab 文件的路径，用于访问安全的Hadoop 。

White Elephant并不基于某个特定版本的Hadoop，所以JARs并不会打包到WAR包中。因此配置中必须指定到Hadoop JARs的路径。

部署

编译一个可以部署到tomcat的WAR文件：

ant war -Dconfig.path=

你指定的配置文件config.yml将一起打包到WAR文件中。

Hadoop日志上传

hadoop/scripts/statsupload.pl脚本可以用于上传Hadoop日志文件到HDFS，主要就可以被处理了。

Hadoop 作业

一共两个Hadoop作业，都被一个作业执行器管理，并追踪需要的工作。

***个作业是Hadoop日志解析器，它从存储在Hadoop中的文件读日志，解析出相应的信息，并以Avro的格式写出去。

第二个作业读取Avro格式的日志数据，并以小时为单位聚合，数据以Avro格式写出去，它本质上建立一共数据立方体，可以很容易的被wen应用加载到DB和查询。

配置

示例配置存储在 hadoop/config/jobs:

base.properties: 包括大多配置。

white-elephant-full-usage.job: 处理所有日志时被使用的作业文件。

white-elephant-incremental-usage.job: 处理增量日志时需要的作业文件。

base.properties文件包括White Elephant指定的配置，也包括Hadoop配置。所有Hadoop配置参数以hadoop-conf开头。两个job的配置项相同，当然其值需要根据作业配置。

Hadoop 日志

在base.properties中存在一个参数log.root。这是解析程序查找Hadoop日志的根目录。解析作业假设日志存储在Hadoop每天的目录下，目录格式如下：

//daily//

例如，2013年1月23日的目录格式为：

/data/hadoop/logs/prod/daily/2013/0123

打包

创建一个包含所有文件的zip包可以通过下述命令生成：

ant zip -Djob.config.dir=

job.config.dir应该包含.properties和.job文件。

如果你使用 Azkaban作为你的作业调度器，则zip文件可以工作到base.propreties中指定的配置的时间。

运行

解压zip文件后可以运行run.sh脚本，这需要配置两个环境变量：

HADOOP_CONF_DIR: Hadoop configuration directoryHADOOP_LIB_DIR: Hadoop JARs directory

运行全量job：

./run.sh white-elephant-full-usage.job

运行增量job：

./run.sh white-elephant-incremental-usage.job

增量作业只处理增量数据，全量作业处理所有数据。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

924 2023-04-25

Hadoop日志分析工具：White Elephant

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20