手把手教你搭建一套ELK日志搜索运维平台

栏目: IT技术 · 发布时间: 6年前

内容简介：花括号MC(huakuohao-mc)：关注JAVA基础编程及大数据，注重经验分享及个人成长。

花括号MC(huakuohao-mc)：关注 JAVA 基础编程及大数据，注重经验分享及个人成长。

有些事情，当我们勇敢的迈出第一步的时候，其实就已经完成了50%。很显然，学习ELK就属于这样的事情。很多对ELK不了解的同学，每当想学习的时候，就因为涉及的组件比较多，导致自己不知道如何开始，最后的结果就是永远没有开始，让自己一直处于临渊羡鱼的状态。

大部分程序员学一门新语言的时候都是从“hello world”开始的。其实ELK也有自己的“hello world”。只不过这个“hello world”需要的组件及配置有点儿多。

这边文章我会带着大家搭建一个实时的日志搜索平台。将业务系统产生的日志(模拟)，源源不断的收集到 Elasticsearch 中，最后通过 Kibana 进行查询展示。

如果这篇文章中出现的一些细节使你困惑，那么就暂时放过自己，争取先把这一切都跑通，毕竟你刚开始学 Java 的时候，对"hello world"程序里面的每一行代码也不是真正的理解。

ELK是 Elasticsearch , Logstash , Kibana 三个组件的首字母缩写，不过这是原来的叫法，现在新的叫法是Elastic Stack，除了 Elasticsearch 、 Kibana 、 Logstash 还增加了 Beats ，主要用于数据收集。

一点点说明：

本文基于 centos7.5 的操作系统，Elastic Stack基于最新的7.6版本。

本文只涉及单点的搭建及配置，至于集群的配置及调优不在本文讨论范围内。

本文假定的业务系统产生的日志格式如下：

|07801302020021914554950568859|127.0.0.1|2020-02-19 14:55:49[INFO][Thread-4][com.hello.frank.test.TestUser]-user msg jack

Elasticsearch

介绍

Elasticsearch 是一款提供分布式数据存储，搜索及分析的数据引擎。有很多的应用场景，但是使用最多的还是存储日志信息，用于日常运维及商业分析。

安装

1#下载
2curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.6.1-linux-x86_64.tar.gz
3#解压
4tar -xzvf elasticsearch-7.6.1-linux-x86_64.tar.gz
5cd elasticsearch-7.6.1
6#启动
7./bin/elasticsearch

Elasticsearch 的配置文件是 config/elasticsearch.yml 。默认情况下， Elasticsearch 只允许本机访问，所以我们只需要简单的修改一下配置文件，将 network.host 前面的注释去掉，同时将值改成 0.0.0.0 ，表示所有机器都可以访问，然后重启一下就OK了。

启动后，可以通过

curl http://hostIp:9200 进行测试，如果看到如下信息就证明 Elasticsearch 安装完了。

 1{
 2  "name" : "localhost",
 3  "cluster_name" : "elasticsearch",
 4  "cluster_uuid" : "1ew0o-aXSpq8Tfv0zCWE3Q",
 5  "version" : {
 6    "number" : "7.6.0",
 7    "build_flavor" : "default",
 8    "build_type" : "tar",
 9    "build_hash" : "7f634e9f44834fbc12724506cc1da681b0c3b1e3",
10    "build_date" : "2020-02-06T00:09:00.449973Z",
11    "build_snapshot" : false,
12    "lucene_version" : "8.4.0",
13    "minimum_wire_compatibility_version" : "6.8.0",
14    "minimum_index_compatibility_version" : "6.0.0-beta1"
15  },
16  "tagline" : "You Know, for Search"
17}

注意： Elasticsearch 启动的时候，如果报错"max virtual memory areas vm.maxmapcount [65530] is too low"，需要执行 $ sudo sysctl -w vm.max_map_count=262144 ，来修改最大虚拟内存数。

FileBeat

介绍

ELK平台提供了很多 Beat 组件，目的是为了收集各种不同的数据源，比如有针对日志文件的 FileBeat ，也有针对系统运行信息的 MetricBeat ，还有针对网络包的 PacketBeat 。

这里我拿 FileBeat 的安装和使用来举例，演示一下如何收集应用的日志信息。

安装

1#下载
2curl -L -O https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.6.1-linux-x86_64.tar.gz
3#解压
4tar xzvf filebeat-7.6.1-linux-x86_64.tar.gz

配置

使用 Filebeat 进行日志收集，只需要对配置文件进行简单的修改就OK。

Filebeat 的配置文件是 filebeat.yml 。所有的配置都在这个文件下进行。

输入配置。

1filebeat.inputs:
2- type: log
3  enabled: true
4  paths:
5    - /var/log/*.log

上面这段简单的配置，表示收集 /var/log 下面的所有 .log 文件。同时还可以这样配置 /var/log/*/*.log ，来抓取 log 子目录下的所有 .log 文件。注意不会抓取 log 目录下的 .log 文件。

输出配置

Filebeat 支持很多输出配置，最常用的就是输出到 Kafka 和 logstash ,当然了也可以直接输入到 Elasticsearch 。

输出到 Elasticsearch 的配置

1output.elasticsearch:
2  hosts: ["ES-host:9200"]

输出到 Logstash 的配置。

1output.logstash:
2  hosts: ["logstash-host:5044"]

Logstash 可以对日志进行过滤和清洗，如果日志量太大，单节点的 Logstash 很可能满足不了需求。 Filebeat 支持同时输出到多个 Logstash 。

负载均衡配置

支持负载均衡的配置也很简单，配置如下。

1output.logstash:
2  hosts: ["localhost:5044", "localhost:5045"]
3  loadbalance: true

相比单节点的配置，只是增加了一个 loadbalance 的属性，同时将新增的节点加到 hosts 数组里就OK了。

注意 loadbalance 属性只对 Redis , Logstash ,和 Elasticsearch 起作用， Kafka 自己就可以实现负载均衡，不用 Filebeat 来操心。

此外 Filebeat 还支持多个线程工作模式，默认的 work 是1，如果想增加 worker 数量，只需增加 work 属性的配置就OK。

1filebeat.inputs:
2- type: log
3  paths:
4    - /var/log/*.log
5output.logstash:
6  hosts: ["localhost:5044", "localhost:5045"]
7  loadbalance: true
8  worker: 2

上面的配置表示一共有4(host * work)个worker在工作。

启动

通过 ./filebeat -e -c filebeat.yml -d "publish" 启动 Filebeat 。

如果上面已经成功启动ES，同时你的 FileBeat 的配置又是输出到 Elasticsearch 。启动之后，你的日志就会源源不断的存储到 Elasticsearch 。

Filebeat 是通过 FileBeat 安装目录下的 data 目录进行日志文件信息管理的，如果在测试阶段，想重复收集相同的日志，需要每次把 data 目录下的信息清空然后在重新启动。

Logstash

介绍

Logstash 是一款强大的数据处理工具，可以帮助我们处理从数据源发送过来的数据。同时将加工之后的信息发送到 Elasticsearch 。在ELK里面扮演者承上启下的作用。

安装

1#下载
2curl -L -O https://artifacts.elastic.co/downloads/logstash/logstash-7.6.1.tar.gz
3#解压
4tar -xzvf logstash-7.6.1.tar.gz

配置

Logstash 提供了 input 插件，用于读取各种数据源的数据。这里配置一个接收 FileBeat 发送过来的数据，然后将数据做简单之后发送到ES进行存储的配置。

先在 Logstash 的 config 目录下，创建一个配置文件，假设叫 blog-pipeline.conf ，文件中的内容是这个样子。

 1input {
 2    beats{
 3        port => "5044"
 4    }
 5}
 6
 7output{
 8    #stdout { codec => rubydebug }
 9    elasticsearch{
10        hosts => [ "localhost" ]
11        index => "blog-demo"
12    }
13}

配置很简单，分为输入和输出两个部分。输入部分的 port 端口号就是上面提到的 Filebeat 的端口号。output的配置部分表示输出到ES。

配置文件中注释的那一行，是方便大家调试用的，打开那一行，可以把输出打印到控制台，方便我们调试，以免调试阶段产生的数据污染ES中生产数据。

Elasticsearch 中 index的概念可以简单的理解成关系数据库中表的概念。如果不配置index项，默认值是logstash。

启动

通过 ./bin/logstash -f ./config/blog-pipeline.conf 启动 Logstash
如果一切都正常，你可以在启动 Logstash 的控制台看到收集的日志了（记得调试的时候使用 stdout { codec => rubydebug } ）。

Grok filter

如果只是原样的将日志信息存入ES，那么就没有必要使用 Logstash 了。因为 FileBeat 也可以很好的完成相关工作。如果想对日志信息做一些处理，那么 Grok 的 filter 插件，就有必要了解一下。

grok是一款方便大家使用的正则表达式库，里面封装了很多常用的正则，当然了我们也可以自定义。具体预定义了哪些正则，我们可以去这里看（https://github.com/logstash-plugins/logstash-patterns-core/blob/master/patterns/grok-patterns），如果需要对grok进行调试，可以使用这个网址(https://grokdebug.herokuapp.com/),调试的网址需要翻强使用。

下面我们针对文章开头提到的日志样例，进行正则匹配。当然了这个过滤只是为了演示grok如何使用，并没有过滤掉日志中任何一部分信息，实际使用中可以提取感兴趣的日志信息进行入库。

Grok的插件使用很简单，只需要在 Logstash 的配置文件中增加如下信息就OK。

 1filter {
 2    grok {
 3        match => { "message" => "\|%{GREEDYDATA:traceid}\|%{IPV4:serverip}\|%{GREEDYDATA:logdate}\[%{LOGLEVEL:loglevel}\]\[%{GREEDYDATA:thread}\]\[%{GREEDYDATA:classname}\]-%{GREEDYDATA:logmessage}" }
 4        overwrite => [ "message" ]
 5         remove_field => [ "host","ecs",
 6              "agent","version",
 7              "log", "input", "tags",
 8              "@version","message" ]
 9    }
10}

Logstash 的完整配置如下

 1input {
 2    beats{
 3        port => "5044"
 4    }
 5}
 6
 7filter {
 8    grok {
 9        match => { "message" => "\|%{GREEDYDATA:traceid}\|%{IPV4:serverip}\|%{GREEDYDATA:logdate}\[%{LOGLEVEL:loglevel}\]\[%{GREEDYDATA:thread}\]\[%{GREEDYDATA:classname}\]-%{GREEDYDATA:logmessage}" }
10        overwrite => [ "message" ]
11         remove_field => [ "host","ecs",
12              "agent","version",
13              "log", "input", "tags",
14              "@version","message" ]
15    }
16}
17
18output{
19    #stdout { codec => rubydebug }
20    elasticsearch{
21        hosts => [ "es-host" ]
22        index => "blog-demo"
23    }
24}

启动

再次启动 Logstash 。如果你使用的是 stdout { codec => rubydebug } ，那么屏幕上的输出如下。

Kibana

介绍

Kibana 是一款开源的，用于数据分析展示的平台。经常跟 ElasticSearch 配合使用。简单的说就是为 ElasticSearch 提供前端的数据搜索及分析的展示界面，功能强大，各种图表样式丰富。

安装

1#下载
2curl -L -O https://artifacts.elastic.co/downloads/kibana/kibana-7.6.1-linux-x86_64.tar.gz
3#解压
4tar xzvf kibana-7.6.1-linux-x86_64.tar.gz
5#启动
6cd kibana-7.6.1-linux-x86_64/
7./bin/kibana

配置

Kibana 的配置文件是， config/kibana.yml 。默认端口号是 5601 。启动 Kibana 之前需要告诉 Kibana 连接哪个ES。在配置文件中修改如下配置 elasticsearch.hosts:["http://ES-host:9200"] 即可

现在你可以通过浏览器访问 Kibana 了，如果你想查询刚刚存入 Elasticsearch 的日志信息，还需要在 Kibana 的页面做如下配置。

在 Kibana 的左侧边栏找到 management ，点击进去之后，找到 kibana 的索引管理，添加 blog-demo 索引(Logstash中配置的索引名称)。添加完成后就可以搜索了。下面我放一个截图，大家感受一下,重点关注地方都用箭头标出了。

手把手教你搭建一套ELK日志搜索运维平台

结束

这仅仅是一篇抛砖引玉的文章，Elastic Stack里面的每个组件都大有乾坤，如果各位有精力，建议深入的研究，会有颇多收获。

Google API开发详解

江宽，龚小鹏等编 / 电子工业 / 2008-1 / 59.80元

《Google API开发详解:Google Maps与Google Earth双剑合璧》从易到难、由浅入深、循序渐进地介绍了Google Maps API和Google Earth API的开发技术。《Google API开发详解:Google Maps与Google Earth双剑合璧》知识讲解通俗易懂，并有大量的实例供读者更加深刻地巩固所学习的知识，帮助读者更好地进行开发实践。《Go......一起来看看《Google API开发详解》这本书的介绍吧!

码农工具

手把手教你搭建一套ELK日志搜索运维平台

Elasticsearch

介绍

安装

FileBeat

介绍

安装

配置

输入配置。

输出配置

启动

Logstash

介绍

安装

配置

启动

Grok filter

启动

Kibana

介绍

安装

配置

结束

Google API开发详解

RGB转16进制工具

HTML 编码/解码

HEX CMYK 转换工具