您的位置：首页 > 运维架构 > Docker

Docker时代——如何实现日志数据一键上云

2017-03-16 18:28 288 查看

原文链接：http://click.aliyun.com/m/13880/

一、准备工作

1.1 开通MaxCompute服务

参考使用MaxCompute的准备工作

1.2 开通Datahub服务

进入Datahub Web控制台，创建project（注意：首次使用的用户需要申请开通）

1.3 安装Docker环境

Docker官方说明了在不同操作系统下安装Docker的方法，您可以点击此处查看。
在阿里云ECS上，以CentOS 7.2为例，安装方式如下：

sudo yum install docker
sudo systemctl enable docker
sudo systemctl start docker

二、运行数据采集的Docker镜像

以Web服务器Nginx的日志采集为例，假设Nginx的日志在服务器的路径为/var/www/all.log，日志样例如下所示：

192.168.1.6 - - [10/Feb/2017:10:51:09 +0800] "GET /ubuntu.iso HTTP/1.0" 0.000 129 404 168 "-" "Wget/1.11.4 Red Hat modified"

运行如下的命令，配置其中ACCESS_ID，ACCESS_KEY， DATAHUB_PROJECT，MAXCOMPUTE_PROJECT和MAXCOMPUTE_TABLE等必要的参数，即可启动日志采集插件的docker镜像，实现将指定的日志按行导入Datahub，并自动归档到MaxCompute的表中。

docker run  -v /var/www:/var/www:ro -e DATA_COLLECTOR_TYPE=classic -e ACCESS_ID={YOUR_ACCESS_ID} -e ACCESS_KEY={YOUR_ACCESS_KEY} -e DATAHUB_PROJECT={YOUR_DATAHUB_PROJECT} -e MAXCOMPUTE_PROJECT={YOUR_MAXCOMPUTE_PROJECT}  -e MAXCOMPUTE_TABLE={YOUR_MAXCOMPUTE_TABLENAME} -e DATA_FILE_PATH=/var/www/.*.log  registry.cn-hangzhou.aliyuncs.com/aliyun_maxcompute/data_collectors:1.0

该日志采集插件会监控所指定的日志文件，不断地将新增的日志上传，在正常情况下，Datahub的project里会自动创建一个名为maxcompute_data_collect_topic的topic，MaxCompute的project中会自动创建指定名字的表，表的schema如下所示：

+------------------------------------------------------------------------------------+| Native Columns:                                                                    |
+------------------------------------------------------------------------------------+| Field           | Type       | Label | Comment                                     |
+------------------------------------------------------------------------------------+| line            | string     |       |                                             |
+------------------------------------------------------------------------------------+| Partition Columns:                                                                 |
+------------------------------------------------------------------------------------+| pt              | string     |                                                     |
+------------------------------------------------------------------------------------+

三、数据分析

在docker镜像跑起来后，日志数据就源源不断地导入MaxCompute的表中了，数据默认会按照采集的时间按天进行分区。例如我们想知道20170210这天192.168.1.6这个ip的访问次数可以简单的用下面的SQL完成。

select count(*) from YOUR_MAXCOMPUTE_TABLENAME where pt = '20170210' and instr(line, '192.168.1.6') > 0;

更多复杂的分析，可以通过编写UDF或者MR作业来完成，可以参考MaxCompute的官方文档了解更多。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 服务器数据采集控制台

相关文章推荐

新的分享

章节导航

Docker时代——如何实现日志数据一键上云

一、 准备工作

1.1 开通MaxCompute服务

1.2 开通Datahub服务

1.3 安装Docker环境

二、 运行数据采集的Docker镜像

三、 数据分析

四、相关阅读

一、准备工作

二、运行数据采集的Docker镜像

三、数据分析