Docker时代——如何实现日志数据一键上云
2017-03-16 18:28
288 查看
原文链接:http://click.aliyun.com/m/13880/
在阿里云ECS上,以CentOS 7.2为例,安装方式如下:
数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式
一、 准备工作
1.1 开通MaxCompute服务
参考使用MaxCompute的准备工作1.2 开通Datahub服务
进入Datahub Web控制台,创建project(注意:首次使用的用户需要申请开通)1.3 安装Docker环境
Docker官方说明了在不同操作系统下安装Docker的方法,您可以点击此处查看。在阿里云ECS上,以CentOS 7.2为例,安装方式如下:
sudo yum install docker sudo systemctl enable docker sudo systemctl start docker
二、 运行数据采集的Docker镜像
以Web服务器Nginx的日志采集为例,假设Nginx的日志在服务器的路径为/var/www/all.log,日志样例如下所示:192.168.1.6 - - [10/Feb/2017:10:51:09 +0800] "GET /ubuntu.iso HTTP/1.0" 0.000 129 404 168 "-" "Wget/1.11.4 Red Hat modified"运行如下的命令,配置其中ACCESS_ID,ACCESS_KEY, DATAHUB_PROJECT,MAXCOMPUTE_PROJECT和MAXCOMPUTE_TABLE等必要的参数,即可启动日志采集插件的docker镜像,实现将指定的日志按行导入Datahub,并自动归档到MaxCompute的表中。
docker run -v /var/www:/var/www:ro -e DATA_COLLECTOR_TYPE=classic -e ACCESS_ID={YOUR_ACCESS_ID} -e ACCESS_KEY={YOUR_ACCESS_KEY} -e DATAHUB_PROJECT={YOUR_DATAHUB_PROJECT} -e MAXCOMPUTE_PROJECT={YOUR_MAXCOMPUTE_PROJECT} -e MAXCOMPUTE_TABLE={YOUR_MAXCOMPUTE_TABLENAME} -e DATA_FILE_PATH=/var/www/.*.log registry.cn-hangzhou.aliyuncs.com/aliyun_maxcompute/data_collectors:1.0该日志采集插件会监控所指定的日志文件,不断地将新增的日志上传,在正常情况下,Datahub的project里会自动创建一个名为maxcompute_data_collect_topic的topic,MaxCompute的project中会自动创建指定名字的表,表的schema如下所示:
+------------------------------------------------------------------------------------+| Native Columns: | +------------------------------------------------------------------------------------+| Field | Type | Label | Comment | +------------------------------------------------------------------------------------+| line | string | | | +------------------------------------------------------------------------------------+| Partition Columns: | +------------------------------------------------------------------------------------+| pt | string | | +------------------------------------------------------------------------------------+
三、 数据分析
在docker镜像跑起来后,日志数据就源源不断地导入MaxCompute的表中了,数据默认会按照采集的时间按天进行分区。例如我们想知道20170210这天192.168.1.6这个ip的访问次数可以简单的用下面的SQL完成。select count(*) from YOUR_MAXCOMPUTE_TABLENAME where pt = '20170210' and instr(line, '192.168.1.6') > 0;更多复杂的分析,可以通过编写UDF或者MR作业来完成,可以参考MaxCompute的官方文档了解更多。
四、相关阅读
云数据,大计算—海量日志数据分析与应用数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式
相关文章推荐
- Docker时代——如何实现日志数据一键上云
- Docker时代——如何实现日志数据一键上云
- apache Kafka是如何实现删除数据文件(日志)的
- mysql如何更改数据库名(一键实现mysql改数据库名)
- 支付行业,如何通过日志大数据实现深度分析及风控
- 日志数据从kafka到hive是如何实现的
- 如何实现一键构建大数据GIS基础环境
- [原创]DataList横向排列数据如何实现交替行变色!
- 如何在C#用WM_COPYDATA消息来实现两个进程之间传递数据
- 探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页
- 如何快速的实现oracle数据表的的增删改?
- 没有备份、只有归档日志,如何恢复数据文件?
- 如何实现win9X进程间数据通讯技术
- [原创]DataList横向排列数据如何实现交替行变色!
- 如何实现100%的动态数据管道(一)
- 如何使用触发器实现数据库级守护,防止DDL操作
- 问题征解1:SPS数据如何实现分散存储(多台计算机和多个磁盘)
- [总结]SqlServer中如何实现自动备份数据!
- 如何用VS里的部署实现在Duwamish7安装时的自动创建数据功能
- 如何实现100%的动态数据管道(三)