云场景实践研究第20期:梨视频
2018-02-05 15:26
344 查看
点击有惊喜
作为中国领先的资讯类短视频生产者,梨视频采用阿里云平台搭建了数据处理系统和梨视频推荐系统,本文从架构和实现的角度介绍梨视频上云的实践经验。
“Log Store是一站式日志收集服务系统,通过配置、过滤将所需的日志推送到目标区域,它提供了两种消费途径:一是通过阿里云EMR中的Spark Streaming消费Log Store中的日志,进行实时分析、统计;二是将日志推送到阿里云OSS上永久备份,以供后期使用。”
——杨智
梨视频大数据负责人
采用的阿里云产品
阿里云服务器ECS
阿里云对象存储 OSS
阿里云阿里云云数据库 RDS
阿里云云数据库Redis
阿里云 E-MapReduce
阿里云日志服务 LOG
关于 梨视频
梨视频是中国领先的资讯类短视频生产者,由资深媒体背景的专业团队和遍布全球的拍客网络共同创造,专注为年青一代提供适合移动端观看和分享的短视频产品。梨视频是跨平台的、开放的新媒体公司,其视频业务覆盖多个领域,经过深度编辑的聚合内容和独家的原创报道,与创新技术和工具结合后,为移动互联网时代的视频生产和消费提供了新标准。
梨视频基于阿里云的架构设计
梨视频整体架构主要由数据处理系统和推荐系统构成:
梨视频基于阿里云的数据处理系统
梨视频采用阿里云搭建的数据处理系统。对梨视频应用而言,数据的来源分为两方面:一方面是用户在终端的使用痕迹;另一方面是在应用上投放的内容,例如视频的标签、属性等。
首先梨视频基于阿里云的ECS搭建了一套Nginx日志收集服务器进行日志收集,在客户端压缩传输并定时上传日志,基于阿里云提供的组件Logtail将日志推送到一站式日志收集服务系统,它提供了两种消费途径:一是通过阿里云EMR中的Spark
Streaming消费Log Store中的日志,进行实时分析、统计;二是将日志推送到阿里云OSS上永久备份,以供后期使用。
日志收集之后,需要对数据进行处理。梨视频以EMR为中心,构建了大数据处理中心。产品上所有基础数据都会进入EMR,并依托EMR进行任务管理,数据存储;后台服务器产生的日志、业务上的数据都将定时推送到集群中进行分析;数据分析之后,有两个输出方向:统计结果等数据会存放到MySQL中,供业务系统查询使用;实时反馈的数据会存入Redis中,以供推荐引擎等实时使用。
在数据层面,梨视频对数据进行了分层:最底层的数据是推送到集群上的日志以及推送到集群上的业务数据表等;基于数据表构建了一层基于场景的数据,例如用户观看了某个视频,该视频的详细信息都会存放在场景的数据表中;之后再进行一些宽表的统计,如某个视频的点击量,播放时长等信息。宽表又分为内容维度宽表和用户维度宽表,业务开发人员无需关心底层数据的存储和日志逻辑,只需要查看宽表即可获得想要的数据,实现了业务开发人员和底层数据的隔离。
点击有惊喜
作为中国领先的资讯类短视频生产者,梨视频采用阿里云平台搭建了数据处理系统和梨视频推荐系统,本文从架构和实现的角度介绍梨视频上云的实践经验。
“Log Store是一站式日志收集服务系统,通过配置、过滤将所需的日志推送到目标区域,它提供了两种消费途径:一是通过阿里云EMR中的Spark Streaming消费Log Store中的日志,进行实时分析、统计;二是将日志推送到阿里云OSS上永久备份,以供后期使用。”
——杨智
梨视频大数据负责人
采用的阿里云产品
阿里云服务器ECS
阿里云对象存储 OSS
阿里云阿里云云数据库 RDS
阿里云云数据库Redis
阿里云 E-MapReduce
阿里云日志服务 LOG
关于 梨视频
梨视频是中国领先的资讯类短视频生产者,由资深媒体背景的专业团队和遍布全球的拍客网络共同创造,专注为年青一代提供适合移动端观看和分享的短视频产品。梨视频是跨平台的、开放的新媒体公司,其视频业务覆盖多个领域,经过深度编辑的聚合内容和独家的原创报道,与创新技术和工具结合后,为移动互联网时代的视频生产和消费提供了新标准。
梨视频基于阿里云的架构设计
梨视频整体架构主要由数据处理系统和推荐系统构成:
梨视频基于阿里云的数据处理系统
梨视频采用阿里云搭建的数据处理系统。对梨视频应用而言,数据的来源分为两方面:一方面是用户在终端的使用痕迹;另一方面是在应用上投放的内容,例如视频的标签、属性等。
首先梨视频基于阿里云的ECS搭建了一套Nginx日志收集服务器进行日志收集,在客户端压缩传输并定时上传日志,基于阿里云提供的组件Logtail将日志推送到一站式日志收集服务系统,它提供了两种消费途径:一是通过阿里云EMR中的Spark
Streaming消费Log Store中的日志,进行实时分析、统计;二是将日志推送到阿里云OSS上永久备份,以供后期使用。
日志收集之后,需要对数据进行处理。梨视频以EMR为中心,构建了大数据处理中心。产品上所有基础数据都会进入EMR,并依托EMR进行任务管理,数据存储;后台服务器产生的日志、业务上的数据都将定时推送到集群中进行分析;数据分析之后,有两个输出方向:统计结果等数据会存放到MySQL中,供业务系统查询使用;实时反馈的数据会存入Redis中,以供推荐引擎等实时使用。
在数据层面,梨视频对数据进行了分层:最底层的数据是推送到集群上的日志以及推送到集群上的业务数据表等;基于数据表构建了一层基于场景的数据,例如用户观看了某个视频,该视频的详细信息都会存放在场景的数据表中;之后再进行一些宽表的统计,如某个视频的点击量,播放时长等信息。宽表又分为内容维度宽表和用户维度宽表,业务开发人员无需关心底层数据的存储和日志逻辑,只需要查看宽表即可获得想要的数据,实现了业务开发人员和底层数据的隔离。
点击有惊喜
相关文章推荐
- 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
- 云场景实践研究第4期:高德
- 云场景实践研究第6期:游族网络
- 网易视频云朱玲:互动直播场景下的视频核心技术实践
- 【python】研究与实践 python线程池爬取某网的接口视频资源入库
- 云场景实践研究第5期:朗新科技
- 网易视频云朱玲:互动直播场景下的视频核心技术实践
- 云场景实践研究第4期:小鱼儿科技
- 云场景实践研究第4期:高德
- 云场景实践研究第25期:协鑫光伏
- 云场景实践研究第5期:朗新科技
- 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
- 网易视频云朱玲:互动直播场景下的视频核心技术实践
- 云场景实践研究第4期:小鱼儿科技
- 【音视频研究与实践】FFmpeg的实践 更新中
- visual c++ 音频视频处理技术及工程实践
- Oracle LOCK内部机制及最佳实践系列(三)构想一个使用手工锁定解决一种业务需求的场景
- <转>Spark 在反作弊聚类场景的实践
- Apache Kylin在美团数十亿数据OLAP场景下的实践
- 2018亚太CDN峰会开幕, 阿里云王海华解读云+端+AI的短视频最佳实践