您的位置：首页 > 产品设计 > UI/UE

spark streaming programming guide 综述(一)

2016-10-08 21:04 465 查看

原文网站：
http://spark.apache.org/docs/latest/streaming-programming-guide.html
本篇译文链接：
http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview
spark streaming 是spark 核心api的扩展，它在处理实时数据流方面具有很好的扩展性，高吞吐量和很强的容错性能。它能够处理很多种类来源的数据，比如kafka，flume，kinesis，甚至是tcp套接字。它有一些实现了高复杂算法的方法，比如map、reduce、join和window等。最后，被处理的数据可以存储于文件系统，数据库或者用户界面。另外，你也可以在sparkstreaming中使用spark自身的机器学习或者是图处理算法。

它的工作流程如下所示。它首先会接收外界输入的实时流数据，之后会把这些数据切割成小块传送给spark。spark接收到这些数据，会逐块进行处理并产出结果。

spark streaming提供了对连续的数据流高层次的抽象，称作discretized stream(离散流)或者DStream。DStream既可以通过外界输入如kafka、flume、kinesis，也可以通过其他的DStream来生成。实际在系统内部，DStream只是一系列的RDD。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航