您的位置:首页 > 其它

Husky简介及如何利用PyHusky进行数据分析计划

2017-02-23 09:40 651 查看


介绍

Husky项目旨在建立一个更具有表达能力和更高效的分布式数据分析系统。


高效: 同等硬件资源下具有更优秀的性能

Husky设计并实现了一个高度优化的执行引擎,以求在有限计算资源之上取得更好的性能。

Husky的计算模型支持快速并高效地实现各类算法。如下图所示,经测试Husky在下面两种情况下计算时间都远远小于Spark或者Hadoop组合,可见Husky拥有超强的计算性能。




通用: 可于统一的平台上开发各类应用

Husky支持广泛的应用,其中包括MapReduce的ETL,文本数据挖掘,图数据分析,同步和异步的机器学习。

Husky具有良好的兼容性,支持连接不同的系统并能很好地与Hadoop生态系统共同协作。


简易: 学习曲线低并极易快速上手

Husky实现了各类简易的编程接口,有效地降低应用的开发复杂度,从而缩短开发周期。

Husky的Python和Scala前端支持现有的各类存储系统,并提供高级的编程接口,方便各类数据科学家们简单快速地使用Husky。

Husky以C++语言开发,其提供了友好并且高度优化的C++ APIs。利用这些APIs,你可以开发高效的分布式应用,包括机器学习,图分析等等。

另外,为了方便数据科学家使用极少的代码快速进行数据分析, 我们便有了能提供高级的Python前端的PyHusky。PyHusky在提供简易编程接口的同时,由C++的执行引擎保证高效的性能。要了解PyHusky,可以参考下面几点。

快速开始
PyHusky 运算符
架构

接下来,将分步介绍如何使用PyHusky实现数据分析全流程的计划介绍:

PyHusky编程接口使用功能及实例介绍
如何利用PyHusky提供的接口设计分布式爬虫框架实现批量的包括静态和动态网页的大数据集抓取。
如何利用PyHusky对爬取的大数据集进行快速的清理、整合和格式优化等。
如何利用PyHusky对大数据集进行高速计算并对结果进行可视化分析。
介绍几个不同领域的完整数据分析实例。 

在这里将陆续推出博文对以上计划进行具体介绍,通过提供各步解决方案让你对数据分析全流程有个清晰的思路,同时也感受PyHusky在处理各类问题时的优秀性能。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Pyhusky 数据分析