您的位置：首页 > 大数据 > 人工智能

10款人工智能和机器学习领域方面的开源项目。15 个开源的顶级人工智能工具,人工智能和机器学习领域中有趣的开源项目

2017-01-11 21:30 816 查看

10款人工智能和机器学习领域方面的开源项目。
GraphLab
GraphLab是一种新的面向机器学习的并行框架。GraphLab提供了一个完整的平台，让机构可以使用可扩展的机器学习系统建立大数据以分析产品，该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等，它们从别的应用程序或者服务中抓取数据，通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序。（详情）
项目主页： http://graphlab.org/ 　　
Vowpal Wabbit
Vowpal Wabbit (Fast Online Learning)最初是由雅虎研究院建设的一个机器学习平台，目前该项目在微软研究院。它是由John Langford启动并主导的项目。
项目地址： http://hunch.net/~vw/ 　　
scikits.learn
scikit-learn是一个开源的、构建在SciPy之上用于机器学习的 Python 模块。它包括简单而高效的工具，可用于数据挖掘和数据分析，适合于任何人，可在各种情况下重复使用、构建在 NumPy、SciPy和 matplotlib 之上，遵循BSD 协议。（详情）
项目地址： http://scikit-learn.org/stable 　　
Theano
Theano是一个python库，用来定义、优化和模拟数学表达式计算，用于高效的解决多维数组的计算问题。它使得写深度学习模型更加容易，同时也给出了一些关于在GPU上训练它们的选项。（详情）
项目地址： http://deeplearning.net/software/theano/ 　　
Mahout
Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。
项目主页： http://mahout.apache.org/ 　　
pybrain
pybrain是Python的一个机器学习模块，它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法。pybrain包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。以神经网络为核心，所有的训练方法都以神经网络为一个实例。
项目主页： http://pybrain.org/ 　　
OpenCV
OpenCV是一个基于（开源）发行的跨平台计算机视觉库，可以运行在Linux、Windows和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。（详情）
项目主页： http://opencv.org/ 　　
Orange
Orange 是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。
项目主页： http://orange.biolab.si/ 　　
NLTK
NLTK（natural language toolkit)是python的自然语言处理工具包。2001年推出，至今发展非常活跃。它的主要作用是为了教学，至今已经在20多个国家60多所高校使用，里面包括了大量的词料库，以及自然语言处理方面的算法实现：分词，词根计算，分类，语义分析等。
项目主页： http://nltk.org/ 　　
Nupic
Nupic是一个开源的人工智能平台。该项目由Grok（原名 Numenta）公司开发，其中包括了公司的算法和软件架构。 NuPIC 的运作接近于人脑，“当模式变化的时候，它会忘掉旧模式，记忆新模式”。如人脑一样，CLA 算法能够适应新的变化。（详情）
项目主页： http://numenta.org/nupic.html 　　

15 个开源的顶级人工智能工具

人工智能artificial intelligence，AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到人们对此感兴趣的程度，我们将不会惊讶于斯坦福的专家在人工智能报告中得出的结论：“越来越强大的人工智能应用，可能会对我们的社会和经济产生深远的积极影响，这将出现在从现在到 2030 年的时间段里。”

在最近的一篇文章中，我们概述了 45 个十分有趣或有前途的人工智能项目。在本文中，我们将聚焦于开源的人工智能工具，详细的了解下最著名的 15 个开源人工智能项目。

以下这些开源人工智能应用都处于人工智能研究的最前沿。

1. Caffe

它是由贾扬清在加州大学伯克利分校的读博时创造的，Caffe 是一个基于表达体系结构和可扩展代码的深度学习框架。使它声名鹊起的是它的速度，这让它受到研究人员和企业用户的欢迎。根据其网站所言，它可以在一天之内只用一个 NVIDIA K40 GPU 处理 6000 万多个图像。它是由伯克利视野和学习中心（BVLC）管理的，并且由 NVIDIA 和亚马逊等公司资助来支持它的发展。

2. CNTK

它是计算网络工具包Computational Network Toolkit的缩写，CNTK 是一个微软的开源人工智能工具。不论是在单个 CPU、单个 GPU、多个 GPU 或是拥有多个 GPU 的多台机器上它都有优异的表现。微软主要用它做语音识别的研究，但是它在机器翻译、图像识别、图像字幕、文本处理、语言理解和语言建模方面都有着良好的应用。

3. Deeplearning4j

Deeplearning4j 是一个 Java 虚拟机（JVM）的开源深度学习库。它运行在分布式环境并且集成在Hadoop 和 Apache Spark 中。这使它可以配置深度神经网络，并且它与 Java、Scala 和其他 JVM 语言兼容。

这个项目是由一个叫做 Skymind 的商业公司管理的，它为这个项目提供支持、培训和一个企业的发行版。

4. DMTK

DMTK 是分布式机器学习工具Distributed Machine Learning Toolkit的缩写，和 CNTK 一样，是微软的开源人工智能工具。作为设计用于大数据的应用程序，它的目标是更快的训练人工智能系统。它包括三个主要组件：DMTK 框架、LightLDA 主题模型算法和分布式（多义）字嵌入算法。为了证明它的速度，微软声称在一个八集群的机器上，它能够“用 100 万个主题和 1000 万个单词的词汇表（总共 10 万亿参数）训练一个主题模型，在一个文档中收集 1000 亿个符号，”。这一成绩是别的工具无法比拟的。

5. H20

相比起科研，H2O 更注重将 AI 服务于企业用户，因此 H2O 有着大量的公司客户，比如第一资本金融公司、思科、Nielsen Catalina、PayPal 和泛美都是它的用户。它声称任何人都可以利用机器学习和预测分析的力量来解决业务难题。它可以用于预测建模、风险和欺诈分析、保险分析、广告技术、医疗保健和客户情报。

它有两种开源版本：标准版 H2O 和 Sparking Water 版，它被集成在 Apache Spark 中。也有付费的企业用户支持。

6. Mahout

它是 Apache 基金会项目，Mahout 是一个开源机器学习框架。根据它的网站所言，它有着三个主要的特性：一个构建可扩展算法的编程环境、像 Spark 和 H2O 一样的预制算法工具和一个叫 Samsara 的矢量数学实验环境。使用 Mahout 的公司有 Adobe、埃森哲咨询公司、Foursquare、英特尔、领英、Twitter、雅虎和其他许多公司。其网站列了出第三方的专业支持。

7. MLlib

由于其速度，Apache Spark 成为一个最流行的大数据处理工具。MLlib 是 Spark 的可扩展机器学习库。它集成了 Hadoop 并可以与 NumPy 和 R 进行交互操作。它包括了许多机器学习算法如分类、回归、决策树、推荐、集群、主题建模、功能转换、模型评价、ML 管道架构、ML 持久、生存分析、频繁项集和序列模式挖掘、分布式线性代数和统计。

8. NuPIC

由 Numenta 公司管理的 NuPIC 是一个基于分层暂时记忆Hierarchical Temporal Memory，HTM理论的开源人工智能项目。从本质上讲，HTM 试图创建一个计算机系统来模仿人类大脑皮层。他们的目标是创造一个 “在许多认知任务上接近或者超越人类认知能力” 的机器。

除了开源许可，Numenta 还提供 NuPic 的商业许可协议，并且它还提供技术专利的许可证。

9. OpenNN

作为一个为开发者和科研人员设计的具有高级理解力的人工智能，OpenNN 是一个实现神经网络算法的 c++ 编程库。它的关键特性包括深度的架构和快速的性能。其网站上可以查到丰富的文档，包括一个解释了神经网络的基本知识的入门教程。OpenNN 的付费支持由一家从事预测分析的西班牙公司 Artelnics 提供。

10. OpenCyc

由 Cycorp 公司开发的 OpenCyc 提供了对 Cyc 知识库的访问和常识推理引擎。它拥有超过 239,000 个条目，大约 2,093,000 个三元组和大约 69,000 owl：这是一种类似于链接到外部语义库的命名空间。它在富领域模型、语义数据集成、文本理解、特殊领域的专家系统和游戏 AI 中有着良好的应用。该公司还提供另外两个版本的 Cyc：一个可免费的用于科研但是不开源，和一个提供给企业的但是需要付费。

11. Oryx 2

构建在 Apache Spark 和 Kafka 之上的 Oryx 2 是一个专门针对大规模机器学习的应用程序开发框架。它采用一个独特的三层 λ 架构。开发者可以使用 Orys 2 创建新的应用程序，另外它还拥有一些预先构建的应用程序可以用于常见的大数据任务比如协同过滤、分类、回归和聚类。大数据工具供应商 Cloudera 创造了最初的 Oryx 1 项目并且一直积极参与持续发展。

12. PredictionIO

今年的二月，Salesforce 收购了 PredictionIO，接着在七月，它将该平台和商标贡献给 Apache 基金会，Apache 基金会将其列为孵育计划。所以当 Salesforce 利用 PredictionIO 技术来提升它的机器学习能力时，成效将会同步出现在开源版本中。它可以帮助用户创建带有机器学习功能的预测引擎，这可用于部署能够实时动态查询的 Web 服务。

13. SystemML

最初由 IBM 开发， SystemML 现在是一个 Apache 大数据项目。它提供了一个高度可伸缩的平台，可以实现高等数学运算，并且它的算法用 R 或一种类似 Python 的语法写成。企业已经在使用它来跟踪汽车维修客户服务、规划机场交通和连接社会媒体数据与银行客户。它可以在 Spark 或 Hadoop 上运行。

14. TensorFlow

TensorFlow 是一个谷歌的开源人工智能工具。它提供了一个使用数据流图进行数值计算的库。它可以运行在多种不同的有着单或多 CPU 和 GPU 的系统，甚至可以在移动设备上运行。它拥有深厚的灵活性、真正的可移植性、自动微分功能，并且支持 Python 和 c++。它的网站拥有十分详细的教程列表来帮助开发者和研究人员沉浸于使用或扩展他的功能。

15. Torch

Torch 将自己描述为：“一个优先使用 GPU 的拥有机器学习算法广泛支持的科学计算框架”，它的特点是灵活性和速度。此外，它可以很容易的通过软件包用于机器学习、计算机视觉、信号处理、并行处理、图像、视频、音频和网络等方面。它依赖一个叫做 LuaJIT 的脚本语言，而 LuaJIT 是基于 Lua 的。

转载：https://linux.cn/article-7830-1.html

技术干货：人工智能和机器学习领域中有趣的开源项目

[日期：2014-12-04]

来源：驱动中国网(北京) 作者：

[字体：大中小]

　　本文简要介绍了10款 Quora上网友推荐的人工智能和机器学习领域方面的开源项目。

　　GraphLab

　　GraphLab是一种新的面向机器学习的并行框架。GraphLab提供了一个完整的平台，让机构可以使用可扩展的机器学习系统建立大数据以分析产品，该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等，它们从别的应用程序或者服务中抓取数据，通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序。（详情）

　　项目主页： http://graphlab.org/
　　Vowpal Wabbit

　　Vowpal Wabbit (Fast Online Learning)最初是由雅虎研究院建设的一个机器学习平台，目前该项目在微软研究院。它是由John Langford启动并主导的项目。

　　项目地址： http://hunch href="http://lib.csdn.net/base/dotnet" target=_blank>.NET/~vw/

　　scikits.learn

　　scikit-learn是一个开源的、构建在SciPy之上用于机器学习的 Python 模块。它包括简单而高效的工具，可用于数据挖掘和数据分析，适合于任何人，可在各种情况下重复使用、构建在 NumPy、SciPy和 matplotlib 之上，遵循BSD 协议。（详情）

　　项目地址： http://scikit-learn.org/stable
　　Theano

　　Theano是一个python库，用来定义、优化和模拟数学表达式计算，用于高效的解决多维数组的计算问题。它使得写深度学习模型更加容易，同时也给出了一些关于在GPU上训练它们的选项。（详情）

　　项目地址： http://deeplearning href="http://lib.csdn.net/base/dotnet" target=_blank>.Net/software/theano/

　　Mahout

　　Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

　　项目主页： http://mahout.apache.org/
　　pybrain

　　pybrain是Python的一个机器学习模块，它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法。pybrain包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。以神经网络为核心，所有的训练方法都以神经网络为一个实例。

　　项目主页： http://pybrain.org/
　　OpenCV

　　OpenCV是一个基于（开源）发行的跨平台计算机视觉库，可以运行在Linux、Windows和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。（详情）

　　项目主页： http://opencv.org/
　　Orange

　　Orange 是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。

　　项目主页： http://orange.biolab.si/
　　NLTK

　　NLTK（natural language toolkit)是python的自然语言处理工具包。2001年推出，至今发展非常活跃。它的主要作用是为了教学，至今已经在20多个国家60多所高校使用，里面包括了大量的词料库，以及自然语言处理方面的算法实现：分词，词根计算，分类，语义分析等。

　　项目主页： http://nltk.org/
　　Nupic

　　Nupic是一个开源的人工智能平台。该项目由Grok（原名 Numenta）公司开发，其中包括了公司的算法和软件架构。 NuPIC 的运作接近于人脑，“当模式变化的时候，它会忘掉旧模式，记忆新模式”。如人脑一样，CLA 算法能够适应新的变化。（详情）

　　项目主页： http://numenta.org/nupic.html
　　以上是小编整理的10款人工智能和机器学习领域的开源项目。更多项目可参看这个列表： http://deeplearning.net/software_links/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航