您的位置：首页 > 编程语言 > Python开发

Python 学习开发最佳工具 pycharm+anaconda

2018-02-24 10:09 621 查看

Python语言近来在人工智能，机器学习，数据分析等领域的突出表现让其火爆异常。在Github搜一下machine learning 可以看到语言使用情况排名如下：

图1

此处不想过多介绍Python优缺点，本文主要是告诉初学者如何搭建python练习平台。在众多的python解析器和工具中，个人认为Anaconda + pycharm是很不错的搭配。

前者拥有丰富的包可以直接调用，省去了很多pip安装过程，后者是只针对python使用的开发工具。

本文内容 介绍 Pycharm 和Anaconda的下载，安装，配置及第一个程序运行完成。

下载：

根据自己电脑系统选择合适的32位或64位的程序安装包，他们都支持Windows, MacOS 和Linux系统. Pycharm 主要选择Community版本

Pycharm 下载: http://www.jetbrains.com/pycharm/download/#section=windows
Anaconda 下载: https://www.anaconda.com/download/
安装：

初学者可以直接使用默认的安装方式，两个包安装在同一目录下，注意安装过程比较慢，尤其是Anaconda,需要十几分钟，咱安装3.6版本，安装完后文件夹就有3.7GB。

配置：

安装完以上两个程序包后开始配置。打开Pycharm 选择File-->Default setting--> Project Interpreter, 将会看到右边的project interpreter 显示<no interpreter>.

选择向下箭头可以看到 Anaconda3\python.exe路径(图2)，选择确认即可。配置完成后可以看到已经导入了很多包，版本及最新的版本(图3)。

图2

图3

项目案例：

目前为止最佳工具已经做好，接下来就可以发挥您的优势来玩转pyhon

下列程序是一个用来统计一篇英文新闻中使用最频繁的单词，只是做简单展示，因而提前下载好文本文件，且没有使用去停用词功能。

对该案例简单分析：

第一步需要考虑如何打开文件直接使用open() 还是使用with open() as f 方式,推荐使用后者，可以不用考虑自己写代码关闭文件问题

第二步需要考虑如何计算每个单词出现的频率，最好的方式是使用字典统计，用字典的关键字存储单词，字典值存储次数

第三步在统计单词前需要将单词从文件中提取，这里采用正则方式直接提取单词，当然这里比较简单，后续复杂类型可以考虑使用NLP工具包

第四步对统计好的字典按出现单词频率最高进行排序，也就是使用sorted() 进行逆排序，之后采用列表切片方式获取使用最频繁的单词。

# Program start.
import re
import io

#Define a class to process text and calculate words frequency
class CounterWords():
#Read text file and save the words in dict
def __init__(self,path):
self.word_dict = dict()

with io.open(path,encoding="utf-8") as f:
data = f.read()
words = [single.lower() for single in re.findall("\w+", data)]
for word in words:
self.word_dict[word] = self.word_dict.get(word,0) + 1

#Calculate the top used words frequency
def word_frequency(self,n):
assert n > 0, "n should be large than 0"
word_sort = sorted(self.word_dict.items(), key=lambda item:item[1], reverse=True)
return word_sort[:n]

if __name__ == "__main__":

top_commom_word = CounterWords('news_xinhua.txt').word_frequency(10)
print ("The top used words:")
for word in top_commom_word:
print (word)

Output the top 10 used words:

The top used words:

('the', 23)

('of', 19)

('and', 16)

('cpc', 8)

('central', 6)

('committee', 6)

('a', 6)

('to', 6)

('xi', 5)

('political', 5)

哈哈 “xi” 使用了5次, 此处的"xi"就是习大大，这是一篇关于习大大主持的民主生活会的文章，有5次提到他哦。

本文仅做自己记忆的笔记，希望对新人有所借鉴。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航