您的位置:首页 > 编程语言 > Python开发

Python 学习开发最佳工具 pycharm+anaconda

2018-02-24 10:09 621 查看
Python语言近来在人工智能,机器学习,数据分析等领域的突出表现让其火爆异常。在Github搜一下machine learning 可以看到语言使用情况排名如下:



                   图1

此处不想过多介绍Python优缺点,本文主要是告诉初学者如何搭建python练习平台。在众多的python解析器和工具中,个人认为Anaconda + pycharm是很不错的搭配。

前者拥有丰富的包可以直接调用,省去了很多pip安装过程,后者是只针对python使用的开发工具。

本文内容 介绍 Pycharm 和Anaconda的下载,安装,配置 及第一个程序运行完成

下载:

根据自己电脑系统选择合适的32位或64位的程序安装包,他们都支持Windows, MacOS 和Linux系统. Pycharm 主要选择Community版本

Pycharm 下载: http://www.jetbrains.com/pycharm/download/#section=windows
Anaconda 下载: https://www.anaconda.com/download/
安装:

初学者可以直接使用默认的安装方式,两个包安装在同一目录下,注意安装过程比较慢,尤其是Anaconda,需要十几分钟,咱安装3.6版本,安装完后文件夹就有3.7GB。

配置:

安装完以上两个程序包后 开始配置。打开Pycharm  选择File-->Default setting--> Project Interpreter, 将会看到右边的project interpreter 显示<no interpreter>.

选择向下箭头可以看到  Anaconda3\python.exe路径(图2),选择确认即可。配置完成后可以看到已经导入了很多包,版本及最新的版本(图3)。


   

                                             图2



                                            图3                                                                                                                            

项目案例:

目前为止最佳工具已经做好,接下来就可以发挥您的优势来玩转pyhon

下列程序是一个用来统计一篇英文新闻中使用最频繁的单词,只是做简单展示,因而提前下载好文本文件,且没有使用去停用词功能。

对该案例简单分析:

第一步 需要考虑如何打开文件 直接使用open() 还是使用with open() as f  方式,推荐使用后者,可以不用考虑自己写代码关闭文件问题

第二步 需要考虑如何计算每个单词出现的频率,最好的方式是使用字典统计,用字典的关键字存储单词,字典值存储次数

第三步 在统计单词前需要将单词从文件中提取,这里采用正则方式直接提取单词,当然这里比较简单,后续复杂类型可以考虑使用NLP工具包

第四步 对统计好的字典按出现单词频率最高进行排序,也就是使用sorted() 进行逆排序,之后采用列表切片方式获取使用最频繁的单词。

# Program start.
import re
import io

#Define a class to process text and calculate words frequency
class CounterWords():
#Read text file and save the words in dict
def __init__(self,path):
self.word_dict = dict()

with io.open(path,encoding="utf-8") as f:
data = f.read()
words = [single.lower() for single in re.findall("\w+", data)]
for word in words:
self.word_dict[word] = self.word_dict.get(word,0) + 1

#Calculate the top used words frequency
def word_frequency(self,n):
assert n > 0, "n should be large than 0"
word_sort = sorted(self.word_dict.items(), key=lambda item:item[1], reverse=True)
return word_sort[:n]

if __name__ == "__main__":

top_commom_word = CounterWords('news_xinhua.txt').word_frequency(10)
print ("The top used words:")
for word in top_commom_word:
print (word)


Output the top 10 used words:

The top used words:

('the', 23)

('of', 19)

('and', 16)

('cpc', 8)

('central', 6)

('committee', 6)

('a', 6)

('to', 6)

('xi', 5)

('political', 5)

哈哈 “xi” 使用了5次, 此处的"xi"就是习大大,这是一篇关于习大大主持的民主生活会的文章,有5次提到他哦。

本文仅做自己记忆的笔记,希望对新人有所借鉴。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: