从xlrd到csv,提取中国所有大学名称
2017-09-25 15:22
323 查看
最近一直在做一个web项目,后端使用的是Flask框架,然后需要用到中国所有大学的名称和代号,本来想使用爬虫来获取,但在百度的时候发现了教育部公布出来的中国所有大学名单,这也就不需费劲爬了。
2017全国高等学校名单:
http://www.moe.edu.cn/srcsite/A03/moe_634/201706/t20170614_306900.html
把名单下载下来,一看是这样的:
其实我只需要红线框里的内容,但Excel玩的还不如Python呢,所以决定用Python把这些内容提取出来。
步骤:
1 使用xlrd读取Excel文件
2 提取出需要的内容
3 使用把信息写入csv
结果:
参考:
xlrd的用法:
http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html
csv的用法:
http://blog.csdn.net/u012162613/article/details/41915859
2017全国高等学校名单:
http://www.moe.edu.cn/srcsite/A03/moe_634/201706/t20170614_306900.html
把名单下载下来,一看是这样的:
其实我只需要红线框里的内容,但Excel玩的还不如Python呢,所以决定用Python把这些内容提取出来。
步骤:
1 使用xlrd读取Excel文件
import xlrd,csv
data = xlrd.open_workbook('W020170616379651135432.xls') #打开下载下来的xls文件
2 提取出需要的内容
table = data.sheets()[0] #table是第一张工作簿 school_names = table.col_values(1) #大学名称列 school_codes = table.col_values(2) #大学标识号列
school_info = [] for i in range(table.nrows): if school_names[i] == '': #部分行被合并了单元格,会显示为空 continue else: school_info.append([school_names[i],school_codes[i]])
len(school_info) #第一行是标题,后面的2631行就是我们需要的信息了。 #这和教育部公布的数字无误,可以在刚刚的链接里看到的。
2632
3 使用把信息写入csv
with open('university_info.csv','w') as file: newWriter=csv.writer(file) newWriter.writerows(school_info)
结果:
参考:
xlrd的用法:
http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html
csv的用法:
http://blog.csdn.net/u012162613/article/details/41915859
相关文章推荐
- 快速提取某一文件夹下所有文件名称
- 有提供所有大学名称的api吗
- 巧用Excel批量提取文件夹中所有文件名称
- 巧用Excel批量提取文件夹中所有文件名称
- window提取一个文件夹内所有文件的名称
- 提取中国城市精确经纬度查询网站所有城市的经纬度信息(原创)
- Python爬取中国票房网所有电影片名和演员名字,爬取齐鲁网大陆所有电视剧名称
- CMD批处理所有子文件夹中的文件按子文件夹名称命名并提取到一个文件夹中
- CMD批处理所有子文件夹中的文件按子文件夹名称命名并提取到一个文件夹中
- 给你一个文件,名称为A.cs,你怎么提取这个文件中的所有静态变量?
- 如何循环遍历winForm中所有窗体的名称,所有活动的窗体
- 不知道属性名称,动态遍历json中的所有键值对
- 如何在oracle中查询所有用户表的表名、主键名称、索引、外键等
- 台湾一校长震动所有中国人的演讲
- ES Java API - 获取所有索引名称
- 我为中国的大学感到羞耻!一名大学教师的沉重思考
- 使用OleDb读取Excel所有的Table并用Sheet名称作为表名称
- 取自动化Com组件所有的方法、属性名称
- Android中如何提取HTML源码内的所有文字内容
- 自己写代码生成器之生成Model层(获取数据库所有表名称)