Python 数据分析第一期——简单的提取数据集文件并生成想要的结果
2020-03-05 05:31
369 查看
Python 数据分析第一期
一. 工作环境准备及数据分析建模理论基础
1.使用Python环境
主要包括:
anconda环境
python的IDE–Pycharm
2.数据分析思路过程
3.Anaconda
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。
Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等
Miniconda包括Conda、Python
conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换
4.案例代码
本项目代码为“科技工作者的心理健康数据分析”,其中数据集可从
https://www.kaggle.com/osmi/mental-health-in-tech-survey
如下地址获取。此过程原理为简单的从csv里取出数据,然后进行请理之后在分析完成生成另一个csv文件。
# -*- coding: utf-8 -*-"""项目名称:科技工作者心理健康数据分析 (Mental Health in Tech Survey)"""import csv# 数据集路径data_path = './survey.csv' #数据集存放目录def run_main():"""主函数"""male_set = {'male', 'm'} # “男性”可能的取值female_set = {'female', 'f'} # “女性”可能的取值# 构造统计结果的数据结构 result_dict# 其中每个元素是键值对,“键”是国家名称,“值”是列表结构,# 列表的第一个数为该国家女性统计数据,第二个数为该国家男性统计数据# 如 {'United States': [20, 50], 'Canada': [30, 40]}# 思考:这里的“值”为什么用列表(list)而不用元组(tuple)result_dict = {} #字典with open(data_path, 'r', newline='') as csvfile:# 加载数据rows = csv.reader(csvfile)for i, row in enumerate(rows):if i == 0:# 跳过第一行表头数据continueif i % 50 == 0:print('正在处理第{}行数据...'.format(i))# 性别数据gender_val = row[2]country_val = row[3]# 去掉可能存在的空格gender_val = gender_val.replace(' ', '')# 转换为小写gender_val = gender_val.lower()# 判断“国家”是否已经存在if country_val not in result_dict:# 如果不存在,初始化数据result_dict[country_val] = [0, 0]# 判断性别if gender_val in female_set:# 女性result_dict[country_val][0] += 1elif gender_val in male_set:# 男性result_dict[country_val][1] += 1else:# 噪声数据,不做处理pass# 将结果写入文件with open('gender_country.csv', 'w', newline='', encoding='utf-16') as csvfile:csvwriter = csv.writer(csvfile, delimiter=',')# 写入表头csvwriter.writerow(['国家', '男性', '女性'])# 写入统计结果for k, v in list(result_dict.items()):csvwriter.writerow([k, v[0], v[1]])if __name__ == '__main__':run_main()
- 点赞
- 收藏
- 分享
- 文章举报
![](https://g.csdnimg.cn/static/user-reg-year/1x/3.png)
相关文章推荐
- 利用Python进行数据分析——第二章 引言(2):利用pandas对babynames数据集进行简单处理
- python数据分析——安装numpy,生成正态分布并简单分析
- Java: 分析一个简单的配置文件并利用分析结果生成HTML文档
- Python使用requests和json一步步爬取豆瓣电影并提取自己想要的信息生成文件
- 用python编写脚本从wireshark导出的数据文件中提取数据
- 从NetCDF数据集格式的数据文件中提取数据
- Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化
- python 抓取腾讯微博数据并做简单的分析
- python学习-文本数据分析1(主题提取+词向量化)
- python数据挖掘数据分析pandas的介绍及简单例子
- Spark RDD算子/SparkSQL分别实现对电影数据集的简单数据分析
- leveldb研究2- 存储分析,数据库日志文件格式,数据文件的格式和生成
- 【Python数据分析】简单爬虫 爬取知乎神回复
- python实现人人网用户数据爬取及简单分析
- 利用python进行数据分析-数据加载、存储与文件格式2
- 利用python做数据分析(五)-读取合并多个文件
- 数据加载、存储与文件格式 利用Python进行数据分析 第6章
- python数据分析——matplotlib生成折线图,散点图和直方图
- Python读excel生成数据存入txt文件
- 将大量有规律txt文本数据转换成xml格式,在导入excel,生成excel文件,在导入spass中,对数据进行分析