您的位置：首页 > 编程语言 > Python开发

Python 数据分析第一期——简单的提取数据集文件并生成想要的结果

2020-03-05 05:31 369 查看

Python 数据分析第一期

一. 工作环境准备及数据分析建模理论基础

1.使用Python环境

主要包括：

anconda环境

python的IDE–Pycharm

2.数据分析思路过程

3.Anaconda

Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。

Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等

Miniconda包括Conda、Python

conda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换

4.案例代码

本项目代码为“科技工作者的心理健康数据分析”，其中数据集可从

https://www.kaggle.com/osmi/mental-health-in-tech-survey

如下地址获取。此过程原理为简单的从csv里取出数据，然后进行请理之后在分析完成生成另一个csv文件。

# -*- coding: utf-8 -*-"""项目名称：科技工作者心理健康数据分析 (Mental Health in Tech Survey)"""import csv# 数据集路径data_path = './survey.csv'    #数据集存放目录def run_main():"""主函数"""male_set = {'male', 'm'}  # “男性”可能的取值female_set = {'female', 'f'}  # “女性”可能的取值# 构造统计结果的数据结构 result_dict# 其中每个元素是键值对，“键”是国家名称，“值”是列表结构，# 列表的第一个数为该国家女性统计数据，第二个数为该国家男性统计数据# 如 {'United States': [20, 50], 'Canada': [30, 40]}# 思考：这里的“值”为什么用列表(list)而不用元组(tuple)result_dict = {}        #字典with open(data_path, 'r', newline='') as csvfile:# 加载数据rows = csv.reader(csvfile)for i, row in enumerate(rows):if i == 0:# 跳过第一行表头数据continueif i % 50 == 0:print('正在处理第{}行数据...'.format(i))# 性别数据gender_val = row[2]country_val = row[3]# 去掉可能存在的空格gender_val = gender_val.replace(' ', '')# 转换为小写gender_val = gender_val.lower()# 判断“国家”是否已经存在if country_val not in result_dict:# 如果不存在，初始化数据result_dict[country_val] = [0, 0]# 判断性别if gender_val in female_set:# 女性result_dict[country_val][0] += 1elif gender_val in male_set:# 男性result_dict[country_val][1] += 1else:# 噪声数据，不做处理pass# 将结果写入文件with open('gender_country.csv', 'w', newline='', encoding='utf-16') as csvfile:csvwriter = csv.writer(csvfile, delimiter=',')# 写入表头csvwriter.writerow(['国家', '男性', '女性'])# 写入统计结果for k, v in list(result_dict.items()):csvwriter.writerow([k, v[0], v[1]])if __name__ == '__main__':run_main()

点赞
收藏
分享
文章举报

从defeat发布了9 篇原创文章 · 获赞 0 · 访问量 206私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航