python 把一个文本文件中的语句分词, 并去重,然后写入一个CSV文件后,你可以排序
2018-02-28 09:15
579 查看
#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("gbk")
#import time
import os,sys,re
import numpy as np
#from math import isnan
import pandas as pd
import jieba
import jieba.analyse
#import xlrd
#import xlwt
import codecs
#不要选择太普通的词, 否则文件太大。
#jieba 所有词
#带分页的文章
#strzk3="""网络的资源占用情况"""
#listzk1=list(jieba.cut(strzk3))
##读取文本文件内容到内存
file = codecs.open("频率重耕.txt", 'r')
content = file.read()
file.close()
segments = []
##对内存中的字符串进行分词
listzk1 = list(jieba.cut(content))
##取中英文字符超过2个的词存入数组segments
#for seg in segs:
# if len(seg) > 1:
# segments.append(seg)
listzk = []
the_set = set()
for level in listzk1:
if level not in the_set:
the_set.add(level)
listzk.append(level)
df = pd.DataFrame(listzk,columns=['word'])
df2=df.sort_values(by=['word'],ascending=False) #这个排序结果不是按照中文拼音排序的
df2.to_csv('test.csv', sep=',',header=False,index=False) #打开文件后,再按中文拼音排序
import sys
reload(sys)
sys.setdefaultencoding("gbk")
#import time
import os,sys,re
import numpy as np
#from math import isnan
import pandas as pd
import jieba
import jieba.analyse
#import xlrd
#import xlwt
import codecs
#不要选择太普通的词, 否则文件太大。
#jieba 所有词
#带分页的文章
#strzk3="""网络的资源占用情况"""
#listzk1=list(jieba.cut(strzk3))
##读取文本文件内容到内存
file = codecs.open("频率重耕.txt", 'r')
content = file.read()
file.close()
segments = []
##对内存中的字符串进行分词
listzk1 = list(jieba.cut(content))
##取中英文字符超过2个的词存入数组segments
#for seg in segs:
# if len(seg) > 1:
# segments.append(seg)
listzk = []
the_set = set()
for level in listzk1:
if level not in the_set:
the_set.add(level)
listzk.append(level)
df = pd.DataFrame(listzk,columns=['word'])
df2=df.sort_values(by=['word'],ascending=False) #这个排序结果不是按照中文拼音排序的
df2.to_csv('test.csv', sep=',',header=False,index=False) #打开文件后,再按中文拼音排序
相关文章推荐
- 读取一个文件,然后排序,再写入另一个文件
- python读取CSV文件以及“写入CSV致文件每一行后面会多一个空行”问题解决
- 一个python小程序,从文本文件中读取每行的两组数字,进行排序后输出.
- python csv文件写入
- QT读取xml文件,然后写入另外一个新的xml文件
- Python:一个类,读取邮件文件,然后返回其指定的部分,例如Subject, Date, Body, attachementsname or attachement.
- python 中将一个函数的输出写入到文件中
- 怎么将一个整个文件一次读到内存,然后循环从内存中读取1024字节,写入新的文件(或socket发送出去)
- 一个python的邮件发送脚本,自动,定时,可以附件发送,抄送,附有说明文件
- 关于自己写数据写入文件,排序,然后结果输出到文件中,关于排序还没有加进去,用自带的排序
- 读出一个文本文件,并在前面加上行号后,写入到另一个文件的简单例子
- 遍历文件下的所有文本文件,然后合并到一个文件
- 代码第二版,可以写入txt文件,csv文件
- XmlTextWriter类可以把XML写入一个流、文件或TextWriter对象中
- 将文本文件中的数据读取到一个二维数组中,求出这些数据的中位数,然后求所有数据与中位数的差值的绝对值和,并求出和的最小值,最后把程序运行的结果写到一个txt文件中
- 从一个名为 in_file.txt 的文本文件中读取单词,然后把每个词写到一个名为out_file.txt的输出文件中 并且每个词之间用空格分开
- 一条数据更新的语句,如何将排序的序号写入本表中的一个字段中
- [Jmeter]通过批处理调用java,java从CSV动态读取登录的用户名和密码,并将其作为参数组合成字符串,写入外部.bat文件,然后通过Java执行这个外部批处理文件
- C语言文件的读写操作,每次读取1K,然后写入另外一个文件