您的位置：首页 > 编程语言 > Python开发

（软著源代码编写）python提取多级目录下的.java文件，并将其内容保存到word

2019-07-01 22:36 801 查看

一个小需求：

在申请软件著作权的时候，需要提交一页50行，总共60页的源代码。但是设计的项目保存在多级的目录下，不想一个一个复制，遂通过python ，os模块获得全部目录的文件，然后基于docx模块写入到word中。涉及的模块有 os, docx, re

分为2 个大的步骤：

1. 先将一个文件夹下的所有文件夹的 .java 文件路径保存到一个列表中
2. 依次读取列表的路径，将 .java 文件内容保存到word 中

[code]#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
__title__ = ''
__author__ = 'mike_jun'
__mtime__ = '2019-7-1'
#目的： 1. 先将一个文件夹下的所有文件夹的 .java 文件路径保存到一个列表中
2. 依次读取列表的路径， 将 .java 文件内容保存到word 中
"""
import os
from docx import Document
from docx.oxml.ns import qn
from docx.shared import Pt
import re
from docx.shared import Length

fileList = [] # 使用全局列表保存文件路径
def getAllFile(path, fileList):  # 使用递归方法
dirList = []  # 保存文件夹
files = os.listdir(path) # 返回一个列表，其中包含文件 和 文件夹
for f in files:
if (os.path.isdir(path + '/' + f)):
dirList.append(path + '/' + f)    #  将文件夹 名字 进行保存

if (os.path.isfile(path + '/' + f)):
fileList.append(path + '/' + f) # 将文件名 保存

for dir in dirList: #如果文件夹为空时，递归自动退出
getAllFile(dir, fileList) # 递归保存到将.java 文件保存到 fileList 中

getAllFile( r'E:\src\main\java\com\gdut', fileList)
print('文件数量为： ',len(fileList))

def getJavaFile(fileList):
for file in fileList:
if not file.endswith('.java'): # 删除不是 .java 文件的格式
fileList.remove(file)
print('文件数量为： ',len(fileList))
getJavaFile(fileList)
print(os.path.isfile(fileList[0])) # 判断第一个值是否是文件

def saveDocFile():
# SINGLE         =>  单倍行距（默认）
# ONE_POINT_FIVE =>  1.5倍行距
# DOUBLE2        =>  倍行距
# AT_LEAST       =>  最小值
# EXACTLY        =>  固定值
# MULTIPLE       =>  多倍行距
doc = Document()
from docx.enum.text import WD_LINE_SPACING
p = doc.add_paragraph('') #增加一页
doc.styles['Normal'].font.name = 'Times New Roman'  # 正文是normal， 设置正文的字体格式
doc.styles['Normal'].font.size = Pt(8) #  设置字体的大小为 5 号字体
p.line_spacing_rule = WD_LINE_SPACING.EXACTLY  # 固定值
paragraph_format = doc.styles['Normal'].paragraph_format
paragraph_format.line_spacing = Pt(12.9)  # 固定值12,9磅, 保证每页有50行代码
save_file = r'E:\text.doc'
codeNum = 0
for i, f in enumerate(fileList):
print('starting deal %d'%i)
with open(f, encoding='UTF-8') as file:  # 转换编码以实现正确输出中文格式
for line in file.readlines():

if line == '\n':  # 删除空行
continue
if re.match(r'^\s+$', line):  # 使用正则表达式删除全是空格的空行
continue
if line.__contains__(r'/*') or \
line.__contains__(r' *'):   # 删除注释
continue
if line.__contains__(r'//'): # 删除包含 // 的注释, 严格意义上应该使用正则表达式进行删除
continue
p.add_run(line)
codeNum += 1 # 记录是已经写入的数据
if codeNum == 3050:  # 保证打印出不大大超过与 60 页
doc.save(save_file)
return
doc.save(save_file)  # 不足60 页进行保存
print('all done')

saveDocFile()
print('all done')

还有缺点就是：页眉，页码，标题页没有做，手动做也是可以的，呵呵。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航