快捷搜索:

Python读写docx文件的不二等秘书籍,Word的实例批注

作者: w88官方网站手机版  发布:2019-06-08

使用python工具读写MS Word文件(docx与doc文件),主要利用了python-docx包。本文给出一些常用的操作,并产生一个样例,帮衬大家快速入手。

Python读写word文书档案有现有的库能够管理。笔者这里运用 python-docx。能够用pip install python-docx安装一下。

读取docx文档

安装

此间说一句,ppt和excel也是有像样的库哦,而且是平素读取文件之中的xml数据。所以doc格式得另找其余库管理,doc格式不是依据xml的。

应用的包是python-docx

pyhton管理docx文件供给运用python-docx 包,能够行使pip工具很便宜的装置,pip工具在python安装路线下的Scripts文件夹中

协助文档:http://python-docx.readthedocs.org/en/latest/

  1. 安装python-docx包
pip install python-docx

一、新建或张开文件。这一个相比轻巧用docx的Document类,若内定路径则是张开文书档案;若没有一点名路径则是新建文书档案

sudo pip install python-docx 

当然你也足以选取采纳easy_install恐怕手动方式展开设置

#coding:utf-8
import docx

#新建文档
doc_new = docx.Document()

#读取文档
doc = docx.Document(ur'C:1.docx')
  1. 运用python-docx包读取数据

写入文件内容

二、保存文件。有开发,就有保存。用Document类的save方法,在那之中参数是保留的公文路线,恐怕要保留的文件流。一般钦赐路径就可以。

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = 'n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText) 

此间大家一贯提交二个样例,依据自身的供给选拔有用的剧情

doc.save(path_or_stream)

python-docx那些包是不能够管理doc文书档案的,要读取doc文书档案内容的话须要采纳antiword这么些工具。

#coding=utf-8
from docx import Document
from docx.shared import Pt
from docx.shared import Inches
from docx.oxml.ns import qn
#打开文档
document = Document()
#加入不同等级的标题
document.add_heading(u'MS WORD写入测试',0)
document.add_heading(u'一级标题',1)
document.add_heading(u'二级标题',2)
#添加文本
paragraph = document.add_paragraph(u'我们在做文本测试!')
#设置字号
run = paragraph.add_run(u'设置字号、')
run.font.size = Pt(24)
#设置字体
run = paragraph.add_run('Set Font,')
run.font.name = 'Consolas'
#设置中文字体
run = paragraph.add_run(u'设置中文字体、')
run.font.name=u'宋体'
r = run._element
r.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
#设置斜体
run = paragraph.add_run(u'斜体、')
run.italic = True
#设置粗体
run = paragraph.add_run(u'粗体').bold = True
#增加引用
document.add_paragraph('Intense quote', style='Intense Quote')
#增加无序列表
document.add_paragraph(
 u'无序列表元素1', style='List Bullet'
)
document.add_paragraph(
 u'无序列表元素2', style='List Bullet'
)
#增加有序列表
document.add_paragraph(
 u'有序列表元素1', style='List Number'
)
document.add_paragraph(
 u'有序列表元素2', style='List Number'
)
#增加图像(此处用到图像image.bmp,请自行添加脚本所在目录中)
document.add_picture('image.bmp', width=Inches(1.25))
#增加表格
table = document.add_table(rows=1, cols=3)
hdr_cells = table.rows[0].cells
hdr_cells[0].text = 'Name'
hdr_cells[1].text = 'Id'
hdr_cells[2].text = 'Desc'
#再增加3行表格元素
for i in xrange(3):
 row_cells = table.add_row().cells
 row_cells[0].text = 'test' str(i)
 row_cells[1].text = str(i)
 row_cells[2].text = 'desc' str(i)
#增加分页
document.add_page_break()
#保存文件
document.save(u'测试.docx')

三、对象会集。python-docx蕴含了word文书档案的有关对象集结。

读取doc文档

该段代码生成的文书档案样式如下

doc.paragraphs #段落集合
doc.tables #表格集合
doc.sections #节 集合
doc.styles #样式集合
doc.inline_shapes #内置图形 等等...
  1. 到网站下载antiword。

  2. 下载完结之后解压,在解压得到的文本夹中各类运转make和make install命令。

  3. 使用antiword读取doc文书档案内容

图片 1

四、插入段落。段落是word最大旨的靶子之1。

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output) 

注:有1个难题没找到什么样减轻,即什么为表格设置边框线。借让你掌握,还请可以指教。

doc.add_paragraph(u'第一段',style=None) #插入一个段落,文本为“第一段”
#默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式
doc.add_paragraph(u'第二段',style='Heading 2')

#这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式
print [s.name for s in doc.styles if s.type==1]

如上那篇Ubuntu下使用python读取doc和docx文书档案的源委措施正是小编分享给大家的全体内容了,希望能给大家贰个参阅,也冀望大家多多匡助脚本之家。

读取文件内容

五、新扩充样式。那么些协助文书档案里面说得不细致,而且依旧英文的。笔者手头上的品种用到那个,就自身雕刻出怎么利用,如下。

你或然感兴趣的篇章:

  • Python使用win3二com模块落成数量库表结构自动生成word表格的不二等秘书诀
  • 使用Python通过win32 COM实现Word文书档案的写入与封存方法
  • Python读取钦点目录下钦定后缀文件并保存为docx
  • Python读写docx文件的章程
  • python docx 中文字体设置的操作方法
  • Python读取Word(.docx)正文消息的格局
  • python3如何将docx转换成pdf文件
  • python-docx修改已存在的Word文书档案的报表的字体格式方法
  • Python操作word常见方法言传身教【win3二com与docx模块】
#coding=utf-8
from docx import Document
#打开文档
document = Document(u'测试.docx')
#读取每段资料
l = [ paragraph.text.encode('gb2312') for paragraph in document.paragraphs];
#输出并观察结果,也可以通过其他手段处理文本即可
for i in l:
 print i
#读取表格材料,并输出结果
tables = [table for table in document.tables];
for table in tables:
 for row in table.rows:
  for cell in row.cells:
   print cell.text.encode('gb2312'),'t',
  print
 print 'n'
#coding:utf-8
from docx import Document
from docx.shared import RGBColor #这个是docx的颜色类

#新建文档
doc = Document()

#新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)
style = doc.styles.add_style('style name 1', 2)

#设置具体样式(修改样式字体为蓝色,当然还可以修改其他的,大家自己尝试)
style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)

我们还是采纳刚才我们转移的公文,能够看出,输出的结果为

陆、应用字符样式。字符自然是在段落里面包车型地铁,可以使用上边方法给段落追加文字和装置字符样式。

图片 2

#插入一个空白段落
p = doc.add_paragraph('')
p.add_run('123', style="Heading 1 Char")
p.add_run('456')
p.add_run('789', style="Heading 2 Char")

#这样一个段落就应用了两个字符样式,中间“456”就没应用样式
print p.text #输出结果是u'123456789' 也还是连续的

注意:那边大家采用gb231二编码形式读取,首若是确定保障中文的读写准确。一般情况下,使用的utf-捌编码格局。此外,python-docx重要管理docx文件,在加载doc文件时,会出现难点,倘若有大气doc文件,提议先将doc文件批量转变为docx文件,举例使用工具doc2doc

七、设置字体。当然能够毫不经过设置样式对少数字展开安装,也得以直接设置。

上述那篇用python管理MS Word的实例讲授就是小编分享给我们的全部内容了,希望能给大家三个参照,也冀望大家多多支持脚本之家。

p = doc.add_paragraph('')
r = p.add_run('123')
r.font.bold = True #加粗
r.font.italic = True #倾斜 等等...

您恐怕感兴趣的稿子:

  • python实现在windows下操作word的方法
  • Python读取word文本操作详解
  • Python操作Word批量生成小说的格局
  • Python读取Word(.docx)正文消息的法子
  • Python完成批量读取word中表格新闻的点子

捌、表格操作。表格也是时常应用的1种对象类型。

#新建一个2x3的表格,style可以不写
table=doc.add_table(rows=2,cols=3,style=None)

#可以用table 的rows和columns得到这个表格的行数和列数
print len(table.rows)
print len(table.columns)

#遍历表格
for row in table.rows:
 row.cells[0].text = '1'
 #print row.cells[0].text

#新增行或列
table.add_row()
table.add_column()

Word常见操作大概正是那些。我们能够查看帮忙文书档案,也能够用dir和help查看对象的法子属性和援救。

如上这篇Python读写docx文件的法门正是小编分享给大家的全体内容了,希望能给大家1个参照,也冀望我们多多支持脚本之家。

你只怕感兴趣的篇章:

  • Python使用win3二com模块完结多少库表结构自动生成word表格的办法
  • 利用Python通过win32 COM达成Word文书档案的写入与保留方法
  • Python读取钦点目录下钦赐后缀文件并保存为docx
  • python docx 普通话字体设置的操作方法
  • Python读取Word(.docx)正文音讯的办法
  • python3如何将docx转换成pdf文件
  • Ubuntu下使用python读取doc和docx文书档案的内容措施
  • python-docx修改已存在的Word文书档案的报表的书体格式方法
  • Python操作word常见方法言传身教【win3二com与docx模块】

本文由www.w88985.com发布于w88官方网站手机版,转载请注明出处:Python读写docx文件的不二等秘书籍,Word的实例批注

关键词: www.w88985.c

上一篇:ashx文件贯彻分页思路,完毕分页
下一篇:没有了