标签:span 资源管理 out tor 解释 ges you params converter
python读取txt
# coding=utf-8 import requests # 爬虫规则 url = "https://en.wikipedia.org/robots.txt" # 读取网络资源 res = requests.get(url).text # 打印 print(res)
读取pdf
# coding=utf-8 from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.layout import LAParams from pdfminer.converter import PDFPageAggregator import requests # pip install pdfminer3k # 获取文档对象,示例pdf在 https://pypi.org/project/pdfminer3k/1.0.1/#files 下载后的文件夹中 pdfminer3k-master\samples\nonfree fp = open("naacl06-shinyama.pdf", "rb") # print(type(fp)) # 创建一个与文档关联的解释器 parser = PDFParser(fp) # PDF 文档的对象 doc = PDFDocument() # 连接解释器与文档对象 parser.set_document(doc) doc.set_parser(parser) # 初始化文档 doc.initialize("") # 创建PDF资源管理器 resource = PDFResourceManager() # 参数分析器 laparam = LAParams() # 创建一个聚合器 device = PDFPageAggregator(resource, laparams = laparam) # 页面解释器 interpreter = PDFPageInterpreter(resource, device) # 使用文档对象得到页面的集合 for page in doc.get_pages(): # 使用页面解释器来读取 interpreter.process_page(page) # 使用聚合器获得内容 layout = device.get_result() for out in layout: if hasattr(out, "get_text"): print(out.get_text())
标签:span 资源管理 out tor 解释 ges you params converter
原文地址:https://www.cnblogs.com/reblue520/p/11230573.html