导语:
本文主要介绍了关于解析表格数据,Python与Tika对比的相关知识,包括matlab和minitab,以及excel比对两列数据差异这些编程知识,希望对大家有参考作用。
为了证明Python在解析表格数据方面确实优于其他选项,今天我们就为大家举例对比,如下:
PDF文件表格样例
Python解析结果
其他样式解析,如Tika
1、TEXT格式
<p><span> Tika tika = new Tika();<br/> tika.setMaxStringLength(100 * 1024 * 1024);<br/> try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br/> return tika.parseToString(stream);<br/> }<br/></span></p>
Text格式解析结果
2、XHTML格式
<p><span> ContentHandler handler = new ToXMLContentHandler();<br/> AutoDetectParser parser = new AutoDetectParser();<br/> Metadata metadata = new Metadata();<br/> try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br/> parser.parse(stream, handler, metadata);<br/> return handler.toString();<br/> }<br/></span></p>
XHTML格式解析结果
解析 PDF 的常用组件(PdfBox、iText、Tika 等)无法将表格数据解析为常规格式。解析后格式基本都是TEXT、XHTML等,这使得处理表格数据非常复杂。
根据对比我们可以发现,用
Python解析PDF
的表格数据更为简单方便,下期我们就为大家带来
Python解析PDF
具体的方法。更多Python学习推荐:
。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ python PyQt 将小部件添加到工具栏12/10
- ♥ python存储的是什么文件类型11/21
- ♥ python中函数的作用09/12
- ♥ python3 os如何实现多个程序的运行?12/04
- ♥ 在python中导入类的不同方法10/14
- ♥ python中静态字符串的编码11/30
内容反馈