知行编程网知行编程网  2022-11-28 11:30 知行编程网 隐藏边栏  17 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于解析表格数据,Python与Tika对比的相关知识,包括matlab和minitab,以及excel比对两列数据差异这些编程知识,希望对大家有参考作用。

为了证明Python在解析表格数据方面确实优于其他选项,今天我们就为大家举例对比,如下:



PDF文件表格样例



解析表格数据,Python与Tika的对比



Python解析结果



解析表格数据,Python与Tika的对比



其他样式解析,如Tika



1、TEXT格式

<p><span>  Tika tika = new Tika();<br/>        tika.setMaxStringLength(100 * 1024 * 1024);<br/>        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br/>            return tika.parseToString(stream);<br/>        }<br/></span></p>


Text格式解析结果

解析表格数据,Python与Tika的对比



2、XHTML格式

<p><span>       ContentHandler handler = new ToXMLContentHandler();<br/>        AutoDetectParser parser = new AutoDetectParser();<br/>        Metadata metadata = new Metadata();<br/>        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br/>            parser.parse(stream, handler, metadata);<br/>            return handler.toString();<br/>        }<br/></span></p>


XHTML格式解析结果

解析表格数据,Python与Tika的对比

解析 PDF 的常用组件(PdfBox、iText、Tika 等)无法将表格数据解析为常规格式。解析后格式基本都是TEXT、XHTML等,这使得处理表格数据非常复杂。


根据对比我们可以发现,用

Python解析PDF

的表格数据更为简单方便,下期我们就为大家带来

Python解析PDF

具体的方法。更多Python学习推荐:



本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享