知行编程网知行编程网  2022-11-19 15:00 知行编程网 隐藏边栏  76 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于python比较两个目录的文件是否相同的相关知识,希望可以帮到处于编程学习途中的小伙伴

python比较两个目录中的文件是否相同

有时候我们想比较两个配置文件是否相同,或者两个文本是否不同,可以使用linux命令行工具diff a_file b_file,但是输出结果不是很友好阅读。这时候使用python的标准库difflib就可以满足我们的需求了。

以下脚本使用 difflib 和 argparse。 argparse用于解析我们传入这个脚本的两个参数(即要比较的两个文件),difflib进行比较。比较结果放在html中。只要找到一个浏览器打开这个html文件,就可以直观的看到对比结果,两个文件的不同之处会高亮显示。

以python2.7为例,compare_two_files.py程序正文:

#!/bin/env python
# -*- coding: utf-8 -*-
import difflib
import sys
import argparse
# 读取建表语句或配置文件
def read_file(file_name):
    try:
        file_desc = open(file_name, 'r')
        # 读取后按行分割
        text = file_desc.read().splitlines()
        file_desc.close()
        return text
    except IOError as error:
        print 'Read input file Error: {0}'.format(error)
        sys.exit()
# 比较两个文件并把结果生成一份html文本
def compare_file(file1, file2):
    if file1 == "" or file2 == "":
        print '文件路径不能为空:第一个文件的路径:{0}, 第二个文件的路径:{1} .'.format(file1, file2)
        sys.exit()
    else:
        print "正在比较文件{0} 和 {1}".format(file1, file2)
    text1_lines = read_file(file1)
    text2_lines = read_file(file2)
    diff = difflib.HtmlDiff()    # 创建HtmlDiff 对象
    result = diff.make_file(text1_lines, text2_lines)  # 通过make_file 方法输出 html 格式的对比结果
    # 将结果写入到result_comparation.html文件中
    try:
        with open('result_comparation.html', 'w') as result_file:
            result_file.write(result)
            print "0==}==========> Successfully Finished\n"
    except IOError as error:
        print '写入html文件错误:{0}'.format(error)
if __name__ == "__main__":
    # To define two arguments should be passed in, and usage: -f1 fname1 -f2 fname2
    my_parser = argparse.ArgumentParser(description="传入两个文件参数")
    my_parser.add_argument('-f1', action='store', dest='fname1', required=True)
    my_parser.add_argument('-f2', action='store', dest='fname2', required=True)
    # retrieve all input arguments
    given_args = my_parser.parse_args()
    file1 = given_args.fname1
    file2 = given_args.fname2
    compare_file(file1, file2)


【待比较的文件】

两份文件分别是old_ddl_file和new_ddl_file,内容分别是:

old_ddl_file文件内容

CREATE EXTERNAL TABLE raw_tags(
p0 string COMMENT ‘uid’,
p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL’,
p4 string COMMENT ‘e.g. 0, Games’,
p11 int COMMENT ‘gender’,
dt string COMMENT ‘date, like 26/6/2017’,
action string COMMENT ‘clickmodule, click_taghead_link, clicklink’)
CLUSTERED BY (
dt)
INTO 4 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘,’
STORED AS INPUTFORMAT
‘org.apache.hadoop.mapred.TextInputFormat’
OUTPUTFORMAT
‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’
LOCATION
‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags’
TBLPROPERTIES (
‘numFiles’=’1’,
‘numRows’=’0’,
‘rawDataSize’=’0’,
‘totalSize’=’70575510’,
‘transient_lastDdlTime’=’1500469448’)

new_ddl_file文件内容

CREATE EXTERNAL TABLE raw_tags(
p0 string COMMENT ‘uid’,
p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL’,
p4 string COMMENT ‘e.g. 0, Games’,
p11 int COMMENT ‘gender’,
dt string COMMENT ‘date, like 26/6/2017’,
action string COMMENT ‘clickmodule, click_taghead_link, clicklink’)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘,’
STORED AS INPUTFORMAT
‘org.apache.hadoop.mapred.TextInputFormat’
OUTPUTFORMAT
‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’
LOCATION
‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags’
TBLPROPERTIES (
‘COLUMN_STATS_ACCURATE’=’{\”BASIC_STATS\”:\”true\”}’,
‘numFiles’=’0’,
‘numRows’=’0’,
‘rawDataSize’=’0’,
‘totalSize’=’0’,
‘transient_lastDdlTime’=’1521546069’)

肉眼很难看出来区别吧?


【执行结果】

然后用上面的脚本对比一下,linux命令行python -f1 file1 -f2 file2的使用方法是:

python compare_two_files.py -f1 old_ddl_file -f2 new_ddl_file

python比较两个目录中的文件是否相同

然后将运行结果生成的html文件下载到本地,用任意浏览器打开,如截图所示:

python比较两个目录中的文件是否相同

运行结果:

python比较两个目录中的文件是否相同

使用浏览器查看html文件,可以看到有各种颜色标签的图例,一目了然。

众多
,尽在python学习网,欢迎在线学习!

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享