导语:
本文主要介绍了关于python怎么识别文件格式的相关知识,希望可以帮到处于编程学习途中的小伙伴
Python通过第三方库chardet以字节为单位读取字节流对象,然后通过detect函数进行识别,获取文件格式。
"""
自动识别 文本编码格式
"""
import chardet
def detectCode(path):
with open(path, 'rb') as file:
data = file.read(20000)
dicts = chardet.detect(data)
return dicts["encoding"]
def print_data_1(path):
"""
这种编码通过命令行 file -i 文件名获取编码格式,
通过测试,使用file 命令获取的编码格式不能获取正确的编码数据
:param path:
:return:
"""
with open(path, "r", encoding="iso-8859-1") as f:
i = 0
for line in f:
print(line)
i += 1
if i == 5:
break
f.close()
def print_data_2(path):
print("-------------------------------")
with open(path, "r", encoding="{0}".format(detectCode(path))) as f:
i = 0
for line in f:
b_line = line.encode("utf-8") # 将文件内容转化为utf-8格式
print(chardet.detect(b_line)['encoding']) # 输出转化为内容格式
i += 1
if i == 5:
break
f.close()
if __name__ == '__main__':
path = "test.txt"
print(detectCode(path))
# print_data_1(path)
print_data_2(path)
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ python字典中OrderedDict的实现11/25
- ♥ 如何使用python代码运行助手09/28
- ♥ python字符串中有哪些方法09/15
- ♥ python中的布尔值是什么08/19
- ♥ python3 os如何返回当前目录?12/03
- ♥ python中获取路径的三种方法09/10
内容反馈