如果处理后的字符串中有中文表示的字符,要想不出错,就得转成unicode编码。具体方法是:
1、decode(),将对方编码的字符串转成unicode编码,如str1.decode('gb2312'),意思是将gb2312编码的字符串str1转成unicode编码;
2、encode(),将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码;
3、unicode(),同decode(),将其他编码的字符串转为unicode编码,如unicode(str3, 'gb2312'),表示将gb2312编码的字符串str3转为unicode编码。
转码的时候首先要了解字符串str的编码是什么,然后解码成unicode,最后再编码成其他编码。
另外,对unicode编码的字符串进行解码时会出错,所以如果不知道编码,首先要判断编码方式是否为unicode,可以使用isinstance(str, unicode)。
不仅是中文,以后处理包含非ascii编码的字符串时,可以按照下面的步骤:
1、确定源字符的编码格式,假设是utf8;
2、使用unicode()或decode()转换成unicode编码,如str1.decode('utf8'),或者unicode(str1, 'utf8');
3、把处理后字符串用encode()编码成指定格式。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何使用python多线程线程锁10/25
- ♥ 如何在 python 中使用 np.delete() 方法?09/11
- ♥ 如何在python中手动输入时间10/12
- ♥ Python必须学习常用的命令行命令11/18
- ♥ 如何在python中输出后不换行11/20
- ♥ python如何输出所有属性12/03
内容反馈