2018年10月24日星期三

编码,乱码,如何透彻理解

编码

在python里面,你定义一个字符串的时候,就已经通过编码器,对你输入的字符串进行编码,并且放入内存。

规则1:放入内存里面的字符串,一定经过编码

当使用print 对字符串变量进行打印,必须要对字符串进行解码才能显示。注意这里只是显示,要显示正确,必须用对应的字符集(gbk, gb2312, utf-8, ascii)。如果显示错误(仅是人类感知,计算机不知道情况),就是乱码

规则2:控制台标准输出,浏览器显示区,notepad文字区等,都是需要进行解码后才可以显示的

举例:
在写自动发送邮件过程,包含多次编码解码动作

1. 生成html文件,在python3可以指定编码。
2. 读取的时候,在python2.7需要进行指定解码字符集,
3. 经过bottle模块,模板处理的时候也需要进行解码
4. smtp发送邮件,也需要进行编码
5. 最后foxmail客户端,就是我们的数据展示区,还需要对邮件内容进行解码

那么多个过程涉及编码,所以出现乱码,要冷静分析,看看数据处理的过程,分析出原因


要更深入了解乱码,首先你要能够随时制造编码错误

  
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb5 in position 2: invalid start byte
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb5 in position 2: ordinal not in range(128)

通过下面代码,制造错误
>>> a='as的'
>>> print a
as的
>>> print a.decode('utf-8')
>>> print a.decode('ascii')
>>> print a.decode('gbk')
>>> print a.decode('gb2312')
>>> print a.decode('cp936')
-

2018年10月17日星期三

bash脚本的坑

    你会写python脚本,但是不会写shell脚本,其实只要注意几步,就可以像写python那样简单

0x01 bash脚本第一坑
变量赋值竟然不支持空格。
 
a = "my name" ✘ 这样是不能赋值成功的,并且提示“-bash: a: command not found”
a="name"      ✔

array[0] = "hello"  ✘
array[0]="hello"    ✔

0x02 变量调用需要加$

echo $a
array[0]=$a

0x03 bash脚本第二坑
数组会自动对字符串变量进行分割,这个特性很不好,特别对字符串处理的时候,
这个特性不应该作为自动分割,如果需要使用分割功能, 加上特别的参数,这样设计更合理

output="i am a boy"
这个变量赋值给array的时候会进行分割
array=($output)
最后,变成:
array[0]="i"
array[1]="am"
array[2]="a"
array[3]="boy"

要使"i am a boy"存入array后保持完整,可以用下面的方法:
array[0]=$output
array=([0]=$output)


0x04 jq调试工具
--raw-input-R
不要将输入解析为JSON。相反,每行文本都作为字符串传递给过滤器。如果与之结合使用--slurp,则整个输入将作为单个长字符串传递给过滤器。

--raw-output-r: 解析后的字符串去引号
使用此选项,如果过滤器的结果是字符串,则它将直接写入标准输出,而不是格式化为带引号的JSON字符串。这对于使jq过滤器与非基于JSON的系统进行通信非常有用。
0x05 curl只输出json数据
这样会输出http头部信息
curl -i -H "Content-Type: application/json" -X POST http://127.0.0.1/api/add

只输出http body的json数据
curl -s -H "Content-Type: application/json" -X POST http://127.0.0.1/api/add


参考链接:
1. BASH 数组用法小结