Core Python Notes

开发需要在读 Python 核心编程,一些 Point 记录如下。

********************************************

版本相关

标准版的 Python 是用 C 来实现的,又称为 CPython,其他一些实现如 JPython、IronPython(C#)。

CPython 的一个局限是每个 Python 调用都会产生一个 C 函数调用(栈帧),意味着同时产生的调用是有限的,因此 CPython 难以实现用户级的线程库和复杂递归应用。

Stackless(对 Python 解释器做了修改,是独立分支)的 Python 实现可以突破这个限制,一个 C 栈帧可以拥有任意数量的 Python 栈帧,可以拥有几乎无穷的函数调用和巨大数量的线程。而另一个项目 Greenlets 也支持微线程,它是一个标准的 C 扩展,因此不需要对标准 Python 解释器做任何修改。

pypy 是用 Python 写的 Python 解释器,比 CPython 的执行性能好。建议安装预编译的 pypy 环境(可到 pkgs.org 下载)来编译安装新版 pypy(如果需要新版的话)。编译安装说明在这里,注意要达到要求的系统配置,否则很耗时(配置低要几天时间)。

PEP, Python Enhancement Proposal, 增强提案,是增加进 Python 的特性建议,提供了对新特性的完整描述。在新提案被整合进 Python 之前,需要通过社区、PEP 作者、实现者、Python 创始人(Guido van Rossum) 的一致同意。

Python 标准库提供了 unittest 模块,是一个叫做 PyUnit 的测试框架,需要对一个大系统进行回归测试时很有用。

有用的开发模块pdb 允许设置断点、检查堆栈;logging 用于日志功能;Python 2.5 中引入的 cProfile 提供性能测试。

********************************************

风格 & 设计

PEP20 写的是 Python 之禅 Pythonic。

典型模块的内部结构

# 1. Unix 起始行
# 2. 模块文档
# 3. 模块导入 (函数内部的 import 仅在该函数被执行时执行)
# 4. 变量定义 (尽量少用全局变量)
# 5. 类定义
# 6. 函数定义
# 7. 主程序

编码

文档字符串注释,在模块、类或者函数声名之后添加的字符串,可在运行时访问(xx.__doc__),也可自动生成文档。

缩进,避免使用 Tab 缩进,使用空格缩进,这样跨平台性和 IDE 通用性更好。

模块

__name__ 指示模块如何被加载,__name__ 为 module_name 或者 '__main__'

大部分 Python 模块都是用于导入调用的,直接运行模块应该调用该模块的回归测试代码。

所有模块都能执行代码,无缩进的代码在被 import 时就会执行。除了真正需要执行的代码外,所有的功能代码都应该在函数中。

通常只有主程序模块才有大量的*可执行代码,其他被导入的模块应该只有少量的*代码。

设计

在函数之外来做与用户交互的操作,除非函数本身就是用来做交互的过程。

工厂函数:类似于 file() int() dict() type() 等内建函数,返回一个对象

********************************************

语法 & 技巧

Python 的对象(包括函数参数)都是传递引用,函数体内修改被传入的可变对象会影响这个对象,对于传入的不可变对象则不影响。

Python 有自动内存管理,不过 del 语句可以直接释放资源,导致对象的引用计数减少。

对于反复用到的模块属性,应该使用一个本地变量来指向它,以减少查询次数,提高执行速度。

Python 会缓存整数和字符串对象:>>> a=1; b=1; id(a)==id(b);       >>> a=1.0; b=1.0; id(a)!=id(b);

from types import IntType 并在代码中直接使用 IntType 比使用 types.IntType 好,因为可以减少一次查询(type.IntType)。

Python 中的 float 占据 8 个字节,完全遵守 IEEE 754 号规范。

# 对象
# 没有 __nonzero__() 方法的对象的默认 bool 值是 True
>>> print x
'x'
# 交互式环境
>>> help( raw_input )  # 获得 raw_input() 的帮助

>>> str =
'hello'
>>> print str # print 语句调用 str() 来显示对象,而交互式解释器使用 repr() 来显示对象
'hello' # print var , 添加逗号可以使 print 不换行

>>>
_ # 交互式环境中,_ 表示最后一个表达式的值
hello

# print 支持将输出重定向到文件
>>> print >> sys.stderr, 'Fatal error: invalid input!'
>>> logfile = open('./mylog.txt','a')
>>> print >> logfile, 'Fatal ...'
>>> logfile.close()
# 变量与运算符  -  复杂运算表达式尽量多用括号,代码会更健壮,可读性更强
#
# 运算符可重载,需要注意变量类型
#
算术:+ - * / // % **,其中 // 用作浮点除法(不管操作数是什么类型) # 逻辑:and or not # 比较:< <= > >= == != <>,不等于推荐使用 C 风格的 !=,ABC/PASCAL 风格的 <> 慢慢地被淘汰了
# Python 不支持 C 语言的自增和自减运算符,--n 会被解释为 -(-n),++n 会被解释为 +(+n) —— 当作单目运算符
#
# 变量名大小写敏感,built-in 关键字可以通过 iskeyword() 查询
# 数字变量:int(有符号) long(大数) bool(算术运算中当作0/1)
float complex(复数) decimal(十进制浮点数,无精度差)
# 从 Python2.3 开始,不会再报整型溢出,超过 int 的运算结果会自动转换为 long,长整型后缀 L 也会变得可有可无
# _ 前缀表示私有变量,在模块或类的外部不可见;__xxx 是类的私有变量,__xx__ 是系统的特殊变量
#
# 列表和元组可以当作数组用,切片运算可以得到子集,其区别在于:
# 列表用 [] 包裹,元素个数和值可变
# 元组用 () 包裹,不可以更改(尽管他们的内容可以),是只读列表
# 字典用 {} 表示
#
# 数学运算的 built-in 函数:
# abs() coerce()将两个数提升为同一种类型 divmod()得到商和余数 pow()可提供取余乘方 round()可选精度的舍尾
# hex() oct() ord() chr() unichr() 仅用于整型
>>> 3 < 4 < 5 # 在其他语言中一般不合法,但 Python 中合法且简洁,其意义为 3 < 4 and 4 < 5
交换变量:x,y=y,x
# String
# 对于字符串连接,''.join(list) 比 str1 + str2 高效,因为 + 会对参加连接的每个串分配新内存
# 同理,('%s%s' % (str1,str2)).upper() 比 (str1+str2).upper() 高效
# Python 字符串表示:'' 和 "" 没有差别,对转义符没差别,且 Python 中没有单个字符变量,只有子串
# 字符串:索引 [] 和 切片 [:] 运算符得到子串,+ 用于连接,* 用于重复
>>> url = urllib.urlopen('http://' # Python 允许将多个子串分行表示成一个长串,方便写注释
>>> m = re.search('\[trn]', r'hello world ') # 原始字符串以 r 开头,所有字符无转义,方便正则等场合
# if exp: statement - elif - else      exp 为非零或者 True 则为真
#
# for 可以迭代一个序列,使用 range() 可以迭代索引,Python2.3 中增加的 enumerate() 可以迭代索引+元素
#
# 列表解析:可以在一行中使用一个 for 将所有值放到一个列表当中:
>>> squared = [ x ** 2 for x in range(4) ] >>> squared = [ x ** 2 for x in range(16) if not x % 2 ] 'tum'