Core Python Notes

开发需要在读 Python 核心编程，一些 Point 记录如下。

********************************************

版本相关

标准版的 Python 是用 C 来实现的，又称为 CPython，其他一些实现如 JPython、IronPython（C#）。

CPython 的一个局限是每个 Python 调用都会产生一个 C 函数调用（栈帧），意味着同时产生的调用是有限的，因此 CPython 难以实现用户级的线程库和复杂递归应用。

Stackless（对 Python 解释器做了修改，是独立分支）的 Python 实现可以突破这个限制，一个 C 栈帧可以拥有任意数量的 Python 栈帧，可以拥有几乎无穷的函数调用和巨大数量的线程。而另一个项目 Greenlets 也支持微线程，它是一个标准的 C 扩展，因此不需要对标准 Python 解释器做任何修改。

pypy 是用 Python 写的 Python 解释器，比 CPython 的执行性能好。建议安装预编译的 pypy 环境（可到 pkgs.org 下载）来编译安装新版 pypy（如果需要新版的话）。编译安装说明在这里，注意要达到要求的系统配置，否则很耗时（配置低要几天时间）。

PEP, Python Enhancement Proposal, 增强提案，是增加进 Python 的特性建议，提供了对新特性的完整描述。在新提案被整合进 Python 之前，需要通过社区、PEP 作者、实现者、Python 创始人(Guido van Rossum) 的一致同意。

Python 标准库提供了 unittest 模块，是一个叫做 PyUnit 的测试框架，需要对一个大系统进行回归测试时很有用。

有用的开发模块，pdb 允许设置断点、检查堆栈；logging 用于日志功能；Python 2.5 中引入的 cProfile 提供性能测试。

********************************************

风格 & 设计

PEP20 写的是 Python 之禅 Pythonic。

典型模块的内部结构

# 1. Unix 起始行
# 2. 模块文档
# 3. 模块导入 （函数内部的 import 仅在该函数被执行时执行）
# 4. 变量定义 （尽量少用全局变量）
# 5. 类定义
# 6. 函数定义
# 7. 主程序

编码

文档字符串注释，在模块、类或者函数声名之后添加的字符串，可在运行时访问（xx.__doc__），也可自动生成文档。

缩进，避免使用 Tab 缩进，使用空格缩进，这样跨平台性和 IDE 通用性更好。

模块

__name__ 指示模块如何被加载，__name__ 为 module_name 或者 '__main__'

大部分 Python 模块都是用于导入调用的，直接运行模块应该调用该模块的回归测试代码。

所有模块都能执行代码，无缩进的代码在被 import 时就会执行。除了真正需要执行的代码外，所有的功能代码都应该在函数中。

通常只有主程序模块才有大量的*可执行代码，其他被导入的模块应该只有少量的*代码。

设计

在函数之外来做与用户交互的操作，除非函数本身就是用来做交互的过程。

工厂函数：类似于 file() int() dict() type() 等内建函数，返回一个对象。

********************************************

语法 & 技巧

Python 的对象（包括函数参数）都是传递引用，函数体内修改被传入的可变对象会影响这个对象，对于传入的不可变对象则不影响。

Python 有自动内存管理，不过 del 语句可以直接释放资源，导致对象的引用计数减少。

对于反复用到的模块属性，应该使用一个本地变量来指向它，以减少查询次数，提高执行速度。

Python 会缓存整数和字符串对象：>>> a=1; b=1; id(a)==id(b); >>> a=1.0; b=1.0; id(a)!=id(b);

from types import IntType 并在代码中直接使用 IntType 比使用 types.IntType 好，因为可以减少一次查询（type.IntType）。

Python 中的 float 占据 8 个字节，完全遵守 IEEE 754 号规范。

# 对象
# 没有 __nonzero__() 方法的对象的默认 bool 值是 True
>>> print x
'x'

# 交互式环境
>>> help( raw_input )  # 获得 raw_input() 的帮助

>>> str = 'hello'
>>> print str          # print 语句调用 str() 来显示对象，而交互式解释器使用 repr() 来显示对象
'hello'                # print var , 添加逗号可以使 print 不换行

>>> _                  # 交互式环境中，_ 表示最后一个表达式的值
hello

# print 支持将输出重定向到文件
>>> print >> sys.stderr, 'Fatal error: invalid input!'
>>> logfile = open('./mylog.txt','a')
>>> print >> logfile, 'Fatal ...'
>>> logfile.close()

# 变量与运算符  -  复杂运算表达式尽量多用括号，代码会更健壮，可读性更强
#
# 运算符可重载，需要注意变量类型
# 算术：+  -  *  /  //  %  **，其中 // 用作浮点除法（不管操作数是什么类型）
# 逻辑：and or not
# 比较：<  <=  >  >=  ==  !=  <>，不等于推荐使用 C 风格的 !=，ABC/PASCAL 风格的 <> 慢慢地被淘汰了
# Python 不支持 C 语言的自增和自减运算符，--n 会被解释为 -(-n)，++n 会被解释为 +(+n) —— 当作单目运算符
#
# 变量名大小写敏感，built-in 关键字可以通过 iskeyword() 查询
# 数字变量：int(有符号) long(大数) bool(算术运算中当作0/1) float complex(复数) decimal(十进制浮点数,无精度差)
# 从 Python2.3 开始，不会再报整型溢出，超过 int 的运算结果会自动转换为 long，长整型后缀 L 也会变得可有可无
# _ 前缀表示私有变量，在模块或类的外部不可见；__xxx 是类的私有变量，__xx__ 是系统的特殊变量
#
# 列表和元组可以当作数组用，切片运算可以得到子集，其区别在于：
# 列表用 [] 包裹，元素个数和值可变
# 元组用 () 包裹，不可以更改(尽管他们的内容可以)，是只读列表
# 字典用 {} 表示
#
# 数学运算的 built-in 函数：
# abs()  coerce()将两个数提升为同一种类型  divmod()得到商和余数  pow()可提供取余乘方  round()可选精度的舍尾
# hex()  oct()  ord()  chr()  unichr() 仅用于整型
>>> 3 < 4 < 5          # 在其他语言中一般不合法，但 Python 中合法且简洁，其意义为 3 < 4 and 4 < 5
交换变量：x,y=y,x

# String # 对于字符串连接，''.join(list) 比 str1 + str2 高效，因为 + 会对参加连接的每个串分配新内存
# 同理，('%s%s' % (str1,str2)).upper() 比 (str1+str2).upper() 高效
# Python 字符串表示：'' 和 "" 没有差别，对转义符没差别，且 Python 中没有单个字符变量，只有子串
# 字符串：索引 [] 和切片 [:] 运算符得到子串，+ 用于连接，* 用于重复
>>> url = urllib.urlopen('http://' # Python 允许将多个子串分行表示成一个长串，方便写注释
>>> m = re.search('\[trn]', r'hello world ') # 原始字符串以 r 开头，所有字符无转义，方便正则等场合

# if exp: statement - elif - else exp 为非零或者 True 则为真
#
# for 可以迭代一个序列，使用 range() 可以迭代索引，Python2.3 中增加的 enumerate() 可以迭代索引+元素
#
# 列表解析：可以在一行中使用一个 for 将所有值放到一个列表当中：
>>> squared = [ x ** 2 for x in range(4) ] >>> squared = [ x ** 2 for x in range(16) if not x % 2 ] 'tum'

相关推荐