sax模块处置xml

sax模块处理xml

sax的简单用法

sax (Simple API for XML), 以事件处理为基础,按照遇到XML元素的顺序读取XML文档,触发处理函数来执行处理。
为此,我们需要定义自己的处理器(Handler),定义遇到XML元素时,执行什么样的处理动作。如startElement()方法,定义了遇到开始tag时,应该做些什么。以下是示范代码:

from xml.sax import ContentHandler, parse
class MyHandler(ContentHandler):
    def startDocument(self):
        pass
    
    def startElement(self, name, attrs):
        pass

    def endElement(self, name):
        pass

    def characters(self, content):
        pass

    def endDocument(self):
        pass

parse('sample.xml', MyHandler())

ContentHandler类方法介绍

characters(content)方法

调用时机:

  • 从行开始,遇到tag之前,存在字符,content的值为这些字符串。
  • 从一个tag,遇到下一个tag之前, 存在字符,content的值为这些字符串。
  • 从一个tag,遇到行结束符之前,存在字符,content的值为这些字符串。

tag可以是开始tag,也可以是结束tag。


startDocument()方法

文档启动的时候调用。


endDocument()方法

解析器到达文档结尾时调用。


startElement(name, attrs)方法

遇到XML开始tag时调用,name是tag的名字,attrs是tag的属性值字典。


endElement(name)方法

遇到XML结束tag时调用。