回聊聊c++中的正则表达式库吧

来聊聊c++中的正则表达式库吧
测试正则表达式用的是RegexTester.exe。目前在c#和java中都用过正则表达式,它们的语法都符合标准。
boost的regex很流行,不过有严重bug,构造时带有预搜索(零宽断言)则出错、.有时候能匹配到换行,有时候又不能匹配,有时候更是莫名其妙,测试通过的式子它匹配不了,这些我都遇到过。
vs2010自带了regex.h,不过和boost有一样的bug。
国产的deelx不支持string。
ATL的CAtlRegExp只支持宽字符,对中文的支持也不好。而且它把{}当()用,这一点不符合标准。
greta不错,不过它从2003年开始就没有更新了。greta在vs2010下编译有错,去掉了header还是有错。这是因为static_assert在vs2010中成了关键字,发生了关键字冲突,解决方法是把greta的代码中的static_assert全部替换成static_assert1。在vs2010下编译好的greta也用不了,当构造时带上ALLBACKREFS运行时就出错,或者未匹配到任何结果时也出同样的错,在regexpr2.cpp的2706行附近出现NULL。btw,换行在greta中是\s\s而不是\n。
其他的GNU Regex Library、pcre++都比较冷门,且缺中文文档,没有去用。

各位正在用哪个库?有什么优缺点?最好能给推荐个vs2010下能正常使用的比较好的库。

------解决方案--------------------
正常情况下都自己构造 DFA , 弄玩具的时候偶尔用用 posix 标准的...
啥时候 C# 的又成标准了...



------解决方案--------------------
http://topic.****.net/u/20100923/22/688167b9-5370-4ab7-99d2-ee83489b42ed.html
C/C++ code

#define PCRE_STATIC // 静态库编译选项

#include <stdio.h>
#include <string.h>
#include <pcre.h>
#define OVECCOUNT 30 /* should be a multiple of 3 */
#define EBUFLEN 128
#define BUFLEN 1024
int main()
{
    pcre  *re;
    const char *error;
    int  erroffset;
    int  ovector[OVECCOUNT];
    int  rc, i;
    char  src [] = "111 <title>Hello World</title> 222";   // 要被用来匹配的字符串
    char  pattern [] = "<title>(.*)</(tit)le>";              // 将要被编译的字符串形式的正则表达式
    printf("String : %s\n", src);
    printf("Pattern: \"%s\"\n", pattern);
    re = pcre_compile(pattern,       // pattern, 输入参数,将要被编译的字符串形式的正则表达式
                      0,            // options, 输入参数,用来指定编译时的一些选项
                      &error,       // errptr, 输出参数,用来输出错误信息
                      &erroffset,   // erroffset, 输出参数,pattern中出错位置的偏移量
                      NULL);        // tableptr, 输入参数,用来指定字符表,一般情况用NULL
    // 返回值:被编译好的正则表达式的pcre内部表示结构


    if (re == NULL) {                 //如果编译失败,返回错误信息
        printf("PCRE compilation failed at offset %d: %s\n", erroffset, error);
        return 1;
    }
    rc = pcre_exec(re,            // code, 输入参数,用pcre_compile编译好的正则表达结构的指针
                   NULL,          // extra, 输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针
                   src,           // subject, 输入参数,要被用来匹配的字符串
                   strlen(src),  // length, 输入参数, 要被用来匹配的字符串的指针
                   0,             // startoffset, 输入参数,用来指定subject从什么位置开始被匹配的偏移量
                   0,             // options, 输入参数, 用来指定匹配过程中的一些选项
                   ovector,       // ovector, 输出参数,用来返回匹配位置偏移量的数组
                   OVECCOUNT);    // ovecsize, 输入参数, 用来返回匹配位置偏移量的数组的最大大小
    // 返回值:匹配成功返回非负数,没有匹配返回负数

    if (rc < 0) {                     //如果没有匹配,返回错误信息
        if (rc == PCRE_ERROR_NOMATCH) printf("Sorry, no match ...\n");
        else printf("Matching error %d\n", rc);
        pcre_free(re);
        return 1;
    }

    printf("\nOK, has matched ...\n\n");   //没有出错,已经匹配

    for (i = 0; i < rc; i++) {             //分别取出捕获分组 $0整个正则公式 $1第一个()
        char *substring_start = src + ovector[2*i];
        int substring_length = ovector[2*i+1] - ovector[2*i];
        printf("$%2d: %.*s\n", i, substring_length, substring_start);
    }
    pcre_free(re);                     // 编译正则表达式re 释放内存
    return 0;
}

/**************   PCRE接口介绍 *******************************
(1). pcre_compile

pcre *pcre_compile(const char *pattern, int options,
            const char **errptr, int *erroffset,
            const unsigned char *tableptr);
功能:编译指定的正则表达式
参数:pattern, 输入参数,将要被编译的字符串形式的正则表达式
      options, 输入参数,用来指定编译时的一些选项
      errptr, 输出参数,用来输出错误信息
      erroffset, 输出参数,pattern中出错位置的偏移量
      tableptr, 输入参数,用来指定字符表,一般情况用NULL, 使用缺省的字符表
返回值:被编译好的正则表达式的pcre内部表示结构

(2). pcre_exec

int pcre_exec(const pcre *code, const pcre_extra *extra,
            const char *subject, int length, int startoffset,
            int options, int *ovector, int ovecsize);
功能:用来检查某个字符串是否与指定的正则表达式匹配
参数: code, 输入参数,用pcre_compile编译好的正则表达结构的指针
      extra, 输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针
      subject, 输入参数,要被用来匹配的字符串
      length, 输入参数, 要被用来匹配的字符串的指针
      startoffset, 输入参数,用来指定subject从什么位置开始被匹配的偏移量
      options, 输入参数, 用来指定匹配过程中的一些选项
      ovector, 输出参数,用来返回匹配位置偏移量的数组
      ovecsize, 输入参数, 用来返回匹配位置偏移量的数组的最大大小
返回值:匹配成功返回非负数,没有匹配返回负数
**********************************************************/