回聊聊c++中的正则表达式库吧
来聊聊c++中的正则表达式库吧
测试正则表达式用的是RegexTester.exe。目前在c#和java中都用过正则表达式,它们的语法都符合标准。
boost的regex很流行,不过有严重bug,构造时带有预搜索(零宽断言)则出错、.有时候能匹配到换行,有时候又不能匹配,有时候更是莫名其妙,测试通过的式子它匹配不了,这些我都遇到过。
vs2010自带了regex.h,不过和boost有一样的bug。
国产的deelx不支持string。
ATL的CAtlRegExp只支持宽字符,对中文的支持也不好。而且它把{}当()用,这一点不符合标准。
greta不错,不过它从2003年开始就没有更新了。greta在vs2010下编译有错,去掉了header还是有错。这是因为static_assert在vs2010中成了关键字,发生了关键字冲突,解决方法是把greta的代码中的static_assert全部替换成static_assert1。在vs2010下编译好的greta也用不了,当构造时带上ALLBACKREFS运行时就出错,或者未匹配到任何结果时也出同样的错,在regexpr2.cpp的2706行附近出现NULL。btw,换行在greta中是\s\s而不是\n。
其他的GNU Regex Library、pcre++都比较冷门,且缺中文文档,没有去用。
各位正在用哪个库?有什么优缺点?最好能给推荐个vs2010下能正常使用的比较好的库。
------解决方案--------------------
正常情况下都自己构造 DFA , 弄玩具的时候偶尔用用 posix 标准的...
啥时候 C# 的又成标准了...
------解决方案--------------------
http://topic.****.net/u/20100923/22/688167b9-5370-4ab7-99d2-ee83489b42ed.html
测试正则表达式用的是RegexTester.exe。目前在c#和java中都用过正则表达式,它们的语法都符合标准。
boost的regex很流行,不过有严重bug,构造时带有预搜索(零宽断言)则出错、.有时候能匹配到换行,有时候又不能匹配,有时候更是莫名其妙,测试通过的式子它匹配不了,这些我都遇到过。
vs2010自带了regex.h,不过和boost有一样的bug。
国产的deelx不支持string。
ATL的CAtlRegExp只支持宽字符,对中文的支持也不好。而且它把{}当()用,这一点不符合标准。
greta不错,不过它从2003年开始就没有更新了。greta在vs2010下编译有错,去掉了header还是有错。这是因为static_assert在vs2010中成了关键字,发生了关键字冲突,解决方法是把greta的代码中的static_assert全部替换成static_assert1。在vs2010下编译好的greta也用不了,当构造时带上ALLBACKREFS运行时就出错,或者未匹配到任何结果时也出同样的错,在regexpr2.cpp的2706行附近出现NULL。btw,换行在greta中是\s\s而不是\n。
其他的GNU Regex Library、pcre++都比较冷门,且缺中文文档,没有去用。
各位正在用哪个库?有什么优缺点?最好能给推荐个vs2010下能正常使用的比较好的库。
------解决方案--------------------
正常情况下都自己构造 DFA , 弄玩具的时候偶尔用用 posix 标准的...
啥时候 C# 的又成标准了...
------解决方案--------------------
http://topic.****.net/u/20100923/22/688167b9-5370-4ab7-99d2-ee83489b42ed.html
- C/C++ code
#define PCRE_STATIC // 静态库编译选项 #include <stdio.h> #include <string.h> #include <pcre.h> #define OVECCOUNT 30 /* should be a multiple of 3 */ #define EBUFLEN 128 #define BUFLEN 1024 int main() { pcre *re; const char *error; int erroffset; int ovector[OVECCOUNT]; int rc, i; char src [] = "111 <title>Hello World</title> 222"; // 要被用来匹配的字符串 char pattern [] = "<title>(.*)</(tit)le>"; // 将要被编译的字符串形式的正则表达式 printf("String : %s\n", src); printf("Pattern: \"%s\"\n", pattern); re = pcre_compile(pattern, // pattern, 输入参数,将要被编译的字符串形式的正则表达式 0, // options, 输入参数,用来指定编译时的一些选项 &error, // errptr, 输出参数,用来输出错误信息 &erroffset, // erroffset, 输出参数,pattern中出错位置的偏移量 NULL); // tableptr, 输入参数,用来指定字符表,一般情况用NULL // 返回值:被编译好的正则表达式的pcre内部表示结构 if (re == NULL) { //如果编译失败,返回错误信息 printf("PCRE compilation failed at offset %d: %s\n", erroffset, error); return 1; } rc = pcre_exec(re, // code, 输入参数,用pcre_compile编译好的正则表达结构的指针 NULL, // extra, 输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针 src, // subject, 输入参数,要被用来匹配的字符串 strlen(src), // length, 输入参数, 要被用来匹配的字符串的指针 0, // startoffset, 输入参数,用来指定subject从什么位置开始被匹配的偏移量 0, // options, 输入参数, 用来指定匹配过程中的一些选项 ovector, // ovector, 输出参数,用来返回匹配位置偏移量的数组 OVECCOUNT); // ovecsize, 输入参数, 用来返回匹配位置偏移量的数组的最大大小 // 返回值:匹配成功返回非负数,没有匹配返回负数 if (rc < 0) { //如果没有匹配,返回错误信息 if (rc == PCRE_ERROR_NOMATCH) printf("Sorry, no match ...\n"); else printf("Matching error %d\n", rc); pcre_free(re); return 1; } printf("\nOK, has matched ...\n\n"); //没有出错,已经匹配 for (i = 0; i < rc; i++) { //分别取出捕获分组 $0整个正则公式 $1第一个() char *substring_start = src + ovector[2*i]; int substring_length = ovector[2*i+1] - ovector[2*i]; printf("$%2d: %.*s\n", i, substring_length, substring_start); } pcre_free(re); // 编译正则表达式re 释放内存 return 0; } /************** PCRE接口介绍 ******************************* (1). pcre_compile pcre *pcre_compile(const char *pattern, int options, const char **errptr, int *erroffset, const unsigned char *tableptr); 功能:编译指定的正则表达式 参数:pattern, 输入参数,将要被编译的字符串形式的正则表达式 options, 输入参数,用来指定编译时的一些选项 errptr, 输出参数,用来输出错误信息 erroffset, 输出参数,pattern中出错位置的偏移量 tableptr, 输入参数,用来指定字符表,一般情况用NULL, 使用缺省的字符表 返回值:被编译好的正则表达式的pcre内部表示结构 (2). pcre_exec int pcre_exec(const pcre *code, const pcre_extra *extra, const char *subject, int length, int startoffset, int options, int *ovector, int ovecsize); 功能:用来检查某个字符串是否与指定的正则表达式匹配 参数: code, 输入参数,用pcre_compile编译好的正则表达结构的指针 extra, 输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针 subject, 输入参数,要被用来匹配的字符串 length, 输入参数, 要被用来匹配的字符串的指针 startoffset, 输入参数,用来指定subject从什么位置开始被匹配的偏移量 options, 输入参数, 用来指定匹配过程中的一些选项 ovector, 输出参数,用来返回匹配位置偏移量的数组 ovecsize, 输入参数, 用来返回匹配位置偏移量的数组的最大大小 返回值:匹配成功返回非负数,没有匹配返回负数 **********************************************************/