关于Python正则的用法,该如何处理
关于Python正则的用法
新手初学python,对正则表达式云里雾里。请求各位前辈帮助。
我想要在一堆源码中选出特定的超链接存在列表里,需要找出来的超链接前部分是一样的,后面部分是不同的数字,比如
<a href="/a/b/c-123" title="abc"> <a href="/a/b/c-124" title="abd"> 还有其他的不需要的链接,区别就在于我想要的链接格式是/a/b/c-数字,不知道我说明白了没有。。。请问这个表达式该怎么写?谢谢各位了!
------解决方案--------------------
一样的部分照抄,接着用\d+匹配1或多个连续数字...
------解决方案--------------------
------解决方案--------------------
xpath
//a[starts-with(@href, '/a/b/c-')]/@href
css selector
a[href^='/a/b/c-']
regex
r'<a href="(/a/b/c-(?:\d+))"
或 r'<a [^>]*?href="(/a/b/c-(?:\d+))" # 这个是为了避免href不是第一位置属性而漏抓
自己按需取用吧
新手初学python,对正则表达式云里雾里。请求各位前辈帮助。
我想要在一堆源码中选出特定的超链接存在列表里,需要找出来的超链接前部分是一样的,后面部分是不同的数字,比如
<a href="/a/b/c-123" title="abc"> <a href="/a/b/c-124" title="abd"> 还有其他的不需要的链接,区别就在于我想要的链接格式是/a/b/c-数字,不知道我说明白了没有。。。请问这个表达式该怎么写?谢谢各位了!
------解决方案--------------------
一样的部分照抄,接着用\d+匹配1或多个连续数字...
------解决方案--------------------
r"<a href=\"/a/b/c-(\d+?)"
------解决方案--------------------
xpath
//a[starts-with(@href, '/a/b/c-')]/@href
css selector
a[href^='/a/b/c-']
regex
r'<a href="(/a/b/c-(?:\d+))"
或 r'<a [^>]*?href="(/a/b/c-(?:\d+))" # 这个是为了避免href不是第一位置属性而漏抓
自己按需取用吧