python常用的正则表达式及作用

发布于:2025-06-25 ⋅ 阅读:(19) ⋅ 点赞:(0)

Python常用正则表达式及作用

正则表达式是处理字符串的强大工具,Python通过re模块提供正则表达式支持:

基本匹配模式

  1. 匹配数字

    • \d:匹配任意数字,等价于[0-9]
    • \D:匹配任意非数字,等价于[^0-9]
    • 示例:r'\d+'匹配一个或多个连续数字
  2. 匹配字母和数字

    • \w:匹配字母、数字或下划线,等价于[a-zA-Z0-9_]
    • \W:匹配非字母、数字、下划线,等价于[^a-zA-Z0-9_]
  3. 匹配空白字符

    • \s:匹配任意空白字符(空格、制表符、换行等)
    • \S:匹配任意非空白字符
  4. 匹配任意字符

    • .:匹配除换行符外的任意单个字符

常用正则表达式示例

  1. 匹配邮箱地址

    r'[\w\.-]+@[\w\.-]+\.\w+'
    
  2. 匹配URL

    r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'
    
  3. 匹配IP地址

    r'\b(?:\d{1,3}\.){3}\d{1,3}\b'
    
  4. 匹配中文

    r'[\u4e00-\u9fa5]'
    
  5. 匹配日期(YYYY-MM-DD格式)

    r'\d{4}-\d{1,2}-\d{1,2}'
    
  6. 匹配手机号码(中国大陆)

    r'1[3-9]\d{9}'
    
  7. 匹配HTML标签

    r'<[^>]+>'
    
  8. 匹配身份证号(18位)

    r'[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dXx]'
    

常用量词

  1. *:匹配前一个字符0次或多次
  2. +:匹配前一个字符1次或多次
  3. ?:匹配前一个字符0次或1次
  4. {n}:匹配前一个字符恰好n次
  5. {n,}:匹配前一个字符至少n次
  6. {n,m}:匹配前一个字符n到m次

边界匹配

  1. ^:匹配字符串开头
  2. $:匹配字符串结尾
  3. \b:匹配单词边界
  4. \B:匹配非单词边界

分组和捕获

  1. ():创建捕获组
  2. (?:):创建非捕获组
  3. (?P<name>):命名捕获组

常用re模块方法

  1. re.match():从字符串开头匹配
  2. re.search():搜索整个字符串
  3. re.findall():返回所有匹配结果
  4. re.finditer():返回匹配结果的迭代器
  5. re.sub():替换匹配的字符串
  6. re.split():根据模式分割字符串

示例代码

import re

# 查找所有数字
text = "我有3个苹果和5个橙子"
numbers = re.findall(r'\d+', text)  # ['3', '5']

# 验证邮箱格式
email = "test@example.com"
if re.match(r'[\w\.-]+@[\w\.-]+\.\w+', email):
    print("邮箱格式正确")

# 提取URL
html = '<a href="https://www.example.com">链接</a>'
url = re.search(r'href="(https?://[^"]+)"', html).group(1)

网站公告

今日签到

点亮在社区的每一天
去签到