【C/C++】玩转正则表达式

发布于:2025-06-10 ⋅ 阅读:(24) ⋅ 点赞:(0)

正则表达式应用

正则表达式是一种 文本模式匹配工具,用来描述字符串的结构。你可以用它来查找、验证、提取、替换字符串中符合特定格式的内容。

例如,你可以用一个正则表达式验证:

  • 邮箱是否合法
  • 一个字符串是否是电话号码
  • 一个文件路径是否是 .cpp 文件

1 正则表达式基本字符分类

分类 示例 含义说明
普通字符 a, b 匹配自己本身
元字符 . ^ \$ \* + ? | () [] {} 有特殊含义的控制符
转义字符 \. \* 匹配特殊字符本身(如 .

2 常用正则元字符语法

语法 含义说明 示例
. 匹配任意一个字符(不包括换行) a.c 可匹配 abc, a@c
^ 匹配字符串的开始位置 ^abc 匹配以 abc 开头的字符串
$ 匹配字符串的结束位置 xyz$ 匹配以 xyz 结尾的
* 匹配前一个字符出现 0 次或多次 bo* 匹配 b, bo, boo
+ 匹配前一个字符出现 1 次或多次 go+gle 可匹配 google
? 匹配前一个字符出现 0 次或 1 次 colou?r 匹配 colorcolour
{n} 恰好出现 n 次 a{3} 匹配 aaa
{n,} 至少出现 n 次 a{2,} 匹配 aa, aaa, …
{n,m} 出现 n 到 m 次 a{2,4} 匹配 aa, aaa, aaaa
[...] 匹配集合中的任一字符 [abc] 匹配 abc
[^...] 不匹配集合中的任一字符 [^abc] 匹配非 a/b/c
` `foo | `bar 匹配foobar
( ) 分组 (ab)+ 匹配 ab, abab,…

3 常用简写字符类(预定义)

简写 含义说明 示例
\d 匹配任意数字 [0-9] \d{3} 匹配三位数
\D 匹配非数字 \D+ 匹配字母等
\w 匹配单词字符 [a-zA-Z0-9_] 匹配变量名等
\W 匹配非单词字符 空格、标点等
\s 匹配空白字符(空格、制表符) \s+ 可匹配多个空格
\S 匹配非空白字符 非空内容

4 常用匹配实例

目标 正则表达式 说明
邮箱地址 [\w.-]+@[\w.-]+\.\w+ 简单邮箱格式
IPv4地址 \b\d{1,3}(\.\d{1,3}){3}\b 不严格校验
中文字符 [\u4e00-\u9fa5](或用UTF-8编码匹配) 需处理编码
手机号(中国) 1[3-9]\d{9} 11位以1开头
日期(YYYY-MM-DD) \d{4}-\d{2}-\d{2}
C++ 文件路径 .*\.cpp$ 匹配以 .cpp 结尾的字符串
URL https?://[\w./?=&%-]+

5 C++ 使用

std::regex pattern(R"(\d{3}-\d{3,4}-\d{4})");  // 匹配电话号码
std::smatch result;

std::string text = "Call me at 010-1234-5678";
if (std::regex_search(text, result, pattern)) {
    std::cout << "Match: " << result[0] << "\n";
}
  1. C++11 标准库:<regex>
#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string text = "My email is test@example.com.";
    std::regex pattern(R"(\b[\w.-]+@[\w.-]+\.\w+\b)");

    std::smatch match;
    if (std::regex_search(text, match, pattern)) {
        std::cout << "Found: " << match[0] << std::endl;
    } else {
        std::cout << "No match found." << std::endl;
    }

    return 0;
}

说明:

  • std::regex:表示一个正则表达式模式。
  • std::smatch:字符串匹配结果(基于 std::string)。
  • std::regex_search:搜索匹配位置。
  • std::regex_match:完全匹配整个字符串。

⚠ 注意:GCC 4.9+ 才支持 <regex> 较完整,老版本不建议使用。


  1. POSIX 正则库(兼容 C/C++,头文件 <regex.h>
#include <iostream>
#include <regex.h>

int main() {
    const char* pattern = "^[a-z]+@[a-z]+\\.[a-z]+$";
    const char* text = "example@email.com";

    regex_t regex;
    regcomp(&regex, pattern, REG_EXTENDED | REG_NOSUB);

    if (regexec(&regex, text, 0, nullptr, 0) == 0) {
        std::cout << "Matched!" << std::endl;
    } else {
        std::cout << "No match." << std::endl;
    }

    regfree(&regex);
    return 0;
}

特点:

  • 兼容所有 Linux 平台,依赖 libc
  • 不支持 C++ 风格语义。
  • 错误信息需要手动处理。

  1. 使用第三方库(推荐 Boost.Regex)
#include <iostream>
#include <boost/regex.hpp>

int main() {
    std::string s = "Your code is at: /home/user/main.cpp";
    boost::regex expr("/home/\\w+/\\w+\\.cpp");

    if (boost::regex_search(s, expr)) {
        std::cout << "Path matched!" << std::endl;
    } else {
        std::cout << "No match." << std::endl;
    }

    return 0;
}

编译时需加 -lboost_regex 链接:

g++ test.cpp -o test -lboost_regex

编译参数与环境:

编译 C++11 <regex> 示例:

g++ -std=c++11 regex_std.cpp -o regex_std

POSIX regex:

g++ regex_posix.cpp -o regex_posix

Boost regex:

g++ -std=c++11 regex_boost.cpp -o regex_boost -lboost_regex

6 调试建议

你可以在线调试你的正则表达式:


7 C++ 项目中正则应用场景

  1. 配置文件格式检查
  2. 日志分析与过滤(grep替代)
  3. 文件名/路径筛选器
  4. 命令行参数/表达式提取
  5. 编译器/解释器中的词法分析器(Lexer)

三种方式应用场景:

场景 推荐方式
简单跨平台程序 std::regex
面向 Linux 嵌入式/C 项目 POSIX regex.h
高性能/复杂正则处理 Boost.Regex