Pomian语言处理器 研发笔记(一):使用C++的正则表达式构建词法分析器

发布于:2025-08-19 ⋅ 阅读:(14) ⋅ 点赞:(0)

引言

编译器是计算机科学中最为重要且复杂的工具之一,而词法分析器则是编译器的第一道关卡。它的作用是将源代码分解成有意义的词汇单元(Token),为后续的语法分析和语义分析打下基础。在本文中,我们将详细介绍如何基于C++语言和正则表达式实现一个简单的词法分析器,用于处理Pomian语言。本文将从Token接口的设计、正则表达式的使用以及Tokenizer类的实现三个方面展开讨论。

项目背景

Pomian语言是一种教学性质的语言,其目的是展示编译系统的原理。Pomian语言的词法分析器是整个编译器的核心模块之一,负责将输入的源代码分解成Token。这些Token将被传递给后续的语法分析器和语义分析器进行处理。

在实现词法分析器的过程中,我们参考了以下文献:

  • 深入理解C++正则表达式:从基础到实践[1],该文献详细介绍了C++正则表达式的使用方法,为我们提供了正则表达式实现的基础。
  • 基于C++的词法分析器:使用正则表达式的实现[2],该文献为我们提供了词法分析器的设计思路和实现方法。

Token接口的设计

在C++中,Token接口的设计通常采用抽象基类的形式。通过定义一个抽象基类IToken,我们可以为所有Token类型提供一个统一的接口。具体来说,IToken类定义了一个纯虚函数toWord(),该函数用于返回Token的字符串表示。以下是IToken类的定义:

class TOKENIZER_EXPORT IToken
{
private:
    int m_lineNumber; /**< Token在源代码中所在的行号。 */

public:
    IToken(int lineNumber);

    virtual std::string toWord() = 0;
};

IToken类的派生类包括NumberTokenIdentifierTokenKeywordTokenOperatorToken。每个派生类都实现了toWord()函数,并根据具体的Token类型提供了额外的成员变量和转换操作符。

NumberToken类

NumberToken类表示输入中的一个数字Token。该类定义了一个私有成员变量m_number,用于存储数字Token的整数值。以下是NumberToken类的定义:

class TOKENIZER_EXPORT NumberToken : public IToken
{
private:
    int m_number; /**< Token的数值。 */

public:
    NumberToken(int lineNumber, const std::string& word);

    operator int();

    std::string toWord() override;
};

IdentifierToken类

IdentifierToken类表示输入中的一个标识符Token。该类定义了一个私有成员变量m_identifier,用于存储标识符Token的字符串表示。以下是IdentifierToken类的定义:

class TOKENIZER_EXPORT IdentifierToken : public IToken
{
private:
    std::string m_identifier; /**< 标识符字符串。 */

public:
    IdentifierToken(int lineNumber, const std::string& word);

    operator std::string();

    std::string toWord() override;
};

KeywordToken类

KeywordToken类表示输入中的一个关键字Token。该类定义了一个私有成员变量m_keyword,用于存储关键字Token的字符串表示。以下是KeywordToken类的定义:

class TOKENIZER_EXPORT KeywordToken : public IToken
{
private:
    std::string m_keyword; /**< 关键字字符串。 */

public:
    KeywordToken(int lineNumber, const std::string& word);

    operator std::string();

    std::string toWord() override;
};

OperatorToken类

OperatorToken类表示输入中的一个操作符Token。该类定义了一个私有成员变量m_operator,用于存储操作符Token的字符串表示。以下是OperatorToken类的定义:

class TOKENIZER_EXPORT OperatorToken : public IToken
{
private:
    std::string m_operator; /**< 操作符字符串。 */

public:
    OperatorToken(int lineNumber, const std::string& word);

    operator std::string();

    std::string toWord() override;
};

正则表达式的使用

正则表达式是一种强大的工具,可以用来匹配和处理字符串。在词法分析器中,正则表达式可以用来定义不同的Token类型,并将输入字符串分解成Token。

在Pomian语言的词法分析器中,我们定义了四种正则表达式模式:

  1. 关键字模式KEYWORD_PATTERN = "(if|else|for|while|int|float|return)"
  2. 数字模式NUMBER_PATTERN = "[0-9]+"
  3. 标识符模式IDENTIFIER_PATTERN = "[a-zA-Z][a-zA-Z0-9]*"
  4. 操作符模式OPERATOR_PATTERN = "(==|!=|=|;|\\+|\\-|\\*|/)"

这些模式被组合成一个总的正则表达式:

std::regex expr(
    std::format("({})|({})|({})|({})",
        KEYWORD_PATTERN,
        IDENTIFIER_PATTERN, 
        NUMBER_PATTERN, 
        OPERATOR_PATTERN)
);

Tokenizer类的tokenize()函数中,我们使用这个正则表达式来匹配输入字符串中的Token。以下是tokenize()函数的实现:

std::list<IToken *> Tokenizer::tokenize(int lineNumber, const std::string& code)
{
    std::string s = code;
    std::list<IToken *> tokens;

    while (std::regex_search(s, match, expr)) {
        std::string word = match[0].str();
        if (std::regex_match(word, std::regex(KEYWORD_PATTERN))) {
            tokens.push_back(new KeywordToken(lineNumber, word));
        } else if (std::regex_match(word, std::regex(IDENTIFIER_PATTERN))) {
            tokens.push_back(new IdentifierToken(lineNumber, word));
        } else if (std::regex_match(word, std::regex(NUMBER_PATTERN))) {
            tokens.push_back(new NumberToken(lineNumber, word));
        } else if (std::regex_match(word, std::regex(OPERATOR_PATTERN))) {
            tokens.push_back(new OperatorToken(lineNumber, word));
        }
        s = match.suffix().str();
    }
    return tokens;
}

在实现过程中,我们参考了深入理解C++正则表达式:从基础到实践[1]和基于C++的词法分析器:使用正则表达式的实现[2],这两篇文献为我们提供了正则表达式实现的基础和词法分析器的设计思路。

项目结构

Pomian语言处理器项目使用CMake进行管理。以下是项目的目录结构:

pomian/
├── include/
│   ├── Token.h
│   └── Tokenizer.h
├── src/
│   ├── Token.cpp
│   ├── Tokenizer.cpp
│   └── pomian.cpp
├── CMakeLists.txt
└── README.md

CMakeLists.txt

cmake_minimum_required(VERSION 3.10)
project(pomian)

set(CMAKE_CXX_STANDARD 17)
set(CMAKE_CXX_STANDARD_REQUIRED YES)
set(CMAKE_CXX_EXTENSIONS NO)

include_directories(include)

add_executable(pomian src/Tokenizer.cpp src/Token.cpp src/pomian.cpp)

在项目管理方面,我们参考了从零开始理解编译原理:设计一个简单的编程语言[3],该文献为我们提供了编译器设计的整体思路和项目管理的方法。

总结

本文详细介绍了如何基于C++语言和正则表达式实现一个简单的词法分析器。通过定义Token接口和使用正则表达式,我们可以将输入的源代码分解成Token,并为后续的语法分析和语义分析打下基础。Pomian语言处理器项目展示了编译系统的基本原理,同时也为学习C++正则表达式的使用提供了实践机会。

在实现过程中,我们参考了以下文献:

  1. 深入理解C++正则表达式:从基础到实践[1],该文献详细介绍了C++正则表达式的使用方法,为我们提供了正则表达式实现的基础。
  2. 基于C++的词法分析器:使用正则表达式的实现[2],该文献为我们提供了词法分析器的设计思路和实现方法。
  3. 从零开始理解编译原理:设计一个简单的编程语言[3],该文献为我们提供了编译器设计的整体思路和项目管理的方法。
  4. 编译器与解释器:核心原理与工程实践[4],该文献为我们提供了编译器实现的核心原理和工程实践的方法。

通过以上资源,读者可以更深入地理解C++正则表达式的使用以及编译器的实现原理。


参考文献

  1. 深入理解C++正则表达式:从基础到实践
    https://blog.csdn.net/2503_92624912/article/details/150430968

  2. 基于C++的词法分析器:使用正则表达式的实现
    https://blog.csdn.net/2503_92624912/article/details/150447721

  3. 从零开始理解编译原理:设计一个简单的编程语言
    https://blog.csdn.net/2503_92624912/article/details/150113221

  4. 编译器与解释器:核心原理与工程实践
    https://blog.csdn.net/2503_92624912/article/details/149858819

Horse3D游戏引擎研发笔记(一):从使用Qt的OpenGL库绘制三角形开始
Horse3D游戏引擎研发笔记(二):基于QtOpenGL使用仿Three.js的BufferAttribute结构重构三角形绘制
Horse3D游戏引擎研发笔记(三):使用QtOpenGL的Shader编程绘制彩色三角形
Horse3D游戏引擎研发笔记(四):在QtOpenGL下仿three.js,封装EBO绘制四边形
Horse3D游戏引擎研发笔记(五):在QtOpenGL环境下,仿three.js的BufferGeometry管理VAO和EBO绘制四边形
Horse3D游戏引擎研发笔记(六):在QtOpenGL环境下,仿Unity的材质管理Shader绘制四边形


网站公告

今日签到

点亮在社区的每一天
去签到