【静态分析】软件分析课程实验-前置准备

发布于:2024-04-17 ⋅ 阅读:(26) ⋅ 点赞:(0)

课程:南京大学的《软件分析》课程

平台:Tai-e(太阿)实验作业平台

1. 实验概述

Tai-e 是一个分析 Java 程序的静态程序分析框架,相比于已有的知名静态程序分析框架(如 Soot、Wala 等),Tai-e 要易学易用很多。Tai-e 提供精炼的 IR,明晰且易拓展的接口,丰富的程序分析算法,直观易懂的框架结构,以及指导性强的文档等。需要注意的是,Tai-e 分为教学版和科研版两个版本,两个版本虽都易学易用,但侧重有所不同。该套实验作业的设计是基于教学版,相比于科研版,教学版更容易方便学生理解作业题目及实验相关代码,但是由于教学版在很多分析的具体设计上与科研版有所不同,因此它们在分析能力和性能上有较大差距。尽管如此,由于 IR、框架结构、程序表示等诸多方面的一致性,熟悉教学版后会非常容易上手科研版。

老师们在 Tai-e 上设计了八个实验作业用以在实践中加深理解《软件分析》课程中重要且实用的理论知识。这八个作业涵盖多种静态分析技术,包括编译优化(活跃变量分析、常量传播分析、死代码检测),基础程序分析(程序调用图构建、非上下文敏感指针/别名分析、各类经典上下文敏感指针/别名分析),以及程序分析在软件安全性的应用(污点分析)。

实验作业的总览及其关系如下图所示。

课程学习与实验进度的关联:

2. Tai-e 框架(教学版)配置指南

目前,Tai-e 利用 Soot 前端解析 Java 程序并帮助构建 Tai-e IR。Soot 有两个前端,分别处理 Java 源代码文件(.java)和字节码文件(.class)。其中,前者可以将源代码中的变量名保留至 IR 中,从而使得生成的 IR 更贴近源码,比后者的更易于理解。因此,在实验作业中,测试用例(即待分析的程序)都以 Java 源文件的格式提供。然而,Soot 的 Java 源文件前端已经过时(只对最高 Java 7 版本提供部分支持)且不够健壮。与之相比,尽管 Soot 的字节码文件前端不能保持原先的变量名,但它更加健壮(对最高 Java 17 版本编译生成的 .class 文件都提供支持)。因此,分析真实世界的程序时,Tai-e 往往分析字节码。

0 下载实验作业

将 Tai-e 实验作业的 GitHub 仓库 Tai-e-Assignments 克隆到本地即可,该仓库包含所有作业所需的代码及其依赖。

1 实验作业内容

Tai-e 实验作业仓库下有多个子目录,包含各个作业对应的 Tai-e 项目(如 A1/tai-e/ 对应作业 1 的 Tai-e 项目)。Tai-e 利用 Gradle 构建,并符合一般 Gradle 项目的结构,所有实验作业项目都具有如下结构:

  • build.gradle.ktsgradlewgradlew.batgradle/:Gradle 脚本和 Tai-e 项目配置文件。
  • src/main/java:Tai-e 源代码文件夹。你需要修改该文件夹中的文件以完成作业。
  • src/test/java:运行测试用例所需的测试驱动程序(test drivers)所在文件夹。
  • src/test/resources:测试用例(待分析的程序)文件夹。
  • lib/:包含 Tai-e 类的文件夹。
  • plan.yml:Tai-e 配置文件,设定了作业中需要执行的分析。
  • COPYING, COPYING.LESSER:Tai-e 许可文件。

2 配置步骤

Tai-e 使用纯 Java 开发,因而可以在大部分主流操作系统上运行,如 Windows,Linux,MacOS。构建和运行 Tai-e 需要安装 Java 17。

若非使用 IntelliJ IDEA,也可以在https://jdk.java.net/17/这里下载。

利用 Gradle 构建脚本,可以很容易地以如下方式将 Tai-e 导入至 IntelliJ IDEA。

步骤 1

JetBrains 官网 下载 IntelliJ IDEA 并安装(其中 Windows 和 MacOS 版本提供了安装器,Linux 版本则提供了大部分发行版解压后即可运行的压缩包)。建议安装较新版本的 IntelliJ IDEA(2021.3 或更新版本)从而获得更佳的 Java 17 支持。

你可能疑惑:没有 Java 运行环境如何能运行 IntelliJ IDEA?实际上 IntelliJ IDEA 内置了一份 JRE,供其内部使用。

我们接下来介绍导入作业 1(对应 Tai-e 实验作业仓库下的 A1/tai-e/)的步骤,导入其它作业的步骤与之完全一样。

步骤 2

打开项目。

选择 A1/tai-e/ 文件夹,点击 “OK”。

步骤 3

IntelliJ IDEA 可能会弹出下图窗口询问你是否信任该 Gradle 项目。点击 “Trust Project” 信任该项目(别担心,Tai-e 是可信的😊)。

这样导入操作就完成了。你可能需要等待一段时间以导入 Tai-e(可能需要挂梯子载依赖)。之后,tai-e/ 文件夹中会生成一些与 Gradle 相关的文件和文件夹,你可以忽略它们。

步骤 4

打开 File > Project Structure…,展开 “SDK” 下拉菜单,选择 Add SDK > Download JDK… ,在弹出的窗口中选择 Version 为 17,Vendor 任意,Location 选择安装位置,一般保持默认即可,点击 Download 开始后台下载。

然后展开 “Language level”,选择 "SDK default (17 - Sealed types, always-strict floating-point semantics)"。

步骤 5 (可选)

由于 Tai-e 是一个 Gradle 项目,IntelliJ IDEA 默认使用 Gradle 构建并运行它,这使得构建较慢且总会输出一些烦人的 Gradle 信息:

为解决这些问题,可以使用 IntelliJ IDEA 而非 Gradle 来构建和运行 Tai-e。打开 File > Settings,将 Build and run 设置中的构建和运行工具从 Gradle 改为 IntelliJ IDEA,如下图:

或者,如果你(真的)想用命令行构建 Tai-e,你可以 cdtai-e/ 文件夹下,并使用 Gradle 构建:

$ gradlew compileJava

完成以上步骤后,一个 Tai-e 框架(教学版)的环境配置就完成了。 ヽ(。◕‿◕。)ノ゚

3 以应用软件的形式运行 Tai-e

我们在 Tai-e 中为实验作业提供了一个特殊的类:

pascal.taie.Assignment

它提供了一种简单的使用方式来分析Java程序:

-cp <CLASS_PATH> -m <CLASS_NAME>

其中,<CLASS_PATH> 是 .class 文件所在文件夹的路径,<CLASS_NAME> 是待分析类的类名。Tai-e 会在路径给定的文件夹中寻找该类。比如,要分析 src/test/resources/dataflow/livevar 中的 Assign.java,首先在 IntelliJ IDEA 中打开 Assignment 的 “Run Configuration”:

然后按下图配置 Program arguments:

Tai-e 分析输入的程序并输出分析结果。不同作业中执行的分析和输出各不相同,我们会在各项目的文档中详细说明。

当然你也可以用 Gradle 运行分析:

$ gradlew run --args="-cp <CLASS_PATH> -m <CLASS_NAME>"

你可以用这一小节介绍的方法来分析你自己编写的 Java 程序,这样有助于你测试自己分析算法的实现、探索分析算法的效用、从而加深对算法的理解。在这个过程中你可能会遇到一些问题。为此,我们把常见的问题和解决方案集中到了 用 Tai-e 框架(教学版)分析自制用例 这一节中以供读者方便查阅。

4 使用 JUnit 测试你的实验作业

为了方便大家测试,我们在 src/test/resources/ 文件夹中准备了一些 Java 类和测试输入。每个类都对应于一个名为 *-expected.txt 的期望测试结果文件。

每个作业会有不同的测试驱动类,测试驱动程序会对 src/test/resources/ 下所有测试用例执行分析,并将其输出与期望结果进行比较。如果实现正确,你会通过测试,否则测试驱动程序会失败并输出期望结果和执行结果的不同之处。

同样,你也可以使用 Gradle 运行测试:

$ gradlew clean test

该命令会清空构建目录,重新构建 Tai-e 并执行测试。

3. 用 Tai-e 框架(教学版)分析自制用例

我们非常鼓励你在完成实验作业的过程中自己写一些类作为测试用例,然后用你实现的分析算法来分析这些类。这既可以帮助你更好地理解分析算法,也对你 debug 很有帮助。下面我们介绍如何用 Tai-e (教学版)分析你写的类、其中可能遇到的问题、以及解决方法。

3.1 如何用 Tai-e 框架分析自己写的测试用例?

假设你写了一个类 A.java 并放在路径 path/to/class/ 下,那么你可以用我们为每个作业提供的 pascal.taie.Assignment 分析你的类,只需给它指定参数 -cp /path/to/class/ -m A 即可。

参数 -m 只能指定一个类,即你写的 Java 程序的主类 (main class),但这并不意味着 Tai-e 只能分析一个类的程序。若该类使用了 -cp 所指定路径下的其它类, Tai-e 也能一并分析。

3.2 遇到前端报出错误或生成的 IR 不符合预期怎么办?

Tai-e 目前利用 Soot 前端解析 Java 程序并辅助构建 Tai-e IR。若你写的类符合 Java 语法,但 Tai-e 分析时抛出 SootFrontendException,或生成的 IR 不符合预期(如缺少了源码中的某些语句),那这极有可能是你的类中使用了一些 Soot 的 Java 前端无法处理的语言特性(该前端最高只能部分支持 Java 7 的特性,且不是十分健壮)。

对于这类问题,最简单的解决方法是用 Java 编译器将你写的类编译成字节码 (.class),然后让 Tai-e 分析 .class 文件,这样 Tai-e 就会借助 Soot 的字节码前端解析程序(注:Soot 的字节码前端虽然更加健壮,但其不能保存源码中的变量名信息,因此生成的相应 IR 可读性会差一些)。

3.3 如何用 Tai-e 框架分析字节码 (.class)?

很简单,与分析 Java 源码的方式一样。假设你编译好的类 A.class 存放在路径 /path/to/class/ 下,则使用 pascal.taie.Assignment 并给予其参数 -cp /path/to/class/ -m A 即可。

若同一路径下同时存在一个类的 Java 源码 (.java) 和字节码 (.class), Tai-e 会自动优先选择字节码进行分析,因此你只需将代码编译成字节码并放在同一路径下,然后用同样的参数进行分析即可。