04-22 周日 阿里云-瑶光上部署FastBuild过程(配置TLS、自定义辅助命令)

发布于:2024-05-08 ⋅ 阅读:(29) ⋅ 点赞:(0)
04-22 周日 阿里云-瑶光上部署FastBuild过程
时间 版本 修改人 描述
2024年4月22日14:18:59 V0.1 宋全恒 新建文档
2024年4月23日20:41:26 V1.0 宋全恒 完成了基本流程的添加

简介

前提

  • 准备两台服务,一台部署Docker,一台部署FastBuild的镜像容器服务
  • 所述的Docker服务需要具备联网的能力,因为要下载

 这些信息位于 ECS平台侧部署文档上。

 整个过程需要如下信息

名称 具体信息 作用
平台的访问地址 页面验证,因为有加密请求,所以直接使用swagger麻烦
harbor仓库的地址、用户名密码 构建任务时,需要把Ubuntu的基础镜像18.04,20.04和Centos7等上传到harbor
部署FastBuild容器的服务器ip,用户名,密码
部署Docker构建服务的服务器ip,用户名,密码 需要生成tls加密信息
jenkins构建的用户名和密码 部署FastBuild镜像CI。

配置步骤

Docker服务器配置

注,该部分主要是在一台专门构建镜像的宿主机上,安装Docker,并且配置TLS、Harbor等信息。

注,请确保该服务器能够正常的访问互联网,因为需要使用网络下载各种软件

安装Docker

注,请保持网络能够访问互联网。

apt-get install docker.io

配置TLS

生成tls密码文件

 使用命令完成加密文件的生成。

 生成证书在需要开启Docker远程API访问的机器上,执行以下脚本生成证书注意默认的参数配置是10.101.12.127机器的,可替换参数需要修改,必须修改的是IP、其他都可以保持一致

#!/bin/bash
# 
# -------------------------------------------------------------
# 自动创建 Docker TLS 证书
# -------------------------------------------------------------

# 以下是配置信息
# --[BEGIN]------------------------------

CODE="jenkins"
IP="10.101.12.127"
PASSWORD="szfyd@jenkins"
COUNTRY="CN"
STATE="ZHEJIANG"
CITY="HANGZHOU"
ORGANIZATION="ZJLAB"
ORGANIZATIONAL_UNIT="Dev"
COMMON_NAME="$IP"
EMAIL="jenkins@zhejianglab.com"

 命令的主体内容如下:

#!/bin/bash
# 
# -------------------------------------------------------------
# 自动创建 Docker TLS 证书
# -------------------------------------------------------------

# 以下是配置信息
# --[BEGIN]------------------------------

CODE="jenkins"
IP="10.101.12.127"
PASSWORD="szfyd@jenkins"
COUNTRY="CN"
STATE="ZHEJIANG"
CITY="HANGZHOU"
ORGANIZATION="ZJLAB"
ORGANIZATIONAL_UNIT="Dev"
COMMON_NAME="$IP"
EMAIL="jenkins@zhejianglab.com"

# --[END]--

# Generate CA key
openssl genrsa -aes256 -passout "pass:$PASSWORD" -out "ca-key-$CODE.pem" 4096
# Generate CA
openssl req -new -x509 -days 365 -key "ca-key-$CODE.pem" -sha256 -out "ca-$CODE.pem" -passin "pass:$PASSWORD" -subj "/C=$COUNTRY/ST=$STATE/L=$CITY/O=$ORGANIZATION/OU=$ORGANIZATIONAL_UNIT/CN=$COMMON_NAME/emailAddress=$EMAIL"
# Generate Server key
openssl genrsa -out "server-key-$CODE.pem" 4096

# Generate Server Certs.
openssl req -subj "/CN=$COMMON_NAME" -sha256 -new -key "server-key-$CODE.pem" -out server.csr

echo "subjectAltName = IP:$IP,IP:127.0.0.1" >> extfile.cnf
echo "extendedKeyUsage = serverAuth" >> extfile.cnf

openssl x509 -req -days 365 -sha256 -in server.csr -passin "pass:$PASSWORD" -CA "ca-$CODE.pem" -CAkey "ca-key-$CODE.pem" -CAcreateserial -out "server-cert-$CODE.pem" -extfile extfile.cnf


# Generate Client Certs.
rm -f extfile.cnf

openssl genrsa -out "key-$CODE.pem" 4096
openssl req -subj '/CN=client' -new -key "key-$CODE.pem" -out client.csr
echo extendedKeyUsage = clientAuth >> extfile.cnf
openssl x509 -req -days 365 -sha256 -in client.csr -passin "pass:$PASSWORD" -CA "ca-$CODE.pem" -CAkey "ca-key-$CODE.pem" -CAcreateserial -out "cert-$CODE.pem" -extfile extfile.cnf

rm -vf client.csr server.csr

chmod -v 0400 "ca-key-$CODE.pem" "key-$CODE.pem" "server-key-$CODE.pem"
chmod -v 0444 "ca-$CODE.pem" "server-cert-$CODE.pem" "cert-$CODE.pem"

# 打包客户端证书
mkdir -p "tls-client-certs-$CODE"
cp -f "ca-$CODE.pem" "cert-$CODE.pem" "key-$CODE.pem" "tls-client-certs-$CODE/"
cd "tls-client-certs-$CODE"
tar zcf "tls-client-certs-$CODE.tar.gz" *
mv "tls-client-certs-$CODE.tar.gz" ../
cd ..
rm -rf "tls-client-certs-$CODE"

# 拷贝服务端证书
mkdir -p /etc/docker/certs.d
cp "ca-$CODE.pem" "server-cert-$CODE.pem" "server-key-$CODE.pem" /etc/docker/certs.d/

 执行完脚本后,在当前目录下会生成服务端证书文件(server-cert-jenkins.pem 等)以及一个客户端的证书压缩包,如下:

image.png

 命令生成的过程见命令,上述地址记录了执行的过程以及验证

image-20240422154430580
配置tls配置文件,开启Remote API

 一般的,我们是使用system服务完成docker服务的管理,因此需要将服务配置成tls加密启动的

 修改 /lib/systemd/system/docker.service,注意修改ExecStart命令如下,建议参考10.101.12.127上的对应文件里的命令,注意确认服务端证书文件的路径是否正确:

image.png
ExecStart=/usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock -D --tlsverify --tlscacert=/etc/docker/certs.d/ca-jenkins.pem  --tlscert=/etc/docker/certs.d/server-cert-jenkins.pem  --tlskey=/etc/docker/certs.d/server-key-jenkins.pem -H tcp://0.0.0.0:2375

注意,在配置了tls启动docker之后,请验证tls设置的有效性,并配置systemd生效和重启docker服务

systemctl daemon-reload
systemctl restart docker
验证tls有效性

 将客户端证书文件压缩包文件里的 cert.pem,key.pem这两个文件复制到测试机上, curl中-k的意思是Allow connections to SSL sites without certs,不验证证书

curl -k https://docker服务器IP:2375/info --cert  cert.pem路径  --key 路径

 在靠北了这个文件的服务器上使用如下命令进行验证

root@iZ1pp06qu51oiqqddsrnuxZ:/mnt/nas_self-define/meizhewei/fastbuild/tls# curl -k https://10.200.88.44:2375/info --cert cert-jenkins.pem --key key-jenkins.pem 
{"ID":"FYCU:3OCK:DCG7:V6YN:FKQN:4HY7:KLCE:5MVS:N4CN:TRQQ:BZOM:BZAM","Containers":0,"ContainersRunning":0,"ContainersPaused":0,"ContainersStopped":0,"Images":1,"Driver":"overlay2","DriverStatus":[["Backing Filesystem","extfs"],["Supports d_type","true"],["Native Overlay Diff","true"],["userxattr","false"]],"Plugins":{"Volume":["local"],"Network":["bridge","host","ipvlan","macvlan","null","overlay"],"Authorization":null,"Log":["awslogs","fluentd","gcplogs","gelf","journald","json-file","local","logentries","splunk","syslog"]},"MemoryLimit":true,"SwapLimit":false,"KernelMemory":true,"KernelMemoryTCP":true,"CpuCfsPeriod":true,"CpuCfsQuota":true,"CPUShares":true,"CPUSet":true,"PidsLimit":true,"IPv4Forwarding":true,"BridgeNfIptables":true,"BridgeNfIp6tables":true,"Debug":true,"NFd":25,"OomKillDisable":true,"NGoroutines":34,"SystemTime":"2024-04-22T17:04:53.635322909+08:00","LoggingDriver":"json-file","CgroupDriver":"cgroupfs","CgroupVersion":"1","NEventsListener":0,"KernelVersion":"4.15.0-196-generic","OperatingSystem":"Ubuntu 18.04.6 LTS","OSVersion":"18.04","OSType":"linux","Architecture":"x86_64","IndexServerAddress":"https://index.docker.io/v1/","RegistryConfig":{"AllowNondistributableArtifactsCIDRs":[],"AllowNondistributableArtifactsHostnames":[],"InsecureRegistryCIDRs":["127.0.0.0/8"],"IndexConfigs":{"10.101.12.128":{"Name":"10.101.12.128","Mirrors":[],"Secure":false,"Official":false},"10.101.12.129":{"Name":"10.101.12.129","Mirrors":[],"Secure":false,"Official":false},"10.200.88.53":{"Name":"10.200.88.53","Mirrors":[],"Secure":false,"Official":false},"docker.io":{"Name":"docker.io","Mirrors":[],"Secure":true,"Official":true},"harbor.alkaidos.cn":{"Name":"harbor.alkaidos.cn","Mirrors":[],"Secure":false,"Official":false}},"Mirrors":[]},"NCPU":16,"MemTotal":33704079360,"GenericResources":null,"DockerRootDir":"/var/lib/docker","HttpProxy":"","HttpsProxy":"","NoProxy":"","Name":"iZ1pp06qu51oiqqddsrnuvZ","Labels":[],"ExperimentalBuild":false,"ServerVersion":"20.10.21","Runtimes":{"io.containerd.runc.v2":{"path":"runc"},"io.containerd.runtime.v1.linux":{"path":"runc"},"runc":{"path":"runc"}},"DefaultRuntime":"runc","Swarm":{"NodeID":"","NodeAddr":"","LocalNodeState":"inactive","ControlAvailable":false,"Error":"","RemoteManagers":null},"LiveRestoreEnabled":false,"Isolation":"","InitBinary":"docker-init","ContainerdCommit":{"ID":"","Expected":""},"RuncCommit":{"ID":"","Expected":""},"InitCommit":{"ID":"","Expected":""},"SecurityOptions":["name=apparmor","name=seccomp,profile=default"],"Warnings":["WARNING: No swap limit support"]}

配置Harbor

 由于要在该Docker服务器上构建镜像,并将镜像推送到Harbor仓库,因此需要该Harbor的信息配置在docker配置文件中。

 主要是配置/etc/docker/daemon.json

{
  "insecure-registries" : [
    "harbor.alkaidos.cn","10.101.12.128","10.101.12.129", "10.200.88.53"
  ]
}

代码分支创建并配置

注,回头应该将所有这些信息都有有外部传入

创建分支

注,该步骤主要是为了配合jenkins,因此需要单独建立一个分支。但最后也是使用环境变量的方式来修改。

(venv) D:\200-Git\250-framework\fastbuild>git checkout -b aliyun
Switched to a new branch 'aliyun'

修改fb-prod.ini配置文件

 该过程的主要目的是为了在FastBuild的配置文件中配置harbor仓库的信息

image-20240422142720225

 一般的,配置的事生产环境,因此需要修改的事fb-prod.ini这个文件。

注,相应的,配置了该文件之后,需要在构建当前镜像的时候,传入环境变量FB_ENV,并且配置为prod

 这部分的代码位于:

def get_config_file():
    config_file = "config/fb-test.ini"
    if "FB_ENV" not in os.environ:
        return config_file
    env_val = os.environ["FB_ENV"]
    if env_val not in ["dev", "prod", "test"]:
        return config_file

    return "config/" + "fb-" + env_val + ".ini"

 主要的,要修改的内容包括:

  • [fb]下的host,即表示FB的镜像容器所在的宿主机IP
  • [remote-docker]下的host和port,确定了构建镜像的服务所使用的逻辑的IP和端口
  • [harbor]即镜像仓库的用户名,密码和registry地址
  • [tls], 关于tls这部分,需要使用tls通信的三个文件,用来和Docker服务进行通信。该过程主要是FastBuild容器服务需要和远方的Docker进行通信,通信的方式采用了TLS加密的机制,所需的三个文件由Docker服务器配置TLS的过程产生
[fb]
# 系统源所在目录, 其中1级目录表示源的类型,如阿里ali, 网易(163), 清华(qinghua)
source_dir = /mnt/nas_self-define/meizhewei/fastbuild/source
# 镜像构建任务根目录,其中任务目录保存了Dockerfile以及需要的镜像构建材料
task_dir = /mnt/nas_self-define/meizhewei/fastbuild/task
# 安装器所在目录, pip、conda、python均位于其中。其中pip中又分为pip2和pip3目录
tools_dir = /mnt/nas_self-define/meizhewei/fastbuild/tools
# FB所在的主机
host = 172.27.213.154
# FB所占用的端口
port = 48001

[db]
file = sqlite:mnt/nas_self-define/meizhewei/fastbuild/database/fb-prod.db

[tls]
client_cert_path = /mnt/nas_self-define/meizhewei/fastbuild/tls/cert-jenkins.pem
client_key_path = /mnt/nas_self-define/meizhewei/fastbuild/tls/key-jenkins.pem
ca_path = /mnt/nas_self-define/meizhewei/fastbuild/tls/ca-jenkins.pem

[callback]
# 记录了镜像构建要上报的主机端口信息,采用HTTP协议
host = 172.27.213.154
port = 40096

[remote-docker]
# 记录远端docker server的host:port
host = 172.27.213.164
port = 2375

[aes]
# 用于AES加密的key
key = c7e71f37dda040fd
# 用于AES加密的偏移量设置
iv = 0000000000000000

[harbor]
username = admin
password = harbor@Szfyd2023
registry = 172.27.213.154:30003

注,[callback]回调已经不需要配置了,由外部服务传入,服务名称为dros-open-image,请确保和修改application-dev.yml中python.dockerfile-build参数

self.callback_url = self.image_request.task_data.callback_url

 在创建任务时,由客户端服务发起镜像构建时传入回调的地址。

代码修改

注,由于不同的地方,镜像名称会不断地变化,因此,这里有一部分的问题

    @staticmethod
    def is_alkaid_image(image_name):
        alkaid_prefixes = ["172.27.213", "10.101.12", "harbor.alkaidos", "10.200.88"]
        return any(item in image_name for item in alkaid_prefixes)

注,此部分代码,之后会合入到.ini配置文件,是在部署过程中发现的问题代码,即代码扩展

FastBuild所在服务器配置文件准备

程序依赖的文件

注,该过程指的是在FastBuild容器服务的宿主机上要创建相应的文件,并且与这些文件的目录与配置文件中要保持一致。文件包括tls、db、fb项

注,由于FastBuild需要准备额外的文件,这些文件包括数据库,下载的源文件,以及Python、Conda等的安装文件,并且需要正确的挂载到相应的位置:

root@iZ1pp06qu51oiqqddsrnuxZ:~# mkdir -p /mnt/nas_self-define/meizhewei/fastbuild


tls通信的文件

image-20240422152138897

使用CI工具构建镜像,并部署服务

注,该步骤用于拉取使用CI工具拉取相应分支代码

  • 并构建一个镜像,并将该镜像推送到我们的harbor(10.101.12.128)
  • 将镜像借助工具转化为helm包形式
  • 使用helm形式部署成服务

Jenkins 构建镜像

 使用的jenkins CI地址为jenkins

用户名:szfyd-algorithm
密码:szfyd@123

注,在使用jenkins的时候,仅仅需要构建,因此Push选择取消即可。

使用helm工具进行构建

 工具示意图如下:

image-20240422183528629

注,由于在启动的时候,对于几个路径一定要挂载,因此,请首先进行校验,出现了如下的问题,要进行校验:

注,关于使用helm进行部署的部分,不在本文的范围之内,需要请有关技术支持进行部署.

问题

image-20240422183644023

 经过沟通,发现是helm工具的问题,仅仅声明了volume,而没有挂载

image-20240422183739141

 因此要修改工具

image-20240422183311197 image-20240422183333255

添加方便调试的命令

注,自定义几个命令。

 可以添加FastBuild容器所在节点的/usr/bin目录下

  • fbid
#!/bin/bash

kubectl get pods | grep fast | awk -F" " '{print $1}'
  • fbcon
#!/bin/bash

kubectl exec -it $(fbid) -- bash
  • fblog
#!/bin/bash

pod_name=$(fbid)
kubectl logs ${pod_name} -f --tail=300

功能验证

Swagger验证

 在FastBuild的Swagger页面上查看,REST服务是否正常。

image-20240423163759979

平台上验证

 登录平台,因此,需要平台登录密码,

在私有仓库上添加镜像

注,以下过程建议,在用于构建镜像的Docker服务器上执行,因为其已经正确配置了Docker服务和Harbor的通信。

 首先拉取官方镜像,然后修改tag,并推送至Harbor.

docker pull ubuntu:20.04; docker pull centos:7; docker pull ubuntu:18.04
docker tag ubuntu:20.04 10.200.88.53/framework/ubuntu:20.04-official
docker tag centos:7  10.200.88.53/framework/centos:7-official
docker push 10.200.88.53/framework/centos:7-official
docker push 10.200.88.53/framework/ubuntu:20.04-official
docker tag ubuntu:18.04 10.200.88.53/framework/ubuntu:18.04-official
docker push 10.200.88.53/framework/ubuntu:18.04-official

 登录Harbor仓库验证推送是否成功。

image-20240423201045793

 将镜像重新打标签推送到新的harbor仓库

关联镜像地址

image-20240423201308100

 在镜像管理-创建镜像-关联镜像地址时,粘贴上述镜像地址

image-20240423201532454

 依次处理这三个镜像,作为我们构建镜像的基础镜像。

注,由于当前FastBuild还不支持Ubuntu22.04,因此请使用centos7,ubuntu:18.04,Ubuntu:20.04作为镜像构建的基础镜像。

 出现上述的构建记录,代表镜像构建和推送成功

image-20240423202344763

功能验证

 在资产管理-镜像管理-创建镜像-系统构建镜像页面,点击系统构建镜像,选择上述的三个基础镜像,然后根据需要选择正确的构建ingredient,

总结

 真的是吐血,这次部署花费了4个小时,真的是太痛苦了,自己也意识到了环境检测的重要性.

 首先要支持

  • TLS的是否支持
  • check环境进行有效的验证
    • check连通性
    • check密码是否存在
  • 日志还是不够

 还是很痛苦的一段过程,因为在这个过程中,需要手动执行的太多了。