AlphaIDE 服务使用引导

发布于:2023-01-11 ⋅ 阅读:(618) ⋅ 点赞:(0)

首先,附上链接AlphaIDEhttps://registry-alphaide.dmetasoul.com/#/login,可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。

1.注册登录

点击链接 Alpha IDE :https://registry-alphaide.dmetasoul.com/#/login,可以使用邮箱进行注册:

注册后会向邮箱发送一个验证链接,点击验证链接后,可以通过刚才注册使用的邮箱和密码登录。

登录后,点击进入试用 IDE 环境:

如出现登录界面,请使用刚才的邮箱密码登录。

2. IDE使用

2.1 创建个人 namespace

首先在左侧导航栏,进入 Kubeflow - home:

在 Kubeflow 初始化页面,点 Start Setup

随后在 Namespace 创建页面,可以点击 Finish。默认 Namespace 就是用户名:

2.2 创建 Jupyter Notebook

进入 Demo IDE 服务后,点击左侧应用服务,点击 Kubeflow 下拉菜单,可以进入 Jupyter 页面。

点击右上角创建 Notebook,进入到 Notebook 创建页面。

输入 Notebook 名字后,下方 Configuration 中,勾选所有配置,其他的采用默认配置即可:

拉到最下方点击 Launch。Notebook 创建成功后,点击 Connect,即可进入 Jupyter 开发环境。首次加载需要读取较多资源文件,请耐心等待 1 分钟。

2.3 测试 Spark 任务

在 Jupyter Notebook 中,创建一个 Python3 Kernel 的 Notebook:

进入 Notebook 代码开发界面后,可以输入如下测试代码:

from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .config('spark.master', 'local')\
        .getOrCreate()

from datetime import datetime, date
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()

然后按 Shift + 回车 执行,即可看到运行结果:

AlphaIDE Jupyter 集成了 Python Language Server、Spark Monitor 等插件,提供 Python 代码补全、Spark 任务进度显示等功能,方便开发调试。您也可以在 Jupyter Extension 界面安装所需要的额外插件或主题。

2.4 测试 MetaSpore 任务

AlphaIDE 已经集成安装了 MetaSpore ,可以测试 MetaSpore 提供的一个入门教程 Notebook:MetaSpore/metaspore-getting-started.ipynb at main · meta-soul/MetaSpore (github.com)

AlphaIDE Demo 服务的 S3 桶名为:alphaide-demo,教程中的 YOUR_S3_BUCKET 可以替换为这个桶名,并使用 s3://alphaide-demo/ 作为保存数据的路径前缀。为了能较为流畅的执行以下的训练步骤,建议申请的节点配置不低于2Core CPU X 4G RAM,同时为了节约资源建议申请节点配置不高于6Core CPU X 12G RAM如果 MetaSpore demo 任务失败,请确定是否资源申请不足。

以下是使用时具体的执行步骤:

  1. 首先,我们在Jupyter Notebook服务中,启动一个Terminal,运行git clone,将MetaSpore项目下载;
  2. 其次,打开MetaSpore/tutorials/metaspore-getting-started.ipynb:
  3. 可以按照指引,配置好我们云端存储地址,下载训练数据、构建CTR预测模型、训练模型、测试模型等操作。训练过程如下所示:

2.5 测试 LakeSoul 任务

LakeSoul 介绍:重磅!开源湖仓平台 LakeSoul 设计理念详解 (qq.com)

notebook的创建如下操作: 

参考2.2 Notebooks完成初始化工作后,在Notebooks页面,点击 Connect,即可进入 Jupyter 开发环境(第一次连接需要一点时间,请耐心等待,不要关闭页面)。

进入使用时,先在 Jupyter Notebook 中,启动一个Terminal服务,点击即可进入

启动后执行此命令,进入spark环境(红色替换成自己namespace);spark-shell --conf spark.dmetasoul.lakesoul.meta.host=scylla-dmetasoul-scylla-for-lakesoul-0.scylla.svc.cluster.local --conf spark.sql.extensions=com.dmetasoul.lakesoul.sql.LakeSoulSparkSessionExtension --conf spark.dmetasoul.lakesoul.meta.database.name=test_lakesoul_meta --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.lakesoul.catalog.LakeSoulCatalog --conf spark.kubernetes.namespace=asakiny --conf spark.kubernetes.executor.deleteOnTermination=false --master local

在Spark环境中,参照LakeSoul Demo 链接:Lakesoul IDE Demo · meta-soul/LakeSoul Wiki (github.com) ,进行开发。

注:目前notebook连接后当前所在目录为:/home/jovyan,且只有当前目录权限,所以在进行loakesoul demo运行时,需要注意修改对应目录位置为一个新的空目录,如:/home/jovyan/lakesoul_tmp。

2.6 运行 Movielens Demo

我们提供了一个 MovieLens Demo:MetaSpore/README-CN.md at main · meta-soul/MetaSpore (github.com)。具体说明可以参考元灵数智公众号文章:重磅!基于新一代MetaSpore平台快速搭建工业级推荐系统 (qq.com)。为了能较为流畅的执行以下的训练步骤,建议申请的节点配置不低于4Core CPU X 8G RAM,同时为了节约资源建议申请节点配置不高于6Core CPU X 12G RAM。

如果要进行快速测试,这里配合公众号文章中的数据处理模型训练部分给出Jupyter Notebook,可以在Alpha IDE进行交互测试,并复现里面的结果,供大家参考:

  1. 使用MetaSpore快速进行数据处理与数据分析:https://github.com/meta-soul/MetaSpore/blob/main/demo/movielens/offline/notebooks/1-data_exploration.ipynb。在这个Notebook中,我们展示如何在Alpha IDE中,进行数据准备、数据读取、数据分析等基础的操作;
  2. 使用MetaSpore快速落地CTR预估模型:https://github.com/meta-soul/MetaSpore/blob/main/demo/movielens/offline/notebooks/2-ctr_prediction.ipynb。在这个Notebook中,我们展示如何在 MetaSpore 中使用神经网络模型进行 CTR 模型的离线训练、预测、导出。

如果要使用MovieLens-1M数据建立一个完整的推荐服务,包括离线数据、模型的pipeline建立,在线服务的pipeline建立,可以通过执行步骤来完成:

  1. 我们在Jupyter Notebook服务中,启动一个Terminal,运行git clone,将MetaSpore项目下载;
  2. 切换到MetaSpore/demo/movielens/offline目录下,README-CN.md中有详细的离线操作过程说明文档,按照文档指引可以完成离线的数据处理、特征生成、模型训练、缓存数据Dump等工作;
  3. 当离线模型训练完成之后,可以切换到MetaSpore/demo/movielens/online,README.md中有详细的在线操作说明文档,按照文档指引可以完成对推荐服务的构建、部署、测试等工作。

官方资料 GitHub: 
LakeSoul:https://github.com/meta-soul/LakeSoul

MetaSpore:https://github.com/meta-soul/MetaSpore

AlphaIDE:https://registry-alphaide.dmetasoul.com/login

官网: https://www.dmetasoul.com

官方交流群: 微信群:关注公众号“元灵数智”,点击“了解我们-用户交流”即可获取二维码

Slack: https://join.slack.com/t/dmetasoul-user/shared_invite/zt-1681xagg3-4YouyW0Y4wfhPnvji~OwFg

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到