Microsoft Fabric - 尝试一下Data Factory一些新的特性(2025年5月)

发布于:2025-06-02 ⋅ 阅读:(18) ⋅ 点赞:(0)

1.简单介绍

Microsoft Fabric是微软提供的一个数据管理和分析的统一平台,感觉最近的新特性也挺多的。

        

Data Factory是Microsoft Fabric的一个功能模块,也是一个cloud service。Data Factory可以和多种数据源进行连接,同时提供了data movement, data orchestration, data transformation的功能。有点类似以前的数据ETL工具的功能。       

这边主要尝试一下Data Factory的一些比较新的特性

2.具体说明

2.1 SharePoint作为存储目标

当前Microsoft Fabric中的Dataflow Gen2允许将数据存储到SharePoint library中,

1) 创建一个类型为Dataflow Gen2的dataflow,上传一个excel文件作为数据源,点击Next按钮,

        

 2) 选择一张table作为数据源,点击Create按钮创建dataflow,

        

3) 在dataflow编辑界面中,点击Add data destination下拉框,选择SharePoint选项,

        

4) 输入SharePoint站点的URL同时设定一些相关的配置,然后点击Next按钮,

         

5)  在Choose destination target窗口的左侧目录视图中,选择保存的文档库,还可以设定一下file name,最后点击Next按钮,

         

6) 保存并运行dataflow,最后在SharePoint站点的特定文档库中会发现有个csv文件生成了,

        

2.2 Dataflow转换

 假定已经创建了一个Dataflow Gen1

        

当前Microsoft Fabric增加了一个新特性,可以将Dataflow Gen1升级成Dataflow Gen2,

1) 点击DataflowGen1右侧的...,在下拉选项中选择Save as Dataflow Gen2即可,

        

 2) 在弹出的Save as Dataflow Gen(Preview)窗口中,输入Dataflow的名字,点击Create按钮,

        

3) 最后就多了一个Dataflow Gen2的dataflow了,

        

2.3 Variable library

Microsoft Fabric中多了Variable Library配置项

2.3.1 创建variable library 

1) 点击workspace中的New Item按钮,

        

2) 在New item面板中,点击Variable library的选项(当前处于preview阶段)

        

3) 可以创建一个如下图所示的variable library,

如下图datapath是变量名,当前的值为new_sales, 

        

还可以为变量datapath设定两个候选值,一个是new_sales_test,另外一个是new_sales_prod

        

创建的variable library最后是下面这个样子的,

        

2.3.2 应用variable library

假定已经创建了一个Data pipeline,主要功能是从一个网站下载sales数据到Microsoft Fabric的lakehouse中,

        

下载到lakehouse的sales.csv如下图所示,

        

下面Microsoft Fabric workspace中创建的Data pipeline, Lakehouse和Variable library, 

        

1) 在创建的data pipeline中,发现新增了一个Library variables(preview)的tab,可以添加一个变量和之前创建的variable library进行关联,配置如下图所示,

        

2) 可以配置Copy data action的File Path值来自variable library,如下图所示,

        

         

2.3.3 运行pipeline

假定当前变量datapath值为new_sales,

        

1) 现在点击下图中的Set as active选项将值new_sales_test变成active状态,

        

        

2) 点击pipeline界面上边的Run按钮,

        

3) 等待一些时间,pipeline运行成功了,

        

        

4) 最后查看目标lakehouse,发现有目录new_sales_test创建同时数据也下载完成了,

        

5) 如果是将值new_sales_prod设定为active状态,运行pipeline,最后发现lakehouse中也有new_sales_prod目录生成,如下面图所示,

        

         

感觉variable library用来设定不同产品环境的配置值,比如Developement, Test, Production环境的配置项相同但是值不同。可能比较适合CICD(continuous integration and continuous deployment)中的配置

3.总结

本文简单介绍了Microsoft Fabric Data Factory的一些新特性,其中variable library还处于preview阶段。当前随着大语言模型的普及,Data Factory也可以使用Copilot进行制作了。Microsoft Fabric的功能更新确实挺快的,还需继续跟着微软老师们学习一下。

本文如果哪里有错误,麻烦告之,谢谢谢谢!


网站公告

今日签到

点亮在社区的每一天
去签到