部署机器学习模型必须考虑的5个要素;用Python快速写web应用的框架;神经网络可视化;3D医学图像分割工具包;前沿论文 | ShowMeAI资讯日报

发布于:2023-01-22 ⋅ 阅读:(531) ⋅ 点赞:(0)

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

工具&框架

🚧 『MedicalSeg』简单易使用的全流程 3D 医学图像分割工具包

https://github.com/PaddleCV-SIG/MedicalSeg

MedicalSeg 是一个简单易用的全流程 3D 医学图像分割工具包,支持从数据预处理、训练评估、再到模型部署的全套分割流程。如图所示是基于 MedicalSeg 在 COVID-19 CT scans 和 MRISpineSeg 上训练之后的可视化结果。

🚧 『EasyRec』深度学习推荐算法框架,支持大规模训练、评估、导出和部署

https://github.com/alibaba/EasyRec

EasyRec 是阿里巴巴开源的针对推荐任务的工具库,实现了推荐过程中召回(匹配)、排序(评分)和多任务学习等先进的深度学习模型,并通过简单的配置和超参数调整(HPO)提高了生成高性能模型的效率:

  • 召回:DSSM / MIND / DropoutNet / CoMetricLearningI2I
  • 排序:W&D / DeepFM / MultiTower / DCN / DIN / BST
  • 多目标优化:MMoE / ESMM / DBMTL / PLE

🚧 『Nitro』无需前端经验,用 Python 写 web 应用的框架

https://github.com/h2oai/nitro

https://nitro.h2o.ai/

无需 Javascript、HTML 或 CSS,以 10 倍的速度创建应用程序。

🚧 『Frontend (FE)』ImageNet 标注工具(前端)

https://github.com/naver-ai/imagenet-annotation-tool

ImageNet 是计算机视觉领域的标志性训练和基准测试数据集,不仅为计算机视觉数据集树立了标准,而且开启了大规模标注的时代。 ImageNet 注释的开源前端 (FE) 模块具尚未开源,本 Repo 是 FE 原始界面的复制品,或者说是为ImageNetV2前端复制了 FE 接口。

🚧 『feder』神经网络可视化工具

https://github.com/zilliztech/feder

Feder 是一个用于理解嵌入向量的 JavaScript 工具,可以将 faiss、hnswlib 和其他 anns 索引文件可视化,能够更好地了解 anns 的工作原理以及什么是高维向量嵌入。在 IPython 环境下,Feder 支持用户直接生成相应的可视化;在其他环境下,Feder 支持将可视化输出为 html 文件,用户可以通过启用 Web 服务的浏览器打开该文件。

博文&分享

👍 『在生产中部署机器学习模型的考虑因素』Considerations for Deploying Machine Learning Models in Production

http://towardsdatascience.com/considerations-for-deploying-machine-learning-models-in-production-89d38d96cc23

数据科学或机器学习研究人员或从业者普遍抱怨的是,将模型投入生产很困难。 为避免模型无法投入生产,本文提出了5个考虑因素,并为每个因素列出了开源解决方案(或来自供应商的托管解决方案)。

  • 考虑因素 #1:使用笔记本电脑进行开发是最佳实践
  • 考虑因素 #2:考虑使用模型生命周期开发和管理平台
  • 考虑因素 #3:将特征存储视为模型开发过程的一部分
  • 考虑因素 # 4:可扩展模型服务框架需要考虑七个关键要求
  • 注意事项 #5:对于模型的可观察性

数据&资源

🔥 『ADRepository』现实世界异常检测数据集

https://github.com/GuansongPang/ADRepository-Anomaly-detection-datasets

🔥 『Climate Change Data』与气候变化相关的数据集API和开源项目列表

https://github.com/KKulma/climate-change-data

研究&论文

可以点击 这里 回复关键字日报,免费获取整理好的论文合辑。

公众号回复关键字日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.22 『机器学习』 OpenXAI: Towards a Transparent Evaluation of Model Explanations
  • 2022.07.23 『计算机视觉』 When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition
  • 2022.07.19 『优化』 Theseus: A Library for Differentiable Nonlinear Optimization
  • 2022.07.07 『优化』 HierarchicalForecast: A Reference Framework for Hierarchical Forecasting in Python

⚡ 论文:OpenXAI: Towards a Transparent Evaluation of Model Explanations

论文标题:OpenXAI: Towards a Transparent Evaluation of Model Explanations

论文时间:22 Jun 2022

所属领域机器学习

对应任务:模型可解释

论文地址:https://arxiv.org/abs/2206.11104

代码实现:https://github.com/ai4life-group/openxai

论文作者:Chirag Agarwal, Eshika Saxena, Satyapriya Krishna, Martin Pawelczyk, Nari Johnson, Isha Puri, Marinka Zitnik, Himabindu Lakkaraju

论文简介:OpenXAI comprises of the following key components: (i) a flexible synthetic data generator and a collection of diverse real-world datasets, pre-trained models, and state-of-the-art feature attribution methods, (ii) open-source implementations of twenty-two quantitative metrics for evaluating faithfulness, stability (robustness), and fairness of explanation methods, and (iii) the first ever public XAI leaderboards to benchmark explanations./OpenXAI由以下关键部分组成。(i)一个灵活的合成数据生成器和一个不同的真实世界数据集、预训练的模型和最先进的特征归属方法的集合,(ii)22个定量指标的开源实现,用于评估解释方法的忠实度、稳定性(稳健性)和公平性,以及(iii)第一个公开的XAI排行榜,用于衡量解释的基准。

论文摘要:虽然最近的文献中提出了几种类型的事后解释方法(如特征归属方法),但几乎没有人以有效和透明的方式对这些方法进行系统的基准测试。在此,我们介绍OpenXAI,这是一个全面的、可扩展的开源框架,用于评估和基准测试事后解释方法。OpenXAI由以下关键部分组成。(i)一个灵活的合成数据生成器和一个不同的真实世界数据集、预训练的模型和最先进的特征归属方法的集合,(ii)22个定量指标的开源实现,用于评估解释方法的忠实度、稳定性(稳健性)和公平性,以及(iii)第一个公开的XAI排行榜,用于对解释进行基准测试。OpenXAI很容易扩展,因为用户可以很容易地评估自定义的解释方法,并将其纳入我们的排行榜。总的来说,OpenXAI提供了一个自动化的端到端管道,不仅简化和规范了事后解释方法的评估,而且还促进了这些方法基准测试的透明度和可重复性。OpenXAI的数据集和数据加载器、最先进的解释方法和评价指标的实现,以及排行榜都可以在https://open-xai.github.io/查看。

⚡ 论文:When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition

论文标题:When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition

论文时间:23 Jul 2022

所属领域计算机视觉

对应任务:手写识别

论文地址:https://arxiv.org/abs/2207.11463

代码实现:https://github.com/lbh1024/can

论文作者:Bohan Li, Ye Yuan, Dingkang Liang, Xiao Liu, Zhilong Ji, Jinfeng Bai, Wenyu Liu, Xiang Bai

论文简介:Recently, most handwritten mathematical expression recognition (HMER) methods adopt the encoder-decoder networks, which directly predict the markup sequences from formula images with the attention mechanism./最近,大多数手写数学表达识别(HMER)方法都采用了编码器-解码器网络,通过注意力机制直接预测公式图像中的标记序列。

论文摘要:近来,大多数手写数学表达识别(HMER)方法都采用了编码器-解码器网络,该网络通过注意力机制直接预测公式图像中的标记序列。然而,这类方法可能无法准确读取结构复杂的公式或生成长的标记序列,因为由于书写方式或空间布局的巨大差异,注意力的结果往往是不准确的。为了缓解这个问题,我们提出了一个非常规的HMER网络,名为计数感知网络(CAN),它共同优化了两个任务。HMER和符号计数。具体来说,我们设计了一个弱监督的计数模块,可以在没有符号级位置注释的情况下预测每个符号类的数量,然后将其插入一个典型的基于注意力的HMER编码器-解码器模型。在HMER的基准数据集上的实验验证了联合优化和计数结果都有利于纠正编码器-解码器模型的预测误差,而且CAN的性能一直优于最先进的方法。特别是,与HMER的编码器-解码器模型相比,所提出的计数模块所造成的额外时间成本是微不足道的。源代码可在https://github.com/LBH1024/CAN获取。

⚡ 论文:Theseus: A Library for Differentiable Nonlinear Optimization

论文标题:Theseus: A Library for Differentiable Nonlinear Optimization

论文时间:19 Jul 2022

所属领域优化

对应任务:优化

论文地址:https://arxiv.org/abs/2207.09442

代码实现:https://github.com/facebookresearch/theseus

论文作者:Luis Pineda, Taosha Fan, Maurizio Monge, Shobha Venkataraman, Paloma Sodhi, Ricky Chen, Joseph Ortiz, Daniel DeTone, Austin Wang, Stuart Anderson, Jing Dong, Brandon Amos, Mustafa Mukadam

论文简介:We present Theseus, an efficient application-agnostic open source library for differentiable nonlinear least squares (DNLS) optimization built on PyTorch, providing a common framework for end-to-end structured learning in robotics and vision./我们提出了Theseus,这是一个高效的、与应用无关的、建立在PyTorch上的可微分非线性最小二乘法(DNLS)优化的开源库,为机器人和视觉领域的端到端结构化学习提供了一个通用框架。

论文摘要:我们介绍了Theseus,这是一个高效的、与应用无关的、建立在PyTorch上的可微分非线性最小二乘法(DNLS)优化的开源库,为机器人学和视觉领域的端到端结构化学习提供了一个通用框架。现有的DNLS实现是特定的应用,并不总是包含许多对效率很重要的成分。Theseus与应用无关,正如我们用几个例子说明的那样,这些应用是用相同的底层可微分组件构建的,如二阶优化器、标准成本函数和李群。为了提高效率,Theseus包含了对稀疏求解器、自动矢量化、批处理、GPU加速以及隐式微分和直接损失最小化的梯度计算的支持。我们在一组应用中做了广泛的性能评估,证明当这些功能被纳入时,效率有了明显的提高,可扩展性也更好。项目页面:https://sites.google.com/view/theseus-ai

⚡ 论文:HierarchicalForecast: A Reference Framework for Hierarchical Forecasting in Python

论文标题:HierarchicalForecast: A Reference Framework for Hierarchical Forecasting in Python

论文时间:7 Jul 2022

所属领域推理

对应任务:Decision Making,Time Series,决策,时间序列

论文地址:https://arxiv.org/abs/2207.03517

代码实现:https://github.com/nixtla/hierarchicalforecast

论文作者:Kin G. Olivares, Federico Garza, David Luo, Cristian Challú, Max Mergenthaler, Artur Dubrawski

论文简介:Large collections of time series data are commonly organized into cross-sectional structures with different levels of aggregation; examples include product and geographical groupings./大量的时间序列数据通常被组织成具有不同层次的横断面结构,例子包括产品和地理分组。

论文摘要:大量的时间序列数据集通常被组织成具有不同层次聚合的横断面结构;例子包括产品和地理分组。对于这样的数据集,连贯的决策和规划的一个必要条件是,分解序列的预测与聚合序列的预测完全相加,这促使人们创建了新的分层预测算法。机器学习界对横断面分层预测系统的兴趣日益浓厚,这说明我们正处于一个有利的时刻,以确保科学工作建立在健全的基础上。为此,我们提出了HierarchicalForecast库,它包含了预处理的公开可用数据集、评估指标和一套编译的统计基线模型。我们基于Python的框架旨在弥补统计学、计量经济学建模和机器学习预测研究之间的差距。代码和文档可在https://github.com/Nixtla/hierarchicalforecast查看。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

本文含有隐藏内容,请 开通VIP 后查看