除Kaggle外,还有哪些数据比赛平台值得关注?

发布于:2022-11-09 ⋅ 阅读:(6) ⋅ 点赞:(0) ⋅ 评论:(0)

Part1写在前面

数据比赛一般抽象于真实场景,举办方会拟定赛题,提供比赛数据,明确评分标准,选手们则各显神通,使出浑身解数,提交满足赛题要求的结果,在排行榜上力争上游。

举办这类比赛的平台繁多,CompHub 是个能够实时聚合多个数据比赛平台的工具,本文主要介绍CompHub目前支持的比赛平台,他们同时也是当前最为活跃的平台。

随着CompHub支持的平台增加,本文内容也会不断地更新,推荐在CompHub主页中阅读,能够有更好的体验。

 

↓↓↓ 

Part2平台上比赛的类型

不同平台由于定位不同,平台上支持的比赛类型也不同。CompHub根据所需的关键技能点的不同,将比赛分为数据科学赛、程序设计赛、创新应用赛和数据分析赛四种类型,它们之间并非完全独立,其实存在着很大的共通之处,比如数据科学赛中建模能力在数据分析赛中也是需要的。下面从比赛赛题、比赛数据、提交形式、评分标准这四个方面介绍这四种比赛类型。

1. 数据科学赛

赛题要求:一般与人工智能领域相关,主要来源于“学术上的研究任务”或“工业界的业务需求”,选手需要追踪最新的学术界研究成果或工业界落地方案,探索如何有效地应用在比赛的场景中,以获得很好的效果。

  • “学术上的研究任务”由于是对实际场景的高度抽象,输入输出清晰明确,所给的数据集较为干净,所以选手所要考虑的情况相对较少,主要精力会花在模型优化上。比如:第二届“讯飞杯”中文机器阅读理解评测 (CMRC 2018)针对“基于篇章⽚段抽取的阅读理解”这一细分的学术研究任务,提供人工标注数据,要求选手对给定的篇章进⾏建模,抽取出准确的篇章片段。
  • “工业界的业务需求”与实际场景的关系则更为紧密,也更为复杂,有些业务场景甚至会包含多个学术上的研究任务,数据量也可能会更大,考验选手多方面的综合能力。比如:“阿里灵杰”问天引擎电商搜索算法赛基于电商搜索场景,提供来源于业务场景的有标注数据和大量无标注数据,要求选手完成召回和排序两阶段的任务。

比赛数据:主办方一般会提供数据给选手训练模型,有些比赛会允许使用外部数据。

提交形式:选手需要针对主办方提供的测试数据集,提交预测结果。

评分标准:主要参考客观的评价指标,如:F1、NDCG等,决赛答辩时会考虑一定权重的评委打分。

2. 程序设计赛

赛题要求:一般来自于具体的工程应用场景,选手需要具备系统设计、工程实现和性能优化等多方面的能力,以产出满足真实应用需求的优秀方案。比如:阿里举办的中间件性能挑战赛、华为举办的软件精英挑战赛

比赛数据:程序设计赛对数据依赖低,主办方一般会给定具体工程场景和要求,考验选手的系统设计和实现能力。

提交形式:选手需要提交满足要求的工程代码和相关文档

评分标准:主要考虑机器资源消耗、运行速度、结果准确性等客观因素,决赛答辩时会考虑一定权重的评委打分。

3. 创新应用赛

比赛赛题:一般来自于各行业真实的业务需求,选手需要对相关的行业有深入的认识,通过行业调研、数据收集、数据分析、数据建模和数据展示,以提交符合主办方要求的优秀作品。比如:深圳市环境水务集团举办智慧水务创新应用方案征集

比赛数据:主办方给定具体业务场景,一般会提供业务数据,也有比赛需要选手自行收集数据

提交形式:选手提交能为主办方后续的决策提供参考、符合主办方多方面要求的作品

评分标准:一般会综合考虑创新性、可行性、应用前景等主观因素

4. 数据分析赛

比赛赛题:一般来自于各行业的数据分析和可视化需求,选手需要具备一定的行业知识,理清数据之间的业务逻辑,以用户友好、布局科学的方式展示数据和分析结论。比如:贵阳市公安交通管理局举办的交通事故成因分析竞赛

比赛数据:主办方给定具体业务场景,一般会提供业务数据,也有比赛需要选手自行收集数据

提交形式:选手提交的方案一般包括可视化作品、分析论证文档等

评分标准:一般会综合考虑分析逻辑、指标完备、交互体验等主观因素

Part3数据比赛平台介绍

本文将比赛平台的活跃程度分为:

  • ☀️ 很活跃:近一年新比赛数量≥10

  • 🌤 活跃:5≤近一年新比赛数量<10

  • ☁️ 一般:0<近一年新比赛数量<5

  • ❄️ 不活跃:近一年新比赛数量≤0

Kaggle

Inside Kaggle you’ll find all the code & data you need to do your data science work. Use over 50,000 public  and 400,000 public  to conquer any analysis in no time.(来源于官网主页)

特点

  1. 国内外影响力最大的比赛平台,成立时间超过十年,平台的认可度高,2017年被Google收购

  2. 平台功能完善,讨论氛围活跃,使用体验好

  3. 每场比赛都提供免费的计算资源

天池

天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。(来源于公众号简介)

特点

  1. 背靠阿里,经常有阿里业务相关的比赛在上面举办,平台的认可度高

  2. 平台比赛类型丰富,涵盖四种比赛类型

  3. 大部分比赛都有交流群,举办方回复及时

百度AI Studio

AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。(来源于官网主页)

特点

  1. 背靠百度,经常有百度业务相关的比赛在上面举办,不少比赛与paddlepaddle强绑定

  2. 大部分比赛都有交流群,举办方回复及时

  3. 提供免费计算资源

  4. 大部分比赛都有交流群,举办方回复及时

CodaLab

CodaLab is an open-source platform that provides an ecosystem for conducting computational research in a more efficient, reproducible, and collaborative manner. There are two aspects of CodaLab: worksheets and competitions.(来源于官网主页)

特点

  1. CodaLab本身是一款开源的举办比赛的平台,同时自己也运营一个比赛平台,上面主要是偏学术的比赛

  2. 迁移了新网址,Google搜索第一条结果还是旧网址

和鲸

和鲸成立于2015年4月,以“Connect People with Data 人与数据的价值连接”为使命,帮助数据人才融入业务创新,帮助企业打通数据的价值闭环。

和鲸科赛,数据科学竞赛平台。提供完备、友好的竞赛管理系统,协助政府、企业、高校,通过数据竞赛,推动人才招募、品牌建设、数据开放,借助数据竞赛,培养懂业务、懂数据、会创新的“复合型人才”。(来源于官网主页)

特点

  1. 部分比赛提供免费计算资源

  2. 大部分比赛都有交流群,举办方回复及时

AIcrowd

AIcrowd is a platform for streamlining your AI workflow - internally, or externally, by running AI, machine learning, and other data science challenges. AIcrowd helps organizations - whether businesses, universities, government agencies or NGOs - develop, manage, and promote their challenges. AIcrowd streamlines your machine learning workflow, and connects your problems with machine learning and data science specialists and enthusiasts, who will collaboratively try to find the most accurate, efficient and effective solutions.(来源于官网主页)

特点

  1. 大部分是学术会议的相关比赛

DataCastle

DataCastle数据科学学习社区隶属于成都数聚城堡科技有限公司。是由周涛堡主创建的数据极客圈,聚集了全球数据精英、领先的数据科学思维与智慧以及各行业领域优质数据资源, 在大数据产业价值链的关键环节不断输出优质的大数据人才、大数据解决方案以及数据科学核心技术知识。(来源于官网主页)

特点

  1. 大部分比赛都有交流群,举办方回复及时

DataFountain

作为国内领先的数据智能协同创新平台,DF平台打造了一个“大众创业、万众创新”的在线空间,为数据科学及人工智能专业人士提供基于云端的在线协同创新工作环境及人才服务。结合DF平台资源及产品优势,通过数据开放、场景需求征集、技术人才汇聚、应用成果转化的路径,持续助力人才升级及产业创新。(来源于官网主页)

特点

  1. 中国计算机学会相关比赛的主要举办平台

  2. 大部分比赛都有交流群,举办方回复及时

华为云

华为云大赛平台,是华为公司面向全球开发者的创新大赛,致力于为想要改变世界的开发者们提供一个实践创新的梦想平台,鼓励更多开发者基于华为平台和能力进行产品与方案的创新,并通过技术服务、市场资源共享等,让开发者的创想获得实……(来源于官网主页)

特点

  1. 背靠华为,经常有华为业务相关的比赛在上面举办

  2. 比赛种类多样,除了AI比赛,还有华为举办的软件精英挑战赛、软件编程赛、鲲鹏大赛、开发者大赛……

  3. 部分比赛提供免费计算资源

  4. 大部分比赛都有交流群,举办方回复及时

iFLYTEK A.I.开发者大赛

“iFLYTEK A.I. 开发者大赛”是由科大讯飞发起中国信息协会联合主办的人工智能竞赛平台,汇聚产学研各界力量,面向全球开发者发起数据算法及创新应用类挑战,推动人工智能前沿科学研究和创新成果转化,培育人工智能产业人才,助力人工智能生态建设。(来源于官网主页)

特点

  1. 背靠讯飞,经常有讯飞举办的比赛

  2. 每场比赛的答辩都有录像回放

ZINDI

Zindi is a social enterprise whose mission is to build the data science ecosystem in Africa. Our vision is for a vibrant community of data scientists across Africa, mobilized towards solving the region’s most pressing problems. 
We are a team of data scientists and creators committed to a better Africa.(来源于官网主页)

特点

  1. 有部分比赛只对非洲国家的选手开放

极市

极市(Extreme Mart)是极视角科技旗下AI开发者生态,为计算机视觉开发者提供一站式算法开发落地平台,同时提供大咖技术分享、社区交流、竞赛活动等丰富的内容与服务。(来源于官网主页)

MARS大数据服务平台

MARS数据科学平台,是南京南数数据运筹科学研究院积极响应政府实施数字经济战略、培育数据经济新业态、推进“上云用数赋智”的政策,以培养数据人才为目的,倾力打造的数据科学开放平台。(来源于公众号简介)

Part4写在最后

在调研数据比赛平台的过程中,会发现许多平台已经不再活跃,甚至官网都打不开了。不论如何还是感谢这些平台的存在,他们为技术的沟通和交流搭起了一座桥梁。