研究生三年数学建模比赛心得总结

发布于:2024-05-07 ⋅ 阅读:(25) ⋅ 点赞:(0)

大学同学研究生要毕业了,发文纪念下三年研究生生涯的数学建模比赛心得总结。

2022年MathorCup高校数学建模挑战赛-大数据竞赛【三等奖】

这个比赛是由中国优选法统筹法与经济数学研究会发起的全国性数模竞赛,我们参加的是研究生组的比赛。这个比赛有两道赛题,一道是由58 同城发起的,另外一道是北京移动发起的。我们选择的是北京移动的赛题。

屏幕截图 2024-03-30 125132.png

问题说明

该赛题要求通过北京移动提供的附件数据,来研究影响客户语音业务和上网业务满意度的主要因素。问题一,是对上述因素对上网业务满意度这些影响程度进行量化分析;问题二,是对客户语音业务和上网业务分别建立相关的数学模型。

解题方法和思路

针对问题一,第一步(数据清洗):对于缺省值超过 20%的特征采用 80%法则,对于存在少量缺省值和异常值的特征采用统计指标、轮盘赌等填充方法,逐个对附件1、附件 2进行处理。第二步(可视化):利用 sklearn 生成研究报告,并通过绘制分布图、热力图、三维柱状图、三维散点图等,对特征变量进行统计解释。第三步(特征工程):对部分类别特征数据进行标签编码、独热编码和字典编码,然后进行特征构造并删除重复信息的字段,同时对部分数值特征进行特征缩放。第四步(特征选择):通过逻辑回归分类器建立递归特征消除筛选器,并利用该筛选器获取相关性最强的特征簇。第五步(量化分析):建立随机森林模型分类器对目标变量和特征簇进行拟合分析,最终量化各因素对客户打分影响程度。

针对问题二,第一步(特征工程):对于附件 3、附件 4部分类别特征数据进行标签编码、独热编码和字典编码,并对问题一中生成的特征簇进行差异化匹配。第二步(模型准备):依据题干信息及统计学理论,建立并采用 F1-score、交叉验证相对误差、交叉验证准确率这三项指标作为本文的模型评估标准。第三步(模型建立):建立逻辑线性回归模型、XGBoost模型、LightGBM模型分别评判数据集预测情况,并根据上述的三种模型的评估结果,决定采用测评表现最优的 LightGBM 算法作为问题二的预测模型,同时利用贝叶斯优化调参得到最终结果。

最终,我们三人小组将近十天时间的调研、论文撰写和模型建立,成功完成比赛,获得了研究生组三等奖。【预测准确率大概在50%左右】有一说一,挺菜的。

开源代码

论文代码的地址链接: 提取码:0gz7

2023年第十三届APMCM亚太地区大学生数学建模竞赛【分赛道】之 量子计算数学建模挑战赛【二等奖】

2023年亚太数学建模竞赛(APMCM)五岳杯的主题是优化计算能力网络(CPN)的布局。这个挑战涉及到战略性地部署计算资源,以高效满足各种计算任务,这对于减少延迟、降低成本和提升整个网络性能及用户体验至关重要。

屏幕截图 2024-04-13 152526.png

这个比赛由中国移动云能力中心和亚太地区大学生数学建模竞赛组委会一起联合举办,主要有三个问题交给参赛者去解决,问题如下所示:

问题解释

问题一:第一个问题要求在一个特定区域内部署两个边缘服务器。区域被划分成若干相邻的正方形网格,每个网格的中心坐标代表该网格的计算需求点。这个问题的目标是确定两个边缘服务器的放置位置,以覆盖最大的计算需求。参赛者需要使用QUBO(二次无约束二进制优化)模型来解决这个问题,并通过模拟退火求解器和Kaiwu SDK的CIM(相干Ising机)模拟器来求解,提供覆盖最大计算需求的边缘服务器的坐标及相应的总计算需求覆盖量。

问题二:当边缘服务器无法满足计算需求时,计算服务将由上游的云服务器提供。这个问题需要提供一个计算网络布局,该布局在满足所有用户端计算需求的同时,具有最低的总成本。这包括边缘服务器的位置和数量,以及用户端到边缘服务器、边缘服务器到云服务器和用户端到云服务器之间的连接。同样需要使用QUBO模型来形式化这个问题,并通过模拟退火求解器和Kaiwu SDK的CIM模拟器来求解。

问题三:竞赛还要求参赛者提出一个潜在的决策优化应用场景,该场景可以构建一个适当的QUBO模型。推荐的应用领域包括人工智能、大数据、云计算和边缘计算等。场景应具有实际价值、可扩展性、真实的商业需求,并展示相干Ising机(CIM)的优势。参赛者需要提供必要的背景信息、研究方法、方法论、预期研究结果、技术路线图和支持参考资料或材料。

这个比赛不仅要求参赛者要有在数学建模和优化技术方面的能力,还需要具备利用量子计算技术来解决复杂的组合优化问题的能力。

解题思路与方法

我们对在特定区域部署计算网络基础设施的优化问题进行了研究。它将这个实际问题转化为一个二次无约束二进制优化(QUBO)数学模型。解决过程依赖于相干的Ising模型(CIM)。对于问题一,论文为两个边缘服务器的中心位置和覆盖位置各设置了两个决策变量。此外,还为两个服务器的重叠覆盖区域设置了一个决策变量,总共五个决策变量。解决方案得出的最大覆盖值总和为419,两个边缘服务器部署在44网格的(2,3)和(3,1)位置。对于问题二,总成本被分解为服务器固定成本、服务器负载计算成本和用户计算需求到服务器的传输成本。基于这些成本,建立了三个独立的目标函数。由边缘服务器覆盖的用户位置、边缘服务器的固定信息以及非负松弛变量用于分段函数处理被设为决策变量,结果有三个决策变量。获得的最低成本值为456.07,三个边缘服务器部署在66网格的(2,3)、(4,5)和(6,5)位置。对于问题三,论文提出了一个优化问题,用于汽车测试调度场景中测试设备的配置和布局。时间段信息和工作量信息被设为决策变量,可以使用QUBO数学模型进行求解。

最后,我们成功进入复赛,成为复赛榜单的第三名,但是由于个人原因没有参加复赛,所以只取得了本次赛事的二等奖

2023第二届全国大学生数据分析大赛【二等奖】

这个比赛由中国金融分析协会(CFAI)举办数模竞赛个人赛,一共分为A和B两个赛题,A题-电商平台用户行为分析与挖掘;B题-基于文本内容的敏感信息识别。我选择了A题进行了比赛,比赛的详细信息如下所示:

在2023年全国大学生数据分析大赛中,比赛题目A涉及某电商平台的用户行为分析与挖掘。该题目旨在通过分析用户的交易行为、交易金额、交易频率和交易时间等数据,提高电商平台的营销效率,包括二次营销和精准营销。

屏幕截图 2024-04-20 101032.png

数据说明

比赛提供了包含用户交易行为的数据集,其中包括:

  • 订单ID、商家ID、用户ID:分别为订单、商家和用户的唯一标识。

  • 付款日期:覆盖2022年1月至6月。

  • 使用状态:标识用户是否使用了商家的优惠券。

  • 实付金额、邮费:用户实际支付的金额和邮费。

  • 省份、城市:用户的地理位置信息。

  • 数量:购买商品的数量。

比赛任务

  1. 消费行为的统计分析与可视化:要求参赛者对电商平台用户的消费行为进行详细的统计分析,并通过可视化展示分析结果。

  2. 特征工程:基于原始数据提取有效的用户、商户和优惠券等特征,以提高机器学习模型的性能。

  3. 用户画像构建与客户价值分析:通过建模分析用户属性、偏好和行为,创建标签化的用户模型,绘制用户画像以描述用户特征。

  4. 优惠券发放模型预测:构建模型预测用户是否应接收特定商家的代金券,并评估模型的性能。

  5. 优惠券投放策略设计:设计一套策略,合理投放优惠券以提升用户参与度和平台收益。

这些任务要求参赛者不仅理解和处理数据,还需要应用机器学习技术和策略思考来解决实际商业问题。通过这个比赛,参赛者可以深入了解数据分析在电商领域中的实际应用,提升数据处理和分析技能。

做题方法与思路

随着电子商务在中国的迅速发展,电商已经成为各种商品和服务交易的主导。

本研究以此为背景,深入探索了电商数据的多个关键方面,以更好地了解和满足现代消费者的需求。

首先,对电商平台用户的消费行为进行了统计和可视化分析,计算出了基础指标如总交易量、总用户数和用户平均消费金额等,并通过各种图表形式展示了这些指标之间的关系。这为深入理解用户行为和购买习惯提供了基础。

其次,本文进行了特征工程,从原始数据中提取了与商家和用户相关的多种有效特征,如商家的受欢迎程度、用户的消费能力和购买偏好等。这为后续的模型建立和分析提供了更丰富的数据支持。

再次,基于 RFM 模型完成了客户价值分析,并进一步构建了用户画像。这帮助电商平台更直观地了解用户特征,从而更精确地进行营销策略的制定。接着,本研究构建了预测模型,以判断是否应为特定用户发放代金券。该模型的建立考虑了多种特征,并进行了细致的性能评估,确保其在实际应用中的可靠性。

最后,结合前述的分析结果,本文设计了一套优惠券发放策略,旨在更有效地激发用户购买意愿,提高销售额。综上所述,本研究从多个角度深入探讨了电商数据,为电商平台提供了有价值的见解和建议,帮助它们在竞争激烈的市场环境中保持领先地位。使用本文预处理数据和预测模型得到的精准率、召回率和F1-score分别可达99.4%、99%和99%。【取得了本次赛事二等奖,还拿了一个CDA中级注册数据分析师的证书】

论文原代码

代码开源地址链接:

提取码:gc7o