第一章 赛前准备工作

发布于:2022-12-30 ⋅ 阅读:(239) ⋅ 点赞:(0)

目录

一、赛前准备

1、了解国赛

2、软件安装(和队友安装同一个版本)

二、选题策略

1、ABC赛题特点

2、排除背景都看不懂的题

 3、定题

三、百度搜索技巧 

四、查文献技巧

1、知网

 2、其他

五、找数据平台

六、数据预处理

1、缺失值处理

2、异常值处理

七、建模全过程 

1、到底什么是模型?

2、建模过程


一、赛前准备

1、了解国赛

  • 人数: 2020年45680队(本科41826队、专科3854队)、 13万多人报名参赛
  • 时间:时间:每年9月,2021年9月9日(周四) 18时至9月12日(周日 ) 20时 
    • 9月12日20:00之前生成“参赛论文”及必要的“支撑材料”的MD5码。
    • 生成了MD5码后,就别再碰文件! ! !打开都不行! ! !
    • 9月12日20:00 至22:00之间最多只允许上传参赛作品的MD5码1次。
  • 赛题: 本科组ABC任选一道;专科组D和E题,也可以选ABC
  • 获奖:2020年本科组一等奖292队(0.698%),二等奖1201队(2.87%)

详细规则:关注学校通知和国赛官网全国大学生数学建模竞赛http://www.mcm.edu.cn/index_cn.html

2、软件安装(和队友安装同一个版本

  1. Matlab:自行在CSDN搜索安装方法。
  2. Mathpix:截图即可获得公式编辑(word与latex均有, 付费)。
  3. AxGlyph: 学术绘图,比matlab和excle高效 (付费)。

二、选题策略

1、ABC赛题特点

  • 赛题: 本科组ABC任选一道;专科组D和E题,也可以选ABC
  • A题偏向物理/工程类,
    • 专业性较强,往往有标准答案非本专业不建议选择
    • 需要根据物理定理使用微分方程和偏微分方程模型
    • 神经网络/遗传算法等求解较优解的启发式算法一般不适用! ! !
    • 热力学等物理题可以先建立一个非常简陋的模型,再根据题目中的要求一点一点改进
  • B题由于近两年改革,题型不定,19年物理类,20年运筹优化类
  • C题偏向经管/运筹/统计/数据分析类,
    • 赛题较开放易读懂
    • 运筹优化类问题一般没有严格最优解,结果合理即可
    • 数据往往需要自己找

2、排除背景都看不懂的题

  • 若问题背景描述的语句都读不懂,则优先排除
    • 往往A题涉及较为深入的理工科知识,如果非相应专业,可能连题目内的学术名词都读不懂
    • 有些大体能读懂、具体名词不明白的,可先搜索查明关键词意义再考虑
    • 例如: 2017年A题, 关于CT系统参数标定, 若连CT系统成像的基本过程都搞不懂、不了解基本的滤波反投影,就不宜选择该题

 3、定题

  • 少数服从多数
  • 先查资料文献,优先考虑资料较多的:包括查书籍、知网、百度、谷歌等
  • 啥都不会三脸懵逼,就选C题,起码题目较易读懂
  • 尽量开赛后6小时内定题,不要轻易换题
  • 万一做到一半发现做不出来,即使瞎编也要编完一整篇论文交上去! ! !

三、百度搜索技巧 

  • 完全匹配搜索:查询词的外边加上双引号
    • 引号中英文均可
    • 例如搜索 “CT参数标定”,得到的结果不是分别带有“CT”或“参数标定”的网页
  • 标题必含关键词:查询词前加上intitle:
    • 冒号为英文输入下的
    • 例如搜索intitle:CT参数标定, 则搜索结果里每一个标题都会带有“CT参数标定”
  • 搜索文档:例如查询词后空格再输入filetype:文件格式(doc/pdf/xls/等等)
    • 例如搜索:线性规划 filetype:pdf
    • 得到的就都是pdf版的资料
  • 去掉不想要的:查询词后面加空格后加减号与关键字
    • 例如搜索后不想看百度文库的东西,搜索线性规划 filetype:pdf -百度文库
       

四、查文献技巧

1、知网中国知网中国知网知识发现网络平台—面向海内外读者提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。涵盖基础科学、文史哲、工程科技、社会科学、农业、经济与管理科学、医药卫生、信息科技等十大领域。https://www.cnki.net/

  • 先看知网的硕博士论文
    • 硕博论文会对研究的问题有详细的背景和基础知识介绍,可帮助我们快速理解题目
    • 按照“被引”排序
  • 高级检索:想了解神经网络信贷策略中的应用,想找一些相关的硕博论文
  1. 进入高级检索界面,“+”和“一”可以自定义增加和减少检索字段
  2. 主题为:企业信贷(全篇所围绕的)
  3. OR主题为:信贷决策
  4. AND关键词:神经网络,词频设置为“模糊”。模糊”是输入的检索词在检索结果中出现即可,字序、字间间隔可以产生变化。
  5. 检索结果可按“相关度”或“被引”排序

 2、其他

五、找数据平台

六、数据预处理

1、缺失值处理

  • 比赛提供的数据,发现有些单元格是null或空的
  •  缺失太多:例如调查人口信息,发现"年龄”这一项缺失了40%,就直接把该项指标删除
  • 最简单处理:均值、众数插补
    • 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
    • 定性数据,例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失
    • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据
  • Newton插值法
    • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
    • 缺点:区间边缘处的不稳定震荡,即龙格现象。不适合对导数有要求的题目
    • 适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
  • 样条插值法
    • 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
    • 适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据
       

2、异常值处理

  • 样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的
  • 正态分布3σ原则
    • 数值分布在( μ-3σ, μ+3σ)中的概率为99.73%, 其中μ为平均值,σ为标准差
    • 求解步骤: 1.计算均值μ和标准差σ ; 2.判断每个数据值是否在(μ-3σ, μ+3σ)内,不在则为异常值
    • 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
    • 不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布
  • 画箱型图
    • 箱型图中,把数据从小到大排序。下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值
    • 四分位距IQR = Q3-Q1,也就是排名第75%的减去第25%的数值
    • 与正态分布类似,设置个合理区间在区间外的就是异常值
    • 一般设[Q1- 1.5*IQR, Q3+ 1.5*IQR]内为正常值
    • 适用题目:普遍适用
    • 异常数据处理方法与缺失值处理相同

 

七、建模全过程 

1、到底什么是模型?

  • 打开《大学物理》,里面的某一节,就是一个建模过程。
  • 你需要学会如何开车,但是暂时还不需要学会造车修车的原理!
    • 比赛开始后先查文献,一切以现有的他人成果为基础
    • 看不懂原理没关系,把论文“编写”出来就
  • 整篇论文,很多思路、模型等都是从参考文献和书籍搬过来的
  • All models are wrong.Some are useful (不论对错,管用即可)

2、建模过程

  • 一篇完整的数模论文
    • 包括摘要(最重要)、问题重述、模型假设和符号说明、模型建立与求解(篇幅最长)、模型的优缺点与改进方法、参考文献和附录。
  • 摘要:最重要
    • 读者看完摘要,就知道论文研究的问题、用了什么方法、求得了什么结果,以及每一部分的大致步骤
  • 问题重述
    • 将题目简述一遍即可,并不重要。注意不要复制粘贴,避免查重
  • 模型假设和符号说明
    • 好的假设能让你事半功倍
    • 例如某一年太阳投影问题,影子长度与地球公转也有关系,但地球公转对影长的影响远远小于自转,可在模型假设里说明“忽略公转对影长的影响”
    • 符号说明将论文中定义的重要符号列出表格说明即可
  • 模型的建立
    • 一组公式,和对公式中每个变量的解释,就是一个模型
    • 先查阅资料,看着资料,用自己的话复述一个简单的模型,再根据题目中的约束条件去一步步修改模型,把题目中的变量带入模型中去

  •  模型的求解
    • 例如:上文我们所建立的最短路径模型,查阅资料可知单源最短路径的常用算法是Dijkstra算法, 那么模型的求解过程可以把资料上的用自己的话复述一遍
    •  需要注意的是,必须根据赛题解释清楚“起始点”在本问题中究竟是什么、算法里的“节点”在本题中的实际意义是什么、最短路径意味着什么 
  • 不同小问
    • 并不是针对题目的每一问都要建立一个模型
    • 如果每小问之间具有相似性、仅仅是增加了约束条件的话,完全可以全文建立一个模型,再针对每一小问进行模型改进

  • 模型的优缺点与改进方法
    • 这一部分不是必须的,可以简单分析下前文模型的优缺点,若没有改进方法也可不写
    • 结合查到的文献,分析正文中模型常用在哪种问题,又与本文所求解的问题有何区别
  • 参考文献
    • 格式一定要规范
    • 知网检索结果右侧有引用按钮,打开后复制即可

 

  • 附录
    •  附录里要写出正文中求解时用到的代码
    • 一定不要把网上搜到的代码直接复制粘贴! ! !
    • 把查到的代码里变量名换一换就不会被查重
    • 曾出现过参加国赛,在省内被推到国奖,但查重发现代码是复制的,结果被取消获奖并官网通报的先例
       
本文含有隐藏内容,请 开通VIP 后查看