一、数学与统计学基础
- 概率论与数理统计
- 随机变量、概率分布(正态分布、泊松分布等)、大数定律、中心极限定理
- 假设检验、置信区间、方差分析(ANOVA)、回归分析
- 贝叶斯定理及其在分类问题中的应用(如朴素贝叶斯算法)
- 线性代数
- 矩阵运算、特征值分解、奇异值分解(SVD)
- 在降维(PCA)、推荐系统(协同过滤)中的应用
- 优化理论
- 梯度下降、牛顿法等优化算法
- 凸优化与非凸优化的区别及实际应用场景
二、编程与工具链
- 编程语言
- Python:核心库(NumPy、Pandas、Matplotlib/Seaborn)、科学计算生态(SciPy)、机器学习框架(Scikit-learn、TensorFlow/PyTorch)
- R:统计建模优势(ggplot2、dplyr)、适用于学术研究或特定领域(如生物统计)
- SQL:数据库查询(JOIN、子查询、窗口函数)、性能优化(索引、分区)
- 大数据工具
- Hadoop生态:HDFS、MapReduce、Hive(SQL-on-Hadoop)
- Spark:RDD、DataFrame API、MLlib(机器学习库)
- 流处理:Kafka(消息队列)、Flink(实时计算)
- 版本控制与协作
- Git(分支管理、冲突解决)、GitHub/GitLab
- 协作工具:Jupyter Notebook(交互式分析)、Markdown(文档编写)
三、数据库与数据管理
- 关系型数据库
- MySQL/PostgreSQL:事务处理、ACID原则、索引优化
- 数据库设计范式(1NF-3NF)、数据仓库建模(星型模型、雪花模型)
- NoSQL数据库
- MongoDB(文档型)、Redis(键值型)、Cassandra(宽列型)
- 适用场景:高并发读写、非结构化数据存储
- 数据仓库与ETL
- 数据抽取(API/爬虫/日志采集)、转换(清洗、去重、标准化)、加载(增量/全量)
- 工具:Airflow(工作流调度)、Informatica/Talend(ETL工具)
四、机器学习与深度学习
- 监督学习
- 分类算法:逻辑回归、决策树、SVM、随机森林、XGBoost/LightGBM
- 回归算法:线性回归、岭回归、Lasso回归、GBDT
- 评估指标:准确率、召回率、F1值、ROC-AUC、MSE/MAE
- 无监督学习
- 聚类:K-Means、DBSCAN、层次聚类
- 降维:PCA、t-SNE、UMAP
- 异常检测:孤立森林、One-Class SVM
- 深度学习
- 神经网络基础:前向传播、反向传播、激活函数(ReLU、Sigmoid)
- 框架应用:CNN(图像处理)、RNN/LSTM(时序数据)、Transformer(NLP)
- 预训练模型:BERT、GPT、ResNet(迁移学习)
- 强化学习
- 马尔可夫决策过程(MDP)、Q-Learning、Policy Gradient
- 应用场景:推荐系统、游戏AI、自动驾驶
五、大数据处理与分布式计算
- 分布式架构
- MapReduce思想、YARN资源管理
- Spark与Hadoop对比:内存计算、DAG执行引擎
- 实时计算
- Flink核心概念:State、Checkpoint、Watermark
- 窗口类型:滚动窗口、滑动窗口、会话窗口
- 资源调度
- Kubernetes(容器编排)、Docker(镜像管理)
- 云服务:AWS EMR、Google Dataproc、Azure HDInsight
六、数据可视化与报告
- 可视化工具
- 静态图表:Matplotlib、Seaborn(Python)、ggplot2(R)
- 交互式仪表盘:Tableau、Power BI、Superset
- 地理可视化:Leaflet、D3.js
- 故事化呈现
- 数据叙事技巧:从问题定义到结论推导的逻辑链
- 报告工具:LaTeX(学术报告)、Markdown(技术文档)
七、业务理解与软技能
- 领域知识
- 行业特定数据:金融风控(交易数据)、电商(用户行为日志)、医疗(电子病历)
- 业务指标:GMV、DAU/MAU、转化率、LTV(用户生命周期价值)
- 沟通协作
- 跨部门协作:与产品、工程、运营团队对接需求
- 需求分析:将业务问题转化为数据问题(如“如何提升用户留存?”→“分析用户流失前的行为模式”)
- 伦理与合规
- 数据隐私:GDPR、CCPA法规要求
- 算法公平性:避免偏见(如性别、种族歧视)
八、进阶方向
- 特征工程
- 特征选择:过滤法、包装法、嵌入法
- 特征构造:时间序列特征(滑动统计量)、文本特征(TF-IDF、Word2Vec)
- 模型调优
- 超参数优化:Grid Search、Random Search、Bayesian Optimization
- 模型解释:SHAP值、LIME(局部可解释性)
- A/B测试
- 实验设计:样本量计算、随机分组、流量分配
- 假设检验:T检验、卡方检验、多臂老虎机(MAB)
学习路径建议
- 入门阶段
- 学习Python/SQL基础,掌握Pandas数据清洗
- 完成Kaggle入门项目(如Titanic生存预测)
- 进阶阶段
- 深入机器学习算法,参与Kaggle竞赛(如House Prices回归)
- 学习Spark处理大规模数据,实践ETL流程
- 实战阶段
- 结合业务场景构建数据产品(如推荐系统、用户画像)
- 关注顶会论文(KDD、NeurIPS、ICML)和行业案例(Netflix推荐算法、Uber供需预测)