学习本课程,你将会有以下收获:
可掌握核心能力:
1、掌握机器学习中处理数据的方法
2、理解经典的机器学习算法原理
3、掌握机器学习中工作的具体流程
可解决的现实问题:
1、把实际工作、生活中遇到的问题转换为可以用机器学习解决的模型
2、实现针对不同问题,选择不同算法模型,同时在该模型的基础上,对该算法进行调优
课程亮点:
1,课程由浅到深,由原理到实践,适合零基础入门学习。
2,结合实际案例,培养解决实际问题的能力。
课程内容:
1. 了解人工智能基本概念
2. 掌握matplotlib的基本使用
3. 掌握Numpy的基本使用
4. 掌握pandas的基本使用
5. 掌握Seaborn的基本使用
6. 熟悉人工智能中常用的数学
7. 熟悉KNN算法实现过程及其原理
8. 熟悉线性回归算法实现过程及其原理
9. 熟悉逻辑回归算法实现过程及其原理
10. 熟悉决策树算法实现过程及其原理
11. 熟悉朴素贝叶斯算法实现过程及其原理
12. 熟悉SVM算法实现过程及其原理
13. 熟悉HMM算法实现过程及其原理
14. 熟悉集成学习基本分类以及经典算法
15. 熟悉xgboost、lightGBM算法实现过程及其原理
适用人群:
1、对目前职业有进一步提升要求,希望从事人工智能行业高薪工作的在职人员。
2、对人工智能感兴趣的相关人员。
基础课程主讲内容包括:
阶段一:人工智能概述
1. 人工智能概述
2. 机器学习定义
3. 机器学习工作流程
4. 机器学习算法分类
5. 算法模型评估
6. Azure机器学习平台实验
7. 机器学习基础环境安装与使用
阶段二:Matplotlib
1. Matplotlib库使用
2. Matplotlib架构介绍
3. Matplotlib基本功能实现
4. Matplotlib实现多图显示
5. Matplotlib绘制各类图形
阶段三:Numpy
1. Numpy库使用
2. Numpy运算优势
3. 数组的属性
4. 数组的形状
5. Numpy实现数组基本操作
6. Numpy实现数组运算
阶段四:pandas
1. pandas库使用
2. pandas基本数据操作
3. DataFrame、Series、MultiIndex、panel
4. pandas画图
5. 文件读取和存储(Excel、CSV、SQL、HDF、Json)
6. 高级数据处理(缺失值处理、数据离散化、数据合并、交叉表和透视表、分组和聚合)
7. 案例:电影数据分析
阶段五:Seaborn
1. Seaborn库的介绍
2. 单变量图形可视化
3. 双变量图形可视化
4. 多变量图形可视化
5. 类别散点图
6. 箱线图
7. 小提琴图
8. 点图
阶段六:数据科学综合案例
1. 案例一:NBA球员数据分析
2. 案例二:北京市租房数据统计分析
阶段七:sklearn基本介绍
1. sklearn介绍
2. sklearn获取数据集
3. 数据集属性介绍
4. 数据集划分
5. 留出法、留一法、
6. KFold、StratifiedKFold
7. 自助法
阶段八:特征工程与模型优化
1. 特征工程与模型优化
2. 特征预处理:归一化、标准化
3. 特征提取:字典特征提取、文本特征提取、Tf-idf
4. 特征降维:特征选择、过滤式、方差选择法、低方差特征过滤、嵌入式
5. 斯皮尔曼相关系数、皮尔逊相关系数
6. 交叉验证、网格搜索、
阶段九:KNN算法
1. KNN算法api及kd树及原理
2. 欧式距离、曼哈顿距离、切比雪夫距离、闵氏距离、标准化欧式距离、余弦距离
3. 数据的连续属性和离散属性
4. KNN中k值的选择
5. kd树
6. KNN算法优缺点介绍
7. 案例:鸢尾花种类预测
8. 案例:Facebook签到位置预测
阶段十:线性回归
1. 线性回归概念和api与原理剖析
2. 损失函数:误差平方和
3. 梯度下降算法:FGD、SGD、mini-batch、SAG
4. 模型优化:数据归一化、优化器的选择;
5. 正则化线性模型:Lasso回归、岭回归、Elastic Net、early stopping
6. 案例:波士顿房价预测
阶段十一:逻辑回归
1. 逻辑回归概念api和原理
2. sigmoid介绍
3.分类评估指标:混淆矩阵、精确率、召回率、F1-score、
4.ROC曲线、AUC指标、ROC曲线的绘制
5. 类别不平衡数据的生成:imbalanced-learn、随机过采样、SMOTE、随机欠采样
6. 案例:恶性乳腺癌肿瘤预测
阶段十二:决策树算法
1. 决策树算法原理和api使用
2. 熵、信息增益、增益率、基尼指数
3. 决策树的构建和剪枝:剪枝处理、预剪枝、后剪枝、ID3、CART
4. 条件熵和交叉熵:连续与缺失值处理、多变量决策树
5. 回归决策树:基本流程、回归/分类决策树的区别
6. 案例:泰坦尼克号乘客生存预测"
阶段十三:朴素贝叶斯
1. 朴素贝叶斯原理和api函数
2. 独立同分布、贝叶斯公式、拉普拉斯平滑系数
3. 概率分布:多项式分布、高斯分布、条件概率、贝叶斯编程及A/B测试
4. 案例:商品评论情感分析
阶段十四:SVM算法
1. SVM算法原理
2. 对偶问题及KKT、SMO算法
3. 软间隔与正则化
4. 支持向量回归;
5. 核函数:最简单的核函数距离、相似性函数、常用核函数(GBF和Gassian)、核函数对比
6. 案例:通过SVM构建数字识别器
阶段十五:聚类算法
1. kmeans流程和质心
2. 评价指标:内部指标、外部指标
3. 优化方法(二分kmeans,kmeans++)、SC系数/CH系数;
4. 案例:探究用户对物品类别的喜好细分
阶段十六:HMM模型
1. 极大似然估计、期望估计、极大化估计
2. HMM模型:Markov chain、可见状态链、隐含状态链、
3. 前向后向算法
4. Viterbi算法
5. Baum-Welch
6. 案例:骰子游戏结果预测
阶段十七: 集成学习基础
1. bagging和boosting介绍
2. 随机森林
3. 包外估计、无偏估计;
4. 离散型AdaBoost、实数型AdaBoost
5. GBDT、残差拟合;
6. 案例一:泰坦尼克号乘客生存预测优化
7. 案例二:otto电商平台物品分类预测
阶段十八:集成学习进阶
1. 集成学习进阶-xgboost基本介绍
2. xgboost目标函数推导
3. 树的复杂度定义
4. xgboost回归树构建
5. xgboost与GBDT对比
6. 通用参数、Booster参数介绍
7. 案例:otto电商平台物品分类预测案例优化
8. 集成学习进阶-lightGBM
9. Histogram的决策树算法介绍
10. level-wise、leaf-wise、特征并行、数据并行介绍
11. 案例:《绝地求生》玩家排名预测