机器学习原理及商品推荐系统实现
本阶段将用机器学习算法,挑战以下实战项目:
房价预测
电商商品分类
电商用户聚类
商品推荐系统
本阶段主要讲解机器学习的原理,包括常用算法、模型评估与选择、特征工程等机器学习必备知识,带您充分掌握机器学习的基本思路和流程。最后会实现一个商品推荐系统,组合各种特征工程技术和机器学习算法,提升使用算法、数据清洗和特征处理的能力,为工业实战奠定坚实的基础。
Week1 机器学习简介
理论课:
机器学习定义及行业应用举例;
机器学习任务:监督学习(分类、回归)、非监督学习(聚类、降维)、半监督学习、迁移学习、强化学习;
机器学习算法的组成部分:目标函数(损失函数+正则)、优化方法;
模型评估和模型选择:模型复杂度、过拟合、交叉验证、超参数空间、网格搜索…
实战课:房价预测案例;
-机器学习环境配置:Anaconda for Python、科学计算包(NumPy, SciPy, Pandas)、数据可视化工具包(Matplotlib, seaborn)、机器学习库(scikit-learn)等。
-数据集探索:单特征分布模拟及可视化、离群点检测、多特征相关性分析及可视化(NumPy、Pandas、Matplotlib、seaborn)。
-实现模型评估和模型选择:交叉验证、网格搜索(scikit-learn)。
课程目标:-熟悉机器学习领域的经典算法、模型及实现的任务等,同时学习搭建和配置机器学习环境,并学会用 线性回归 解决一个实际问题。
Week2 Logistic回归分析、神经网络、SVM
理论课:
分类算法的损失函数:logistic损失、Hingloss损失
优化算法:IRLS(梯度下降、牛顿法)、BP算法、SMO(序列最小最优化算法)
正则化:L1/ L2
复习模型评估
其他:最小间隔、核方法、支持向量回归
实战课:电商商品分类案例。
-用Logistic回归、神经网络和SVM等分类器实现商品分类;比较不同模型以及不同参数下SVM(不同正则参数和核函数)的性能,体会各模型的特点。
课程目标:-复习数据集探索;
-理解分类任务算法(Logistic回归、神经网络、SVM)原理;
-学会在scikit-learn框架下采用各分类算法分类具体任务。
Week3 决策树模型与集成学习算法
理论课:
损失函数:信息增益、Gini系数
划分:穷举搜索、近似搜索
正则:L2/L1
预防过拟合:预剪枝及后剪枝
Bagging原理
Boosting原理
流行的GBDT工具:XGBoost和LightGBM
实战课:电商商品分类案例。
课程目标:学习Boosting集成思想及基于树的集成算法,通过XGBoost 实现电商商品分类项目,学习复杂模型参数调优。
Week4 聚类、降维、矩阵分解
理论课:
主成分分析(PCA)
独立成分分析(ICA)
非负矩阵分解(NFM)
隐因子模型(LFM)
KMeans聚类和混合高斯模型GMM(EM算法)
吸引子传播聚类算法(Affinity Propagation聚类算法)
实战课:人脸图像特征提取:PCA、ICA、NFM。
电商用户聚类案例。
课程目标:学习用降维技术对高维特征进行降维,并通过两个实战案例学会使用非监督学习算法完成相关任务。
Week5 特征工程、模型融合& 推荐系统实现
理论课:
1.特征工程
a)数据预处理:缺失值处理
b)特征编码:标签编码、Dummy (One hot) 编码、后验均值编码
c)文本特征提取
d)特征组合
e)特征选择
2.推荐系统
a)协同过滤
b)基于内容的过滤
c)FFM & LFM
d)排序学习
3.模型融合:Blending、Stacking
实战课:商品推荐案例。
课程目标:-学会常用数据预处理方法及特征编码方法;
-学习特征工程的一般处理原则;
-组合各种特征工程技术和机器学习算法实现推荐系统。
第一阶段机器学习结业项目:-实现一个实际的商品推荐系统。
深度学习原理及实战项目强化训练
本阶段将用深度学习算法,挑战以下实战项目:
Mnist手写数字识别
图像识别与植物分类
20种分类/11530张图像数据集:图像检测任务
33万张图像数据集:图像语义分割任务
CNN+RNN实现写诗机器人
本阶段课程着重讲解卷积神经网络和循环神经网络,使用大量真实的数据集,结合实际场景和案例介绍深度学习技术的应用范围与效果。最后在TensorFlow下实现一个写诗机器人。教大家掌握如何训练与调优模型,并解决真实场景中的问题。
Week1 神经网络入门及深度学习环境配置
理论课:
1.神经网络历史与现状
2.神经网络的分类:全连接、卷积、循环
3.神经网络的应用:图像、语音、自然语言处理
4.神经网络的计算:权重、损失和梯度
5.神经网络的优化:前向/反向传播和梯度下降
6.全局最优、局部最优和鞍点
7.正则化、归一化
8.LeNet与传统神经网络对比。(损失函数、L1/L2正则、梯度下降/随机梯度下降/动量随机梯度下降等)
9.深度学习框架Tensorflow基础概念、计算图、session。
实战课:-深度学习神经网络框架Tensorflow安装及配置;
-LeNet实现手写数字识别(Mnist数据集)
课程目标:熟悉神经网络领域的常用术语、安装并配置深度学习框架Tensorflow,学会用Tensorflow解决一个实际问题。
Week2 神经网络基础及卷积神经网络原理
理论课:
1.神经网络基础
a)多层神经网络结构:输入、输出、隐层和激活函数
b)前向计算和损失;向量化计算和one-hot编码;sigmoid、softmax及交叉熵
c)反向传播及迭代优化;梯度下降及动量
d)过拟合与欠拟合正则化、批正则化及Selu
e)Dropout
2.卷积神经网络
1.卷积
padding、stride、kernel和channel
局部相关性
感受野
感受野的计算
2.池化
max_pooling、average_pooling
global_average_pooling
3.局部网络连接
实战课:
--用CNN实现手写数字识别(Mnist数据集);
--验证码识别
课程目标:-使用不同结构的神经网络结构验证网络结构对效果的影响;
-了解卷积神经网络的相关概念和基础知识,并通过实战案例理解CNN局部相关性与权值共享等特性。
Week3 卷积神经网络实战:图像分类及检测任务
理论课:
1.图像分类介绍与实现
a)imagenet数据集与预训练模型
b)Inception网络与ResNet网络
c)细粒度分类
2.检测任务介绍与实现
a)特征提取
b)区域建议及区域合并
c)R-CNN与Fast/Faster R-CNN
d)SSD与YOLO
实战课:
-Flowers数据集:基于imagenet预训练模型的迁移。
-PascalVOC数据集:使用Tensorflow训练一个检测模型。
课程目标:学习图像分类任务及检测任务目前主要模型算法,并通过两个实战案例学习在Tensorflow框架下训练CNN模型。
Week4 卷积神经网络之图像分割实例
理论课:
1.分割任务简介
2.反卷积(deconv/transpose-conv)
3.FCN
实战课:COCO数据集上实现图像语义分割任务。
课程目标:学习主流图像分割模型,并通过实战案例学习在Tensorflow框架下训练和调优CNN模型。
Week5 循环神经网络原理及实战
理论课:
1.RNN基本原理
2.门限循环单元(GRU)
3.长短期记忆单元(LSTM)
4.词向量提取:Word2Vec
5.编码器—解码器结构
6.注意力机制模型:Attention Model
7.图片标注(Image Captioning)
8.图片问答(Visual Question Answering)
实战课:-用CNN+RNN实现一个写诗机器人。
课程目标:学习循环神经网络的原理及应用,并通过实战案例学习在Tensorflow框架下训练和调优CNN+RNN模型。
四个工业级实战项目(可选)及成果展示
本阶段将用深度学习算法,挑战以下实战项目:
自然语言处理:文本分类。根据企业的注册、投资及经营范围等相关信息,对企业进行分类,为企业的估值提供参考。
广告点击率预测(CTR)预测用户浏览给定网页的广告点击率,提高广告投放精准度。
车辆检测及型号识别——用深度学习方法从图片中检测车辆并识别其型号。
看图说话机器人——用计算机视觉和深度学习方法分析图片内容,并对图片自动生成文字描述。