写给小白的机器学习教程

306 人学过

我们生活在一个“数据时代”,拥有更好的计算能力和更多的存储资源。这些数据或信息每天都在增加,但真正的挑战是理解所有的数据。企业和组织正试图通过使用数据科学、数据挖掘和机器学习的概念和方法构建智能系统来解决这个问题。其中,机器学习是计算机科学中最令人兴奋的领域。如果我们把机器学习称为为数据提供意义的算法的应用和科学,那也没有错。

课程内容
共21个章节 21个实验
1 Python机器学习入门

我们生活在一个“数据时代”,拥有更好的计算能力和更多的存储资源。这些数据或信息每天都在增加,但真正的挑战是理解所有的数据。企业和组织正试图通过使用数据科学、数据挖掘和机器学习的概念和方法构建智能系统来解决这个问题。其中,机器学习是计算机科学中最令人兴奋的领域。如果我们把机器学习称为为数据提供意义的算法的应用和科学,那也没有错。

实验1 实验1:Python机器学习入门
我们生活在一个“数据时代”,拥有更好的计算能力和更多的存储资源。这些数据或信息每天都在增加,但真正的挑战是理解所有的数据。企业和组织正试图通过使用数据科学、数据挖掘和机器学习的概念和方法构建智能系统来解决这个问题。其中,机器学习是计算机科学中最令人兴奋的领域。如果我们把机器学习称为为数据提供意义的算法的应用和科学,那也没有错。
2 Data Loading for ML Projects

假设您想启动一个ML项目,那么您需要的第一件也是最重要的事情是什么?它是启动任何ML项目所需的数据。关于数据,ML项目最常见的数据格式是CSV(逗号分隔值)。

基本上,CSV是一种简单的文件格式,用于以纯文本形式存储表格数据(数字和文本),例如电子表格。在Python中,我们可以用不同的方式将CSV数据加载到中,但是在加载CSV数据之前,我们必须考虑一些因素。

实验1 实验2:Data Loading for ML Projects
假设您想启动一个ML项目,那么您需要的第一件也是最重要的事情是什么?它是启动任何ML项目所需的数据。关于数据,ML项目最常见的数据格式是CSV(逗号分隔值)。

基本上,CSV是一种简单的文件格式,用于以纯文本形式存储表格数据(数字和文本),例如电子表格。在Python中,我们可以用不同的方式将CSV数据加载到中,但是在加载CSV数据之前,我们必须考虑一些因素。

3 ML - Understanding Data with Statistics

在处理机器学习项目时,通常我们忽略了两个最重要的部分,即数学和数据。这是因为,我们知道ML是一种数据驱动的方法,我们的ML模型只会产生与我们提供给它的数据一样好或一样坏的结果。

在上一章中,我们讨论了如何将CSV数据上传到ML项目中,但是在上传之前最好先了解数据。我们可以通过统计和可视化两种方式来理解数据。

在本章中,借助于下面的Python方法,我们将用统计学来理解ML数据。

实验1 实验3:ML - Understanding Data with Statistics
在处理机器学习项目时,通常我们忽略了两个最重要的部分,即数学和数据。这是因为,我们知道ML是一种数据驱动的方法,我们的ML模型只会产生与我们提供给它的数据一样好或一样坏的结果。

在上一章中,我们讨论了如何将CSV数据上传到ML项目中,但是在上传之前最好先了解数据。我们可以通过统计和可视化两种方式来理解数据。

在本章中,借助于下面的Python方法,我们将用统计学来理解ML数据。

4 ML - Understanding Data with Visualization

在上一章中,我们已经讨论了数据对于机器学习算法的重要性,以及一些Python方法来理解具有统计信息的数据。还有另一种方法叫做可视化,用来理解数据。

在数据可视化的帮助下,我们可以看到数据的外观,以及数据的属性所具有的相关性。这是查看特性是否与输出相对应的最快方法。通过以下Python方法的帮助,我们可以理解具有统计信息的ML数据。

实验1 实验4:ML - Understanding Data with Visualization
在上一章中,我们已经讨论了数据对于机器学习算法的重要性,以及一些Python方法来理解具有统计信息的数据。还有另一种方法叫做可视化,用来理解数据。

在数据可视化的帮助下,我们可以看到数据的外观,以及数据的属性所具有的相关性。这是查看特性是否与输出相对应的最快方法。通过以下Python方法的帮助,我们可以理解具有统计信息的ML数据。

5 Machine Learning with Python - Preparing Data

机器学习算法完全依赖于数据,因为这是使模型训练成为可能的最关键方面。另一方面,如果我们无法从这些数据中获得任何意义,那么在将其提供给ML算法之前,一台机器将毫无用处。简而言之,对于我们希望机器解决的问题,我们始终需要提供正确的数据,即正确比例,格式和包含有意义特征的数据。

这使得数据准备成为机器学习过程中最重要的步骤。数据准备可以定义为使我们的数据集更适合ML处理的过程。

实验1 实验5:Machine Learning with Python - Preparing Data
机器学习算法完全依赖于数据,因为这是使模型训练成为可能的最关键方面。另一方面,如果我们无法从这些数据中获得任何意义,那么在将其提供给ML算法之前,一台机器将毫无用处。简而言之,对于我们希望机器解决的问题,我们始终需要提供正确的数据,即正确比例,格式和包含有意义特征的数据。

这使得数据准备成为机器学习过程中最重要的步骤。数据准备可以定义为使我们的数据集更适合ML处理的过程。

6 ML with Python - Data Feature Selection

在前一章中,我们已经详细地了解了如何为机器学习预处理和准备数据。在本章中,让我们详细地了解数据特征选择及其涉及的各个方面。

实验1 实验6:ML with Python - Data Feature Selection
在前一章中,我们已经详细地了解了如何为机器学习预处理和准备数据。在本章中,让我们详细地了解数据特征选择及其涉及的各个方面。
7 Classification - Introduction

分类可以定义为从观测值或给定的数据点预测类别的过程。分类输出可以有“黑”或“白”或“垃圾邮件”或“无垃圾邮件”等形式。

从数学上讲,分类是将映射函数(f)从输入变量(X)近似到输出变量(Y)的任务。它基本上属于有监督机器学习,其中目标也随输入数据集一起提供。

实验1 实验7:Classification - Introduction
分类可以定义为从观测值或给定的数据点预测类别的过程。分类输出可以有“黑”或“白”或“垃圾邮件”或“无垃圾邮件”等形式。

从数学上讲,分类是将映射函数(f)从输入变量(X)近似到输出变量(Y)的任务。它基本上属于有监督机器学习,其中目标也随输入数据集一起提供。

8 Classification Algorithms - Logistic Regression

逻辑回归是一种有监督的学习分类算法,用于预测目标变量的概率。目标变量或因变量的性质是二分的,这意味着只有两种可能的类。

简单地说,因变量在本质上是二进制的,数据编码为1(代表成功/是)或0(代表失败/否)。

数学上,逻辑回归模型预测P(Y=1)作为x的函数。它是最简单的ML算法之一,可用于各种分类问题,如垃圾邮件检测,糖尿病预测,癌症检测等。

实验1 实验8:Classification Algorithms - Logistic Regression
逻辑回归是一种有监督的学习分类算法,用于预测目标变量的概率。目标变量或因变量的性质是二分的,这意味着只有两种可能的类。

简单地说,因变量在本质上是二进制的,数据编码为1(代表成功/是)或0(代表失败/否)。

数学上,逻辑回归模型预测P(Y=1)作为x的函数。它是最简单的ML算法之一,可用于各种分类问题,如垃圾邮件检测,糖尿病预测,癌症检测等。

9 Support Vector Machine (SVM)

支持向量机(SVM)是一种强大而灵活的有监督机器学习算法,可用于分类和回归。但一般情况下,它们用于分类问题。在20世纪60年代,支持向量机首次被引入,但后来在1990年得到改进。与其他机器学习算法相比,支持向量机有其独特的实现方式。最近,它们非常流行,因为它们能够处理多个连续变量和分类变量。

实验1 实验9:Support Vector Machine (SVM)
支持向量机(SVM)是一种强大而灵活的有监督机器学习算法,可用于分类和回归。但一般情况下,它们用于分类问题。在20世纪60年代,支持向量机首次被引入,但后来在1990年得到改进。与其他机器学习算法相比,支持向量机有其独特的实现方式。最近,它们非常流行,因为它们能够处理多个连续变量和分类变量。
10 Classification Algorithms - Decision Tree

通常,决策树分析是一种预测建模工具,可以应用于许多领域。 决策树可以通过一种算法方法构建,该算法可以根据不同条件以不同方式拆分数据集。 决策树是属于监督算法类别的最强大的算法。

实验1 实验10:Classification Algorithms - Decision Tree
通常,决策树分析是一种预测建模工具,可以应用于许多领域。 决策树可以通过一种算法方法构建,该算法可以根据不同条件以不同方式拆分数据集。 决策树是属于监督算法类别的最强大的算法。
11 Classification Algorithms - Naïve Bayes

朴素贝叶斯算法是一种基于贝叶斯定理的分类技术,它假设所有预测因子相互独立。简单地说,假设类中某个特征的存在独立于同一类中任何其他特征的存在。例如,如果一部手机具有触摸屏、互联网设施、良好的摄像头等,那么它可能被视为智能手机。尽管所有这些功能都是相互依赖的,但它们独立地影响了该手机成为智能手机的可能性。

实验1 实验11:Classification Algorithms - Naïve Bayes
朴素贝叶斯算法是一种基于贝叶斯定理的分类技术,它假设所有预测因子相互独立。简单地说,假设类中某个特征的存在独立于同一类中任何其他特征的存在。例如,如果一部手机具有触摸屏、互联网设施、良好的摄像头等,那么它可能被视为智能手机。尽管所有这些功能都是相互依赖的,但它们独立地影响了该手机成为智能手机的可能性。
12 Classification Algorithms - Random Forest

随机森林是一种有监督学习算法,既可用于分类,也可用于回归。但是,它主要用于分类问题。我们知道,森林是由树木组成的,树木越多,森林就越茂盛。同样,随机森林算法在数据样本上建立决策树,然后对每个样本进行预测,最后通过投票选择最优解。它是一种集成的方法,比单一的决策树更好,因为它通过平均结果来减少过拟合。

实验1 实验12:Classification Algorithms - Random Forest
随机森林是一种有监督学习算法,既可用于分类,也可用于回归。但是,它主要用于分类问题。我们知道,森林是由树木组成的,树木越多,森林就越茂盛。同样,随机森林算法在数据样本上建立决策树,然后对每个样本进行预测,最后通过投票选择最优解。它是一种集成的方法,比单一的决策树更好,因为它通过平均结果来减少过拟合。
13 Regression Algorithms - Overview

回归是另一个重要且广泛使用的统计和机器学习工具。 基于回归的任务的主要目标是针对给定的输入数据预测输出标签或响应,这些输出标签或响应是连续的数值。 输出将基于模型在训练阶段学到的知识。 基本上,回归模型使用输入数据特征(独立变量)及其对应的连续数值输出值(因变量或结果变量)来学习输入与对应输出之间的特定关联。

实验1 实验13:Regression Algorithms - Overview
回归是另一个重要且广泛使用的统计和机器学习工具。 基于回归的任务的主要目标是针对给定的输入数据预测输出标签或响应,这些输出标签或响应是连续的数值。 输出将基于模型在训练阶段学到的知识。 基本上,回归模型使用输入数据特征(独立变量)及其对应的连续数值输出值(因变量或结果变量)来学习输入与对应输出之间的特定关联。
14 Regression Algorithms - Linear Regression

线性回归可以定义为分析因变量与给定自变量集之间线性关系的统计模型。变量之间的线性关系是指当一个或多个自变量的值发生变化(增加或减少)时,因变量的值也随之变化(增加或减少)。

实验1 实验14:Regression Algorithms - Linear Regression
线性回归可以定义为分析因变量与给定自变量集之间线性关系的统计模型。变量之间的线性关系是指当一个或多个自变量的值发生变化(增加或减少)时,因变量的值也随之变化(增加或减少)。
15 Clustering Algorithms - Overview

聚类方法是最有用的无监督ML方法之一。 这些方法用于查找数据样本之间的相似性以及关系模式,然后基于特征将这些样本聚类为具有相似性的组。

实验1 实验15:Clustering Algorithms - Overview
聚类方法是最有用的无监督ML方法之一。 这些方法用于查找数据样本之间的相似性以及关系模式,然后基于特征将这些样本聚类为具有相似性的组。
16 Clustering Algorithms - Mean Shift Algorithm

如前所述,它是在无监督学习中使用的另一种强大的聚类算法。 与K均值聚类不同,它不做任何假设; 因此,它是一种非参数算法。

实验1 实验16:Clustering Algorithms - Mean Shift Algorithm
如前所述,它是在无监督学习中使用的另一种强大的聚类算法。 与K均值聚类不同,它不做任何假设; 因此,它是一种非参数算法。
17 Clustering Algorithms - Hierarchical Clustering

层次聚类是另一种无监督学习算法,用于将具有相似特征的未标记数据点组合在一起。

实验1 实验17:Clustering Algorithms - Hierarchical Clustering
层次聚类是另一种无监督学习算法,用于将具有相似特征的未标记数据点组合在一起。
18 KNN Algorithm - Finding Nearest Neighbors

K-最近邻(KNN)算法是一种有监督的ML算法,既可用于分类问题,也可用于回归预测问题。然而,它主要用于工业中的分类预测问题。

实验1 实验18:KNN Algorithm - Finding Nearest Neighbors
K-最近邻(KNN)算法是一种有监督的ML算法,既可用于分类问题,也可用于回归预测问题。然而,它主要用于工业中的分类预测问题。
19 Machine Learning - Performance Metrics

我们可以使用各种指标来评估ML算法,分类以及回归算法的性能。

实验1 实验19:Machine Learning - Performance Metrics
我们可以使用各种指标来评估ML算法,分类以及回归算法的性能。
20 Machine Learning - Automatic Workflows

为了成功地执行和产生结果,机器学习模型必须自动化一些标准的工作流程。自动化这些标准工作流的过程可以在Scikit学习管道的帮助下完成。从数据科学家的角度来看,管道是一个广义的,但非常重要的概念。

实验1 实验20:Machine Learning - Automatic Workflows
为了成功地执行和产生结果,机器学习模型必须自动化一些标准的工作流程。自动化这些标准工作流的过程可以在Scikit学习管道的帮助下完成。从数据科学家的角度来看,管道是一个广义的,但非常重要的概念。
21 Improving Performance of ML Models

集成可以通过组合多种模型来提高我们的机器学习效果。 基本上,集成模型由几个单独训练的监督学习模型组成,并且与单个模型相比,它们的结果以各种方式合并以实现更好的预测性能。

实验1 实验21:Improving Performance of ML Models
集成可以通过组合多种模型来提高我们的机器学习效果。 基本上,集成模型由几个单独训练的监督学习模型组成,并且与单个模型相比,它们的结果以各种方式合并以实现更好的预测性能。
写给小白的机器学习教程

共21个实验

参加本课程
Python 机器学习