Python 机器学习入门



  • 机器学习

    • 机器学习使计算机从研究数据和统计信息中学习。
    • 机器学习是迈向人工智能(AI)方向的一步。
    • 机器学习是一个程序,可以分析数据并学习预测结果。
    在本教程中,我们将回到数学和研究统计学,以及如何根据数据集计算重要数字。我们还将学习如何使用各种Python模块来获得所需的答案。而且,我们将学习如何根据所学知识编写能够预测结果的函数。
  • 数据集

    在计算机中,数据集是任何数据集合。它可以是从数组到完整数据库的任何内容。
    数组示例:
    [99,86,87,88,111,86,103,87,94,78,77,85,86]
    
    数据库示例:
    车名 颜色 车龄 速度 自动通行证
    宝马 红色 5 99 y
    沃尔沃 黑色 7 86 y
    大众 灰色 8 87 n
    大众 白色 17 88 y
    福特汽车 白色 2 111 y
    大众 白色 17 86 y
    特斯拉 红色 2 103 y
    宝马 黑色 9 87 y
    沃尔沃 灰色 4 94 n
    福特汽车 白色 11 78 n
    丰田汽车 灰色 12 77 n
    大众 白色 9 85 n
    丰田汽车 蓝色 6 86 y
    通过查看数组,我们可以猜测平均值可能约为80或90,并且我们还可以确定最大值和最小值,但是我们还能做什么?通过查看数据库,我们可以看到最受欢迎的颜色是白色,最古老的汽车是17年,但是如果仅通过查看其他值就可以预测汽车是否具有自动通行证,该怎么办?那就是机器学习的目的!分析数据并预测结果!
    说明:在机器学习中,通常使用非常大的数据集。在本教程中,我们将尝试使其尽可能容易地理解机器学习的不同概念,并且将使用一些易于理解的小型数据集。
  • 资料类型

    要分析数据,重要的是要知道我们正在处理什么类型的数据。我们可以将数据类型分为三个主要类别:
    • 数值型
    • 分类的
    • 序数
    数值数据是数字,可以分为两个数值类别:
    • 离散数据 - 限于整数的数字。示例:经过的汽车数量。
    • 连续数据 - 具有无限值的数字。示例:一件商品的价格或一件商品的大小
    分类数据是无法相互度量的值。示例:颜色值或任何是/否值。
    序数数据类似于分类数据,但可以相互度量。示例:A优于B的学校成绩,依此类推。
    通过了解数据源的数据类型,您将能够知道在分析数据时使用哪种技术。在下一章中,您将了解有关统计和分析数据的更多信息。