机器学习导论1 概论

分类:Machine Learning, 发布于:2019-02-27 16:00:00, 更新于:2019-04-19 00:09:40。 评论

考核方式

  • 平时成绩40%;
  • 期中考试30%;
  • 期末考试30%。

6次平时作业,2次最高的成绩作为期中成绩,其余4次作为平时成绩。

期末考试形式:闭卷/半开卷(不可以带任何参考资料但可以带一张A4纸)

机器学习

经典定义:利用经验改善系统自身的性能。

目前主要研究智能数据分析的理论和算法,并已经成为智能数据分析技术的源泉之一。

典型的机器学习过程

  1. 训练过程

    训练数据包括features (attributes / observed variables),其中特殊的特征叫做label(标记)。

    将训练数据扔给学习器通过学习算法(learning algorithm)来组织模型。模型可能是可解释的,也可能是不可解释的(黑盒,blackbox)。

    这个过程在人的逻辑上被称为归纳(induction)。

  2. 测试过程

    给一个新数据样本,通过模型来预测结果。

基本术语

数据

特征、标记等。

任务

预测目标:

  • 分类:离散值
    • 二分类:好瓜、坏瓜
    • 多分类:冬瓜、南瓜、西瓜
  • 回归:连续值:瓜的成熟度
  • 聚类:无标记信息

有无标记信息:

  • 监督学习:分类、回归
  • 无监督学习:聚类
  • 半监督学习:两者结合

空间

  • 假设空间
    • 假设满足XX条件的是好瓜
  • 版本空间
    • 有限数据集,已知XX是好瓜
  • 归纳偏置(偏好)(inductive bias)
    • 假设空间有和训练集一致的假设,但他们对数据会预测出不同的结果
    • 学习过程中对某种类型假设的偏好称作归纳偏好
    • 注意no free lunch,某个偏好(算法等)在一个地方好,一定在另外一个地方差

评论