高级机器学习

课程编号:081200B03

主讲教师:李宇峰


机器学习的基本术语

  • 监督学习、无监督学习
  • 数据集;训练、测试
  • 示例(instance,不带标记)、样例(example,带标记)
  • 属性,特征;属性值
  • 属性空间,样本空间,输入空间
  • 特征向量(feature vector)
  • 标记空间,输出空间
  • 分类问题(离散值),回归问题(连续值)
    • 二分类,多份类
  • 过拟合和欠拟合

机器学习技术的根本目标:

  • 使模型具有泛化能力
  • 对于未见模型可以推测得到结果

归纳偏好:

  • 机器学习算法在学习过程中对某种类型假设的偏好
  • 任何一个有效的机器学习算法必有其偏好
  • 学习算法的归纳偏好是否与问题本身匹配,大多数时候决定了算法能否取得好性能
  • No Free Lunch
    • 假设:所有问题出现的机会相等/所有问题都是同样重要的
    • 实际的情形并非如此,我们通常只关注自己正在试图解决的问题
    • 需要熟悉各类算法的优势和局限,抓住问题的本质