• 周三. 6月 29th, 2022

5G编程聚合网

5G时代下一个聚合的编程学习网

热门标签

概述

admin

11月 28, 2021

机器学习致力于如何通过计算手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”的形式出现。

基本术语

  • 样本:在数据集合中的每条数据就称为一个样本。
  • 属性/特征:反应样本在某方面的表现或者性质
  • 属性空间/样本空间/输入空间:指的是某一特征下取值的范围。
  • 输出空间:表示样例的分类的种类等。
  • 学习/训练:通常指从数据中学到模型的过程。
  • 任务的分类
    • 分类任务:输出空间为离散值。比如,好坏瓜用0,1表示。
    • 回归任务:输出空间为连续值。比如,好瓜用概率表示。
  • 学习任务
    • 监督学习:训练数据拥有标记信息,比如训练任务有标记好瓜和坏瓜。
    • 无监督学习:训练数据没有标记信息。
  • 泛化能力:模型能够正确处理没有在训练样本中样本的能力。

假设空间

  • 归纳:从特殊到一般的“泛化”过程,从具体的事实归结出一般性规律。
  • 从一般到特殊的“特化”过程,既从基础原理推演出具体情况。
  • 归纳学习:
    • 广义归纳学习:从样本中学习
    • 狭义归纳学习:从训练集中学习。

学习过程看做一个所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集”匹配“的假设。如果假设的表示一旦确定了,则假设空间的大小和规模就确定了。
比如判断一个瓜是否是好瓜的假设,其中瓜的属性为(色泽, 根蒂,敲声)如果,色泽,根蒂,敲声分别有3,2,2种取值的可能。则假设空间的规模大小为(3+1)(2+1)(2+1)+1=37。下面可以直观的表示假设空间:

可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果.

  • 版本空间:有很多个假设与训练集一致,既存在着一个与训练集一致的”假设集合“。则称之为“版本空间”。

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称“偏好”。
注意:任何一个有效的机器学习算法读必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如果没有偏好,本质上在进行预测试时随机抽选训练集上的等效假设。这样的话,如果是预测数据,那么学到的模型的几次调用会出现不同的结果。
奥卡剃刀:如果有多个假设与观察一致,则选择最简单那个。
结论:样本空间X和假设空间H都是离散的。令(P(h|X,M_{a}))代表算法(M_{a})基于训练数据产生假设h的概率,令f代表希望学习的真实目标函数。则算法(M_{a})算法的误差为:

[E_{ote}(M_{a}|X,f)=sum_{h}{sum_{x属于预测集}{P(x)I((h(x)!=f(x))P(h|X,M_a)}}
]

发表评论

您的电子邮箱地址不会被公开。