欢迎来到 走进高维空间系列 的第五部分|走进高维空间之“维度魔咒”,所有的“邻居”都去哪了?( 三 )
在这个例子中 , 假设使用最接近索引点的10%的训练数据点 , 从索引点出发 , 需要在预测器空间中达到多远才能捕获10%的训练数据?更具体地说 , 需要在邻域中包括多大比例的预测值范围?
单预测器的情况实际上很简单 。 因为训练数据点是沿着单一维度均匀分布的 , 而预测器的范围是[-0.5,0.5] , 为了捕获10%的训练数据点 , 只需要包含预测器范围的10% 。 如下图所示:
文章图片
看上去很合理 , 对吗?我们不需要离索引点太远 , 就可以把10%的训练数据纳入 , 只需要在两个方向上取0.05个单位 。 目前看起来没什么特别 , 也许还有点无聊 。 让我们看看当入一个更高的维度时会发生什么 。
邻居的秘密
假设我们有两个预测器 , 每个预测器的范围是-0.5到0.5 , 训练数据点沿两个维度均匀分布 。
文章图片
这是我们的索引点:
文章图片
同样 , 我们希望捕捉10%的训练数据点 。 要做到这一点 , 每个预测器的范围中必须包括多少比例的邻居?也许我们可以把上面看到的扩展一个维度 , 我们将需要第一个预测器的10%和第二个预测器的10% 。 让我们来看看(我把训练点淡化了一些 , 以便更好地观察):
文章图片
这是高维空间的奥秘中的另一个转折点!在单维空间中 , 我们只需要在索引空间的任何一个方向上取0.05个单位就可以捕获10%的训练数据 。 而现在 , 我们似乎必须从索引点的任何一个方向取0.16个单位 , 才能捕获10%的训练数据!就其预测值而言 , 邻域外围的训练点真的与索引点那么相似吗?答案最终将取决于数据的性质 , 但必须承认 , 当我们的目标是包括预测值与索引点尽可能相似的点时 , 包括每个预测器的近三分之一的范围似乎有点宽泛了 。
我们继续 , 向三维预测器空间迈进!下面是我们沿三个维度均匀分布的训练数据点云(左) , 以及索引点(右) 。
文章图片
也许你已经知答案 , 但我再次提出问题:为了获得10%的训练点 , 应该怎样取值?
文章图片
将近50%!让我们消化一下:
在单维中 , 只需要包括单个预测器范围的10% , 就可以定义一个包括10%的均匀分布的训练数据的邻居 。
在两个维度上 , 需要两个预测器的范围各占32% 。
在三个维度上 , 需要三个预测器范围中的每一个的46%!
这里的基础数学其实很简单 , 真正的精彩在最后 。
让我们用一个例子来说明这个问题吧 , 记得农作作物例子吗?pH值的范围是0-14 。 如果我索引点的pH值为7 , 那么就要在一个维度上包括pH值为6.25-7.75的训练点(直觉上似乎是合理的 , 对吗?) , 在两个维度上包括4.6-9.4(这合理吗?) , 在三个维度上包括3.55-10.45(这似乎开始离谱了) 。 将这些点称为邻居还有意义吗?
延伸
在应用统计学中 , 使用几十个、几百个、甚至几千个预测因子是很常见的 。 如果在三个维度中 , 每个预测器的范围有近50%是用来捕捉10%的训练数据的 , 那么在10个维度中呢?100个维度呢?
下面的图对1到100个维度之间的每一个维度回答了这个问题 。 具体来说 , 我们把维度(即预测器)的数量放在X轴上 , 把每个预测器的范围比例(捕获10%的训练数据所需)放在Y轴上 。
- 观光巴士|无人驾驶观光巴士走进湖滨
- 小米科技|对小米重罚65亿后,印度改口欢迎中企赴印投资,网友:没安好心
- 【荣誉表彰】欢迎围观点赞上海城管入选2021年度上海市法治建设十大提名案例
- 重庆又一大型商场走向倒闭,开业初期深受市民欢迎,终被电商击垮
- iot|走进微软全球最大实验室,解锁2022年前沿技术方向
- 高通骁龙|最受欢迎的骁龙870手机,12GB+256GB已不到2000元,还有旗舰屏幕
- 助力国货品牌连接消费者,抖音电商让国货走进千家万户
- 国产5G射频芯片终来到,网友:相当于华为Mate50稳了
- 最受欢迎手机|国内最畅销、最受欢迎手机出炉:毫无悬念
- 苹果|中国市场最受欢迎、销量最好手机出炉:苹果iPhone 13系列已连续六周第一