宿舍休息

2018/03/18 休闲

Posted by WangXiaoDong on March 18, 2018
    今天是周日。因为这两天中科院博士考试,估计所里面有考生,所以我继续在宿舍休息,顺便祝愿何老师顺利通过
考试!看了会动漫,不知不觉就到了中午。准备去找杭杰,送他点吃的东西,顺便吃一顿北航的美味!到了后,和杭杰聊
了聊关于机器学习在各自方面的应用,感觉未来的科技进步必然是在软件和各种硬件结合的自动化方向发展。所以我要
努力学习各种软件,总结各种方法,实验各种数据,找到各种规律,以求在数据挖掘和机器学习的方向上取得一定的成绩!

今天,总结一下如何使用层次聚类算法里面的距离度量问题

层次聚类上次已经总结过。 这次仅仅说明层次聚类的距离参数,这里的距离参数可以使用自定义函数。 我们进入该函数的文档页面 我们看到linkage的说明文档上面的函数scipy.cluster.hierarchy.linkage(y, method='single', metric='euclidean', optimal_ordering=False), 传入第一个参数是需要进行层次聚类的数据,这里即可用使用开始读取的数据变量df,第二个参数代表层次聚类选用的方法,第三个参数代表距离计算的方法。 上次详细介绍了前两个参数,这次我们主要关注第三个参数,我们注意一下第三个参数的解释如下:

metric : str or function, optional
    The distance metric to use in the case that y is a collection of observation vectors; ignored otherwise. 
    See the pdist function for a list of valid distance metrics. A custom distance function can also be used.

指标:str或function,可选。

    在y为观测向量集合的情况下使用的距离度规;否则忽略。

    查看有效距离度量列表的pdist函数。还可以使用自定义距离函数。

直接传递字符串就不说了,因为无非就是那几种范数度量等方法,关键是这个函数可以自己定义距离。这就为我们进行层次聚类提供了很好的一个 接口,因为这特点任务下,我们的距离不一定能够使用已有的方法达到自己的需求。因此我进行了一些测试,最后得出自定义函数需要注意以下几个 方面:

  • 函数传入两个参数:比如,自定义函数为:def selfDisFuc(a,b):
  • 传入参数类型是<class 'numpy.ndarray'>
  • 传入参数的维度必须一样
  • 返回值必须是一个代表距离的数

我这处理自定义函数时,因为处理的数据维度不一样,最后只好找到最大维度的数据,然后将不一样的所有 数据后面补上-1(我的数据中不会出现的一个数),然后再处理。 安照上面的三个规则,就能写出自己需要的距离衡量函数了。