周五总结

2018/01/26 总结一下

Posted by WangXiaoDong on January 26, 2018
    今天,我仔细研究了已产生的日志,感觉需要使用一些统计方法对这些日志进行分析,就使用了散点图和
分布图对不同类型的日志进行比较和绘图,发现了一下有趣的现象,然后将这些现象写到word文档里,以后和赵老师
一起分析一下。
    晚上,肖老师和曹老师一起去和一位国外的教授吃饭,回来后那个教授见到了我,就问我“How are you?”。我
一下子没有反应过来,也说了句“How are you?”,然后他又说“Thank you!”,我也说了句“Thank you!”。然后,
他就不跟我说话了……我晕,+_+,好丢人!哎,我以后一定要好好学习英语!

今天周五,总结一下这周的进度:

1月22号,周一:

仔细思考了一下下一步的研究内容和方向,感觉还是要按照赵老师的任务书中的内容进行研究,仔细看了一下任务书要求完成的 内容:

1 研究日志模式提炼的定义及应用、对于日志提炼算法和优化方法的研究

  • 使用日志模式对环境中各类日志展开联合分析、研究跨类型日志关联性、研究跨类型日志中的用户行为
  • 在环境中展开测试和应用对过程进行抽象,形成通用方法

因为赵老师关于日志的模式分类已近进行很详细的研究,下一步主要是对各个日志展开联合分析,研究跨类型日志的关联性。 因此我觉得我应该先看日志关联性相关的论文,于是找到了一篇论文。 今天主要读论文《LogMaster: Mining Event Correlations in Logs of Large-Scale Cluster Systems 》 发现这篇论文是计算所的一位老师詹剑锋写的。 而且他在这篇关于日志关联性分析后紧接着又发了一篇关于异常检测的文章: 《Digging deeper into cluster system logs for failure prediction and root cause diagnosis》

这两篇文章的关系让我感觉到日志关联性分析的目的就是进行异常检测,后续我要仔细研究一下这两篇文章,看能不能有所启发。


1月23号,周二:

今天继续看关联分析的论文,发现该论文使用的算法实际上就是数据挖掘中最长用的Apriori算法,然后增加了一点自己的改进, 然后创新的增加了关联图的表达,使得结果更有利于观察,实际上关联图在数据挖掘中也是比较常见的,只是没有用到日志关联 分析中罢了。不过既然人家已经研究了,那我现在只能在基础上改进才有可能发表文章,这可真是难办了。

晚上,赵老师问我最近的进度,我只能说了我的没有结果的异常检测程序,老师说可以继续挖掘一下,如果有较好的结果就可以 发文章了,我听了后非常高兴,下来我要继续研究一下异常日志了!


1月24号,周三

今天上午,我仔细研究了一下日志结果如何能够较好的表达出来,实际上大部分时间都是用来研究画图包Seaborn的API了,最后, 我终于画出了比较好看的图。没想到最花时间的地方是如何将结果转变成为Seaborn对应的数据形式,哎,这需要总结一下:由于 今天已经进行了一周的总结,因此Seabor绘图技术方面的总结放在本周六

画出的图感觉不错,如下图所示:

糟糕:图片显示失败,请通知我,非常感谢!


1月25号,周四

今天,主要把异常日志挑选出来,然后使用正常日志的平均流量特征和异常检测出最高异常的五个日志进行对比,得到 图形特征。 下图就是一个例子:

糟糕:图片显示失败,请通知我,非常感谢!

下午,主要帮赵老师翻译了一个会议日程,然后继续思考如何解释异常日志的结果。怎样才能合理的把该异常检测的方法 的优势体现出来。


1月26号,周五

白天主要进行了多类别日志之间的对比的研究,主要想根据最近PCA异常检测得到的异常日志,寻找一些这些日志的特点。 主要使用的方法是绘制所有类型日志的之间的散点图和每个日志类型单独的分布图。

然后下午思考了一下最近研究的该异常检测方法能够找出的日志的特点:

  1. 找出的日志相关性比较强

  2. 找到在大部分时间片内出现次数少,偶尔出现次数比较高的日志类型。通常情况下,这些类型能够代表异常

晚上进行一周总结。