今天是周五,仔细研究了一下如何把日志分为不同的时间段来分析的实践,虽然很快实现了,但是我感觉
计算的速度比较慢,因此我就研究了一下如何使用多进程实现我刚才计算的结果。下午继续测试,发现多进程实现
比较不稳定,然后就仔细思考了一下未来的研究方向。晚上,给小明拿了点从家里带的吃的东西,回想起他这周送
给我的书包,再次打心底感谢一下!
今天周五,总结一下这周的进度:
3月26号,周一:
今天编写了单位时间内时间片内日志数量的分布函数,得到了所有类型的日志分布,最后发现:
- Messages类的日志分别比较符合正态分布
- 其他类型得日志不符合正态分布
分析原因:其他类型的日志由于样本来源的程序较单一。根据中心极限定理, 日志流量同时受到多个程序影响时,其中每个因素在总的影响下作用都是微小的, 这种随机变量往往近似服从正态分布。
3月27号,周二:
对Messages日志使用节点基线,根据不同节点数量的饼图,得到流量特征数量最多 的节点,然后对该节点进行整体分布hist图形的绘制。
在绘制后,仔细学习了一下Statsmodels库的使用方法,发现自己后续需要学习的 知识————广义线性模型
3月28号,周三
今天主要研究整体流量的分布图,然后作对比,发现只有Messages类的日志比较符合 正态分布,但是95%置信区间太小,同时正态分布test未通过! 周末注意总结正态分布函数的测试函数使用方法
3月29号,周四
今天主要从老师那得到了新的研究思路,可以考虑将日志分开为不同的时间段: 8~`8 –> daytime:D 18~24 –> nighttime:N 0~8 –> midnight:M 这样,就可能有不同的结果。
3月30号,周五
今天主要实现了老师说的那个思路,顺便研究了一下python多进程,发现:
- python多进程花费的时间非常不稳定,原因不明
- 普通函数调用则时间很稳定