今天是周五,我一天都在思考新的方向。最后还是根据日志管理那本书中的做法得到了灵感。书中对于与没有
明确的事件类型的日志,需要创建一个隐含的事件类型。以此可以看出日志分类的本质是处理一种程序员写出的自然语言。
因此我想是否可以套用自然语言常用的方法,进行文档聚类!准备抽空试验一下!
下午到了下班时间,我就急忙走了,因为晚上还要去乘坐火车回洛阳参加初中和高中就在一起的朋友————马宁
的婚礼。想到晚上可能会在火车上失眠,我就提前睡了一觉。直到晚上8点,我才出发赶往火车站。中途和初中同学
赵柯聊了聊,原来她已经在学校当老师了,我还在远方读博。有种想回家乡的感觉,但是我实在不想放弃学习时的
快乐,希望能够把学术做下去,虽然我自己天赋并不高。终于,到达火车站后,我和同学郭凯见面,然后一起乘上了火车。
看到郭凯越来越廋,想到自己越来越胖,真的是非常失落,然后我决定再次回来一定要坚持锻炼身体!在这样的决心
下,我躺在了火车的床上,希望今夜能够安然入睡~
今天周五,总结一下这周的进度:
3月19号,周一:
测试不同Secure日志下分的类别效果。测试原始日志,增加每种算法的比较次数。
在做测试的时候,又回忆了一下以前使用的git
相关命令,记录一下:
git diff [commit1] [commit2]
代表比较commit1
和commit2
的不同
git reset --hard [HEAD]|[HEAD^]
注意这个命令HEAD
代表回退到最新版本,可以理解为去掉
缓存区的内容
git checkout [branch]
代表进入branch
分支
git branch
代表查看分支
git --amend
代表修改最近一次提交的注释内容
git reset --soft [commit]
代表回去分支commit
但是不修改任何东西,仅仅回到分支,相当于所以变化进入到缓存区了
3月20号,周二:
-
思考各个类的意义(Secure日志)————序列如何表达?两个最长序列的最长公共子序列(明天实现)
-
根据该方法测试其他类型日志————测试,但是没有显著结论
-
Messages的log是否可以分析————直接使用时间周期内节点日志数作为研究对象(标准基线),进行统计分析,得出异常流量再具体分析
3月21号,周三
将程序完善:
-
使得结果显示模式–> 模式的标准由两个最长序列的最长公共子序列得出
-
是结果IP文件出现在各个模式文件夹下,并将异常IP根据出现次数排序
3月22号,周四
测试运行结果,选取日志时间为:20170702~20170910
下午看电影《厉害了,我的国!》
3月23号,周五
根据书(《日志管理与分析权威指南》第215页)思考对于Messages日志处理的新思路———— 将文档相似度应用在时间片日志上。 潜在思路是:日志输出本质上市自然语言,具有词汇少,较为固定的特点。时间片词向量 最为特征输入到机器学习算法中可能效果会不错。