思考新的思路

2018/03/23 总结

Posted by WangXiaoDong on March 23, 2018
    今天是周五,我一天都在思考新的方向。最后还是根据日志管理那本书中的做法得到了灵感。书中对于与没有
明确的事件类型的日志,需要创建一个隐含的事件类型。以此可以看出日志分类的本质是处理一种程序员写出的自然语言。
因此我想是否可以套用自然语言常用的方法,进行文档聚类!准备抽空试验一下!
    下午到了下班时间,我就急忙走了,因为晚上还要去乘坐火车回洛阳参加初中和高中就在一起的朋友————马宁
的婚礼。想到晚上可能会在火车上失眠,我就提前睡了一觉。直到晚上8点,我才出发赶往火车站。中途和初中同学
赵柯聊了聊,原来她已经在学校当老师了,我还在远方读博。有种想回家乡的感觉,但是我实在不想放弃学习时的
快乐,希望能够把学术做下去,虽然我自己天赋并不高。终于,到达火车站后,我和同学郭凯见面,然后一起乘上了火车。
看到郭凯越来越廋,想到自己越来越胖,真的是非常失落,然后我决定再次回来一定要坚持锻炼身体!在这样的决心
下,我躺在了火车的床上,希望今夜能够安然入睡~

今天周五,总结一下这周的进度:

3月19号,周一:

测试不同Secure日志下分的类别效果。测试原始日志,增加每种算法的比较次数。

在做测试的时候,又回忆了一下以前使用的git相关命令,记录一下:

git diff [commit1] [commit2]代表比较commit1commit2的不同

git reset --hard [HEAD]|[HEAD^]注意这个命令HEAD代表回退到最新版本,可以理解为去掉 缓存区的内容

git checkout [branch]代表进入branch分支

git branch代表查看分支

git --amend代表修改最近一次提交的注释内容

git reset --soft [commit]代表回去分支commit但是不修改任何东西,仅仅回到分支,相当于所以变化进入到缓存区了


3月20号,周二:

  1. 思考各个类的意义(Secure日志)————序列如何表达?两个最长序列的最长公共子序列(明天实现)

  2. 根据该方法测试其他类型日志————测试,但是没有显著结论

  3. Messages的log是否可以分析————直接使用时间周期内节点日志数作为研究对象(标准基线),进行统计分析,得出异常流量再具体分析


3月21号,周三

将程序完善:

  1. 使得结果显示模式–> 模式的标准由两个最长序列的最长公共子序列得出

  2. 是结果IP文件出现在各个模式文件夹下,并将异常IP根据出现次数排序


3月22号,周四

测试运行结果,选取日志时间为:20170702~20170910

下午看电影《厉害了,我的国!》


3月23号,周五

根据书(《日志管理与分析权威指南》第215页)思考对于Messages日志处理的新思路———— 将文档相似度应用在时间片日志上。 潜在思路是:日志输出本质上市自然语言,具有词汇少,较为固定的特点。时间片词向量 最为特征输入到机器学习算法中可能效果会不错。