本文介绍 万变不离其宗之海量数据处理实战

万变不离其宗之海量数据处理实战

本文由在当地较为英俊的男子金天大神原创,版权所有,欢迎转载,本文首发地址 https://jinfagang.github.io 。但请保留这段版权信息,多谢合作,有任何疑问欢迎通过微信联系我交流:jintianiloveu

问题一:牛逼到爆照的wifi暴力破解密码字典去重

好了,前面已经说过了海量数据怎么处理,那么接下来要做的就是,思考一下如何应用到实战中去了。我现在有几个wifi密码字典,但是字典是由好几个小的wifi合在一起的,因为这样可以更好的测试所有密码,但是这里面肯定会有重复的密码,我们现在要去除掉这些重复密码。思路是这样的:

1
2
1. 对文件进行分而治之,化整为零,各个击破。设计一个hash函数,将文件存储到一个文件夹在,文件夹是所有的小文件;
2. 用命令sort foo.txt|unique 进行挨个去重,或者遍历该文件夹下所有的小文件,去重。

或者我可以写成一个C++程序,说不定以后遇到其他大的数据还可以用。

问题二:种子爬虫去重

问题是这样的,我写了一个种子爬虫的程序,但是这个爬虫会爬取很多重复的种子,这个非常难搞啊,重复的存入数据库对我来说既是空间的冗余也是以后查找的冗余,有没有办法解决呢?方案一,直接用postgresql对数据进行去重。但是这个指标不治本;方案二,对每个种子的infohash,再记录一下,变成一个小hash,每次插入数据的时候对比一下。