万变不离其宗之海量数据处理实战
本文由在当地较为英俊的男子金天大神原创,版权所有,欢迎转载,本文首发地址 https://jinfagang.github.io 。但请保留这段版权信息,多谢合作,有任何疑问欢迎通过微信联系我交流:
jintianiloveu
问题一:牛逼到爆照的wifi暴力破解密码字典去重
好了,前面已经说过了海量数据怎么处理,那么接下来要做的就是,思考一下如何应用到实战中去了。我现在有几个wifi密码字典,但是字典是由好几个小的wifi合在一起的,因为这样可以更好的测试所有密码,但是这里面肯定会有重复的密码,我们现在要去除掉这些重复密码。思路是这样的:
|
|
或者我可以写成一个C++程序,说不定以后遇到其他大的数据还可以用。
问题二:种子爬虫去重
问题是这样的,我写了一个种子爬虫的程序,但是这个爬虫会爬取很多重复的种子,这个非常难搞啊,重复的存入数据库对我来说既是空间的冗余也是以后查找的冗余,有没有办法解决呢?方案一,直接用postgresql对数据进行去重。但是这个指标不治本;方案二,对每个种子的infohash,再记录一下,变成一个小hash,每次插入数据的时候对比一下。