本文介绍万变不离其宗之海量数据处理实战

万变不离其宗之海量数据处理实战

本文由在当地较为英俊的男子金天大神原创，版权所有，欢迎转载，本文首发地址 https://jinfagang.github.io 。但请保留这段版权信息，多谢合作，有任何疑问欢迎通过微信联系我交流：jintianiloveu

问题一：牛逼到爆照的wifi暴力破解密码字典去重

好了，前面已经说过了海量数据怎么处理，那么接下来要做的就是，思考一下如何应用到实战中去了。我现在有几个wifi密码字典，但是字典是由好几个小的wifi合在一起的，因为这样可以更好的测试所有密码，但是这里面肯定会有重复的密码，我们现在要去除掉这些重复密码。思路是这样的：

1
2

1. 对文件进行分而治之，化整为零，各个击破。设计一个hash函数，将文件存储到一个文件夹在，文件夹是所有的小文件;
2. 用命令sort foo.txt|unique 进行挨个去重，或者遍历该文件夹下所有的小文件，去重。

或者我可以写成一个C++程序，说不定以后遇到其他大的数据还可以用。

问题二：种子爬虫去重

问题是这样的，我写了一个种子爬虫的程序，但是这个爬虫会爬取很多重复的种子，这个非常难搞啊，重复的存入数据库对我来说既是空间的冗余也是以后查找的冗余，有没有办法解决呢？方案一，直接用postgresql对数据进行去重。但是这个指标不治本；方案二，对每个种子的infohash，再记录一下，变成一个小hash，每次插入数据的时候对比一下。

万变不离其宗之海量数据处理实战

万变不离其宗之海量数据处理实战

问题一：牛逼到爆照的wifi暴力破解密码字典去重

问题二：种子爬虫去重

我们一起来让这个世界有趣一点