布隆过滤器

推荐博客

题目:1亿(10亿,100亿?)个垃圾邮件地址,建立一个黑名单库,使得所用空间最小,查询速度快,准许一点误差。
思路:

  1. 常规方法,把这1亿个地址放入数组,每次来一个url,去循环数组,去判断是否属于黑名单;(对于这种大数据量的,基本不可能,占空间大,查询速度慢)
  2. 哈希表,每一个地址通过哈希函数,放入类似hashmap结构中,每次来url,快速定位到该键值对,可知是否属于黑名单;(占据空间还是太大,但是速度应该可以,仍然不可取)
  3. 布隆过滤器。(专门为这种大数据操作而生,人类智慧真是令人感叹!!!)
文章目录
|