海量数据处理

0 Offer(新的一天新的难过


TOP N问题

如何在海量数据中找出重复最多一个

  • IP地址共有32位,大约有2^32种,将每个IP地址hash位一个数字,采用hash的方式,hash(IP)%m,将大文件分成m个小文件。
  • 通过hash_map统计各个小文件重读最多的并记录次数。
  • 对每个小文件重复最多的进行建立大根堆。

上亿有重数据,统计最多前N个

  • 内存存不下:
  • 通过hash映射为小文件