海量数据处理 Posted on 2018-12-13 | In Program , 海量数据处理 0 Offer(新的一天新的难过 TOP N问题如何在海量数据中找出重复最多一个 IP地址共有32位,大约有2^32种,将每个IP地址hash位一个数字,采用hash的方式,hash(IP)%m,将大文件分成m个小文件。 通过hash_map统计各个小文件重读最多的并记录次数。 对每个小文件重复最多的进行建立大根堆。 上亿有重数据,统计最多前N个 内存存不下: 通过hash映射为小文件