数据结构与算法:bitmap位图法解决大数据查重问题

发布于:2022-12-09 ⋅ 阅读:(637) ⋅ 点赞:(0)

前言

有1亿个整数,最大值不超过1亿,问都有哪些元素重复,谁是第一个重复的,谁是第一个不重复的,内存限制100M。

位图法

位图法,就是用一个位(0或者1)来存储数据的状态,比较适合状态简单,数据量比较大,要求
内存使用率低的问题场景。

位图法解决问题,首先需要知道待处理数据中的最大值,然后按照size = (maxNumber / 32)+1
的大小来开辟一个char类型的数组,当需要在位图中查找某个元素是否存在的时候,首先需要计
算该数字对应的数组中的比特位,然后读取值,0表示不存在,1表示已存在。

位图法有一个很大的缺点,就是数据没有多少,但是最大值却很大,比如有10个整数,最大值是10亿,那么就得按10亿这个数字计算开辟位图数组的大小,太浪费内存空间。

过程示例:

  1. 找出这组数据的最大值,然后根据最大值申请一个位图数组。

7 8 12 15 16 19
char bitmap[19 / 8 + 1];

  1. 存放过程:根据 / % 两个操作,映射到元素对应的位。示例:

对于元素7,首先计算出下标,再找到该下标对应的某个位。

int index = 7 / 8 ⇒ 0
int offset = 7 % 8 ⇒ 7

对于元素8:

int index = 8 / 8 ⇒ 1
int offset = 8 % 8 ⇒ 0

对于元素15:

int index = 15 / 8 ⇒ 1
int offset = 15 % 8 ⇒ 7

在这里插入图片描述

  1. 如何读取该位置的值?
    按位与上offset:

bitmap[index] & (1 << offset)

如何把该位置置成1:

bitmap[index] | (1 << offset)

代码示例

#include<iostream>
#include <stdlib.h>
#include <vector>
#include <memory>
using namespace std;

int main(void)
{
	vector<int> vec{ 12, 78, 90, 23, 133, 6, 9, 23, 34, 78 };
	
	//  找到最大值,用来确定bitmap
	int max = vec[0];
	for (int i = 0; i < vec.size(); ++i)
	{
		if (vec[i] > max)
		{
			max = vec[i];
		}
	}

	int* bitmap = new int[max / 32 + 1]();
	unique_ptr<int> ptr(bitmap);

	// 找到第一个重复的数字
	for (int key : vec)
	{
		int index = key / 32;
		int offset = key % 32;

		// 取key对应的位的值
		if (0 == (bitmap[index] & (1 << offset)))
		{
			// 表示key没有出现过
			bitmap[index] |= (1 << offset);
		}
		else
		{
			cout << "第一个重复出现的数字:" << key << endl;
			// 如果要找到所有重复的,这里就不退出
			return 0;
		}
	}

	return 0;
}

在这里插入图片描述

缺陷和建议

位图法虽然看上去比哈希表占用的内存少,但是有些情况下会浪费空间
示例:只有三个数据,但使用位图法会占用大约30M内存

{1, 3, 1000000000}
int bitmap[1000000000 / 32 + 1]; ⇒ 30M

推荐的数据序列:
元素个数与序列里的最大值相当,就比如1亿个元素,最大值不超过一亿。

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到