数据结构与算法简记--堆和堆排序
堆
概念
- 堆是一个完全二叉树;
- 堆中每一个节点的值都必须大于等于(或小于等于)其子树中每个节点的值。
- 根据节点值跟子树的大小关系分为:大顶堆和小顶堆。
如何实现
- 如何存储
- 二叉树章节有讲到完全二叉树适合用数组存储,所以用数组来存储堆
- 有哪些操作
- 插入一个元素(O(logn))--插入到数组结尾,执行从下往上堆化:从下往上沿着向堆顶的路径,逐个比较,不满足就交换,满足则结束。
-
public class Heap { private int[] a; // 数组,从下标1开始存储数据 private int n; // 堆可以存储的最大数据个数 private int count; // 堆中已经存储的数据个数 public Heap(int capacity) { a = new int[capacity + 1]; n = capacity; count = 0; } public void insert(int data) { if (count >= n) return; // 堆满了 ++count; a[count] = data; int i = count; while (i/2 > 0 && a[i] > a[i/2]) { // 自下往上堆化 swap(a, i, i/2); // swap()函数作用:交换下标为i和i/2的两个元素 i = i/2; } } }
- 删除堆顶元素(O(logn))--把最后一个节点替换放到堆顶,然后利用同样的父子节点对比方法。对于不满足父子节点大小关系的,互换两个节点,并且重复进行这个过程,直到父子节点之间满足大小关系为止。这就是从上往下的堆化方法。
-
public void removeMax() { if (count == 0) return -1; // 堆中没有数据 a[1] = a[count]; --count; heapify(a, count, 1); } private void heapify(int[] a, int n, int i) { // 自上往下堆化 while (true) { int maxPos = i; if (i*2 <= n && a[i] < a[i*2]) maxPos = i*2; if (i*2+1 <= n && a[maxPos] < a[i*2+1]) maxPos = i*2+1; if (maxPos == i) break; swap(a, i, maxPos); i = maxPos; } }
如何基于堆实现排序?
1. 建堆(时间复杂度就是 O(n))
从后往前处理数组,并且每个数据都是从上往下堆化,从第一个非叶子节点开始,依次堆化,分解图:
代码:在这段代码中,我们对下标从 2n 开始到 1 的数据进行堆化,下标是 2/n+1 到 n 的节点是叶子节点,我们不需要堆化。实际上,对于完全二叉树来说,下标从 2/n+1 到 n 的节点都是叶子节点。
private static void buildHeap(int[] a, int n) { for (int i = n/2; i >= 1; --i) { heapify(a, n, i); } } private static void heapify(int[] a, int n, int i) { while (true) { int maxPos = i; if (i*2 <= n && a[i] < a[i*2]) maxPos = i*2; if (i*2+1 <= n && a[maxPos] < a[i*2+1]) maxPos = i*2+1; if (maxPos == i) break; swap(a, i, maxPos); i = maxPos; } }
2. 排序
类似删除堆顶元素的操作,从后向前,把当前元素放到堆顶再执行从上至下堆化处理
// n表示数据的个数,数组a中的数据从下标1到n的位置。 public static void sort(int[] a, int n) { buildHeap(a, n); int k = n; while (k > 1) { swap(a, 1, k); --k; heapify(a, k, 1); } }
- 排序时间复杂度分析
建堆过程的时间复杂度是 O(n),排序过程的时间复杂度是 O(nlogn),所以,堆排序整体的时间复杂度是 O(nlogn)。
- 稳定性
堆排序不是稳定的排序算法:因为在排序的过程,存在将堆的最后一个节点跟堆顶节点互换的操作,所以就有可能改变值相同数据的原始相对顺序。
为什么快速排序要比堆排序性能好?
- 堆排序数据访问的方式没有快速排序友好:堆化过程,会依次访问数组下标是 1,2,4,8 的元素,而不是像快速排序那样,局部顺序访问,所以,这样对 CPU缓存是不友好的。
- 对于同样的数据,在排序过程中,堆排序算法的数据交换次数要多于快速排序。
堆的应用一:优先级队列
- 合并有序小文件--优先级队列思想:
- 1.取各小文件最小值组成小顶堆
- 2.将堆顶元素插入大文件
- 3.删除堆顶元素,取堆顶元素所在文件中下一个值插入堆
- 4.循环执行步骤2,3,直至堆元素个数为0。
- 高性能定时器
- 多个定时任务,按时间大小组成小顶堆
- 每次执行堆顶任务(也就是最早时间),比每次循环所有任务要效率高( O(logn)<O(n) )
堆的应用二:利用堆求 Top K
- 维护一个大小为 K 的小顶堆,
- 顺序遍历数组,从数组中取出数据与堆顶元素比较。
- 如果比堆顶元素大,我们就把堆顶元素删除,并且将这个元素插入到堆中;
- 如果比堆顶元素小,则不做处理,继续遍历数组。
- 这样等数组中的数据都遍历完之后,堆中的数据就是前 K 大数据了
堆的应用三:利用堆求中位数
- 对于静态数据可先排序,取n/2位置元素,边际成本小。
- 对于动态数据则不适合每次都排序
- 借助堆这种数据结构,我们不用排序,就可以非常高效地实现求中位数操作。我们来看看,它是如何做到的?
- 维护两个堆,一个大顶堆,一个小顶堆。大顶堆中存储前半部分数据,小顶堆中存储后半部分数据,且小顶堆中的数据都大于大顶堆中的数据。
- 新加入的数据小于等于大顶堆的堆顶元素,我们就将这个新数据插入到大顶堆;否则,我们就将这个新数据插入到小顶堆
- 利用两个堆不仅可以快速求出中位数,还可以快速求其他百分位的数据,原理是类似的。