【数据结构】二叉树

1.树概念及结构

1.1 树的概念

树是一种非线性的数据结构，它是由n（n>=0)个有限结点组成一个具有层次关系的集合。根在上，枝叶在下面的树

有一个特殊的结点，称为根结点，根结点没有前驱结点
除根节点外，其余结点被分为M（M>0）个互不相交的集合T1、T2、...、Tm，其中每一个集合Ti（1<=i<=m）又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱，可以有0个或多个后继
因此，树是递归定义的
任何一棵树都是由 1)父节点 2)N棵子树组成

注意：树型结构中，子树之间不能有交集，否则就不是树形结构

1.2 树的相关概念

树的相关概念类似于人类的亲缘关系

节点的度：一个节点含有的子树个数称为该节点的度；比如A节点的度为6

叶子节点或终端节点:度为0的节点称为叶子节点，B、C、H、I、P、Q、K、L、M、N为叶子节点

非终端节点或分支节点：度不为0的节点; D、E、F、G...等是分支节点-->这里称为分支节点更好理解一些，A既是根节点又是分支节点，树中除了叶子节点其他节点都是分支节点

双亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点；D是H的父节点

孩子节点或子节点：一个节点函数的子树的根节点车称为该节点的子节点；H是D的子节点

兄弟节点：具有相同父节点的节点互称为兄弟节点；I、J是兄弟节点

树的度：一棵树种，最大的节点的度称为树的度；上面这个树的最大的节点是A节点，A节点的度是6，所以树的度是6

节点的层次：从根开始定义起，根为第一层，跟的子节点为第二层，以此类推

树的高度或深度：树中节点的最大层次；上面这棵树的高度是4

堂兄弟节点：双亲在同一层的节点互为堂兄弟；J、K是堂兄弟节点

节点的祖先：从根到该节点所经分支上的所有节点；A是E的祖先

子孙：以某节点为根的自述中任一节点都称为该节点的子孙；I、J、P、Q都是E的子孙

【子孙和路径都是对于同一条路径来说的】

森林：由m（m>0）棵互不相交的多棵树的集合称为森林

1.3树的表示

树结构相对线性表就比较复杂了，要存储表示起来就比较麻烦，既然保存值域，也要保存结点和结点之间的关系，实际中树有很多种表示方法如：双亲表示法、孩子表示法、孩子双亲表示法以及孩子兄弟表示法等，我们这里就简单的了解其中最常用的孩子兄弟表示法【左孩子右兄弟表示法】

typedef int DataType;
struct Node
{
    struct Node* _firstChild1;    //当前节点的第一个孩子节点
    struct Node* _pNextBrother;   //指向其下一个兄弟节点
    DataType _data;               //节点中的数据域
};

1.4 树在实际中的运用（表示文件系统的目录树结构）

文件系统结构称为目录树

eg：

windows文件系统：森林

2.二叉树概念及结构

2.1概念

一棵二叉树是结点的一个有限集合，该集合：

或者为空
由一个个节点加上两科别称为左子树和右子树的二叉树组成

简单来说，二叉树是度数为2的树

但是二叉树和树存在区别：

二叉树不存在度大于2的结点
二叉树的子树有左右之分次序不能颠倒，因此二叉树是有序树

任何二叉树都是由下面几种情况复合而成的：

2.2特殊的二叉树：

1.满二叉树：每一层的结点数都达到最大值，如果一个二叉树的层数是K,且结点总数是2^k-1,则它就是满二叉树

2.完全二叉树：完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的，对于深度为K的，有n个结点的二叉树，当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树，要注意的是满二叉树是一种特殊的完全二叉树，前N-1层是满的，最后一层可以不满，但是必须从左到右是连续的

完全二叉树最少节点也可以套用满二叉树的公式：可以将完全二叉树的(h-1)层看作是满二叉树带入公式，然后再加上最后一层的一个节点，即就是完全二叉树最少节点的个数

2.3 二叉树的性质

1.若规定根节点的层数为1,则一棵非空二叉树的第i层上最多有2^(i-1)个结点

2.若规定根节点的层数为1,则深度为h的二叉树的最大结点数是(2^h)- 1

3.对任何一棵二叉树,如果度为0其叶结点个数为n0,度为2的分支结点个数为n2,则有n0=n2+ 1

4.若规定根节点的层数为1,具有n个结点的满二叉树的深度, h=log2(n + 1). (ps: log2(n + 1)是log以2为底，n+1为对数)

5.对于具有n个结点的完全二叉树,如果按照从上至下从左至右的数组顺序对所有节点从0开始编号,则对于序号为i的节点有：

若i>0, i位置节点的双亲序号: (i-1)/2; i=0, i为根节点编号,无双亲节点

若2i+1<n,左孩子序号: 2i+1, 2i+1>=n否则无左孩子

若2i+2<n,右孩子序号: 2i+2, 2i+2>=n否则无右孩子

2.4 二叉树的存储结构

二叉树一般可以使用两种结构存储，一种顺序结构，一种链式结构

1.顺序存储

顺序结构存储就是使用数组来存储，一般使用数组只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实使用中只有堆才会使用数组来存储，二叉树顺序存储在物理上是一个数组，在逻辑上是一棵二叉树

父子间下标关系：

1）通过父亲下标找孩子下标：leftchild = parent*2 + 1 ；rightchild = parent*2 + 2；

2）通过孩子下标找父亲下标： parent = (child - 1) / 2

2.链式存储

二叉树的链式存储结构是指，用链表来表示一棵二叉树，即用链表来指示元素的逻辑关系，常用的方法是链表中每个节点由三个域组成，数据域和左右指针域，左右指针分别用来给出该结点左孩子和右孩子所在的链节点的存储地址。链式结构又分为二叉链和三叉链

3.二叉树的顺序存储结构及实现

3.1 二叉树的顺序结构

普通的二叉树是不适合用数组来存储的，因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常将堆用顺序结构的数组来存储，需要注意的这里的堆和操作系统虚拟进程地址空间中的堆是两回事，一个是数据结构，一个是操作系统管理内存的一块儿区域分段

3.2 堆的概念及结构

堆：

1.完全二叉树

2.大堆：树中任何一个父亲节点都大于或等于孩子节点

小堆：树中任何一个父亲节点都小于或等于孩子节点

物理结构是一个数组，逻辑结构是一棵二叉树【物理结构是在内存中是如何存储的，逻辑结构是我们为了方便理解想象出来的】

3.3 堆的实现

3.3.1 "Heap.h"

#include <stdlib.h>
#include <assert.h>
#include <stdbool.h>

typedef int HPDataType;
typedef struct Heap
{
    HPDataType *a;
    int size;
    int capacity;
}HP;

void HeapInit(HP *php);
void HeapDeatroy(HP *php);
void Swap(HPDataType *p1, HPDataType *p2);
void AdjustUp(HPDataType *a, int child);//向下调整是从孩子的位置开始调正
//向上调整是从孩子的位置开始调整，n为数组的大小
void AdjustDown(int *a, int n, int parent);
void HeapPush(HP *php, HPDataType x);
void HeapPop(HP *php);//删除堆顶的数据
HPDataType HeapTop(HP *php);
bool HeapEmpty(HP *php);
int HeapSize(HP *php);
void HeapSort(int *a, int n);

//插入数据-->向上调整
//删除数据-->向下调整

HeapPop删除堆顶的数据-->向下调整

向下调整算法的前提：左右子树必须是一个堆，才能进行调整；如果是小堆，与值小进行比较；如果是大堆，与值大进行比较

1）挪动覆盖删除堆顶元素，重新建堆

挪动覆盖不能保证挪动完还是堆，有可能改变了父子关系-->只能重新建堆【时间复杂度比较大】

2）首尾数据交换，再删除，再调整堆

只是首尾元素进行交换，中间还是堆

HeapPush插入数据-->向上调整

向上调整需要保证前面是堆

二叉树中左孩子不存在一定没有右孩子

插入和删除的时间复杂度：

不用调整时的时间复杂度是：O(1) ,

调整次数最多是调整层数次，【利用完全二叉树的节点范围反退h的范围】，那么时间复杂度应该为：O（log n）【以2为底n的对数】

HeapSort对堆中的数据进行排序

1）将数据建立为堆-->建立成堆，堆中的元素未必是有序的，所以还需要进行调整

向下调整建堆

向下调整建堆必须保证左右子树必须是堆，所以从叶子节点的父节点开始建堆，叶子节点没有左右孩子，必然可以看作是一个堆

向上调整建堆

向上调整建堆必须保证上面的节点是堆，所以从根节点开始建堆，一个根节点上面什么都没有必然是一个堆

2）交换首尾元素

3）向下调整-->向下调整的前提必须是堆，所以建堆非常重要

3.3.2 "Heap.c"

#define _CRT_SECURE_NO_WARNINGS
#include "Heap.h"
//初始化
void HeapInit(HP* php)
{
	php->a = NULL;
	php->capacity = php->size = 0;
}
//销毁
void HeapDestroy(HP* php)
{
	free(php->a);
	php->a = NULL;
	php->capacity = php->size = 0;
}
//判空
bool HeapEmpty(HP* php)
{
	assert(php);
	return php->size == 0;
}
void Swap(HPDataType* p1, HPDataType* p2)
{
	int tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}
void AdjustUp(HPDataType* a, int child)
{
	assert(a);
	int parent = (child - 1) / 2;
	while (child>0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
		}
		else
		{
			break;
		}
		child = parent;
		parent = (child - 1) / 2;
	}
}
//插入数据
void HeapPush(HP* php, HPDataType x)
{
	assert(php);
	if (php->capacity == php->size)
	{
		int newcapacity = php->capacity == 0 ? 4 : php->capacity * 2;
		HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newcapacity);
		if (tmp == NULL)
		{
			perror("realloc fail");
			return;
		}
		php->a = tmp;
		php->capacity = newcapacity;
	}
	php->a[php->size] = x;
	php->size++;
	AdjustUp(php->a, php->size-1);

}
//删除数据
void AdjustDown(int* a, int n, int parent)
{
	assert(a);
	int child = parent * 2 + 1;
	while (child < n)
	{
		if (child+1<n&&a[child] > a[child + 1])
		{
			child++;
		}
		if(a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
		}
		else
		{
			break;
		}
		parent = child;
		child = parent * 2 + 1;
	}
}
void HeapPop(HP* php)
{
	assert(php);
	assert(!HeapEmpty(php));
	Swap(&(php->a[0]), &(php->a[php->size - 1]));
	php->size--;
	AdjustDown(php->a, php->size,0);
}

//堆的大小
int HeapSize(HP* php)
{
	assert(php);
	return php->size;
}
//堆排序
void HeapSort(HP* php, int n)
{
	assert(php);
	//建堆方式
	//1.向上调整建堆
	//for (int i = 1; i < php->size; i++)
	//{
	//	AdjustUp(php->a, i);
	//}
	//2.向下调整建堆
	for (int i = (n - 1 - 1) / 2; i > 0; i--)
	{
		AdjustDown(php->a, n, i);
	}

	//向下调整
	int end = n - 1;
	while (end>0)
	{
		Swap(&php->a[0], &php->a[end]);
		AdjustDown(php->a, end, 0);
		end--;
	}
}

3.3.3 建堆的时间复杂度

时间复杂度为O(N)

3.4 堆的应用

TOP-K问题：

即求数据集合中前K个最大的元素或者最小的元素，一般情况下数据量都比较大

topk问题可以作为优质的筛选问题【比如点外卖的时候，在一堆卖家中找到评分前几个】

N个数找最大得前K个

1）常规思路：

把这个N建成大堆，Pop K次，即可找出最大得前K个，但是有些场景，上面个的思路解决不了，比如N非常大，假设N是10亿个，K是100

10亿个整数，需要多少空间 4G

【1 G = 1024MB

1024MB = 1024*1024KB

1024*1024KB= 1024*1024*0124Bbyte

约等于10亿byte】

当数据过多时，数据将存放到磁盘文件中，磁盘中不能建堆，不支持随机访问，文件中的数据只能依次读

2）改进的解决思路：

1.前K个数建立小堆

2.后面N-K个数，依次比较，如果比堆顶的数据大，就替换他进堆【覆盖堆顶值，向下调整】

3.最后这个小堆的值就是最大的前K个

找前k个最大的元素，则建小堆

找前k个最小的元素，则建大堆


//TOPLK问题
#include<time.h>
void CreateData()
{
	srand((unsigned int)time((time_t)NULL));
	FILE* fin = fopen("data.txt", "w");
	int n = 10000;
	for (int i = 0; i < n; i++)
	{
		int x = rand() % 10000;
		fprintf(fin, "%dn", x);
	}
}
void PrintTopK(int k)
{
	FILE* fout = fopen("data.txt", "r");
	int* kminheap = (int*)malloc(sizeof(int) * k);
	for (int i = 0; i < k; i++)
	{
		fscanf(fout, "%d", &kminheap[i]);
	}
	for (int i = (k - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(kminheap,k,i);
	}
	int val = 0;
	while (!feof(fout))
	{
		fscanf(fout, "%d", &val);
		if (val > kminheap[0])
		{
			kminheap[0] = val;
			AdjustDown(kminheap, k, 0);
		}
		
	}
	for (int i = 0; i < k; i++)
	{
		printf("%d ", kminheap[i]);
	}
}
int main()
{
	//CreateData();
	PrintTopK(5);
}

4.二叉树链式结构的实现

4.1 二叉树的遍历

4.1.1 前序、中序以及后序遍历

二叉树遍历时按照某种特定的规则，依次对二叉树中的节点进行相应的操作，并且每一个节点只操作一次，二叉树的遍历有：前序、中序、后序的递归结构遍历

1.前序遍历：访问根节点的操作发生在遍历其左右子树之前【根、左、右】

2.中序遍历：访问根节点的操作发生在遍历其左右子树之中（中间）【左、根、右】

3.后序遍历：访问根节点的操作发生在遍历其左右子树之后【左、右、根】

//二叉树前序遍历
void PreOrder(BTNode *root);
//二叉树中序遍历
void InOrder(BTNode *root);
//二叉树后序遍历
void PostOrder(BTNode *root);

#include<stdio.h>
#include<stdlib.h>
typedef int BTDataType;
typedef struct BinaryTreeNode
{
	BTDataType data;
	struct BinaryTreeNode* left;
	struct BinaryTreeNode* right;
}BTNode;
BTNode* BuyNode(int x)
{
	BTNode* node = (BTNode*)malloc(sizeof(BTNode));
	if (node == NULL)
	{
		perror("malloc fail");
		return NULL;
	}
	node->left = NULL;
	node->right = NULL;
	node->data = x;
	return node;
}
BTNode* CreateBinaryTree()
{
	BTNode* node1 = BuyNode(1);
	BTNode* node2 = BuyNode(2);
	BTNode* node3 = BuyNode(3);
	BTNode* node4 = BuyNode(4);
	BTNode* node5 = BuyNode(5);
	BTNode* node6 = BuyNode(6);
	node1->left = node2;
	node1->right = node4;
	node2->left = node3;
	node4->left = node5;
	node4->right = node6;
	return node1;
}
//二叉树前序遍历
void PreOrder(BTNode* root)
{
	if (root == NULL)
	{
		printf("N ");
		return;
	}
	printf("%d ", root->data);
	PreOrder(root->left);
	PreOrder(root->right);
}
//二叉树中序遍历
void InOrder(BTNode* root)
{
	if (root == NULL)
	{
		printf("N ");
		return;
	}
	InOrder(root->left);
	printf("%d ", root->data);
	InOrder(root->right);
}
//二叉树后序遍历
void PostOrder(BTNode* root)
{
	if (root == NULL)
	{
		printf("N ");
		return;
	}
	PostOrder(root->left);
	PostOrder(root->right);
	printf("%d ", root->data);
}

4.1.2 层序遍历

层序遍历：除了先序遍历、中序遍历、后序遍历外，还可以对二叉树进行层序遍历。设二叉树的根节点所咋层数为1，层序遍历就是从所在二叉树的根节点出发，首先访问第一层的树根节点，然后从左到右访问第2层上的节点，接着是第三层的节点，以此类推，自上而下，自左至右逐层访问树的结点的过程就是层序遍历

使用队列实现二叉树的层序遍历，首先将根节点放进队列中，每当根节点要出队列时，将根节点的左孩子和右孩子放入队列中

//二叉树层序遍历
void LevelOrder(BTNode* root)
{
	Queue que;
	QueueInit(&que);
	QueuePush(&que, root);
	
	while (!QueueEmpty(&que))
	{
		BTNode* front = QueueFront(&que);
		QueuePop(&que);

		printf("%d ", front->data);
		if (front->left)
		{
			QueuePush(&que, front->left);
		}

		if (front->right)
		{
			QueuePush(&que, front->right);
		}
	}
}

4.2 节点个数以及高度等

//二叉树叶子结点个数
int BinaryTreeLeafSize(BTNode *root);
//二叉树的高度
int BinaryTreeHigh(BTNode *root);
//二叉树第k层结点个数
int BinaryTreeLevelKSize(BTNode *root, int k);
//二叉树查找值为x的结点
BTNode* BinaryTreeFind(BTNode *root, BTDataType x);

//二叉树叶子节点个数
int BinaryTreeLeafSize(BTNode* root)
{
	if (root == NULL)
	{
		return 0;
	}
	if (root->left == NULL && root->right == NULL)
	{
		return 1;
	}
	return BinaryTreeLeafSize(root->left) +
		BinaryTreeLeafSize(root->right);
}
//二叉树的高度
int BinaryTreeHigh(BTNode* root)
{
	if (root == NULL)
	{
		return 0;
	}
	
	int leftHigh = BinaryTreeHigh(root->left);
	int rightHigh = BinaryTreeHigh(root->right);
	return leftHigh > rightHigh ? leftHigh+1 : rightHigh+1;
}
//二叉树第K层节点个数
int BinaryTreeLevelKSize(BTNode* root, int k)
{
	if (root == NULL)
	{
		return 0;
	}
	if (root != NULL && k == 1)
	{
		return 1;
	}
	return BinaryTreeLevelKSize(root->left, k-1)
		+ BinaryTreeLevelKSize(root->right, k-1);
	
}
//二叉树查找值为x的结点
BTNode* BinaryTreeFind(BTNode *root, BTDataType x)
{
    if (root == NULL)
	{
		return NULL;
	}
	if (root->data == x)
	{
		return root;
	}
	//在左子树中查找
	BTNode* leftRoot = BinaryTreeFind(root->left, x);
	if (leftRoot)
	{
		return leftRoot;
	}
	//在右子树中查找
	BTNode* rightRoot = BinaryTreeFind(root->right, x);
	if (rightRoot)
	{
		return rightRoot;
	}
	return NULL;
}

4.3 二叉树的创建和销毁


//通过前序遍历的数组"ABD##E#H##CF##G##"构建二叉树
BTNode* BinaryTreeCreate(BinaryDataType* a, int n, int* pi) {
	BTNode* root = (BTNode*)malloc(sizeof(BTNode));
	if (a[(*pi)] == '#')
	{
		(*pi)++;
		return NULL;
	}
	else
	{
		root->data = a[(*pi)++];
	}
	root->left = BinaryTreeCreate(a, n, pi);
	root->right = BinaryTreeCreate(a, n, pi);

	return root;
}

//二叉树的销毁
void BinaryTreeDestroy(BTNode* root)
{
	if (root == NULL)
	{
		return;
	}
	if (root->left)
	{
		BinaryTreeDestroy(root->left);
	}
	if (root->right)
	{
		BinaryTreeDestroy(root->right);
	}
	free(root);
}

//判断二叉树是否是完全二叉树
bool BinaryTreeComplete(BTNode* root)
{
	if (root == NULL)
	{
		return true;
	}
	Queue que;
	QueueInit(&que);
	QueuePush(&que, root);
	while (!QueueEmpty(&que))
	{
		BTNode* front = QueueFront(&que);
		QueuePop(&que);
		if (front == NULL)
		{
			break;
		}
		QueuePush(&que, front->left);
		QueuePush(&que, front->right);
	}

	//看队列中剩余元素是否有非空
    //如果是完全二叉树剩余元素一定全是NULL
    //如果不是完全二叉树剩余元素一定存在非空
	while (!QueueEmpty(&que))
	{
		BTNode* front = QueueFront(&que);
		QueuePop(&que);
		if (front != NULL)
		{
			return false;
		}
	}
	return true;
}