您的位置:首页 > 理论基础 > 计算机网络

面试算法:用队列计算滑动窗口内的最大网络流量

2017-04-04 15:48 295 查看
更详细的讲解和代码调试演示过程,请参看视频

如何进入google,算法面试技能全面提升指南

如果你对机器学习感兴趣,请参看一下链接:

机器学习:神经网络导论

在网络流量的控制过程中,有时候需要找到从给定的某个时间点开始,往前倒退若干个时段内的最大网络流量m(t, w). 其中 t 是给定的某个时间节点,w就是滑动窗口大小,于是m表示的就是在时间段[t - w, t] 之间的最大网络流量。

举个例子,假设知道的滑动窗口大小w 为6,某个具体时刻的网络流量用(t,v)来表示,t表示时间点,v表示当时的网络流量,于是(3, 5) 就表示在时间点3时,网络流量是5个单位。如果有下面一系列的流量记录:

(1,10), (3,1), (5,4), (7,8),(9,3),(12,9)

那么m(12, 6) 就等于9, m(9, 6) 就等于8. 因为如果在时刻12,窗口大小为6时,落入这个时段的流量点有 (7,8), (9,3), (12,9) ,这三个流量点中,流量最大的就是时刻12,流量为9,所以m(12,6) 就等于9. 如果时刻点是9, 那么落入窗口大小为6的流量点有: (3,1), (5,4), (7,8), (9,3) 其中流量最大的时刻点是7,流量大小为8,所以m(9,6) 就等于8.

我们注意,流量记录中的时间点总是递增排列的。

问题是,给定流量点记录的数组A, 里面有n个流量点记录,同时给定滑动窗口的大小w, A[i] 的格式就是上面所说的流量记录点(t,v), A所存储的流量点,其中的时间点都是按升序排列的。要求设计一个有效算法,计算A的中每个时间点在滑动窗口范围内的最大网络流量。

解决这个问题的关键有两点:

一是,给定一个具体时间点和窗口大小,我们要快速找到这个范围内的所有时间点记录。

二是:在所有时间点记录中,快速找到流量最大的那个时间点。

根据以上两点,我们先看看最简单的做法,例如给定时间点是(12,9),根据第一步,我们找到在窗口范围内的时间点是(7,8), (9,3), (12,9). 根据第二点,我们得到其中网络流量最大的点是12,流量为9.

如果给定时间点是(9,3), 那么可以找到的处于窗口范围内的时间点是(3,1), (5,4), (7,8),(9,3), 于是我们找到流量最大的点是7,流量为8.

如果每个点我们都这么找,那么我们可以解决问题,但这么做效率显然不高,因为你在每个给定时间点时,总得通过遍历去找到给定范围内的时间点,然后再从中找到流量最大的那个点。

如果给定的记录点是数组A中的第n个元素,那么我们回退去寻找窗口期内的记录点,可能就得遍历n个元素,如果给定的记录点是数组A中第n-1个元素,那么我们需要往回遍历n-1个元素,于是上面做法的时间复杂度就是n + n-1 +…+1 = O(n^2)。

算法设计的根本问题是:有没有更快的做法?

我们在以前讨论过一个算法题叫:

计算堆栈当前元素的最大值

我们将依赖于当时研究过的算法,来解决本题。

对于给定时间点(12,9) 我们得到的窗口内时间点是(7,8), (9,3), (12,9),此时最大流量的时间点是12,流量是9.

给定时间点(9,3), 我们得到窗口内时间点是(3,1), (5,4), (7,8),(9,3),相较于上一个时间点,我们去掉了一个时间点(12,9), 新增了两个时间点(3,1), (5,4),我们能否在基于上一个时间点的基础上,快速的得到当前时间点在滑动窗口内的最大流量呢?

1,我们准备两个队列,一个队列叫maxQueue, 另一个队列叫workingQueue,这两个队列用于存储窗口期内的时间点。

2,用两个指针,start 和 end, end 指向当前时间点,start指向窗口期内的首个时间点,例如对于给定时间点(12,9) 及对应窗口期6 内的时间点集合(7,8), (9,3),(12, 9). 那么end指向点(12,9), start 指向(7,8).

3,然后从start开始,把start指向的时间点有条件的插入workingQueue的队列头,要求是,如果当前队列是空的,那么start指向的时间点直接加入队列,要不然,如果当前start指向的时间点,它的流量比workingQueue的尾结点流量大的话,就把start指向的节点加入队列头,要不然忽略start指向的时间点,让start加一,指向下一个时间点。

4,开始时,start 和 end 都指向A中最后一个时间点,然后让start 往前进,每前进一次,判断当前时间点十分在窗口范围内,如果当前时间点超出滑动窗口范围,这start往后退,用一个变量count来统计start往回退了几个时间点。

5,从start 开始,把时间节点依次根据步骤3加入队列,加入的节点数等于变量count.

6,执行步骤5时,如果有某个时间点的流量大于maxQueue尾结点的流量,那么把maxQueue里面的节点全部清空。

7,如果当前maxQueue队列为空,那么将workingQueue作为maxQueue

8,算法运行时,end先指向A中最后一个时间点, 执行完上面步骤后,maxQueue的头结点所对应的流量,就是end执行的时间点在滑动窗口内的最大流量。

9, 如果maxQueue的尾节点与当前end指向的节点相同,那么去掉maxQueue的尾节点,然后end和end同时往前挪动一个节点。

举个例子,假设A中存储的时间点为:

(1,10), (3,1), (5,4), (7,8),(9,3),(12,9)

start

end

一开始start和end 都指向最后一个节点,根据步骤3,start 往前挪:

(1,10), (3,1), (5,4), (7,8), (9,3), (12,9)

start end

start经过了三个节点,所以count的值为3.

根据步骤步骤3,从start开始后的count个变量加入workingQueue:

maxQueue: null

workingQueue: (7,8)->(12,9)

根据步骤7, 由于maxQueue为空,把workignQueue当做maxQueue:

maxQueue: (7,8)->(12,9)

workingQueue: null

根据步骤8,在时间点12,滑动窗口大小为6的范围内,最大网络流量是9.

接着执行步骤9,得到结果如下:

(1,10), (3,1), (5,4), (7,8), (9,3), (12,9)

start end

maxQueue: (7,8)

workingQueue: null

然后执行步骤2,得到结果如下:

(1,10), (3,1), (5,4), (7,8), (9,3), (12,9)

start end

count : 2

执行步骤3:

maxQueue: (7,8)

workingQueue: (3,1)->(5,4)

根据步骤8,maxQueue尾节点流量为8,于是当时间点是9,窗口大小为6时,最大流量是8.

继续执行步骤9,结果如下:

(1,10), (3,1), (5,4), (7,8), (9,3), (12,9)

start end

maxQueue: (7,8)

workingQueue: (3,1)->(5,4)

执行步骤2,结果如下:

(1,10), (3,1), (5,4), (7,8), (9,3), (12,9)

start end

count = 1;

执行步骤3,当我们把节点(1,10)加入working队列时,该节点的流量值大于maxQueue尾节点流量,于是把maxQueue清空:

maxQueue: null

workingQueue: (3,1)->(5,4)->(1,10)

根据步骤7,我们把workingQueue转换成maxQueue:

maxQueue: (3,1)->(5,4)->(1,10)

workingQueue: null

于是根据步骤8,当时间点是7时,在滑动窗口内的最大流量是10.

把上面步骤持续运行,知道得到所有节点在滑动窗口内的最大流量为止。

接下来我们证明算法是对的。

执行步骤2时,start往前走,每走一步就判断start指向的节点是否在end节点的窗口期内,所有当start停下来时,start 和 end之间的节点就是窗口期内的所有节点。

假设执行步骤2前,start 与 end间距离x个节点:

start |<- x ->| end

执行步骤2后,start前进了count个节点:

start|<- count ->|<- x ->| end

根据步骤3,我们在wokingQueue队列中的尾节点,其流量一定是从start开始的count个元素中流量最大的一个。

如果一开始时x是0,那么count就是end节点窗口期内的节点数,由于此时maxQueue是null,因此根据步骤7,我们把wokingQueue当做maxQueue,由于wokingQueue尾节点是窗口期内的流量最大点,那么执行步骤7后,maxQueue的尾节点的流量值就是窗口期内的最大流量值。

如果x不是0,那么maxQueue的尾节点流量值是从end节点开始,往前数x个节点所形成的集合中,流量值最大的那个节点。执行步骤3后workingQueue尾节点的流量值则是从start开始,往后数count个节点后,所形成集合中的流量最大值节点。

由于start 和 end 之间的节点形成了一个窗口期内的所有节点,而窗口期的流量值就是窗口期内流量最大的那个节点的流量值,显然这个节点要不在

|<- x ->| end 这后半部分,要不在 start |<- count ->| 的前半部分。如果在后半部分,那么最大流量值节点就是maxQueue的尾节点,如果在前半部分,那么workingQueue的尾节点就是最大流量值节点。

根据步骤6,如果最大值节点在前半部分,那么我们会把maxQueue情况,然后,根据步骤7,maxQueue清空后,我们把workingQueue变成maxQueue.

因此无论何种情况,执行完所有步骤后,maxQueue的尾巴节点的流量值就是当前end所指向节点在窗口期内的最大网络流量。

接下来看看算法效率,指针end会变量数组中每一个节点,指针start也会遍历每一个节点,当start前进后,会把它遍历过的每个节点加入队列,所以数组中每个节点最多被遍历三次,因此整个算法复杂度是O(n).

我们在算法中没有分配多余内存,所以算法的空间复杂度是O(1).

下面我们看看实现代码:

import java.util.ArrayList;

public class SlidingWindow {
private ArrayList<Window> windowList ;
private int start = 0, lastStart = 0;
private int end = 0;
private int count = 0;
private ArrayList<Window> maxQueue = null;
private ArrayList<Window> workingQueue = new ArrayList<Window>();
private int windowSize = 0;

public SlidingWindow(ArrayList<Window> winList, int size) throws Exception {
this.windowList = winList;
this.start = this.end = windowList.size() - 1;
this.windowSize = size;

if (windowList.size() == 0 || size <= 0) {
throw new Exception("Illegal arguments");
}

}

public void printMaxVolumnForTimePoints() {
while (end >= 0) {
if (start <= end) {
findSlidingWindow();
}

Window w = windowList.get(end);
Window m = maxQueue.get(maxQueue.size() - 1);
System.out.println("Max from from time: " + w.getTime() + " in sliding window size is " + m.getVolumn());

if (w.equals(m)) {
maxQueue.remove(maxQueue.size() - 1);
}

if (maxQueue.isEmpty()) {
maxQueue = null;
}

end--;
}
}

private void findSlidingWindow() {

while (start >= 0 && (windowList.get(end).getTime() -  windowList.get(start).getTime() <= windowSize)) {
if (maxQueue != null && windowList.get(start).getVolumn() > maxQueue.get(maxQueue.size() - 1).getVolumn()) {
maxQueue.clear();
maxQueue = null;
}

start--;
count++;
}

if (start >= 0 && windowList.get(end).getTime() - windowList.get(start).getTime() > windowSize) {
start++;
}

if (count > 0)
buildMaxQueue();

if (maxQueue == null) {
maxQueue = workingQueue;
workingQueue = new ArrayList<Window>();
}
}

private void buildMaxQueue() {

int s = start < 0 ? 0 : start;

while (count > 0) {
if (workingQueue.isEmpty() ||
windowList.get(s).getVolumn() > workingQueue.get(workingQueue.size() - 1).getVolumn() ) {
workingQueue.add(windowList.get(s));
}

s++;
count--;
}

start--;
}
}


findSlidingWindow 执行的就是步骤2,3,4,它让start指针往前进,找到滑动窗口内的所有节点,然后调用buildMaxQueue来将节点加入workingQueue, buildMaxQueue 执行的是步骤3. printMaxVolumnForTimePoints 执行的是步骤7,8,9.

再看看入口处代码:

public class StackAndQuque {
public static void main(String[] args) {

ArrayList<Window> array = new ArrayList<Window>();
array.add(new Window(1, 10));
array.add(new Window(3,1));
array.add(new Window(5,4));
array.add(new Window(7,8));
array.add(new Window(9,3));
array.add(new Window(12,9));
array.add(new Window(19, 4));

try {
SlidingWindow slidWin = new SlidingWindow(array, 6);
slidWin.printMaxVolumnForTimePoints();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}
}


代码先构造了含有7个时间节点的数组,然后设置滑动窗口大小为6,

(1,10), (3,1), (5,4), (7,8), (9,3), (12,9), (19,4)

接着输出每个时间节点在窗口期内的最大网络流量,运行后结果如下:

Max from from time: 19 in sliding window size is 4

Max from from time: 12 in sliding window size is 9

Max from from time: 9 in sliding window size is 8

Max from from time: 7 in sliding window size is 10

Max from from time: 5 in sliding window size is 10

Max from from time: 3 in sliding window size is 10

Max from from time: 1 in sliding window size is 10

根据每个节点的时间点算出他们对应窗口内的最大流量,我们输出的结果应该是正确的。

更详细的讲解和代码调试演示,请参看视频。

更多技术信息,包括操作系统,编译器,面试算法,机器学习,人工智能,请关照我的公众号:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息