chan blog: 15 Dynamic Programming

15 Dynamic Programming

15.1 Rod Cutting

15.2 Matrix-chain multiplication

$\langle A_1, A_2, \dots, A_n \rangle$ 가 주어지고, 우리는 그 곱인 다음을 연산하고 싶어한다

A_1,A_2\cdots A_n.\;\; (15.5)

fully parenthesized $\langle A_1, A_2, A_3, A_4 \rangle$ $A_1A_2A_3A_4$ 를 괄호를 칠 수 있다:

\begin{split} & (A_1(A_2(A_3A_4))), \\ & (A_1((A_2A_3)A_4)), \\ & ((A_1A_2)(A_3A_4)), \\ & ((A_1(A_2A_3))A_4), \\ & (((A_1A_2)A_3)A_4). \end{split}

우리가 행렬의 한 chain을 괄호치는 방법은 그 곱을 구하는 비용에 극적인 영향을 가질 수 있다. 두 행렬의 곱의 비용을 처음에 고려해라. 표준 알고리즘은 다음의 의사코드에 의해 주어지는데, 이것은 Section 4.2에서 SQUARE-MATRIX-MULTIPLY procedure를 일반화한다. 그 attributes rows와 columns은 한 행렬에서 rows와 columns의 개수이다.


MATRIX-MULTIPLAY(A, B)
1   if A.columns != B.rows
2       error "incompatible dimensions"
3   else let C be  a new A.rows X B.column matrix
4       for i = 1 to A.rows
5           for j = 1 to B.columns
6               c_ij = 0
7               for k = 1 to A.columns
8                   c_ij = c_ij + a_ik * b_kj
9   return C

compatible $p \times q$ $q \times r$ $C$ $p \times r$ $C$ $pqr$ 이다. 다음에는, 우리는 scalar 곱의 개수의 관점에서 비용들을 표현할 것이다.

$\langle A_1, A_2, A_3 \rangle$ $10 \times 100$ $100 \times 5$ $5 \times 50$ $((A_1A_2)A_3)$ $10 \times 5$ $A_1A_2$ $10 \cdot 100 \cdot 5 = 5000$ $A_3$ $10 \cdot 5 \cdot 50 = 2500$ $(A_1(A_2A_3))$ $100 \times 50$ $A_2A_3$ $100 \cdot 5 \cdot 50 = 25,000$ $A_1$ $10 \cdot 100 \cdot 50 = 50,000$ $75,000$ 번의 스칼라곱이다. 따라서 첫 번째 괄호화를 따라 곱하는 것이 10배 더 빠르다.

matrix-chain multiplication problem $\langle A_1, A_2, \dots, A_n \rangle$ $i = 1, 2, \dots, n$ $A_i$ $p_{i-1} \times p_{i}$ $A_1A_2\cdots A_n$ 의 곱을 완전히 괄호화해라.

matrix-chain multiplication problem에서, 우리가 실제로 행렬을 곱하고 있지 않다는 것에 주목해라. 우리의 목적은 가장 낮은 비용을 가진 행렬 곱을 위한 순서를 결정짓는 것 뿐이다. 일반적으로 이 최적의 순서를 결정할 때 소요되는 시간은 (75,000 대신에 7500 스칼라곱만을 수행하는 것 같은) 실제로 행렬곱을 수행할 때 나중에 절약되는 시간에 의해 지불되는 것보다 더 크다.

Couting the number of parenthesizations

$P(n)$ $n = 1$ $n \geq 2$ $k = 1, 2, \dots, n - 1$ $k$ $(k+1)$ 번째 사이에 발생할지도 모른다. 따라서, 우리는 다음의 반복을 얻게 된다

P(n) = \bigg\{ \begin{split} & 1 &\; \text{if $n = 1$,} \\ & \sum^{n-1}_{k=1}P(k)P(n-k) & \; \text{if $n \geq 2$.} \end{split} \\ (15.6)

$\Omega(4^n/n^{3/2})$ Catalan numbers $\Omega(2^n)$ 이라는 것을 보여준다. 해의 개수는 따라서 n에 exponential하고, exhaustive search의 brute-force method는 matrix chain의 optimally parenthesize를 하는 방법을 결정할 때 좋지 않은 전략을 만든다.

15.3 Elements of dynamic programming

비록 우리가 dynamic-programming의 두 예제들을 풀어보았을지라도, 너는 여전히 그 방법들이 언제 적용되는지가 궁금할지도 모른다. 엔지니어링 관점에서, 우리는 언제 한 문제에 대해 dynamic-prgramming solution을 찾아야 하는가? 이 섹션에서, 우리는 dynamic programming이 적용되게 하기 위해, 가져야 하는 두 가지 주요한 재료들을 조사한다 : optimal substructure와 overlapping subproblems. 우리는 또한 memoization이 top-down recursive approach에서 overlapping-subproblems property를 이용하게 도와주는 방법을 다시 알아보고 이야기 한다.

Optimal substructure

dynamic programming으로 한 optimization problem을 해결하는 것의 첫 번째 단계는 optimal solution의 구조를 특징화 하는 것이다. 만약 한 문제에 대한 optimal solution이 그것 내에서 subproblems에 대한 optimal solutions을 포함한다면 그 문제가 optimal substructure를 보여준다고 회상해라. 한 문제가 optimal substructure를 보여줄 때 마다, 우리는 dynamic programming이 적용될지도 모르는 좋은 단서를 가진다. (Chapter 16에서 이야기 하듯이, 그러나 greedy strategy가 적용될 수 있다는 것을 의미할지도 모른다.) dynamic programming에서, 우리는 subproblems에 대한 optimal solutions으로부터 문제에 대한 optimal solution을 구성한다. 결과적으로, 우리는 우리가 고려하는 subproblems의 범위가 optimal solution에서 사용되는 것을들 포함하는 것을 보장하도록 신경써야 한다.

$A_k$ $A_{k+1}$ $A_i A_{i+1}, \cdots, A_j$ $A_i A_{i+1} \cdots A_k$ $A_{k+1}, A_{k+2} \cdots A_j$ 를 parenthesizing하는 것의 문제에 대한 optimal solutions을 포함한다.

너는 스스로 optimal substructure를 발견하는 것에서 한 공통 패턴을 발견하게 될 것이다:

너는 그 문제에 대한 한 솔루션이 선택을 하는 것으로 구성된다는 것을 보여준다. 그 선택은 그 matrix chain을 분리하는 index를 선택하거나 rod에서 초기 cut을 선택하는 것과 같은 선택이다. 이 선택을 하는 것은 해결해야 할 한 개 이상의 subproblems을 남긴다.
너는 주어진 문제에 대해, optimal solution을 이끄는 선택을 받는다고 가정한다. 너는 이 선택을 결정하는 방법에 대해 아직 걱정하지 않는다. 너는 그것이 너에게 주어진다고 가정한다.
이 선택이 주어진다면, 너는 어떤 subproblems이 뒤따를지를 결정하고, subproblems의 최종 space를 가장 잘 특징화 하는 방법을 결정한다.
너는 문제에 대한 optimal solution 내에서 사용되는 subproblems에 대한 solutions들이 그것들 스스로 "cut-and-paste" 방법을 사용해서 optimal해진다는 것을 보여준다. 너는 그 subproblem solutions 각각이 optimal 하지 않다고 가정하고, 모순을 도출하여 그렇게 한다. 특히, 각 subproblem에 대해 nonoptimal solution을 "cutting out"하고, optimal one으로 "pasting in"하여, 원래 문제에 대해 더 좋은 해결책을 얻을 수 있다는 것을 보여주고, 따라서 너가 이미 optimal solution을 가졌다는 너의 가정을 반박한다. 만약 한 optimal solution이 한 개 이상의 subproblem에 대해 발생한다면, 그것들은 일반적으로 너가 적은 노력으로 다르 ㄴ것들에 적용할 수 있는 cut-and-paste argument를 수정할 수 있다는 것과 비슷하다.

subproblems의 space를 특징화 하기 위해, 좋은 경험의 법칙은 그 space를 가능한한 간단하게 유지하고, 그러고나서 필요한 만큼 확장하라고 말한다. 예를들어, rod-cutting problem에서 우리가 고려했던 subproblems의 space는 각 size가 i인 길이가 i의 한 막대를 최적으로 자르는 것의 문제를 포함했다. 이 subproblem space는 잘 작동했었고, 그리고 우리는 subproblems의 좀 더 일반적인 space를 시도할 필요가 없었다.

$A_1A_2 \cdots A_j$ $1 \leq k < j$ $A_k$ $A_{k+1}$ $k$ $j - 1$ $A_1A_2 \cdots A_K$ $A_{k+1} A_{k+2} \cdots A_j$ $A_1A_2 \cdots A_j$ $i$ $j$ $A_iA_{i+1}\cdots A_j$ 에서 변하도록 하는 것이다.

Obtimal substructure는 두 가지 방식에서 problem domains에 걸쳐서 변한다:

original problem에 대한 optimal solution이 얼마나 많은 subproblems을 사용하는가, 그리고
optimal solution에서 어떤 subproblem(s)를 사용하맂를 결정할 때 우리가 얼마나 많은 선택권을 가지는가.

$n - i$ $i$ $A_iA_{i+1} \cdots A_j$ $j - i$ $A_k$ $A_i A_{i+1} \cdots A_k$ $A_{k+1} A_{k+2} \cdots A_j$ $j - i$ 의 candidates 중에서 선택한다.

$\Theta(n)$ $O(n^2)$ $\Theta(n^2)$ $n - 1$ $O(n^3)$ $\Theta(n^3)$ running time이다. Exercise 15.2-5)

$O(n^2)$ $\Theta(n^2)$ $n - 1$ $O(n^3)$ vertices와 edges를 준다.

$i = 0, 1, \dots, n - 1$ $i$ $p_i$ $A_i A_{i+1} \cdots A_{j}$ $A_k$ $p_{i-1}p_k p_j$ 이다.

Chapter 16에서, 우리는 "greedy algorithms"을 조사할 것인데, 이것은 dynamic programming과 많은 유사성을 가진다. 특히, 어떤 greedy algorithms이 적용되는 문제들은 optimal substructure를 가진다. greedy algorithms과 dynamic programming 사이의 한 가지 중요한 차이는, subproblems에 대한 optimal solutions을 처음에 찾고나서, 그러고나서 알려진 선택을 하는 것 대신에, greedy algorithms은 처음에 "greedy" choice를 한다 - 그 시기에 가장 좋게 보이는 선택이다 - 그러고나서 최종 subproblem을 해결하는데, 모든 가능한 관련된 더 작은 subproblems을 해결하는데 문제가 없다. 놀랍게도, 어떤 경우들에서 이 전략은 작동한다.

Subtleties

$G = (V, E)$ $u, v \in V$ 가 주어진 다음의 두 문제를 고려해보자.

Unweighted shortest path:¹ $u$ $v$ 로 가는 경로를 찾아라. 그러한 path는 simple해야하는데, path에서 cycle를 제거하는 것은 더 적은 edges를 가진 path를 만들기 때문이다.

Unweighted longest simple path: $u$ $v$ 로 가는 simple path를 찾아라. 우리는 simplicity의 요구사항을 포함할 필요가 있다. 왜냐하면, 그렇지 않다면, 우리는 임의의 큰 개수의 edges를 가진 paths를 만들고 싶은 만큼 cycle을 탐색할 수 있기 때문이다.

$u \neq v$ $u$ $v$ $p$ $w$ $w$ $u$ $v$ $u \leadsto^p v$ $u \leadsto^{p_1} w \leadsto^{p_2} v$ $p_1$ $p_2$ $p$ $u$ $v$ $p_1$ $u$ $w$ $p'_1$ $p_1$ $u$ $w$ $p_1$ $p$ $u \leadsto^{p'_1} w \leadsto^{p_2} v$ $p'_1$ $p$ $p_2$ $w$ $v$ $w$ $u$ $v$ $u$ $w$ $w$ $v$ $w$ 를 선택한다. Section 25.2에서, 우리는 weighted, directed graph에서 정점들의 모든 쌍 사이의 최단 경로를 찾기 위해 optimal substructure의 이 관찰의 변형을 사용한다.

$u \leadsto^p v$ $u \leadsto^{p_1} w \leadsto^{p_2} v$ $p_1$ $u$ $w$ $p_2$ $w$ $v$ $q \rightarrow r \rightarrow t$ $q$ $t$ $q \rightarrow r$ $q$ $r$ $q \rightarrow s \rightarrow t \rightarrow r$ $r \rightarrow t$ $r$ $t$ $r \rightarrow q \rightarrow s \rightarrow t$ 경로이다.

$q \rightarrow s \rightarrow r \rightarrow t$ $r \rightarrow q \rightarrow s \rightarrow t$ $q \rightarrow s \rightarrow t \rightarrow r \rightarrow q \rightarrow s \rightarrow t$ 를 얻게되고, 이것은 simple하지 않다. 정말로, unweighted longest simple path를 발견하는 것의 문제는 optimal substructure를 갖는 것처럼 보이지 않는다. 이 문제에 대한 어떠한 효율적인 dynamic-programming algorithm이 발견되지 않았따. 사실, 이 문제는 NP-complete이고, - 우리가 Chapter 34에서 보게 되듯이 - 그것은 우리가 polynomial time에 그것을 해결 할 방법을 찾을 수 없다는 것을 의미한다.

independent $q$ $t$ $q$ $r$ $r$ $t$ $q \rightarrow s \rightarrow t \rightarrow r$ $s$ $t$ $t$ $t$ $s$ $t$ 를 사용하기 떄문에, 우리는 다른 subproblem solution에서 그것들을 사용할 수 없다. 우리는 다른 subproblem을 해결하기 위해 적어도 그것들 중 하나를 사용해야 한다. 그러나, 우리는 그것을 optimally하게 해결하기 위해 그것들 둘 다 사용해야 한다. 따라서, 우리는 이러한 subproblems이 독립적이지 않다고 말한다. 또 다른 방식으로 보아도, 한 subproblem를 해결할 때의 resources를 사용하는 것 (그러한 resources는 vertices이다)은 다른 subproblem에 대해 이용가능하지 않게 만든다.

$w$ $u$ $v$ $p$ $u \leadsto^{p_1} w$ $w \leadsto^{p_2} v$ $u$ $v$ $w$ $p_1$ $p_2$ $x \neq w$ $p_1$ $p_2$ $p_1$ $u \leadsto^{p_{ux}} x \leadsto w$ $p_2$ $w \leadsto x \leadsto^{p_{xv}} v$ $p$ $p_1$ $p_2$ $p$ $e$ $u$ $v$ $p' = u \leadsto^{p_{ux}} x \leadsto^{p_{xv}} v$ $x$ $w$ $w$ $x$ $p'$ $e - 2$ $p$ 가 shortest path라는 가정을 반박한다. 따라서, shortest-path problem에 대한 subproblems이 독립적이라고 보장된다.

$A_i{A_{i+1} \cdots A_k}$ $A_{k+1} A_{k+2} \cdots A_j$ $i = 0, 1, \dots, n - 1$ $i$ 인 막대들을 자르는 최고의 방법들을 본다. 길이가 n인 문제에 대한 optimal solution은 이러한 subproblem solutions중의 하나를 포함하기 떄문에 (우리가 그 첫 번째 조각을 자른 후에), subproblems의 독립성은 문제가 되지 않는다.

Overlapping subproblems

optimization problem이 dynamic programming을 적용하기 위해 가져야 하는 두 번째 재료는 항상 새로운 subproblems을 생성하는 것이 아니라 subproblems의 space가 문제에 대한 재귀 알고리즘이 그 같은 subproblems을 반복해서 해결하는 의미에서 "small"해야 한다는 것이다. 일반적으로 별개의 subproblems의 총 개수는 input size에서 polynomial하다. 재귀 알고리즘이 그 같은 문제를 반복적으로 재방문 할 때, 우리는 optimization problem이 overlapping subproblems²를 가진다고 말한다. 대조적으로 divide-and-conquer approach이 적합한 문제는 보통 재귀의 매 단계에서 새로운 문제들을 생성한다. Dynamic-programming algorithms은 일반적으로 각 subproblem을 한 번만 해결하고, 그러고나서 필요할 때 look up될 수 있는, lookup 당 constant time을 사용하여, 테이블에 solution을 저장하여 overlapping subproblems을 이용한다.

Section 15.1에서, 우리는 간다히 rod cutting에 대한 재귀 솔루션이 더 작은 subproblems의 solutions을 찾는데 exponentially하게 많은 호출을 만들어내는 것을 조사했었다. 우리의 dynamic-programming solution은 exponential-time recursive algorithm을 quadratic time으로 만든다.

$m[3,4]$ $m[2,4], m[1,4], m[3,5], m[3,6]$ 의 연산 동안.

$m[3,4]$ $m[i,j]$ $A_{i..j} = A_i A_{i+1} \cdots A_j$ 를 연산하는데 필요한 최소한의 scalar multiplications이다. 그 procedure는 직접적으로 반복 (15.7)를 기반으로 한다.


xxxxxxxxxx
RECURSIVE-MATRIX-CHAIN(p,i,j)
1   if i == j
2       return 0
3   m[i,j] = infinity
4   for k = i to j - 1
5       q = RECURSIVE-MATRIX-CHAIN(p,i,k)
            + RECURSIVE-MATRIX-CHAIN(p, k+1, j)
            + p_i-1 p_k p_j
6       if q < m[i,j]
7           m[i,j] = q
8   return m[i,j]

그림 15.7은 RECURSIVE-MATRIX-CHAIN(p,1,4)로 만들어진 재귀 트리를 보여준다. 각 노드는 parameters i와 j의 값으로 라벨이 붙는다. values의 어떤 쌍들은 여러 번 발생하는 것을 관찰해라.

$m[1,n]$ $T(n)$ 으로 표기하자. lines 1-2와 6-7의 실행은 적어도 단위 시간이 걸리는데, line 5에서 곱셈이 그렇듯이, 그 proceudre의 검사는 다음의 반복을 만들어 낸다.

\begin{split} & T(1) \geq 1 \\ & T(n) \geq 1 + \sum^{n-1}_{k=1} (T(k) + T(n - k) + 1) \;\;\; \text{for n > 1.} \end{split}

$i = 1, 2, \dots, n - 1$ $T(i)$ $T(k)$ $T(n-k)$ $n - 1$ 개의 1를 합에서 모아서, 우리는 그 반복을 다음으로 다시 작성할 수 있다

T(n) \geq 2 \sum^{n-1}_{i=1} T(i) + n. \;\;\;\; (15.8)

$T(n) = \Omega(2^n)$ $n \geq 1$ $T(n) \geq 2^{n-1}$ $T(1) \geq 1 = 2^0$ $n \geq 2$ 에 대해, 우리는 다음을 갖는다

\begin{split} T(n) & \geq 2 \sum^{n-1}_{i=1} 2^{i-1} + n \\ & = 2 \sum^{n-2}_{i = 0} 2^i + n \\ & = 2(2^{n-1} - 1) + n \;\; \text{by equation(A.5)} \\ & = 2^n - 2 + n \\ & \geq 2^{n-1} \end{split}

이것은 그 증명을 완성짓는다. 따라서, 그 호출 RECURSIVE-MATRIX-CHAIN(p,1,n)에 의해 수행되는 작업의 양은 적어도 n에 exponential 하다.

$\Theta(n^2)$ 의 별개의 subproblems만을 가지고, 그 dynamic-programming은 각각을 정확히 한 번만 해결한다. 반면에, 그 재귀 알고리즘은 그것이 재귀 트리에서 다시 나타날 때 마다 각 subproblem을 다시 해결해야 한다. 한 문제에 대한 natural recursive solution을 위한 recursion tree가 같은 subproblem을 반복적으로 포함할 때 마다, 그리고 그 별개의 subproblems의 총 개수가 작을 때 마다, dynamic programming은 효율성을, 가끔씩은 극적으로, 개선할 수 있다.

Reconstructing an optimal solution

실용적인 문제로서, 우리가 저장했었던 이 정보를 그 비용으로부터 재구성할 필요 없게 하기 위해, 한 테이블에 각 subproblem에서 우리가 했던 선택을 저장한다.

$s[i,j]$ $s[i,j]$ $m[i,j]$ $A_iA_{i+1} \cdots A_j$ $j - i$ $j - i$ $\Theta(j - i ) = \omega(1)$ $s[i,j]$ $A_i A_{i+1} \cdots A-j$ $O(1)$ time에 각 선택을 재구성할 수 있다.

Memoization

우리가 rod-cutting problem에 대해 보았듯이, top-down strategy를 유지하면서, bottom-up dynamic programming의 효율성을 종종 제공하는 dynamic programming에 대한 대안의 접근법이 있다. 그 아이디어는 natural하지만, 비효율적인 recursive algorithm을 memoize하는 것이다. bottom-up approach에서 그랫듯이, 우리는 subproblem solutions을 가진 table를 유지하지만, 그 table를 채우기 위한 제어 구조는 재귀 알고리즘과 더 비슷하다.

memoized recursive algorithm은 각 subproblem에 대한 solution를 위해 한 table에 entry를 유지한다. 각 table entry는 초기에 그 entry가 아직 채워져야 한다는 것을 가리키는 특별한 값을 포함한다. 그 subproblem이 처음에 만나졌을 때, 그 recursive algorithm이 펼쳐질 때, 그것의 solution이 연산되고 그러고나서 그 table에 저장된다. 우리가 이 subproblem을 만나는 각 이후의 때 마다, 우리는 간단히 그 테이블에 저장된 값을 look up하고, 그것을 반환한다 ³.

여기에 RECURSIVE-MATRIX-CHAIN의 memoized version이 있다. 그것이 어디에서 rod-cutting problem에 대해 memoized top-down method와 닮은지를 유의해라.


x
MEMOIZED-MATRIX-CHAIN(p)
1   n = p.length - 1
2   let m[1..n, 1..n] be a new table
3   for i = 1 to n
4       for j = i to n
5           m[i, j] = infinity
6   return LOOKUP-CHAIN(m,p,1,n)
LOOKUP-CHAIN(m,p,i,j)
1   if m[i,j] < infinity
2       return m[i,j]
3   if i == j
4       m[i,j] = 0
5   else for k = i to j - 1
6           q = LOOKUP-CHAIN(m,p,i,k) 
                + LOOKUP-CHAIN(m,p,k+1,j) + p_{i-1}p_kp_j
7           if q < m[i,j]
8               m[i,j] = q
9   return m[i,j]

$A_{i..j}$ $m[i,j]$ $m[1..n,1..n]$ $\infty$ $m[i,j] < \infty$ $m[i,j]$ $m[i,j]$ $m[i,j]$ $i$ $j$ 로 LOOKUP-CHAIN의 첫 번째 호출신에 그것을 연산한다.

그림 15.7은 MEMOIZED-MATRIX-CHAIN이 RECURSIVE-MATRIX-CHAIN과 비교하여 시간을 어떻게 절약하는지를 보여준다. 색칠된 subtrees는 재연산되기보다는 looks up하는 값들을 나타낸다.

$O(n^3)$ $\Theta(n^2)$ times에 작동한다. 우리는 LOOKUP-CHAIN의 호출을 두 유형으로 분류할 수 있다:

$m[i,j] = \infty$ 인 호출들, lines 3-9가 실행되고,
$m[i,j] < \infty$ 인 호출들, line 2에서 LOOKUP-CHAIN이 간단히 반환된다.

$\Theta(n^2)$ $O(n)$ $O(n^3)$ $O(1)$ $O(n)$ $O(n^3)$ $\Omega(2^n)$ $O(n^3)$ -time algorithm을 바꾼다.

$O(n^3)$ $\Theta(n^2)$ 의 별개의 subproblems이 있고, 이러한 방법 들 중 하나는 각 subproblem에 대한 solution을 오직 한 번만 연산한다. memoization 없이, natural recursive algorithm은 exponential time에서 작동하는데, sovled subproblems이 반복적으로 해결되어야 하기 때문이다.

일반적인 예시에서, 만약 모든 subproblems이 적어도 한 번 해결되어야 한다면, bottom-up dynamic-programming algorithm이 보통 대응되는 top-down memoized algorithm을 상수 요소만큼 더 잘 수행한다. 왜냐하면 그 bottom-up algorithm은 recursion에 overhead가 없고, 그 table를 유지하는데 overhead가 덜 들기 때문이다. 게다가, 어떤 문제에 대해, 우리는 time or space requirements를 더욱 줄이기 위해 dynamic programming algorithm에서 table accesses의 regular pattern을 이용한다. 대안적으로, 만약 subproblem spcae에서 어떤 subproblems들이 전혀 해결될 필요가 없다면, memoized solution은 명확히 요구되는 subproblems들만 푸는 것의 이점을 가진다.

15.4 Longest common subsequence

bases ${A, C, G, T}$ $S_1 = ACCGGTCGAGTGCGCGGAAGCCGGCCGAA$ $S2 = GTCGTTCGGAATGCCGTTGCTCTGTAAA.$ $S_1$ $S_2$ $S_1$ $S_2$ $S_3$ $S_3$ $S_1$ $S_2$ $S_3$ $S_1$ $S_2$ $S_3$ $GTCGTCGGAAGCCGGCCGAA.$

$X = \langle x_1, x_2, \dots, x_m \rangle$ $Z = \langle z_1, z_2, \dots, z_k \rangle$ subsequence $j = 1, 2, \dots , k$ $X_{i_j} = z_j$ $X$ $\langle i_1, i_2, \dots, i_k \rangle$ $Z = \langle B, C, D, B \rangle$ $X = \langle A, B, C, B, D, A, B \rangle$ $\langle 2, 3, 5, 7 \rangle$ 를 가진다.

$X$ $Y$ $Z$ $X$ $Y$ $X$ $Y$ common subsequence $X = \langle A, B, C, B, D, A, B \rangle$ $Y = \langle B, D,C,A,B,A \rangle$ $\langle B, C, A \rangle$ $X$ $Y$ $\langle B, C, A \rangle$ longest $\langle B,C,B,A \rangle$ $\langle B, C, B, A \rangle$ $\langle B, D, A, B \rangle$ 가 그렇듯이, 왜냐하면 X와 Y는 길이가 5보다 더 큰 common subsequence를 갖고있지 않기 때문이다.

longest-common-subsequence problem $X = \langle x_1, x_2, \dots, x_m \rangle$ $Y = \langle y_1, y_2, \dots, y_n \rangle$ 가 주어지고, X와 Y의 maximum-length의 common subsequence를 찾기를 원한다. 이 섹션은 dynamic programming을 사용하여 그 LCS 문제를 어떻게 효율적으로 해결하는지를 보여준다.

Step 1 : Characterizing a longest common subsequence

$\{1,2, \dots m\}$ $2^m$ 의 subsequence를 가지기 때문에, 이 전략은 exponential time을 요구하고, long sequences에 대해 비실용적이다.

$X = \langle x_1, x_2 \dots, x_m \rangle$ prefix $i = 0, 1, \dots, m$ $X_i = \langle x_1, x_2 \dots, x_i\rangle$ $X = \langle A, B,C,B,D,A,B \rangle$ $X_4 = \langle A,B,C,B \rangle$ $X_0$ 은 empty sequence이다.

Theorem 15.1 (Optimal substructure of an LCS)

$X = \langle x_1, x_2 \dots, x_m \rangle$ $Y = \langle y_1, y_2, \dots, y_n \rangle$ $Z = \langle z_1,z_2,\dots, z_k\rangle$ 가 X와 Y의 어떤 LCS라고 하자.

$x_m = y_n$ $z_k = x_m = y_n$ $Z_{k-1}$ $X_{m-1}$ $Y_{n-1}$ 의 LCS이다.
$x_m \neq y_n$ $z_k \neq x_m$ $X_{m-1}$ $Y$ 의 LCS라는 것을 암시한다.
$x_m \neq y_n$ $z_k \neq y_n$ $Y_{n-1}$ 의 LCS라는 것을 암시한다.

Proof $z_k \neq x_m$ $k + 1$ $x_m = y_n$ longest $z_k = x_m =y_n$ $Z_{k-1}$ $X_{m-1}$ $Y_{n-1}$ $(k-1)$ $k - 1$ $X_{m-1}$ $Y_{n-1}$ $W$ $x_m = y_n$ 를 추가하는 것은 k보다 더 긴 X와 Y의 common subsequence를 만들어내고, 이것은 모순이다.

$z_k \neq x_m$ $X_{m-1}$ $Y$ $X_{m-1}$ $Y$ $X_m$ $Y$ 의 common subsequence가 또한 될 것이다. 그리고 이것은 Z가 X와 Y의 LCS라는 가정과 모순이 된다.

(3) 그 증명은 (2)와 대칭이다.

Theorem 15.1이 longest common subsequences를 특징화하는 방식은 우리에게 sequences의 한 LCS는 그것 내에서 두 sequences의 prefixes중의 하나를 포함한다는 것을 말한다. 따라서, 그 LCS problem은 한 optimal-substructure property를 가진다. 또한 한 recursiv esolution은 우리가 보게될 overlapping-subproblems property를 ㅏㄱ진다.

Step 2: A recursive solution

$X = \langle x_1, x_2 \dots, x_m \rangle$ $Y = \langle y_1, y_2, \dots, y_n \rangle$ $x_m = y_n$ $X_{m-1}$ $Y_{n-1}$ $x_m = y_n$ $x_m \neq y_n$ $X_{m-1}$ $Y$ $X$ $Y_{n-1}$ 의 찾는 것. 이러한 두 LCS 중에 더 긴 것이 X와 Y의 LCS이다. 이러한 cases들이 모든 가능성을 사용하기 때문에, 우리는 optimal subproblem중 하나가 X와 Y의 LCS내에서 나타나야 한다느 ㄴ것을 안다.

$X$ $Y_{n-1}$ $X_{m-1}$ $Y$ $X_{m-1}$ $Y_{n-1}$ 의 LCS를 찾는 subsubproblem을 가진다. 많은 다른 subproblems은 subsubproblems을 공유한다.

$X_i$ $Y_j$ $c[i,j]$ $i = 0$ $j = 0$ 둘 중 하나라면, 그 sequences중의 하나는 길이 0을 갖고, 그래서 그 LCS는 길이 0을 가진다. LCS problem의 optimal substructure는 다음의 재귀 공식을 준다

c[i,j] = \bigg\{ \begin{split} & 0 \;\;\;\;\;\;\; \text{if } i = 0 \text{ or } j = 0 \\ & c[i - 1, j - 1] + 1 \;\;\;\;\;\;\; \text{if } i, j > 0 \text{ and } x_i = y_j \\ & max(c[i, j-1], c[i-1, j]) \;\;\;\;\;\;\; \text{if } i, j > 0 \text{ and } x_i \neq y_j \end{split} \\ (15.9)

$x_i = y_i$ $X_{i-1}$ $Y_{j-1}$ $X_i$ $Y_{j-1}$ $X_{i-1}$ $Y_j$ 의 LCS를 찾는 두 subproblems을 고려한다. 이전 우리가 알아본 dynamic-programming algorithms에서- rod cutting과 matrix-chain multiplication - 우리는 문제에서의 conditions에 의한 subproblems을 제외하지 않았다. LCS를 찾는 것은 문제에서 conditions에 기반하여 subproblems을 배제하는 유일한 dynamic-programming algorithm은 아니다. 예를들어, edit-distance problem은 이 특징을 갖는다 (Problem 15-5를 보아라).

Step 3 : Computing the length of an LCS

$\Theta(mn)$ 의 별개의 subproblems을 가지기 떄문에, 그러나, 우리는 그 solutions을 bottom up으로 연산하기 위해 dynamic programming을 사용할 수 있다.

$X = \langle x_1, x_2 \dots, x_m \rangle$ $Y = \langle y_1, y_2, \dots, y_n \rangle$ $c[0..m, 0..n]$ $c[i,j]$ row-major $b[1..m,1..n]$ $b[i,j]$ $c[i,j]$ $c[m,n]$ 은 X와 Y의 LCS 길이를 포함한다.


xxxxxxxxxx
LCS-LENGHT(X,Y)
1   m = X.length
2   n = Y.length
3   let b[1..m, 1..n] and c[0..m, 0..n] be new tables
4   for i = 1 to m
5       c[i, 0] = 0
6   for j = 0 to n
7       c[0, j] = 0
8   for i = 1 to m
9       for j = 1 to n
10      if x_i == y_j
11          c[i, j] = c[i - 1, j - 1] + 1
12          b[i, j] = "NW"
13      elseif c[i - 1, j] >= c[i, j - 1]
14          c[i, j] = c[i - 1, j]
15          b[i, j] = "N"
16      elsec[i, j] = c[i, j -1]
17          b[i, j] = "W"
18  return c and b

$X = \langle A, B,C,B,D,A,B \rangle$ $Y = \langle B,D,C,A,B,A \rangle$ $\Theta(mn)$ $\Theta(1)$ time이 걸리기 때문이다.

Step 4 : Constructing an LCS

$X = \langle x_1, x_2 \dots, x_m \rangle$ $Y = \langle y_1, y_2, \dots, y_n \rangle$ $b[i,j]$ $x_i = y_j$ 가 LCS-LENGTH가 발견한 LCS의 한 element라는 것을 암시한다. 이 방법으로, 우리는역순으로 이 LCS의 elements를 만난다. 다음의 재귀 procedure는 적절한 순서대로 X와 Y의 LCS를 출력한다. 그 initial call은 PRINT-LCS(b, X, X.length, Y.length)이다.


xxxxxxxxxx
PRINT-LCS(b,X,i,j)
1   if i == 0 or j ==0
2       return
3   if b[i,j] == "NW"
4       PRINT-LCS(b, X, i - 1, j - 1)
5       print x_i
6   elseif b[i,j] == "N"
7       PRINT-LCS(b, X, i - 1, j)
8   elsePRINT-LCS(b, X, i, j - 1)

$O(m+n)$ 의 시간이 걸리는데, 그것이 각 recursive call에서 i와 j의 적어도 한 개씩 줄어들기 때문이다.

Improving the code

너가 한 알고리즘을 개발했다면, 너는 종종 그것이 사용하는 공간이나 시간에서 개선할 수 있다는 것을 발견할 것이다. 어떤 변화들은 그 코드를 간단하게 하고, 상수 요소를 개선하지만, 만약 그렇지 않다면 성능에서 어떠한 asymptotic improvement를 만들지 않는다. 다른것들은 time and space에서 상당한 asymptotic savings을 만들어낼 수 있다.

$c[i,j]$ $c[i-1,j-1], c[i-1,j], c[i,j-1]$ $c[i,j]$ $c[i,j]$ $O(1)$ $O(m+n)$ $\Theta(mn)$ $\Theta(mn)$ space가 필요하기 때문이다.

$O(m+n)$ time에 우리의 steps을 추적하는데 충분한 정보를 유지하지 못한다.

15.5 Optimal binary search trees

$O(lg\;n)$ search time을 보장할 수 있다. 그러나, 단어들은 다른 빈도를 가진 채 나타나고, 그래서 the 같은 자주 사용되는 단어는 root에서 멀리에 나타날지도 모른다, 반면에 거의 사용되지 않은 단어인 machicolation이 root 근처에 나타날 수 있다. 그러한 구성은 번역을 느리게 할 것인데, 왜냐하면 binary search tree에서 한 key를 탐색할때 방문되는 노드의 개수가 그 키를 구성하는 노드의 depth + 1를 한 것과같기 때문이다. 우리는 글에서 자주 나타나는 단어들이 root에 더 가깝게 위치하도록 하고 싶다. 게다가, 그 글에서 어떤 단어들은 어떠한 프랑스어 번역을 가지지 않을지도 모른다. 그래서 그러한 단어들은 binary search tree에전혀 없을지도 모른다. 우리가 각 단어가 얼마나 종종 나타나는 지를 안다고 하면, 모든 탐색에서 방문되는 노드들의 개수를 최소화 하기 위해 binary search tree를 어떻게 구성하는가?

optimal binary search tree $k_1 < k_2 < \cdots < k_n$ $K = \langle k_1, k_2, \dots, k_n \rangle$ $k_i$ $k_i$ $p_i$ $K$ $K$ $d_0, d_1, d_2, \dots, d_n$ $n + 1$ $d_0$ $k_1$ $d_n$ $k_n$ $i = 1, 2, \dots, n - 1$ $d_i$ $k_i$ $k_{i+1}$ $d_i$ $d_i$ $q_i$ $n = 5$ $k_i$ $d_i$ $k_i$ $d_i$ 를 찾거나) 둘 중 하나이고, 그래서 우리는 다음을 갖는다.

\sum^n_{i = 1} p_i + \sum^n_{i = 0} q_i = 1. \;\;\;\;\;\;\;\; (15.10)

$T$ $T$ 에서의 탐색에 의해 발견되는 노드의 깊이에 plus 1이다. 그러고나서 T에서의 탐색의 기대비용은 다음이다.

\begin{split} E [\text{search cost in } T] & = \sum^n_{i = 1} (depth_T(k_i) + 1) \cdot p_i + \sum^n_{ i= 0}(depth_T(d_i) + 1) \cdot q_i \\ & = 1 + \sum^n_{i=1} depth_T(k_i) \cdot p_i + \sum^n_{i=0} depth_T(d_i) \cdot q_i, \;\;\;\;\;\;\;\; \\(15.11) \end{split}

$depth_T$ $T$ 에서의 한노드의 깊이를 나타낸다. 그 마지막 항등식은 방정식 (15.10)으로 부터 따른다. 그림 15.9(a)에서, 우리는 노드마다의 expected search cost를 계산할 수 있다:

node	depth	probability	contribution
$k_1$	1	0.15	0.30
$k_2$	0	0.10	0.10
$k_3$	2	0.05	0.15
$k_4$	1	0.10	0.20
$k_5$	2	0.20	0.60
$d_0$	2	0.05	0.15
$d_1$	2	0.10	0.30
$d_2$	3	0.05	0.20
$d_3$	3	0.05	0.20
$d_4$	3	0.05	0.20
$d_5$	3	0.10	0.40
Total			2.80

optimal binary search tree $k_5$ $k_2$ $k_5$ 가 root에 있는 어떤 binary search tree의 lowest expected cost는 2.85이다.)

$k_1, k_2, \dots, k_n$ $\Omega(4^n / n^{3/2})$ 이 라는 것을 보았고, 그래서 우리는 exhaustive search에서 binary search trees의 exponential number를조사해야만 할 것이다. 놀랍지 않게, 우리는 dynamic programming으로 이 문제를 해결할 것이다.

Step 1 : The structure of an optimal binary search tree

$1 \leq i \leq j \leq n$ $k_i, \dots, k_j$ $k_i, \dots, k_j$ $d_{i-1}, \dots, d_j$ 를 가져야만 한다.

$k_i, \dots, k_j$ $T'$ $T'$ $k_i, \dots, k_j$ $d_{i-1}, \dots, d_j$ $T'$ $T''$ $T$ $T'$ $T''$ $T$ 보다 더 낮은 expected cost의binary search tree를 만들고, 따라서, T의 optimality와 모순이 된다.

$k_i, \dots, k_j$ $k_r (i \leq r \leq j)$ $k_r$ $k_i, \dots, k_{r-1}$ $d_{i-1}, \dots, d_{r-1}$ $k_{r+1}, \dots, k_j$ $d_r, \dots, d_j$ $k_r$ $i \leq r \leq j$ $k_i, \dots, k_{r-1}$ $k_{r+1}, \dots, k_j$ 를 포함하는 모든 binary search trees를 결정하는 한, 우리는 optimal binary search tree를 찾을 것이 보장되어진다.

$k_i, \dots, k_j$ $k_i$ $k_i$ $k_i, \dots, k_{i-1}$ $k_i, \dots, k_{i-1}$ $d_{i-1}$ $k_j$ $k_j$ $k_{j+1}, \dots, k_j$ $d_j$ 를 포함한다.

Step 2: A recursive solution

$i \geq 1, j \leq n, \text{ and } j \geq i - 1$ $j = i - 1$ $d_{i-1}$ $k_i, \dots, k_j$ $k_i, \dots, k_j$ $e[i,j]$ $e[1,n]$ 을 연산하고 싶다.

$j = i - 1$ $d_{i-1}$ $e[i, i - 1] = q_{i -1}$ 이다.

$j \geq i$ $k_i, \dots, k_{r-1}$ $k_{r+1}, \dots, k_j$ $k_i, \dots, k_j$ 를 가진 한 subtree에 대해, 우리가 이 probabilities의 합을 다음으로 표기하도록 하자

w(i,j) = \sum^j_{l = i} p_l + \sum^j_{l = i - 1} q_l. \;\;\;\;\;\;\;\;\;\; (15.12)

$k_r$ $k_i, \dots, k_j$ 를 포함하는 한 optimal subtree의 root라고 한다면, 우리는 다음을 가진다

e[i,j] = p_r + (e[i, r-1] + w(i, r-1)) + (e[r+1, j] + w(r+1, j)).

다음을 주목하여

w(i,j) = w(i, r - 1) + p_r + w(r+1, j),

$e[i,j]$ 를 다시 다음으로 재작성한다

e[i,j] = e[i, r-1] + e[r + 1, j] + w(i, j). \;\;\;\;\;\; (15.13)

$k_r$ 를 사용할지를 안다고 가정한다. 우리는 가장 낮은 expected search cost를 주는 root를 선택하고, 이것은 우리에게 최종 recursive formulation을 준다:

e[i,j] = \bigg\{ \begin{split} & q_{i-1} \text{ if $j = i - 1$, } \\ & min_{i \leq r \leq j} \{e[i, r-1] + e[r + 1, j] + w(i, j) \} \text{ if $i \leq j$.} \end{split} \\ (15.14)

$e[i,j]$ $1 \leq i \leq j \leq n$ $root[i,j]$ $k_i, \dots, k_j$ $k_r$ $r$ $root[i,j]$ 의 값을 연산하는 방법을 볼지라도, 우리는 이러한 값들로부터 optimal binary search tree를 구성하는 것을 Exercise 15.5-1로 남겨둔다.

Step 3: Computing the expected search cost of an optimal binary search tree

$e[1..n+1, 0..n]$ $e[i,j]$ $d_n$ $e[n+1,n]$ $d_0$ $e[1,0]$ $j \geq i - 1$ $e[i,j]$ $root[i,j]$ $k_i, \dots , k_j$ $1 \leq i \leq j \leq n$ 을 위한 entries만을 사용한다.

$e[i,j]$ $w(i,j)$ $\Theta(j - i)$ $w[1..n + 1, 0..n]$ $1 \leq i \leq n + 1$ $w[i, i - 1] = q_{i-1}$ $j \geq i$ 에 대해, 우리는 다음을 연산한다

w[i,j] = w[i, j - 1] + p_j + q_j. \;\;\;\;\; (15.15)

$\Theta(1) time$ $w[i,j]$ $\Theta(n^2)$ 개의 values를 각각 연산할 수 있다.

$p_1, \dots, p_n$ $q_0, \dots, q_n$ $e$ 와 root를 반환한다.


xxxxxxxxxx
OPTIMAL-BST(p,q,n)
1   let e[1..n+1, 0..n], w[1..n + 1, 0..n],
            and root[1..n, 1..n] be new tables
2   for i = 1 to n + 1
3       e[i, i - 1] = q_{i-1}
4       w[i, i - 1] = q_{i-1}
5   for l = 1 to n
6       for i = 1 to n - l + 1
7           j = i + l - 1
8           e[i, j] = \infty
9           w[i, j] = w[i, j - 1] + p_j + q_j
10          for r = i to j
11              t = e[i, r - 1] + e[r + 1, j] + w[i, j]
12              if t < e[i, j]
13                  e[i, j] = t;
14                  root[i , j] = r
15  return e and root

for $e[i, i- 1]$ $w[i, i - 1]$ for $1 \leq i \leq j \leq n$ $e[i,j]$ $w[i,j]$ $l = 1$ $e[i,i]$ $w[i,i]$ $i = 1, 2, \dots, n$ for $k_i, \dots, k_j$ $k_r$ $r$ for $root[i,j]$ 에 있는 index r의 현재 값을 저장한다.

$e[i,j], w[i,j], root[i,j]$ 를 보여준다. 그림 15.5의 matrix-chain multiplication example에서 처럼, 그 테이블은 대각선이 수평하게 되도록 만들기 위해 회전된다. OPTIMAL-BST는 bottom에서 top으로 왼쪽에서 오른쪽으로 각 row내에서 rows를 연산한다.

$\Theta(n^3)$ $O(n^3)$ for $\Omega(n^3)$ time이 걸린다.

1 우리는 weigthed edges를 가진 shortest paths를 찾는 것과 이 문제를 구분하기 위해 "unweighted"라는 용어를 사용한다. 그 weighted edges를 가진 문제는 Chapters 24와 25에서 볼 것이다. 우리는 그 unweightd problem을 해결하기 위해 Chapter 22의 breadth-first search technique를 사용할 수 있다. ↩

2 dynamic programming이 subproblems이 independent하면서 overlapping하는 것에 의존하는 것은 이상한 것처럼 보일지도 모른다. 비록 이러한 요구사항이 모순되게 들릴지라도, 그것들은 같은 측면에서의 두 가지 요점이 아니라, 두 개의 다른 개념들을 설명한다. 같은 문제에 대한 두 개의 subproblems은 만약 그것들이 resources를 공유하지 않는다면 독립적이다. 두 개의 subprlbmes이 다른 문제의 subproblem으로서 발생하는 같은 subproblem이라면 overlapping한다. ↩

3 이 접근법은 모든 가능한 subproblem parameters의 집합을 알고 있고, 우리가 table positions과 subproblems사이의 관계를 구성했다고 미리 가정한다. 또 다른, 좀 더 일반적인, 접근법은 subproblem parameters를 keys로서 hashing하는 것을 사용하여 memoize하는 것이다. ↩

chan blog

Post Lists

2020년 10월 25일 일요일

15 Dynamic Programming

15 Dynamic Programming

15.1 Rod Cutting

15.2 Matrix-chain multiplication

Couting the number of parenthesizations

15.3 Elements of dynamic programming

Optimal substructure

Overlapping subproblems

Reconstructing an optimal solution

Memoization

15.4 Longest common subsequence

Step 1 : Characterizing a longest common subsequence

Theorem 15.1 (Optimal substructure of an LCS)

Step 2: A recursive solution

Step 3 : Computing the length of an LCS

Step 4 : Constructing an LCS

Improving the code

15.5 Optimal binary search trees

Step 1 : The structure of an optimal binary search tree

Step 2: A recursive solution

Step 3: Computing the expected search cost of an optimal binary search tree

댓글 없음:

댓글 쓰기