Projection (linear algebra)

선형 대수(linear algebra)와 함수형 해석학(functional analysis)에서, 투영(projection)은 $P\circ P=P$ 를 만족하는 벡터 공간(vector space)에서 자체로의 선형 변환(linear transformation) $P$ (자기 사상(endomorphism))입니다. 즉, $P$ 가 임의의 벡터에 두 번 적용될 때마다, 한 번 적용된 것과 같은 결과를 제공합니다 (즉, $P$ 는 거듭상등(idempotent)입니다). 그것은 그 이미지(image)를 변경되지 않게 남겨둡니다.^[1] "투영"의 이러한 정의는 그래픽 투영(graphical projection)의 아이디어를 공식화하고 일반화합니다. 우리는 역시 대상에서 점(point) 위에 투영의 효과를 조사함으로써 기하학적 대상 위에 투영의 효과를 고려할 수 있습니다.

Definitions

벡터 공간 $V$ 위에 투영은 $P^{2}=P$ 를 만족하는 선형 연산자 $P:V\to V$ 입니다.

$V$ 가 안의 곱(inner product)을 가지고 완비일 때 (즉, $V$ 가 힐베르트 공간일 때), 직교성(orthogonality)의 개념은 사용될 수 있습니다. 힐베르트 공간 $V$ 위의 투영 $P$ 는 만약 그것이 모든 $\mathbf {x} ,\mathbf {y} \in V$ 에 대해 $\langle P\mathbf {x} ,\mathbf {y} \rangle =\langle \mathbf {x} ,P\mathbf {y} \rangle$ 를 만족시키면 직교 투영(orthogonal projection)이라고 불립니다. 직교가 아닌 힐베르트 공간 위에 투영은 경사 투영(oblique projection)이라고 불립니다.

Projection matrix

유한-차원(finite-dimensional) 경우에서, 정사각 행렬(square matrix) $P$ 가 만약 그것이 제곱과 같으면, $P^{2}=P$ 이면 투영 행렬(projection matrix)이라고 불립니다.^[2]^{: p. 38}
정사각 행렬 $P$ 는 만약 실수 행렬에 대해 $P^{2}=P=P^{\mathrm {T} }$ 이고, 복소수 행렬에 대해 각각 $P^{2}=P=P^{*}$ 이면 직교 투영 행렬이라고 불리며, 여기서 $P^{\mathrm {T} }$ 는 $P$ 의 전치를 나타내고 $P^{*}$ 는 $P$ 의 인접(adjoint) 또는 에르미트 전치(Hermitian transpose)를 나타냅니다.^[2]^{: p. 223}
직교 투영 행렬이 아닌 투영 행렬은 경사 투영 행렬(oblique projection matrix)이라고 불립니다.

투영 행렬의 고윳값(eigenvalues)은 0 또는 1이어야 합니다.

Examples

Orthogonal projection

예를 들어, 삼-차원 공간 $\mathbb {R} ^{3}$ 에서 점 $(x,y,z)$ 를 점 $(x,y,0)$ 에 매핑하는 함수는 xy-평면 위로의 직교 투영입니다. 이 함수는 행렬에 의해 표현됩니다: $P={\begin{bmatrix}1&0&0\\0&1&0\\0&0&0\end{bmatrix}}.$

임의적인 벡터(vector) 위에 이 행렬의 동작은 다음과 같습니다: $P{\begin{bmatrix}x\\y\\z\end{bmatrix}}={\begin{bmatrix}x\\y\\0\end{bmatrix}}.$

$P$ 가 실제로 투영임, 즉, $P=P^{2}$ 를 확인하기 위해, 다음을 계산합니다: $P^{2}{\begin{bmatrix}x\\y\\z\end{bmatrix}}=P{\begin{bmatrix}x\\y\\0\end{bmatrix}}={\begin{bmatrix}x\\y\\0\end{bmatrix}}=P{\begin{bmatrix}x\\y\\z\end{bmatrix}}.$

$P^{\mathrm {T} }=P$ 임을 관찰하면 투영이 직교 투영임을 알 수 있습니다.

Oblique projection

비-직교 (경사) 투영의 간단한 예제는 다음과 같습니다: $P={\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}.$

행렬 곱셈(matrix multiplication)을 통해, 다음임을 압니다: $P^{2}={\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}{\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}={\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}=P.$ 이는 $P$ 가 실제로 투영임을 보여줍니다.

투영 $P$ 는 직교인 것과 $\alpha =0$ 인 것은 필요충분 조건인데 왜냐하면 오직 $P^{\mathrm {T} }=P$ 이기 때문입니다.

Properties and classification

Idempotence

정의에 의해, 투영 $P$ 는 거듭상등 (즉, $P^{2}=P$ )입니다.

Open map

모든 각 투영은 열린 맵(open map)이며, 그것은 도메인(domain)에서 각 열린 집합(open set)을 이미지(image)의 부분공간 토폴로지(subspace topology)에서 열린 집합으로 매핑함을 의미합니다. 즉, 임의의 벡터 $\mathbf {x}$ 와 $\mathbf {x}$ 를 중심으로 하는 임의의 공 $B_{\mathbf {x} }$ (양의 반지름을 가짐)에 대해, 이미지 $P(B_{\mathbf {x} })$ 에 전적으로 포함되는 $P\mathbf {x}$ 를 중심으로 하는 공 $B_{P\mathbf {x} }$ (양의 반지름을 가짐)가 존재합니다.

Complementarity of image and kernel

$W$ 를 유한-차원 벡터 공간이라고 놓고 $P$ 를 $W$ 위에 투영이라고 놓습니다. 부분공간(subspaces) $U$ 와 $V$ 가 각각 $P$ 의 이미지(image)와 커널(kernel)이라고 가정합니다. 그런-다음 $P$ 는 다음 속성을 가집니다:

$P$ 는 $U$ 위에 항등 연산자(identity operator) $I$ 입니다: $\forall \mathbf {x} \in U:P\mathbf {x} =\mathbf {x} .$
우리는 직접 합(direct sum) $W=U\oplus V$ 을 가집니다. 모든 각 벡터 $\mathbf {x} \in W$ 는 $\mathbf {u} =P\mathbf {x}$ 와 $\mathbf {v} =\mathbf {x} -P\mathbf {x} =\left(I-P\right)\mathbf {x}$ 를 갖고, $\mathbf {u} \in U,\mathbf {v} \in V$ 인 $\mathbf {x} =\mathbf {u} +\mathbf {v}$ 로 고유하게 분해될 수 있습니다.

투영의 이미지와 커널은 $P$ 와 $Q=I-P$ 와 같이 보완적(complementary)입니다. 연산자 $Q$ 는 역시 $P$ 의 이미지와 커널이 $Q$ 의 커널과 이미지가 되기 때문에 투영이고 그 반대도 마찬가지입니다. 우리는 $P$ 는 $V$ 를 따라 $U$ (커널/이미지) 위로의 투영이고 $Q$ 는 $U$ 를 따라 $V$ 위로의 투영이라고 말합니다.

Spectrum

무한-차원 벡터 공간에서, 투영의 스펙트럼(spectrum)은 $\{0,1\}$ 에 다음과 같이 포함됩니다: $(\lambda I-P)^{-1}={\frac {1}{\lambda }}I+{\frac {1}{\lambda (\lambda -1)}}P.$ 0 또는 1만이 투영의 고윳값(eigenvalue)이 될 수 있습니다. 이것은 직교 투영 $P$ 가 항상 양의 반-한정 행렬임을 의미합니다. 일반적으로, 해당하는 고유-공간(eigenspaces)은 (각각) 투영의 커널과 치역입니다. 벡터 공간을 직접 합으로 분해하는 것은 고유하지 않습니다. 그러므로, 부분공간 $V$ 가 주어지면, 그것의 치역 (또는 커널)가 $V$ 인 많은 투영이 있을 수 있습니다.

만약 투영이 자명하지 않으면, 최소 다항식(minimal polynomial) $x^{2}-x=x(x-1)$ 을 가지며, 이는 구별되는 선형 인수로 인수화되고, 따라서 $P$ 는 대각화-가능(diagonalizable)입니다.

Product of projections

투영의 곱은 심지어 그것들이 직교하더라도 일반적으로 투영이 아닙니다. 만약 두 개의 투영이 교환하면 그것들의 곱은 투영이지만, 그 전환(converse)은 거짓입니다: 두 개의 비-교환하는 투영의 곱은 투영일 수 있습니다.

만약 두 개의 직교 투영이 교환하면 그것들의 곱은 직교 투영입니다. 만약 두 개의 직교 투영의 곱이 직교 투영이면, 두 개의 직교 투영은 교환합니다 (보다 일반적으로: 두 개의 자기-인접 자기사상(endomorphisms)이 교환하는 것과 그것들의 곱이 자기-인접인 것은 필요충분 조건입니다).

Orthogonal projections

벡터 공간 $W$ 가 안의 곱(inner product)을 가지고 완비일 때 (힐베르트 공간일 때), 직교성(orthogonality)의 개념이 사용될 수 있습니다. 직교 투영(orthogonal projection)은 치역 $U$ 와 널 공간 $V$ 가 직교 부분공간(orthogonal subspaces)인 투영입니다. 따라서, $W$ 에서 모든 각 $\mathbf {x}$ 와 $\mathbf {y}$ 에 대해, $\langle P\mathbf {x} ,(\mathbf {y} -P\mathbf {y} )\rangle =\langle (\mathbf {x} -P\mathbf {x} ),P\mathbf {y} \rangle =0$ 입니다. 동등하게: $\langle \mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,\mathbf {y} \rangle .$

투영이 직교인 것과 그것이 자기-인접(self-adjoint)인 것은 필요충분 조건입니다. $P$ 의 자기-인접 및 자기상등 속성을 사용하여, $W$ 에서 임의의 $\mathbf {x}$ 와 $\mathbf {y}$ 에 대해, $\mathbf {y} -P\mathbf {y} \in V$ 을 가지고, 다음입니다: $\langle P\mathbf {x} ,\mathbf {y} -P\mathbf {y} \rangle =\langle \mathbf {x} ,\left(P-P^{2}\right)\mathbf {y} \rangle =0$ 여기서 $\langle \cdot ,\cdot \rangle$ 는 $W$ 와 결합된 안의 곱입니다. 그러므로, $P$ 와 $I-P$ 는 직교 투영입니다.^[3] 다른 방향, 즉 $P$ 가 직교이면 그것이 자기-인접이라는 의미는 $W$ 에서 모든 각 $x$ 와 $y$ 에 대해 $\langle (\mathbf {x} -P\mathbf {x} ),P\mathbf {y} \rangle =\langle P\mathbf {x} ,(\mathbf {y} -P\mathbf {y} )\rangle =0$ 에서 다음으로의 의미를 따릅니다: $\langle \mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,\mathbf {y} \rangle =\langle \mathbf {x} ,P^{*}\mathbf {y} \rangle$ 따라서 $P=P^{*}$ .

Proof of existence

$H$ 를 안의 곱을 갖는 완비 메트릭 공간이라고 놓고 $U$ 를 $H$ 의 닫힌 선형 부분공간 (및 따라서 마찬가지로 완비)이라고 놓습니다.

모든 각 $\mathbf {x}$ 에 대해, 비-음의 노름-값의 다음 집합 $\{\|\mathbf {x} -\mathbf {u} \|:\mathbf {u} \in U\}$ 은 하한을 가지고, $U$ 의 완비성으로 인해 그것이 최솟값입니다. 우리는 $P\mathbf {x}$ 를 $U$ 에서 그 점으로 정의하며 여기서 이 최솟값이 얻습니다.

분명하게 $P\mathbf {x}$ 는 $U$ 안에 있습니다. 이제 $P\mathbf {x}$ 가 $\langle \mathbf {x} -P\mathbf {x} ,P\mathbf {x} \rangle =0$ 를 만족시키고 그것이 선형임을 보이는 것이 남았습니다.

$\mathbf {a} =\mathbf {x} -P\mathbf {x}$ 라고 가정해 보십시오. $U$ 에서 모든 각 비-영 $\mathbf {v}$ 에 대해, 다음이 유지됩니다: $\left\|\mathbf {a} -{\frac {\langle \mathbf {a} ,\mathbf {v} \rangle }{\|\mathbf {v} \|^{2}}}\mathbf {v} \right\|^{2}=\|\mathbf {a} \|^{2}-{\frac {{\langle \mathbf {a} ,\mathbf {v} \rangle }^{2}}{\|\mathbf {v} \|^{2}}}$ $\mathbf {w} =P\mathbf {x} +{\frac {\langle \mathbf {a} ,\mathbf {v} \rangle }{\|\mathbf {v} \|^{2}}}\mathbf {v}$ 를 정의함으로써 $\langle \mathbf {a} ,\mathbf {v} \rangle$ 가 사라지지 않은 한 $\|\mathbf {x} -\mathbf {w} \|<\|\mathbf {x} -P\mathbf {x} \|$ 임을 압니다. $P\mathbf {x}$ 가 앞서 언급된 집합의 최솟값으로 선택되었기 때문에, $\langle \mathbf {a} ,\mathbf {v} \rangle$ 는 실제로 사라진다는 것이 따라옵니다. 특히, ( $\mathbf {y} =P\mathbf {x}$ 에 대해): $\langle \mathbf {x} -P\mathbf {x} ,P\mathbf {x} \rangle =0$ .

선형성은 모든 각 $\mathbf {v} \in U$ 에 대해 $\langle \mathbf {x} -P\mathbf {x} ,\mathbf {v} \rangle$ 의 사라짐에서 따라옵니다: $\langle \left(\mathbf {x} +\mathbf {y} \right)-P\left(\mathbf {x} +\mathbf {y} \right),\mathbf {v} \rangle =0$ $\langle \left(\mathbf {x} -P\mathbf {x} \right)+\left(\mathbf {y} -P\mathbf {y} \right),\mathbf {v} \rangle =0$ 두 방정식 사이의 차이를 취함으로써, 다음을 가집니다: $\langle P\mathbf {x} +P\mathbf {y} -P\left(\mathbf {x} +\mathbf {y} \right),\mathbf {v} \rangle =0$ 그러나 $\mathbf {v} =P\mathbf {x} +P\mathbf {y} -P(\mathbf {x} +\mathbf {y} )$ 를 선택할 수 있기 때문에 ( $U$ 안에 있는 자체로), $P\mathbf {x} +P\mathbf {y} =P(\mathbf {x} +\mathbf {y} )$ 임이 따라옵니다. 유사하게 모든 각 스칼라 $\lambda$ 에 대해 $\lambda P\mathbf {x} =P(\lambda \mathbf {x} )$ 을 가집니다.

Properties and special cases

직교 투영은 경계진 연산자(bounded operator)입니다. 이는 코시–슈바르츠 부등식(Cauchy–Schwarz inequality)에 의해 벡터 공간에서 모든 각 $\mathbf {v}$ 에 대해 다음과 같기 때문입니다: $\left\|P\mathbf {v} \right\|^{2}=\langle P\mathbf {v} ,P\mathbf {v} \rangle =\langle P\mathbf {v} ,\mathbf {v} \rangle \leq \left\|P\mathbf {v} \right\|\cdot \left\|\mathbf {v} \right\|$ 따라서 $\left\|P\mathbf {v} \right\|\leq \left\|\mathbf {v} \right\|$ .

유한-차원 복소수 또는 실수 벡터 공간에 대해, 표준 안의 곱(standard inner product)이 $\langle \cdot ,\cdot \rangle$ 로 대체될 수 있습니다.

Formulas

직교 투영이 직선 위에 있을 때 간단한 경우가 발생합니다. 만약 $\mathbf {u}$ 가 직선 위에 단위 벡터(unit vector)이면, 그 투영은 밖의 곱(outer product)에 의해 제공됩니다: $P_{\mathbf {u} }=\mathbf {u} \mathbf {u} ^{\mathsf {T}}.$ (만약 $\mathbf {u}$ 가 복소-값이면, 위 방정식에서 전치가 에르미트 전치로 대체됩니다.) 이 연산자는 u를 불변으로 남기고, $\mathbf {u}$ 에 직교하는 모든 벡터를 소멸시켜, 그것이 실제로 $\mathbf {u}$ 를 포함하는 직선 위로의 직교 투영임을 입증합니다.^[4] 이것을 보는 간단한 방법은 임의적인 벡터 $\mathbf {x}$ 를 직선의 성분 (즉, 우리가 찾는 투영된 벡터)과 그것에 수직인 또 다른 벡터의 합, $\mathbf {x} =\mathbf {x} _{\parallel }+\mathbf {x} _{\perp }$ 으로 고려하는 것입니다. 투영을 적용하면, 평행 벡터와 수직 벡터의 점 곱(dot product)의 속성에 의해 다음을 얻습니다: $P_{\mathbf {u} }\mathbf {x} =\mathbf {u} \mathbf {u} ^{\mathsf {T}}\mathbf {x} _{\parallel }+\mathbf {u} \mathbf {u} ^{\mathsf {T}}\mathbf {x} _{\perp }=\mathbf {u} \left(\operatorname {sgn} \left(\mathbf {u} ^{\mathsf {T}}\mathbf {x} _{\parallel }\right)\left\|\mathbf {x} _{\parallel }\right\|\right)+\mathbf {u} \cdot \mathbf {0} =\mathbf {x} _{\parallel }$ 이 공식은 임의적인 차원(dimension)의 부분공간에 대한 직교 투영으로 일반화될 수 있습니다. $\mathbf {u} _{1},\ldots ,\mathbf {u} _{k}$ 를 정수 $k\geq 1$ 이라는 가정과 함께 부분공간 $U$ 의 직교-정규 기저(orthonormal basis)라고 놓고, $A$ 는 열이 $\mathbf {u} _{1},\ldots ,\mathbf {u} _{k}$ 인 $n\times k$ 행렬, 즉, $A={\begin{bmatrix}\mathbf {u} _{1}&\cdots &\mathbf {u} _{k}\end{bmatrix}}$ 를 나타낸다고 놓습니다. 그런-다음 투영은 다음에 의해 제공됩니다:^[5] $P_{A}=AA^{\mathsf {T}}$ 이는 다음으로 다시 쓸 수 있습니다: $P_{A}=\sum _{i}\langle \mathbf {u} _{i},\cdot \rangle \mathbf {u} _{i}.$

행렬 $A^{\mathsf {T}}$ 는 $U$ 의 직교 여(orthogonal complement)에서 사라지는 부분 등거리-변환(partial isometry)이고 $A$ 는 $U$ 를 놓여있는 벡터 공간에 삽입하는 등거리변환입니다. $P_{A}$ 의 치역은 따라서 $A$ 의 마지막 공간(final space)입니다. $AA^{\mathsf {T}}$ 가 $U$ 위의 항등 연산자인 것도 분명합니다.

직교-정규성 조건도 버려질 수 있습니다. 만약 $\mathbf {u} _{1},\ldots ,\mathbf {u} _{k}$ 가 $k\geq 1$ 를 갖는 (반드시 정규직교는 아닌) 기저(basis)이고, $A$ 가 이들 벡터를 열로 갖는 행렬이면, 그 투영은 다음과 같습니다:^[6]^[7] $P_{A}=A\left(A^{\mathsf {T}}A\right)^{-1}A^{\mathsf {T}}.$ 행렬 $A$ 는 여전히 $U$ 를 놓여있는 벡터 공간에 삽입하지만 일반적으로 더 이상 등거리-변환이 아닙니다. 행렬 $\left(A^{\mathsf {T}}A\right)^{-1}$ 은 노름을 회복시키는 "정규화 인수"입니다. 예를 들어, 랭크-1 연산자 $\mathbf {u} \mathbf {u} ^{\mathsf {T}}$ 는 $\left\|\mathbf {u} \right\|\neq 1$ 이면 투영이 아닙니다. $\mathbf {u} ^{\mathsf {T}}\mathbf {u} =\left\|\mathbf {u} \right\|^{2}$ 에 의해 나눈 후, $u$ 에 의해 스팬된 부분공간 위로의 투영 $\mathbf {u} \left(\mathbf {u} ^{\mathsf {T}}\mathbf {u} \right)^{-1}\mathbf {u} ^{\mathsf {T}}$ 를 얻습니다.

일반적인 경우에서, 안의 곱 $\langle x,y\rangle _{D}=y^{\dagger }Dx$ 를 정의하는 임의적인 양의 한정(positive definite) 행렬 $D$ 를 가질 수 있고, 투영 $P_{A}$ 는 ${\textstyle P_{A}x=\operatorname {argmin} _{y\in \operatorname {range} (A)}\left\|x-y\right\|_{D}^{2}}$ 에 의해 지정됩니다. 그런-다음 $P_{A}=A\left(A^{\mathsf {T}}DA\right)^{-1}A^{\mathsf {T}}D.$

투영의 치역 공간이 프레임(frame)에 의해 생성될 때 (즉, 생성기의 숫자가 그것의 차원보다 클 때), 투영에 대한 공식은 형식: $P_{A}=AA^{+}$ 을 취합니다. 여기서 $A^{+}$ 는 무어-펜로즈 유사역행렬(Moore–Penrose pseudoinverse)을 나타냅니다. 이것은 투영 연산자를 구성하기 위한 여러 방법 중 하나일 뿐입니다.

만약 ${\begin{bmatrix}A&B\end{bmatrix}}$ 가 비-특이 행렬이고 $A^{\mathsf {T}}B=0$ 이면 (즉, $B$ 가 $A$ 의 널 공간(null space) 행렬이면),^[8] 다음이 유지됩니다: ${\begin{aligned}I&={\begin{bmatrix}A&B\end{bmatrix}}{\begin{bmatrix}A&B\end{bmatrix}}^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}\\&={\begin{bmatrix}A&B\end{bmatrix}}\left({\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}{\begin{bmatrix}A&B\end{bmatrix}}\right)^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}\\&={\begin{bmatrix}A&B\end{bmatrix}}{\begin{bmatrix}A^{\mathsf {T}}A&O\\O&B^{\mathsf {T}}B\end{bmatrix}}^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}\\[4pt]&=A\left(A^{\mathsf {T}}A\right)^{-1}A^{\mathsf {T}}+B\left(B^{\mathsf {T}}B\right)^{-1}B^{\mathsf {T}}\end{aligned}}$

만약 직교 조건이 $W$ 비-특이를 갖는 $A^{\mathsf {T}}WB=A^{\mathsf {T}}W^{\mathsf {T}}B=0$ 로 향상되면, 다음이 유지됩니다: $I={\begin{bmatrix}A&B\end{bmatrix}}{\begin{bmatrix}\left(A^{\mathsf {T}}WA\right)^{-1}A^{\mathsf {T}}\\\left(B^{\mathsf {T}}WB\right)^{-1}B^{\mathsf {T}}\end{bmatrix}}W.$

모든 이들 공식은 켤레 전치(conjugate transpose)가 전치 대신 사용된다는 조건으로 해서 복소 안의 곱 공간에도 유지됩니다. 투영기의 합에 대한 자세한 내용은 Banerjee and Roy (2014)에서 확인할 수 있습니다.^[9] 역시 기본 구형 삼각법(spherical trigonometry)에서 투영기의 합의 적용에 대해 Banerjee (2004)^[10]를 참조하십시오.

Oblique projections

용어 경사 투영(oblique projections)은 때때로 비-직교 투영을 나타내기 위해 사용됩니다. 이들 투영은 직각 투영만큼 자주는 아니지만 2-차원 도면에서 공간 그림을 나타내는 데에도 사용됩니다 (경사 투영 참조). 보통의 최소 제곱 회귀의 피팅된 값을 계산하려면 직교 투영이 필요한 반면 도구 변수 회귀의 피팅된 값을 계산하려면 경사 투영이 필요합니다.

투영은 그것들의 널 공간과 그것들의 치역을 특성화하기 위해 사용되는 기저 벡터 (이는 널 공간의 여)에 의해 정의됩니다. 이들 기저 벡터가 널 공간에 직교하면 투영은 직교 투영입니다. 이들 기저 벡터가 널 공간에 직교하지 않으면 투영은 경사 투영이거나, 단지 일반적인 투영입니다.

A matrix representation formula for a nonzero projection operator

$P$ 를 $P^{2}=P$ 를 만족하는 선형 연산자 $P:V\to V$ 라고 놓고 $P:V\to V$ 가 영 연산자가 아니라고 가정합니다. 벡터 $\mathbf {u} _{1},\ldots ,\mathbf {u} _{k}$ 가 투영의 치역에 대한 기저를 형성하고 이들 벡터를 $n\times k$ 행렬 $A$ 로 조립합니다. 따라서 정수 $k\geq 1$ 이고, 그렇지 않으면 $k=0$ 이고 $P$ 는 영 연산자입니다. 치역과 널 공간은 보완적 공간이므로, 널 공간은 차원 $n-k$ 를 가집니다. 따라서 널 공간의 직교 여(orthogonal complement)는 차원 $k$ 를 가집니다. $\mathbf {v} _{1},\ldots ,\mathbf {v} _{k}$ 가 투영의 널 공간의 직교 여에 대한 기저를 형성하고, 행렬 $B$ 에서 이들 벡터를 조립한다고 가정합니다. 그런-다음 투영 $P$ (조건 $k\geq 1$ 를 가짐)는 다음에 의해 제공됩니다: $P=A\left(B^{\mathsf {T}}A\right)^{-1}B^{\mathsf {T}}.$

이 표현은 위에 주어진 직교 투영에 대한 공식을 일반화합니다.^[11]^[12] 이 표현의 표준 증명은 다음과 같습니다. 벡터 공간 $V$ 에서 임의의 벡터 $\mathbf {x}$ 에 대해, $\mathbf {x} =\mathbf {x} _{1}+\mathbf {x} _{2}$ 를 분해할 수 있으며, 여기서 벡터 $\mathbf {x} _{1}=P(\mathbf {x} )$ 는 $P$ 의 이미지에 있고, 벡터 $\mathbf {x} _{2}=\mathbf {x} -P(\mathbf {x} )$ 입니다. 따라서 $P(\mathbf {x} _{2})=P(\mathbf {x} )-P^{2}(\mathbf {x} )=\mathbf {0}$ 이고, 그런-다음 $\mathbf {x} _{2}$ 는 $P$ 의 널 공간에 있습니다. 다시 말해서, 벡터 $\mathbf {x} _{1}$ 은 $\mathbf {x} _{1}$ 의 열 공간에 있으므로, 일부 $k$ 차원 벡터 $\mathbf {w}$ 에 대해 $\mathbf {x} _{1}=A\mathbf {w}$ 이고 벡터 $\mathbf {x} _{2}$ 는 $B$ 의 구성에 의해 $B^{\mathsf {T}}\mathbf {x} _{2}=\mathbf {0}$ 를 만족시킵니다. 이들 조건을 넣고, $B^{\mathsf {T}}\mathbf {x} _{2}=\mathbf {0}$ 가 되도록 벡터 $\mathbf {w}$ 를 찾습니다. 행렬 $A$ 와 $B$ 는 그것들의 구조에 의해 전체 랭크 $k$ 이므로, $k\times k$ -행렬 $B^{\mathsf {T}}A$ 는 역-가능입니다. 따라서 방정식 $B^{\mathsf {T}}(\mathbf {x} -A\mathbf {w} )=\mathbf {0}$ 은 벡터 $\mathbf {w} =(B^{\mathsf {T}}A)^{-1}B^{\mathsf {T}}\mathbf {x}$ 를 제공합니다. 이러한 방법으로, 임의의 벡터 $\mathbf {x} \in V$ 에 대해 $P\mathbf {x} =\mathbf {x} _{1}=A\mathbf {w} =A(B^{\mathsf {T}}A)^{-1}B^{\mathsf {T}}\mathbf {x}$ 이고 따라서 $P\mathbf {x} =\mathbf {x} _{1}=A\mathbf {w} =A(B^{\mathsf {T}}A)^{-1}B^{\mathsf {T}}\mathbf {x}$ 입니다.

$P$ 가 직교 투영인 경우에서, $A=B$ 를 취할 수 있고, $P=A\left(A^{\mathsf {T}}A\right)^{-1}A^{\mathsf {T}}$ 임이 따라옵니다. 이 공식을 사용함으로써, $P=P^{\mathsf {T}}$ 임을 쉽게 확인할 수 있습니다. 일반적으로, 만약 벡터 공간이 복소수 필드에 걸쳐 있으면, 에르미트 전치(Hermitian transpose) $A^{*}$ 를 사용하고 공식 $P=A\left(A^{*}A\right)^{-1}A^{*}$ 를 가집니다. 행렬 $A$ 의 무어-펜로즈 역(Moore–Penrose inverse)을 $A^{+}=(A^{*}A)^{-1}A^{*}$ 로 정의할 수 있음을 상기하는데 왜냐하면 $A$ 는 전체 열 랭크를 가지므로 $P=AA^{+}$ 입니다.

Singular values

$I-P$ 도 경사 투영임을 주목하십시오. $P$ 와 $I-P$ 의 특이 값은 $A$ 의 직교-정규 기저(orthonormal basis)에 의해 계산될 수 있습니다. $Q_{A}$ 를 $A$ 의 직교-정규 기저라고 놓고 $A$ 를 $Q_{A}$ 의 직교 여(orthogonal complement)라고 놓습니다. 양의 값 $\gamma _{1}\geq \gamma _{2}\geq \ldots \geq \gamma _{k}$ 에 의해 행렬 $Q_{A}^{T}A(B^{T}A)^{-1}B^{T}Q_{A}^{\perp }$ 의 특이 값을 나타냅니다. 이와 함께, $P$ 에 대한 특이 값은 다음과 같습니다:^[13] $\sigma _{i}={\begin{cases}{\sqrt {1+\gamma _{i}^{2}}}&1\leq i\leq k\\0&{\text{otherwise}}\end{cases}}$ 그리고 $I-P$ 에 대한 특이 값은 다음과 같습니다: $\sigma _{i}={\begin{cases}{\sqrt {1+\gamma _{i}^{2}}}&1\leq i\leq k\\1&k+1\leq i\leq n-k\\0&{\text{otherwise}}\end{cases}}$ 이것은 $P$ 와 $I-P$ 의 가장 큰 특이 값이 같고, 따라서 경사 투영의 행렬 노름(matrix norm)이 같음을 의미합니다. 어쨌든, 조건 숫자(condition number)는 관계 $\kappa (I-P)={\frac {\sigma _{1}}{1}}\geq {\frac {\sigma _{1}}{\sigma _{k}}}=\kappa (P)$ 를 만족시키고, 따라서 반드시 같지는 않습니다.

Finding projection with an inner product

$V$ 를 직교 벡터 $\mathbf {u} _{1},\mathbf {u} _{2},\dots ,\mathbf {u} _{p}$ 에 의해 스팬된 벡터 공간 (이 경우에서 평면)이라고 놓습니다. $y$ 를 벡터라고 놓습니다. $V$ 위로의 $\mathbf {y}$ 의 투영을 다음과 같이 정의할 수 있습니다: $\operatorname {proj} _{V}\mathbf {y} ={\frac {\mathbf {y} \cdot \mathbf {u} ^{i}}{\mathbf {u} ^{i}\cdot \mathbf {u} ^{i}}}\mathbf {u} ^{i}$ 여기서 반복되는 인덱스는 합산됩니다 (아인슈타인 합 표기법). 벡터 $\mathbf {y}$ 는 $\mathbf {y} =\operatorname {proj} _{V}\mathbf {y} +\mathbf {z}$ 임을 만족하는 직교 합으로 쓸 수 있습니다. $\operatorname {proj} _{V}\mathbf {y}$ 는 때때로 ${\hat {\mathbf {y} }}$ 로 표시됩니다. 선형 대수에서 이러한 $\mathbf {z}$ 가 $\mathbf {y}$ 에서 $V$ 로의 최소 거리 (직교 거리)라는 정리가 있고 공통적으로 기계 학습(machine learning)과 같은 영역에서 사용됩니다.

Canonical forms

필드(field)에 걸쳐 차원 $d$ 의 벡터 공간 위에 임의의 투영 $P=P^{2}$ 는 대각-가능 행렬(diagonalizable matrix)인데, 왜냐하면 최소 다항식(minimal polynomial)이 별개의 선형 인수로 분할되는 $x^{2}-x$ 를 나누기 때문입니다. 따라서, $P$ 가 다음 형식을 가지는 기저가 존재합니다:

P=I_{r}\oplus 0_{d-r}

여기서 $r$ 은 $P$ 의 랭크(rank)입니다. 여기서 $I_{r}$ 은 크기 $r$ 의 항등 행렬(identity matrix)이고, $0_{d-r}$ 은 크기 $d-r$ 의 영 행렬(zero matrix)이고, $\oplus$ 은 직접 합(direct sum) 연산자입니다. 만약 벡터 공간이 복소수이고 안의 곱(inner product)을 갖추고 있으면, $P$ 의 행렬이 다음과 같은 직교-정규 기저가 있습니다:^[14]

P={\begin{bmatrix}1&\sigma _{1}\\0&0\end{bmatrix}}\oplus \cdots \oplus {\begin{bmatrix}1&\sigma _{k}\\0&0\end{bmatrix}}\oplus I_{m}\oplus 0_{s}.

여기서 $\sigma _{1}\geq \sigma _{2}\geq \dots \geq \sigma _{k}>0$ 입니다. 정수(integers) $k,s,m$ 와 실수 $\sigma _{i}$ 는 고유하게 결정됩니다. $2k+s+m=d$ 임을 주목하십시오. 인수 $I_{m}\oplus 0_{s}$ 는 $P$ 가 ( $P$ 자체가 직교인 것과 $k=0$ 인 것이 필요충분 조건이 되도록) 직교 투영으로 작용하는 최대 불변 부분공간에 해당하고 $\sigma _{i}$ -블록은 경사 성분에 해당합니다.

Projections on normed vector spaces

놓여있는 벡터 공간 $X$ 가 (반드시 유한 차원은 아닌) 노름화된 벡터 공간일 때, 유한-차원 경우와 무관한 해석적 질문은 고려되어야 합니다. 이제 $X$ 는 바나흐 공간(Banach space)이라고 가정합니다.

위에서 논의된 많은 대수적 결과는 이 문맥으로 넘어가도 살아남습니다. $X$ 의 여적인 부분공간으로의 주어진 직접 합 분해는 여전히 투영을 지정하고, 그 반대도 마찬가지입니다. 만약 $X$ 가 직접 합 $X=U\oplus V$ 이면, $P(u+v)=u$ 에 의해 정의된 연산자는 여전히 치역 $U$ 와 커널 $V$ 를 갖는 투영입니다. 역시 $P^{2}=P$ 도 분명합니다. 반대로, 만약 $P$ 가 $X$ 위에 투영이면, 즉, $P^{2}=P$ 이면, $(1-P)^{2}=(1-P)$ 임을 쉽게 확인할 수 있습니다. 다시 말해서, $1-P$ 도 투영입니다. 관계 $P^{2}=P$ 는 $1=P+(1-P)$ 를 의미하고 $X$ 는 직접 합 $\operatorname {rg} (P)\oplus \operatorname {rg} (1-P)$ 입니다.

어쨌든, 유한-차원 경우와 달리, 투영은 일반적으로 연속(continuous)일 필요는 없습니다. 만약 $X$ 의 부분공간 $U$ 가 노름 토폴로지에서 닫혀 있지 않으면, $U$ 위로의 투영이 연속이지 않습니다. 다시 말해서, 연속 투영 $P$ 의 치역은 닫힌 부분공간이어야 합니다. 게다가, 연속 투영 (실제로는 일반적으로 연속 선형 연산자)의 커널은 닫혀 있습니다. 따라서 연속 투영 $P$ 는 $X$ 를 두 개의 여적인 닫힌 부분공간으로 분해를 제공합니다: $X=\operatorname {rg} (P)\oplus \ker(P)=\ker(1-P)\oplus \ker(P)$ .

그 전환은 추가 가정과 함께 유지됩니다. $U$ 가 $X$ 의 닫힌 부분공간이라고 가정합니다. 만약 X = U ⊕ V임을 만족하는 닫힌 부분공간 $V$ 가 존재하면, 치역 $U$ 와 커널 $V$ 를 갖는 투영 $P$ 는 연속적입니다. 이것은 닫힌 그래프 정리( closed graph theorem)에서 따릅니다. x_n → x과 Px_n → y라고 가정합니다. 우리는 $Px=y$ 임을 보여야 합니다. $U$ 가 닫혀 있고 {Px_n} ⊂ U이므로, y는 $U$ 안에 놓이며, 즉, Py = y입니다. 역시, x_n − Px_n = (I − P)x_n → x − y입니다. $V$ 가 닫혀 있고 {(I − P)x_n} ⊂ V이기 때문에, $x-y\in V$ , 즉, $P(x-y)=Px-Py=Px-y=0$ 를 가지며, 이는 주장을 입증합니다.

위의 논증은 $U$ 와 $V$ 가 모두 닫혀 있다는 가정을 사용합니다. 일반적으로, 닫힌 부분공간 $U$ 가 주어지면, 여적인 닫힌 부분공간 $V$ 가 존재할 필요가 없지만, 힐베르트 공간(Hilbert spaces)에 대해 이것은 항상 직교 여(orthogonal complement)를 취함으로써 수행될 수 있습니다. 바나흐 공간에 대해, 일-차원 부분공간은 항상 닫힌 여적인 부분공간을 가집니다. 이것은 한–바나흐 정리(Hahn–Banach theorem)의 즉각적인 결과입니다. $U$ 를 $u$ 의 선형 스팬이라고 놓습니다. 한-바나흐에 의해, φ(u) = 1임을 만족하는 경계진 선형 함수형(linear functional) $\varphi$ 가 존재합니다. 연산자 $P(x)=\varphi (x)u$ 는 $P^{2}=P$ 를 만족시키며, 즉, 그것은 투영입니다. $\varphi$ 의 경계성은 $P$ 의 연속성을 의미하고 따라서 $\ker(P)=\operatorname {rg} (I-P)$ 는 $U$ 의 닫힌 여적인 부분공간입니다.

Applications and further considerations

투영 (직교와 기타)은 특정 선형 대수 문제에 대한 알고리듬(algorithms)에서 중요한 역할을 합니다:

QR decomposition (see Householder transformation and Gram–Schmidt decomposition);
Singular value decomposition
Reduction to Hessenberg form (the first step in many eigenvalue algorithms)
Linear regression
Projective elements of matrix algebras are used in the construction of certain K-groups in Operator K-theory

위에서 언급했듯이, 투영은 거듭상등의 특수한 경우입니다. 해석적으로, 직교 투영은 특성 함수(characteristic functions)의 비-교환적 일반화입니다. 거듭상등은 예를 들어 반-단순 대수(semisimple algebras)를 분류하는 데 사용되고, 반면 측정 이론(measure theory)은 측정-가능 집합(measurable sets)의 특성 함수를 고려하는 것으로 시작합니다. 그러므로, 상상할 수 있듯이, 투영은 연산자 대수(operator algebras)의 맥락에서 매우 자주 발생합니다. 특히, 폰 노이만 대수(von Neumann algebra)는 투영의 완비 격자(lattice)에 의해 생성됩니다.

Generalizations

보다 일반적으로, 노름화된 벡터 공간 $T\colon V\to W$ 사이의 맵이 주어지면, 이 맵이 커널의 직교 여에 대한 등거리-변환이 되도록 유사하게 요청할 수 있습니다: $(\ker T)^{\perp }\to W$ 는 등거리-변환입니다 (부분 등거리변환(Partial isometry)과 비교하십시오); 특히, 그것은 위로의(onto)여야 합니다. 직교 투영의 경우는 W가 V의 부분공간일 때입니다. 리만 기하학(Riemannian geometry)에서, 이것은 리만 침몰(Riemannian submersion)의 정의에 사용됩니다.

Notes

^ Meyer, pp 386+387
^ ^a ^b Horn, Roger A.; Johnson, Charles R. (2013). Matrix Analysis, second edition. Cambridge University Press. ISBN 9780521839402.
^ Meyer, p. 433
^ Meyer, p. 431
^ Meyer, equation (5.13.4)
^ Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388
^ Meyer, equation (5.13.3)
^ See also Linear least squares (mathematics) § Properties of the least-squares estimators.
^ Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388
^ Banerjee, Sudipto (2004), "Revisiting Spherical Trigonometry with Orthogonal Projectors", The College Mathematics Journal, 35 (5): 375–381, doi:10.1080/07468342.2004.11922099, S2CID 122277398
^ Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388
^ Meyer, equation (7.10.39)
^ Brust, J. J.; Marcia, R. F.; Petra, C. G. (2020), "Computationally Efficient Decompositions of Oblique Projection Matrices", SIAM Journal on Matrix Analysis and Applications, 41 (2): 852–870, doi:10.1137/19M1288115, OSTI 1680061, S2CID 219921214
^ Doković, D. Ž. (August 1991). "Unitary similarity of projectors". Aequationes Mathematicae. 42 (1): 220–224. doi:10.1007/BF01818492. S2CID 122704926.

References

Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388
Dunford, N.; Schwartz, J. T. (1958). Linear Operators, Part I: General Theory. Interscience.
Meyer, Carl D. (2000). Matrix Analysis and Applied Linear Algebra. Society for Industrial and Applied Mathematics. ISBN 978-0-89871-454-8.

External links

MIT Linear Algebra Lecture on Projection Matrices on YouTube, from MIT OpenCourseWare
Linear Algebra 15d: The Projection Transformation on YouTube, by Pavel Grinfeld.
Planar Geometric Projections Tutorial – a simple-to-follow tutorial explaining the different types of planar geometric projections.

[1] Meyer, pp 386+387

[HornJohnson-2] Horn, Roger A.; Johnson, Charles R. (2013). Matrix Analysis, second edition. Cambridge University Press. ISBN 9780521839402.

[3] Meyer, p. 433

[4] Meyer, p. 431

[5] Meyer, equation (5.13.4)

[6] Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388

[7] Meyer, equation (5.13.3)

[8] See also Linear least squares (mathematics) § Properties of the least-squares estimators.

[9] Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388

[10] Banerjee, Sudipto (2004), "Revisiting Spherical Trigonometry with Orthogonal Projectors", The College Mathematics Journal, 35 (5): 375–381, doi:10.1080/07468342.2004.11922099, S2CID 122277398

[11] Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st ed.), Chapman and Hall/CRC, ISBN 978-1420095388

[12] Meyer, equation (7.10.39)

[13] Brust, J. J.; Marcia, R. F.; Petra, C. G. (2020), "Computationally Efficient Decompositions of Oblique Projection Matrices", SIAM Journal on Matrix Analysis and Applications, 41 (2): 852–870, doi:10.1137/19M1288115, OSTI 1680061, S2CID 219921214

[14] Doković, D. Ž. (August 1991). "Unitary similarity of projectors". Aequationes Mathematicae. 42 (1): 220–224. doi:10.1007/BF01818492. S2CID 122704926.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]