Diagonal matrix

선형 대수(linear algebra)에서, 대각 행렬(diagonal matrix)은 주요 대각선(main diagonal) 밖의 엔트리가 모두 영인 행렬(matrix)입니다; 그 용어는 보통 정사각 행렬을 참조합니다. 주요 대각선의 원소는 0이거나 0이 아닐 수 있습니다. 2×2 대각 행렬의 예제는 $\left[{\begin{smallmatrix}3&0\\0&2\end{smallmatrix}}\right]$ 이고, 3×3 대각 행렬의 예제는 $\left[{\begin{smallmatrix}6&0&0\\0&0&0\\0&0&0\end{smallmatrix}}\right]$ 입니다. 임의의 크기의 항등 행렬(identity matrix), 또는 그것의 임의의 배수 (스칼라 행렬)는 대각 행렬입니다.

대각 행렬은 때때로 스케일링 행렬(scaling matrix)이라고 불리는데, 왜냐하면 그것과의 행렬 곱셈이 스케일 (크기)를 변경하기 때문입니다. 그것의 행렬식은 대각선 값의 곱입니다.

Definition

위에서 언급했듯이, 대각 행렬은 모든 비-대각선 엔트리가 영인 행렬입니다. 즉, n개의 열과 n개의 행을 갖는 행렬 $D = (d i, j)$ 는 만약 다음이면 대각(diagonal)입니다: $\forall i,j\in \{1,2,\ldots ,n\},i\neq j\implies d_{i,j}=0.$

어쨌든, 주요 대각선 엔트리는 제한이 없습니다.

대각 행렬이라는 용어는 때때로 d_i,i 형식이 아닌 모든 엔트리가 영인 m×n 행렬인 직사각 대각 행렬(rectangular diagonal matrix)을 참조할 수 있습니다. 예를 들어:

{\begin{bmatrix}1&0&0\\0&4&0\\0&0&-3\\0&0&0\\\end{bmatrix}}

or

{\begin{bmatrix}1&0&0&0&0\\0&4&0&0&0\\0&0&-3&0&0\end{bmatrix}}

더 자주, 어쨌든, 대각 행렬은 정사각 대각 행렬(square diagonal matrix)로 명시적으로 지정될 수 있는 정사각 행렬을 참조합니다. 정사각 대각 행렬은 대칭 행렬(symmetric matrix)이므로, 이것은 역시 대칭 대각 행렬(symmetric diagonal matrix)이라고 불립니다.

다음 행렬은 정사각 대각 행렬입니다: ${\begin{bmatrix}1&0&0\\0&4&0\\0&0&-2\end{bmatrix}}$

만약 엔트리가 실수(real numbers) 또는 복소수(complex numbers)이면, 그것은 마찬가지로 정규 행렬(normal matrix)입니다.

이 기사의 나머지 부분에서, 정사각 대각 행렬만 고려하고, 간단히 "대각 행렬"이라고 참조합니다.

Vector-to-matrix diag operator

대각 행렬 $\mathbf {D}$ 는 $\operatorname {diag}$ 연산자를 사용하여 벡터 $\mathbf {a} ={\begin{bmatrix}a_{1}&\dotsm &a_{n}\end{bmatrix}}^{\textsf {T}}$ 로부터 구성될 수 있습니다: $\mathbf {D} =\operatorname {diag} (a_{1},\dots ,a_{n})$

이것은 $\mathbf {D} =\operatorname {diag} (\mathbf {a} )$ 로 더 간결하게 쓸 수 있습니다.

같은 연산자는 역시 각 인수 $A_{i}$ 가 행렬인 $\mathbf {A} =\operatorname {diag} (A_{1},\dots ,A_{n})$ 로 블록 대각 행렬(block diagonal matrices)을 나타내기 위해 사용됩니다.

$\operatorname {diag}$ 연산자는 다음으로 쓸 수 있습니다: $\operatorname {diag} (\mathbf {a} )=\left(\mathbf {a} \mathbf {1} ^{\textsf {T}}\right)\circ \mathbf {I}$ 여기서 $\circ$ 는 아다마르 곱(Hadamard product)을 나타내고 $\mathbf {1}$ 는 원소 1을 갖는 상수 벡터입니다.

Matrix-to-vector diag operator

역행렬-대-벡터 $\operatorname {diag}$ 연산자는 때때로 동일하게 이름-지은 $\operatorname {diag} (\mathbf {D} )={\begin{bmatrix}a_{1}&\dotsm &a_{n}\end{bmatrix}}^{\textsf {T}}$ 에 의해 표시되며, 여기서 인수는 이제 행렬이고 결과는 대각 엔트리의 벡터입니다.

다음 속성은 유지됩니다: $\operatorname {diag} (\mathbf {A} \mathbf {B} )=\sum _{j}\left(\mathbf {A} \circ \mathbf {B} ^{\textsf {T}}\right)_{ij}=\left(\mathbf {A} \circ \mathbf {B} ^{\textsf {T}}\right)\mathbf {1}$

Scalar matrix

같은 대각 엔트리를 갖는 대각 행렬은 스칼라 행렬(scalar matrix)입니다; 즉, 항등 행렬(identity matrix) $I$ 의 스칼라 배수 λ입니다. 벡터(vector)에 미치는 영향은 λ에 의한 스칼라 곱셈(scalar multiplication)입니다. 예를 들어, 3×3 스칼라 행렬은 다음 형식을 가집니다: ${\begin{bmatrix}\lambda &0&0\\0&\lambda &0\\0&0&\lambda \end{bmatrix}}\equiv \lambda {\boldsymbol {I}}_{3}$

스칼라 행렬은 행렬의 대수학의 중심입니다: 즉, 그것들은 같은 크기의 모든 다른 정사각 행렬과 교환하는 정확하게 행렬입니다.^[a] 대조적으로, (실수와 같은) 필드(field)에 걸쳐, 모든 대각 원소가 구별되는 대각 행렬은 대각 행렬로만 교환합니다 (그것의 중심화(centralizer)는 대각 행렬의 집합입니다). 그것은 대각 행렬 $\mathbf {D} =\operatorname {diag} (a_{1},\dots ,a_{n})$ 가 $a_{i}\neq a_{j}$ 를 가지면, $m_{ij}\neq 0$ 를 갖는 행렬 $\mathbf {M}$ 이 주어졌을 때, 곱의 $(i,j)$ 항은 다음과 같기 때문입니다: $(\mathbf {D} \mathbf {M} )_{ij}=a_{i}m_{ij}$ 와 $(\mathbf {M} \mathbf {D} )_{ij}=m_{ij}a_{j},$ 및 $a_{j}m_{ij}\neq m_{ij}a_{i}$ ( $m_{ij}$ 로 나눌 수 있기 때문), 따라서 그것들은 비-대각선 항이 영이 아닌 한 교환하지 않습니다.^[b] 대각 엔트리가 모두 같지 않거나 모두 구별되지는 않은 대각 행렬은 전체 공간과 오직 대각선 행렬 사이의 중간 중심화를 가집니다.^[1]

(구체적 벡터 공간 $K^{n}$ 이 아닌) 추상 벡터 공간 V에 대해, 스칼라 행렬의 아날로그는 스칼라 변환(scalar transformations)입니다. 이것은 행렬의 대수를 대체하는 자기-사상 대수 End(M) (M 위에 선형 연산자의 대수)와 함께 링(ring) R에 걸쳐 모듈(module) M에 대해 보다 일반적으로 참입니다. 형식적으로, 스칼라 곱셈은 R-대수로서 End(M)을 전시하는 맵 $R\to \operatorname {End} (M)$ , (스칼라 λ에서 해당 스칼라 변환으로, λ에 의한 곱셈)을 포함하는 선형 맵입니다. 벡터 공간에 대해, 스칼라 변환은 자기사상 대수의 정확하게 중심(center)이고, 유사하게, 역-가능 변환은 일반 선형 그룹 GL(V)의 중심입니다. 전자는 더 일반적으로 참 자유 모듈(free modules) $M\cong R^{n}$ 이며, 이에 대한 자기사상 대수는 행렬 대수와 동형적입니다.

Vector operations

벡터에 대각 행렬을 곱하면 각 항에 해당하는 대각 엔트리를 곱합니다. 대각 행렬 $\mathbf {D} =\operatorname {diag} (a_{1},\dots ,a_{n})$ 와 벡터 $\mathbf {v} ={\begin{bmatrix}x_{1}&\dotsm &x_{n}\end{bmatrix}}^{\textsf {T}}$ 가 주어졌을 때, 곱은 다음과 같습니다: $\mathbf {D} \mathbf {v} =\operatorname {diag} (a_{1},\dots ,a_{n}){\begin{bmatrix}x_{1}\\\vdots \\x_{n}\end{bmatrix}}={\begin{bmatrix}a_{1}\\&\ddots \\&&a_{n}\end{bmatrix}}{\begin{bmatrix}x_{1}\\\vdots \\x_{n}\end{bmatrix}}={\begin{bmatrix}a_{1}x_{1}\\\vdots \\a_{n}x_{n}\end{bmatrix}}.$ 이것은 대각 행렬 $\mathbf {d} ={\begin{bmatrix}a_{1}&\dotsm &a_{n}\end{bmatrix}}^{\textsf {T}}$ 대신 벡터를 사용하고 $\mathbf {d} \circ \mathbf {v}$ 로 표시되는 벡터의 아다마르 곱(Hadamard product, 엔트리별 곱)을 취함으로써 보다 간결하게 표현할 수 있습니다:

$\mathbf {D} \mathbf {v} =\mathbf {d} \circ \mathbf {v} ={\begin{bmatrix}a_{1}\\\vdots \\a_{n}\end{bmatrix}}\circ {\begin{bmatrix}x_{1}\\\vdots \\x_{n}\end{bmatrix}}={\begin{bmatrix}a_{1}x_{1}\\\vdots \\a_{n}x_{n}\end{bmatrix}}.$

이것은 수학적으로 동등하지만, 이 희소 행렬의 모든 영(zero) 항을 저장하지 않습니다. 따라서 이 곱은 TF-IDF에서 IDF 가중을 곱하거나 역전파에서 도함수의 곱을 계산하는 것과 같은 기계 학습(machine learning)에 사용되는데,^[2] 왜냐하면 행렬을 효율적으로 곱하는 일부 BLAS 프레임워크는 아다마르 곱 능력을 직접 포함하지 않기 때문입니다.^[3]

Matrix operations

행렬 덧셈과 행렬 곱셈(matrix multiplication)의 연산은 대각 행렬에 대해 특히 간단합니다. 위쪽 왼쪽 모서리에서 시작하는 대각 엔트리가 a₁, ..., a_n인 대각 행렬에 대해 $diag(a 1, ..., a n)$ 을 씁니다. 그런-다음, 덧셈에 대해, 다음을 가집니다:

diag(a 1, ..., a n)

+

diag(b 1, ..., b n)

=

diag(a 1 + b 1, ..., a n + b n)

그리고 행렬 곱셈(matrix multiplication)에 대해,

diag(a 1, ..., a n)

diag(b 1, ..., b n)

=

diag(a 1 b 1, ..., a n b n)

.

대각 행렬 $diag(a 1, ..., a n)$ 이 역-가능(invertible)인 것과 엔트리 a₁, ..., a_n가 모두 비-영인 것은 필요충분 조건입니다. 이 경우에서, 다음을 가집니다:

diag(a 1, ..., a n) -1

=

diag(a 1 -1, ..., a n -1)

.

특히, 대각 행렬은 모든 n×n 행렬의 링의 부분링(subring)을 형성합니다.

왼쪽부터 n×n 행렬 $A$ 를 $diag(a 1, ..., a n)$ 과 곱하면 모든 $i$ 에 대해 $A$ 의 $i$ -번째 행에 $a i$ 를 곱하는 것과 같습니다; 오른쪽부터 행렬 $A$ 에 $diag(a 1, ..., a n)$ 를 곱하면 모든 $i$ 에 대해 $A$ 의 $i$ -번째 열에 $a i$ 를 곱하는 것과 같습니다.

Operator matrix in eigenbasis

연산자 행렬의 계수 결정에서 설명한 것처럼, 행렬 $\mathbf {A}$ 가 대각선 형식을 취하는 특별한 기저 $e 1, ..., e n$ 가 있습니다. 따라서, 정의 방정식 ${\textstyle \mathbf {A} \mathbf {e} _{j}=\sum _{i}a_{i,j}\mathbf {e} _{i}}$ 에서, $i \neq j$ 를 갖는 모든 계수 $a_{i,j}$ 는 영이며, 합계당 하나의 항만 남습니다. 살아남은 대각 원소, $a_{i,i}$ 는 고윳값으로 알려져 있고 방정식에서 $\lambda _{i}$ 로 지정되어, $\mathbf {A} \mathbf {e} _{i}=\lambda _{i}\mathbf {e} _{i}$ 로 줄어듭니다. 결과 방정식은 고윳값 방정식으로 알려져 있고^[4] 특성 다항식과 나아가서 고윳값과 고유벡터를 도출하기 위해 사용됩니다.

다시 말해서, $diag(λ 1, ..., λ n)$ 의 고윳값(eigenvalues)은 $e 1, ..., e n$ 의 고유벡터(eigenvectors)와 결합된 $λ 1, ..., λ n$ 입니다.

Properties

$diag(a 1, ..., a n)$ 의 행렬식(determinant)은 곱 $a 1 \dots a n$ 입니다.
대각 행렬의 수반(adjugate)은 다시 대각입니다.
여기서 모든 행렬은 정사각입니다,
- 행렬이 대각인 것과 그것이 삼각이고 정규(normal)인 것은 필요충분 조건입니다.
- 행렬이 대각인 것과 그것이 위쪽-삼각(upper-triangular)이고 아래쪽-삼각(lower-triangular) 둘 다인 것은 필요충분 조건입니다.
- 대각 행렬은 대칭(symmetric)입니다.
항등 행렬(identity matrix) I_n과 영 행렬(zero matrix)은 대각입니다.
1×1 행렬은 항상 대각입니다.

Applications

대각 행렬은 선형 대수의 많은 영역에서 발생합니다. 위에서 주어진 행렬 연산과 고윳값/고유벡터에 대한 간단한 설명 때문에, 전형적으로 주어진 행렬 또는 선형 맵(linear map)을 대각 행렬로 나타내는 것이 바람직합니다.

사실, 주어진 n×n 행렬 $A$ 가 대각 행렬 ( $X -1 AX$ 가 대각임을 만족하는 행렬 $X$ 가 있음을 의미)과 닮은 것과 그것이 $n$ 개의 선형적으로 독립 고유벡터를 가지는 것은 필요충분 조건입니다. 그러한 행렬은 대각화-가능(diagonalizable)이라고 말합니다.

실수 또는 복소수의 필드(field)에 걸쳐 더 많은 것이 참입니다. 스펙트럼 정리(spectral theorem)는 모든 각 정규 행렬이 대각 행렬과 유니태리적으로 닮았다(unitarily similar)고 말합니다 ( $AA * = A * A$ 이면 $UAU *$ 가 대각임을 만족하는 유니태리 행렬 $U$ 가 존재합니다). 더욱이, 특이값 분해(singular value decomposition)는 임의의 행렬 $A$ 에 대해, $U * AV$ 가 양수 엔트리를 갖는 대각임을 만족하는 유니태리 행렬 $U$ 와 $V$ 가 존재함을 의미합니다.

Operator theory

연산자 이론(operator theory), 특히 PDE 연구에서, 연산자는 특히 이해하기 쉽고 PDE는 연산자가 작업 중인 기저에 관해 대각이면 쉽게 풀 수 있습니다; 이것은 분리-가능 부분 미분 방정식(separable partial differential equation)에 해당합니다. 그러므로, 연산자를 이해하는 데 핵심 기술은 좌표의 변경(연산자의 언어에서, 적분 변환)이며, 이는 기저를 고유함수의 고유기저로 변경하여 방정식을 분리-가능하게 만듭니다. 이것의 중요한 예제는, 말하자면, 열 방정식(heat equation)에서 라플라스 연산자와 같은 상수 계수 미분 연산자 (또는 더 일반적으로 평행이동 불변 연산자)를 대각화하는 푸리에 변환(Fourier transform)입니다.

고정 함수(의 값)에 의한 곱셈으로 정의되는 곱셈 연산자(multiplication operators)는 특히 쉽습니다–각 점에서 함수의 값은 행렬의 대각 엔트리에 해당합니다.

Notes

^ Proof: given the elementary matrix $e_{ij}$ , $Me_{ij}$ is the matrix with only the i-th row of M and $e_{ij}M$ is the square matrix with only the M j-th column, so the non-diagonal entries must be zero, and the ith diagonal entry much equal the jth diagonal entry.
^ Over more general rings, this does not hold, because one cannot always divide.

References

^ "Do Diagonal Matrices Always Commute?". Stack Exchange. March 15, 2016. Retrieved August 4, 2018.
^ Sahami, Mehran (2009-06-15). Text Mining: Classification, Clustering, and Applications. CRC Press. p. 14. ISBN 9781420059458.
^ "Element-wise vector-vector multiplication in BLAS?". stackoverflow.com. 2011-10-01. Retrieved 2020-08-30.
^ Nearing, James (2010). "Chapter 7.9: Eigenvalues and Eigenvectors" (PDF). Mathematical Tools for Physics. ISBN 978-0486482125. Retrieved January 1, 2012.

Sources

Horn, Roger Alan; Johnson, Charles Royal (1985), Matrix Analysis, Cambridge University Press, ISBN 978-0-521-38632-6

[1] Proof: given the elementary matrix $e_{ij}$ , $Me_{ij}$ is the matrix with only the i-th row of M and $e_{ij}M$ is the square matrix with only the M j-th column, so the non-diagonal entries must be zero, and the ith diagonal entry much equal the jth diagonal entry.

[2] Over more general rings, this does not hold, because one cannot always divide.

[3] "Do Diagonal Matrices Always Commute?". Stack Exchange. March 15, 2016. Retrieved August 4, 2018.

[4] Sahami, Mehran (2009-06-15). Text Mining: Classification, Clustering, and Applications. CRC Press. p. 14. ISBN 9781420059458.

[5] "Element-wise vector-vector multiplication in BLAS?". stackoverflow.com. 2011-10-01. Retrieved 2020-08-30.

[6] Nearing, James (2010). "Chapter 7.9: Eigenvalues and Eigenvectors" (PDF). Mathematical Tools for Physics. ISBN 978-0486482125. Retrieved January 1, 2012.

[a]

[b]

[1]

[2]

[3]

[4]