Jump to content

Hessian matrix

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

수학(mathematics)에서, 헤세 행렬(Hessian matrix, Hessian, 또는 덜 공통적으로 Hesse matrix)은 스칼라-값 함수, 또는 스칼라 필드의 이차 부분 도함수정사각 행렬입니다. 그것은 많은 변수의 함수의 지역적 곡률을 설명합니다. 헤세 행렬은 19세기 독일 수학자 루트비히 오토 헤세(Ludwig Otto Hesse)에 의해 개발되었고 나중에 그의 이름을 따서 지었습니다. 헤세는 원래 "함수형 행렬식(functional determinants)"이라는 용어를 사용했습니다.

Definitions and properties

가 벡터 을 입력으로 취하고 스칼라 을 출력하는 함수라고 가정합니다. 만약 의 모든 이차 부분 도함수가 존재하면, 의 헤세 행렬 는 정사각 행렬이며, 보통 다음과 같이 정의되고 배열됩니다: 즉, i-번째 행과 j-번째 열의 엔트리는 다음과 같습니다:

만약 나아가서 이차 부분 도함수가 모두 연속이면, 헤세 행렬은 이차 도함수의 대칭에 의해 대칭 행렬(symmetric matrix)입니다.

헤세 행렬의 행렬식(determinant)헤세 행렬식(Hessian determinant)이라고 불립니다.[1]

함수 의 헤세 행렬은 함수 그래디언트(gradient)야코비 행렬(Jacobian matrix)의 전치입니다; 즉:

Applications

Inflection points

만약 가 세 변수에서 동차 다항식(homogeneous polynomial)이면, 방정식 평면 투영 곡선(plane projective curve)암시적 방정식(implicit equation)입니다. 곡선의 변곡점(inflection points)은 헤세 행렬식이 영인 정확하게 비-특이점입니다. 헤세 행렬식이 차수 의 다항식이므로, 삼차 평면 곡선(cubic plane curve)이 많아야 9개의 변곡점을 가진다는 베주의 정리(Bézout's theorem)를 따릅니다.

Second-derivative test

볼록 함수(convex function)의 헤세 행렬은 양수 반-한정입니다. 이 속성을 세분화하면 다음과 같이 임계점(critical point) 가 지역적 최댓값, 지역적 최솟값, 또는 안장 점인지 테스트할 수 있습니다:

만약 헤세가 에서 양수-한정이면, 에서 고립된 지역적 최솟값에 도달합니다. 만약 헤세가 에서 음수-한정이면, 에서 고립된 지역적 최댓값에 도달합니다. 만약 헤세가 양의 고윳값과 음의 고윳값을 모두 가지면, 에 대한 안장 점입니다. 그렇지 않으면, 테스트가 결정적이지 않습니다. 이것은 지역적 최솟값에서 헤세가 양수-반한정이고, 지역적 최댓값에서 헤세가 음수-반한정임을 의미합니다.

양수-반한정과 음수-반한정 헤세에 대해, 테스트는 결정적이지 않습니다 (헤세가 반한정이지만 한정적이지 않은 임계점은 지역적 극값 또는 안장점일 수 있습니다). 어쨌든, 모스 이론(Morse theory)의 관점에서 더 많은 것을 말할 수 있습니다.

한 변수와 두 변수의 함수에 대한 이차-도함수 테스트(second-derivative test)는 일반적인 경우보다 간단합니다. 한 변수에서, 헤세는 정확하게 하나의 이차 도함수를 포함합니다; 만약 그것이 양수이면, 는 지역 최솟값이고, 만약 그것이 음수이면, 는 지역적 최댓값입니다; 만약 그것이 영이면, 테스트는 결정적이지 않습니다. 두 변수에서, 행렬식이 고윳값의 곱이기 때문에, 행렬식(determinant)이 사용될 수 있습니다. 만약 그것이 양수이면, 고윳값이 둘 다 양수이거나, 둘 다 음수입니다. 만약 그것이 음수이면, 두 고윳값이 다른 부호를 가집니다. 만약 그것이 영이면, 이차-도함수 테스트는 결정적이지 않습니다.

동등하게, 지역적 최솟값 또는 최댓값에 대해 충분 조건인 이차 조건은 헤세의 주요 (위쪽-가장 왼쪽) 소행렬식 (부분행렬의 행렬식)의 수열의 관점에서 표현될 수 있습니다; 이들 조건은 제약 조건이 있는 최적화를 위한 테두리-있는 헤세에 대해 다음 섹션에 제공된 조건의 특수한 경우입니다—제약 조건의 개수가 0인 경우입니다. 구체적으로, 최솟값에 대한 충분 조건은 이들 주요 소행렬식의 모두가 양수이고, 최댓값에 대한 충분 조건은 소행렬식이 부호에서 교대하며, 소행렬식이 음수라는 것입니다.

Critical points

만약 함수 그래디언트(gradient, 부분 도함수의 벡터)가 어떤 점 에서 영이면, 에서 임계점(critical point) (또는 정류점(stationary point))을 가집니다. 에서 헤세의 행렬식(determinant)은, 일부 문맥에서, 판별식(discriminant)이라고 불립니다. 만약 이 행렬식이 영이면, 퇴화 임계점(degenerate critical point), 또는 비-모스 임계점(non-Morse critical point)이라고 불립니다. 그렇지 않으면, 그것은 비-퇴화이고, 모스 임계점(Morse critical point)이라고 불립니다.

헤세 행렬은 그 커널(kernel)고윳값(eigenvalues)을 통해 임계점을 분류할 수 있기 때문에 모스 이론(Morse theory)급변 이론(catastrophe theory)에서 중요한 역할을 합니다.[2][3][4]

헤세 행렬의 행렬식은, 함수의 임계점에서 평가될 때, 매니폴드로 고려되는 함수의 가우스 곡률(Gaussian curvature)과 같습니다. 해당 점에서 헤세의 고윳값은 함수의 주요 곡률이고, 고유벡터는 곡률의 주요 방향입니다. (Gaussian curvature § Relation to principal curvatures를 참조하십시오.)

Use in optimization

헤세 행렬은 함수의 로컬 테일러 전개(Taylor expansion)의 이차 항의 계수이기 때문에 뉴턴-유형 방법 내에서 큰-스케일 최적화(optimization) 문제에 사용됩니다. 즉, 여기서 그래디언트(gradient) 입니다. 전체 헤세 행렬을 계산하고 저장하는 것은 메모리가 필요하며, 이는 신경망(neural nets)손실 함수(loss function), 조건부 무작위 필드(conditional random fields), 및 많은 수의 매개변수를 갖는 다른 통계적 모델(statistical models)과 같은 고-차원 함수에 대해 실행 불가능합니다. 그러한 상황을 위해, 잘린-뉴턴(truncated-Newton)준-뉴턴(quasi-Newton) 알고리듬이 개발되어 왔습니다; 후자의 알고리듬의 가족은 헤세로의 근사를 사용합니다; 가장 널리 사용되는 준-뉴턴 알고리듬 중 하나는 BFGS입니다.[5]

그러한 근사는 최적화 알고리듬이 헤세를 선형 연산자(linear operator) 로만 사용한다는 사실을 사용할 수 있고, 헤세가 기울기의 지역적 확장에도 나타남을 먼저 알아차림으로써 진행할 수 있습니다:

일부 스칼라 에 대해 라고 놓으면, 이것은 다음을 제공합니다: 즉, 따라서 그래디언트가 이미 계산되었으면, 근사적인 헤세는 스칼라 연산의 (그레디언트의 크기에서) 선형 숫자로 계산될 수 있습니다. (프로그래밍은 간단하지만, 항으로 인한 오류를 방지하기 위해 을 작게 만들어야 하므로 이 근사 스킴은 수치적으로 안정적이지 않지만, 그것을 감소하는 것은 첫 번째 항에서 정밀도가 떨어집니다.[6])

특히 무작위 검색 유리스틱(Randomized Search Heuristics)과 관련하여, 진화 전략(evolution strategy)의 공분산 행렬은 스칼라 인수 및 작은 무작위 변동까지(up to) 헤세 행렬의 역에 순응시킵니다. 이 결과는 이차 근사에 의존하여 모집단 크기가 증가함에 따라 단일-부모 전략과 정적 모델에 대해 형식적으로 입증되어 왔습니다.[7]

Other applications

헤세 행렬은 공통적으로 이미지 처리컴퓨터 비전에서 이미지 처리 연산자를 표현하는 데 사용됩니다 (가우스의 라플라스(Laplacian of Gaussian, LoG) 블롭 검출기, 헤세의 행렬식 (DoH) 블롭 검출기, 및 스케일 공간을 참조). 그것은 적외선 분광법(infrared spectroscopy)에서 다양한 분자 주파수를 계산하기 위해 정규 모드(normal mode) 분석에 사용될 수 있습니다.[8] 그것은 역시 지역적 민감도와 통계적 진단에도 사용될 수 있습니다.[9]

Generalizations

Bordered Hessian

테두리-있는 헤세(bordered Hessian)는 특정 제약 조건이 있는 최적화 문제에서 이차-도함수 테스트에 사용됩니다. 이전에 고려된 함수 가 주어지지만, 임을 만족하는 구속 함수 를 더함으로써, 테두리-있는 헤세는 라그랑주 함수(Lagrange function) 의 헤세입니다:[10]

만약 말하자면, 개의 제약 조건이 있으면, 위쪽-왼쪽 모서리에서 영은 영의 블록이고, 꼭대기에서 개의 테두리 행과 왼쪽에서 개의 테두리 열이 있습니다.

만약 가 단 하나의 비-영 엔트리가 그것의 처음에 있는 임의의 벡터이면 와 같이 테두리-있는 헤세는 음수-한정도 될 수 없고 양수-한정도 될 수 없기 때문에 극값이 (비-특이 헤세를 갖는 임계점 중에서) 양수-한정 또는 음수-한정 헤세에 의해 특징짓는다는 위의 규칙은 여기서 적용될 수 없습니다.

이차 도함수 테스트는 여기서 테두리-있는 헤세의 부분행렬의 특정 집합의 행렬식의 부호 제한으로 구성됩니다.[11] 직관적으로, 제약 조건은 문제를 자유 변수를 갖는 문제로 줄이는 것으로 생각될 수 있습니다. (예를 들어, 제약 조건에 따른 의 최대화는 제약 없이 의 최대화로 축소될 수 있습니다.)

구체적으로, 테두리-있는 헤세의 선행하는 주요 소행렬식 (위쪽-왼쪽-정렬 부분행렬의 행렬식)의 수열에 부호 조건을 부과하며, 이에 대해 처음 선행하는 주요 소행렬식은 무시되고, 잘린 처음 행과 열로 구성된 가장 작은 소행렬식은 무시되고, 잘린 처음 행과 열로 구성된 다음 것을 무시하고, 이런 식이며, 마지막은 전체 테두리-있는 헤세입니다; 만약 보다 크면, 가장 작은 선행 주요 소행렬식은 헤세 자체입니다.[12] 따라서 고려해야 할 개의 소행렬식이 있으며, 각각은 후보 최댓값 또는 최솟값으로 고려될 특정 점에서 평가됩니다. 지역적 최댓값에 대한 충분 조건은 이들 소행렬식이 의 부호를 가지는 가장 작은 것과 부호에서 교대하는 것입니다. 지역적 최솟값에 대한 충분 조건은 모든 이들 소행렬식이 의 부호를 가진다는 것입니다. (제약 조건이 없는 의 경우에서, 이들 조건은 각각 음수 한정 또는 양수 한정이 되는 테두리-없는 헤세에 대한 조건과 일치합니다.)

Vector-valued functions

만약 가 대신 벡터 필드(vector field) 이면, 즉, 다음이면, 이차 부분 도함수의 모음은 행렬이 아니지만, 오히려 삼-차 텐서(tensor)입니다. 이것은 의 각 구성 요소에 대해 하나씩 헤세 행렬의 배열로 생각될 수 있습니다: 이 텐서는 일 때 보통의 헤세 행렬로 퇴화됩니다.

Generalization to the complex case

여러 복소 변수(several complex variables)의 문맥에서, 헤세는 일반화될 수 있습니다. 라고 가정하고, 라고 씁니다. 그런-다음 일반화된 해세는 입니다. 만약 -차원 코시-리만 조건(Cauchy–Riemann conditions)을 만족시키면, 복소수 헤세 행렬은 동일하게 영입니다.

Generalizations to Riemannian manifolds

리만 매니폴드(Riemannian manifold)라고 놓고 를 그것의 레비-치비타 연결(Levi-Civita connection)이라고 놓습니다. 를 매끄러운 함수라고 놓습니다. 다음에 의해 헤세 텐서를 정의합니다: 여기서 이것은 함수의 첫 번째 공변 도함수가 보통의 미분과 같다는 사실의 이점을 취합니다. 지역적 좌표 를 선택하는 것은 헤세에 대한 지역적 표현을 다음과 같이 제공합니다: 여기서 는 연결의 리스토펠 기호(Christoffel symbols)입니다. 헤세에 대한 다른 동등한 형식은 다음에 의해 제공됩니다:

See also

Notes

  1. ^ Binmore, Ken; Davies, Joan (2007). Calculus Concepts and Methods. Cambridge University Press. p. 190. ISBN 978-0-521-77541-0. OCLC 717598615.
  2. ^ Callahan, James J. (2010). Advanced Calculus: A Geometric View. Springer Science & Business Media. p. 248. ISBN 978-1-4419-7332-0.
  3. ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., eds. (2011). Recent Developments in General Relativity. Springer Science & Business Media. p. 178. ISBN 9788847021136.
  4. ^ Domenico P. L. Castrigiano; Sandra A. Hayes (2004). Catastrophe theory. Westview Press. p. 18. ISBN 978-0-8133-4126-2.
  5. ^ Nocedal, Jorge; Wright, Stephen (2000). Numerical Optimization. Springer Verlag. ISBN 978-0-387-98793-4.
  6. ^ Pearlmutter, Barak A. (1994). "Fast exact multiplication by the Hessian" (PDF). Neural Computation. 6 (1): 147–160. doi:10.1162/neco.1994.6.1.147. S2CID 1251969.
  7. ^ Shir, O.M.; A. Yehudayoff (2020). "On the covariance-Hessian relation in evolution strategies". Theoretical Computer Science. 801. Elsevier: 157–174. doi:10.1016/j.tcs.2019.09.002.
  8. ^ Mott, Adam J.; Rez, Peter (December 24, 2014). "Calculation of the infrared spectra of proteins". European Biophysics Journal. 44 (3): 103–112. doi:10.1007/s00249-014-1005-6. ISSN 0175-7571. PMID 25538002. S2CID 2945423.
  9. ^ Liu, Shuangzhe; Leiva, Victor; Zhuang, Dan; Ma, Tiefeng; Figueroa-Zúñiga, Jorge I. (March 2022). "Matrix differential calculus with applications in the multivariate linear model and its diagnostics". Journal of Multivariate Analysis. 188: 104849. doi:10.1016/j.jmva.2021.104849.
  10. ^ Hallam, Arne (October 7, 2004). "Econ 500: Quantitative Methods in Economic Analysis I" (PDF). Iowa State.
  11. ^ Neudecker, Heinz; Magnus, Jan R. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. p. 136. ISBN 978-0-471-91516-4.
  12. ^ Chiang, Alpha C. (1984). Fundamental Methods of Mathematical Economics (Third ed.). McGraw-Hill. p. 386. ISBN 978-0-07-010813-4.

Further reading

  • Lewis, David W. (1991). Matrix Theory. Singapore: World Scientific. ISBN 978-981-02-0689-5.
  • Magnus, Jan R.; Neudecker, Heinz (1999). "The Second Differential". Matrix Differential Calculus : With Applications in Statistics and Econometrics (Revised ed.). New York: Wiley. pp. 99–115. ISBN 0-471-98633-X.

External links