Piecewise linear function

수학(mathematics) 및 통계학(statistics)에서, 조각별 선형(piecewise linear, PL 또는 segmented) 함수는 그것의 그래프(graph)가 직진-선분으로 구성된 실수 변수의 실수-값 함수(real-valued function)입니다.^[1]

Definition

조각별 선형 함수는 함수의 각각이 아핀 함수(affine function)인 구간의 모음이 있음을 만족하는 실수(real number)의 (아마도 비-경계진) 구간(interval)에 정의된 함수입니다. 만약 함수의 도메인이 컴팩트(compact)이면, 그러한 구간의 유한 모음이 있어야 합니다; 만약 도메인이 컴팩트가 아니면, 그것은 유한해야 하거나 실수에서 지역적으로 유한(locally finite)해야 할 수 있습니다.

Examples

다음에 의해 정의된 함수는:

f(x)={\begin{cases}-x-3&{\text{if }}x\leq -3\\x+3&{\text{if }}-3<x<0\\-2x+3&{\text{if }}0\leq x<3\\0.5x-4.5&{\text{if }}x\geq 3\end{cases}}

네 조각을 갖는 조각별 선형입니다. 이 함수의 그래프는 오른쪽에 표시됩니다. 선형 함수의 그래프는 직선(line)이므로, 조각별 선형 함수의 그래프는 선분(line segment)과 반직선(rays)으로 구성됩니다. 기울기가 변경되는 x 값 (위의 예제에서 −3, 0, 및 3)은 전형적으로 중단점, 변경점, 임계 값 또는 매듭이라고 불립니다. 많은 응용에서 처럼, 이 함수는 역시 연속적입니다. 컴팩트 구간 위에 연속적인 조각별 선형 함수의 그래프는 다각 체인(polygonal chain)입니다.

조각별 선형 함수의 다른 예제는 절댓값(absolute value) 함수, 톱니 함수(sawtooth function), 및 바닥 함수(floor function)를 포함합니다.

Fitting to a curve

알려진 곡선에 대한 근사는 곡선을 샘플링하고 점 사이를 선형으로 보간함으로써 찾아질 수 있습니다. 주어진 오차 허용 범위에 따라 가장 중요한 점을 계산하는 알고리듬이 발표되어 왔습니다.^[2]

Fitting to data

만약 분할과 그때에 중단점이 이미 알려져 있으면, 선형 회귀(linear regression)는 이들 분할에서 독립적으로 수행될 수 있습니다. 어쨌든, 연속성은 해당 경우에서 보존되지 않고, 역시 관찰된 데이터 밑에 있는 고유한 참조 모델이 없습니다. 이 경우와 함께 안정적인 알고리듬이 도출되어 왔습니다.^[3]

만약 분할이 알려져 있지 않으면, 잔여의 제곱합(residual sum of squares)은 최적의 분리점을 선택하기 위해 사용될 수 있습니다. ^[4] 어쨌든, (중단점을 포함하는) 모든 모델 매개변수의 효율적인 계산과 결합 추정은 R 언어(R language)에 대해 분할된^[5] 패키지에 현재 구현된 반복 절차^[6]에 의해 얻어질 수 있습니다.

모델 트리(model tree)라고 불리는 결정 트리 학습법(decision tree learning)의 변형은 조각별 선형 함수를 학습합니다.^[7]

Notation

조각별 선형 함수의 개념은 여러 다른 문맥에서 의미를 만듭니다. 조각별 선형 함수는 n-차원(n-dimensional) 유클리드 공간(Euclidean space), 또는 보다 일반적으로 임의의 벡터 공간(vector space) 또는 아핀 공간(affine space)뿐만 아니라, 조각별 선형 매니폴드(piecewise linear manifold), 단순 복합체(simplicial complex), 기타 등등에 대해 정의될 수 있습니다. 각각의 경우에서, 함수는 실수(real)-값일 수 있으며, 또는 그것은 벡터 공간, 아핀 공간, 조각별 선형 매니폴드, 또는 단순 복합체로부터 값을 취할 수 있습니다. (이러한 맥락에서, 용어 "선형"은 다만 선형 변환(linear transformations)을 참조하는 것이 아니라, 보다 일반적인 아핀 선형(affine linear) 함수를 참조합니다.)

일보다 더 큰 차원에서, 각 조각의 도메인이 다각형(polygon) 또는 폴리토프(polytope)가 되도록 요구하는 것이 공통적입니다. 이것은 함수의 그래프가 다각형 또는 폴리토프의 조각으로 구성될 것임을 보장합니다.

조각별 선형 함수의 중요한 부분-클래스는 연속(continuous) 조각별 선형 함수와 볼록(convex) 조각별 선형 함수를 포함합니다. 일반적으로, 모든 각 n-차원 연속 조각별 선형 함수 $f:\mathbb {R} ^{n}\to \mathbb {R}$ 에 대해, 다음을 만족하는

f({\vec {x}})=\min _{\Sigma \in \Pi }\max _{({\vec {a}},b)\in \Sigma }{\vec {a}}\cdot {\vec {x}}+b

,

다음이 있습니다:

\Pi \in {\mathcal {P}}({\mathcal {P}}(\mathbb {R} ^{n+1}))

.

만약 $f$ 가 볼록이고 연속이면, 다음을 만족하는

f({\vec {x}})=\max _{({\vec {a}},b)\in \Sigma }{\vec {a}}\cdot {\vec {x}}+b

,

다음이 있습니다:

\Sigma \in {\mathcal {P}}(\mathbb {R} ^{n+1})

.

스플라인(Splines)은 조각별 선형 함수를 고차 다항식으로 일반화하며, 이것은 차례로 조각별-미분가능 함수의 카테고리, PDIFF에 포함됩니다.

Applications

Crop response to depth of the watertable^[8]

농업(agriculture)에서, 측정된 데이터의 조각별 회귀 분석(regression analysis)은 성장 인자가 수확량에 영향을 미치는 범위와 작물이 이들 인자에서 변화에 민감하지 않은 범위를 감지하기 위해 사용됩니다.

왼쪽 이미지는 얕은 수면(watertable)에서 수확량이 감소하지만, 더 깊은 (> 7 dm) 수면에서는 수확량이 영향을 받지 않음을 보여줍니다. 그래프는 최적 적합(best fit)을 갖는 두 선분을 찾기 위해 최소 제곱(least squares)의 방법을 사용하여 만들어집니다.

오른쪽의 그래프는 작물 수확량이 최대 ECe = 8 dS/m까지 토양 염도(soil salinity)를 견디지만(tolerate) (ECe는 포화 토양 샘플 추출물의 전기 전도도입니다), 그 값을 초과하면 작물 생산이 감소함을 보여줍니다. 그래프는 "효과 없음"의 가장 긴 범위, 즉 직선이 수평인 곳을 찾기 위해 부분 회귀의 방법으로 만들어집니다. 두 선분은 같은 지점에서 결합할 필요가 없습니다. 오직 최소 제곱의 두 번째 선분 방법이 사용됩니다.

References

^ Stanley, William D. (2004). Technical Analysis And Applications With Matlab. Cengage Learning. p. 143. ISBN 978-1401864811.
^ Hamann, B.; Chen, J. L. (1994). "Data point selection for piecewise linear curve approximation" (PDF). Computer Aided Geometric Design. 11 (3): 289. doi:10.1016/0167-8396(94)90004-3.
^ Golovchenko, Nikolai. "Least-squares Fit of a Continuous Piecewise Linear Function". Retrieved 6 Dec 2012.
^ Vieth, E. (1989). "Fitting piecewise linear regression functions to biological responses". Journal of Applied Physiology. 67 (1): 390–396. doi:10.1152/jappl.1989.67.1.390. PMID 2759968.
^ Muggeo, V. M. R. (2008). "Segmented: an R package to fit regression models with broken-line relationships" (PDF). R News. 8: 20–25.
^ Muggeo, V. M. R. (2003). "Estimating regression models with unknown break‐points". Statistics in Medicine. 22 (19): 3055–3071. doi:10.1002/sim.1545. PMID 12973787.
^ Landwehr, N.; Hall, M.; Frank, E. (2005). "Logistic Model Trees" (PDF). Machine Learning. 59 (1–2): 161–205. doi:10.1007/s10994-005-0466-3. S2CID 6306536.
^ A calculator for piecewise regression.
^ A calculator for partial regression.

[1] Stanley, William D. (2004). Technical Analysis And Applications With Matlab. Cengage Learning. p. 143. ISBN 978-1401864811.

[2] Hamann, B.; Chen, J. L. (1994). "Data point selection for piecewise linear curve approximation" (PDF). Computer Aided Geometric Design. 11 (3): 289. doi:10.1016/0167-8396(94)90004-3.

[Golovchenko-3] Golovchenko, Nikolai. "Least-squares Fit of a Continuous Piecewise Linear Function". Retrieved 6 Dec 2012.

[4] Vieth, E. (1989). "Fitting piecewise linear regression functions to biological responses". Journal of Applied Physiology. 67 (1): 390–396. doi:10.1152/jappl.1989.67.1.390. PMID 2759968.

[5] Muggeo, V. M. R. (2008). "Segmented: an R package to fit regression models with broken-line relationships" (PDF). R News. 8: 20–25.

[6] Muggeo, V. M. R. (2003). "Estimating regression models with unknown break‐points". Statistics in Medicine. 22 (19): 3055–3071. doi:10.1002/sim.1545. PMID 12973787.

[7] Landwehr, N.; Hall, M.; Frank, E. (2005). "Logistic Model Trees" (PDF). Machine Learning. 59 (1–2): 161–205. doi:10.1007/s10994-005-0466-3. S2CID 6306536.

[8] A calculator for piecewise regression.

[9] A calculator for partial regression.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]