V7L2 M0067M - pelles moln

# Minsta kvadratmetoden — ortogonal projektion & modellanpassning > **Föreläsning:** V6L2 · **Ämne:** Linjär algebra **Förkunskaper:** Ortogonala projektioner ([[V6L1 M0067M]]), Gram–Schmidts process, kolonnrum och nollrum ([[V4L1 M0067M]]) --- ## Ordlista svenska ↔ engelska |Svenska|Engelska| |---|---| |Minsta kvadratmetoden|Least squares method| |Modellfunktion|Model function| |Normalekvation|Normal equation| |Ortogonal projektion|Orthogonal projection| |Komplementvektor|Complement vector| |Kolonnrum|Column space| |Nollrum|Null space| |Överdeterminerat system|Overdetermined system| --- ## 1. Bakgrund — ortogonal projektion ### 1.1 Projektion på ett underrum Givet ett underrum $W$ och en vektor $\vec{y}$: - $\text{proj}_W,\vec{y}$ är den punkt i $W$ som ligger **närmast** $\vec{y}$. - Skillnaden $\vec{y} - \text{proj}_W,\vec{y}$ är **ortogonal** mot $W$. Denna uppdelning är grunden för minsta kvadratmetoden — vi söker den approximation i kolonnrummet som minimerar avståndet till $\vec{b}$. > [!note] Gram–Schmidts process Gram–Schmidts ortogonaliseringsprocess ger en ortogonal (eller ortonormal) bas för $W$, vilket gör det enkelt att beräkna projektionen. --- ## 2. Minsta kvadratmetoden ### 2.1 Motiverande exempel Givet datapunkterna: $(-6,-1),\quad (-2,2),\quad (1,1),\quad (7,6)$ Vi tror på ett linjärt samband och väljer **modellfunktionen**: $y = a + bx$ Vi vill bestämma $a$ och $b$ så att modellen passar datan så bra som möjligt. Måttet vi använder är **summan av kvadraten av de vertikala avstånden** (kvadrater för att de alltid är icke-negativa och ger ett differentierbart uttryck). > [!tip] Första kontrollen Kontrollera alltid först om alla datapunkter redan ligger på en rät linje — det görs genom att Gausseliminera det (möjligen överdeterminerade) systemet. Om systemet saknar lösning behövs minsta kvadratmetoden. ### 2.2 Problemformulering Allmänt: systemet $A\vec{x} = \vec{b}$ saknar lösning (fler ekvationer än obekanta). Vi söker det $\hat{x}$ som **minimerar** $|\vec{b} - A\vec{x}|$. > [!abstract] Definition — Minstakvadratlösning Låt $A$ vara en $m \times n$-matris och $\vec{b} \in \mathbb{R}^m$. En **minstakvadratlösning** till $A\vec{x} = \vec{b}$ är ett $\hat{x}$ sådant att: > > $|\vec{b} - A\hat{x}| \leq |\vec{b} - A\vec{x}| \quad \text{för alla } \vec{x} \in \mathbb{R}^n$ ### 2.3 Härledning via ortogonal projektion Nyckeln: den bästa approximationen $A\hat{x}$ är **projektionen** av $\vec{b}$ på kolonnrummet $\text{col}(A)$. Låt $\hat{b} = \text{proj}_{\text{col}(A)},\vec{b}$. Då gäller: $\vec{b} - \hat{b} \in \text{col}(A)^{\perp} = \text{null}(A^T)$ Det betyder att: $A^T(\vec{b} - A\hat{x}) = \vec{0} \quad \Longleftrightarrow \quad A^T A\hat{x} = A^T\vec{b}$ > [!theorem] Sats — Normalekvationen Minstakvadratlösningarna till $A\vec{x} = \vec{b}$ är lösningarna till: > > $\boxed{A^T A,\vec{x} = A^T\vec{b}}$ > > Denna ekvation kallas **normalekvationen**. > [!warning] Observera > > - $\hat{b} = A\hat{x}$ är **entydig** (projektionen är unik), men $\hat{x}$ behöver **inte** vara entydig — det kan finnas flera lösningar till normalekvationen. > - Använd **inte** ekvivalenspilen $\Leftrightarrow$ när du ställer upp normalekvationen från det ursprungliga systemet. Skriv istället: _"Motsvarande normalekvation:"_ > [!quote] Stefan "Rätt ska vara rätt, annars blir det fel." --- ## 3. Exempel ### 3.1 Linjär modell med fyra datapunkter **Data:** $(-6,-1),;(-2,2),;(1,1),;(7,6)$ **Modell:** $y = a + bx$ Varje datapunkt ger en ekvation: $\begin{cases} a - 6b = -1 \ a - 2b = 2 \ a + b = 1 \ a + 7b = 6 \end{cases}$ I matrisform $A\vec{x} = \vec{b}$: $A = \begin{bmatrix} 1 & -6 \ 1 & -2 \ 1 & 1 \ 1 & 7 \end{bmatrix}, \quad \vec{x} = \begin{bmatrix} a \ b \end{bmatrix}, \quad \vec{b} = \begin{bmatrix} -1 \ 2 \ 1 \ 6 \end{bmatrix}$ **Normalekvationen** $A^TA\vec{x} = A^T\vec{b}$: $A^TA = \begin{bmatrix} 4 & 0 \ 0 & 90 \end{bmatrix}, \quad A^T\vec{b} = \begin{bmatrix} 8 \ 48 \end{bmatrix}$ Lösning: $a = 2, \quad b = \frac{8}{15}$ **Bästa linjära anpassning:** $y = 2 + \frac{8}{15}x$ ### 3.2 Icke-linjär modellfunktion **Modell:** $y = ax + b\cos(\pi x)$ **Datapunkter:** $x = -1,; 0,; 1$ med $y = \frac{3}{2},; \frac{1}{2},; -\frac{1}{2}$ Varje datapunkt ger: $\begin{cases} -a + b\cos(-\pi) = \frac{3}{2} \ 0 \cdot a + b\cos(0) = \frac{1}{2} \ a + b\cos(\pi) = -\frac{1}{2} \end{cases} \implies \begin{cases} -a - b = \frac{3}{2} \ b = \frac{1}{2} \ a - b = -\frac{1}{2} \end{cases}$ I matrisform: $A = \begin{bmatrix} -1 & -1 \ 0 & 1 \ 1 & -1 \end{bmatrix}, \quad \vec{x} = \begin{bmatrix} a \ b \end{bmatrix}, \quad \vec{b} = \begin{bmatrix} \frac{3}{2} \ \frac{1}{2} \ -\frac{1}{2} \end{bmatrix}$ > [!tip] Observation Trots att modellfunktionen $y = ax + b\cos(\pi x)$ ser icke-linjär ut i $x$, är den **linjär i parametrarna** $a$ och $b$. Därför kan vi fortfarande använda minsta kvadratmetoden direkt. Motsvarande normalekvation $A^TA\vec{x} = A^T\vec{b}$: $A^TA = \begin{bmatrix} 2 & 0 \ 0 & 3 \end{bmatrix}, \quad A^T\vec{b} = \begin{bmatrix} -2 \ \frac{-3}{2} \end{bmatrix}$ Lösning: $a = -1, \quad b = -\frac{1}{2} \implies y = -x - \frac{1}{2}\cos(\pi x)$ --- ## Resurser ### Videor - [3Blue1Brown: Least squares (kap om projektion)](https://youtu.be/PFDu9oVAE-g) — visuell förklaring av ortogonal projektion - [MIT 18.06SC: Projection Matrices and Least Squares (Gilbert Strang)](https://youtu.be/osh80YCg_GM) — klassisk genomgång av normalekvationen ### Interaktiva verktyg - [matrixcalc.org](https://matrixcalc.org/) — beräkna $A^TA$, lös normalekvationer online - [Desmos](https://www.desmos.com/calculator) — plotta datapunkter och anpassningskurvor ### Wikipedia - [Least squares](https://en.wikipedia.org/wiki/Least_squares) - [Ordinary least squares](https://en.wikipedia.org/wiki/Ordinary_least_squares) - [Gram–Schmidt process](https://en.wikipedia.org/wiki/Gram%E2%80%93Schmidt_process) ### Fördjupning - Kursbok kap 6.5–6.6 — fullständig genomgång med bevis och fler exempel