9.7 Newtonova metoda

Newtonova metoda volí směr v bodě $\vx$ vzhledem k Hessově matici $\mP = \nabla^2 f(\vx)$, tedy dle výpočtů výše

\begin{equation*} \vv_- = -\frac{\mP^{-1} \vc}{\|(\mP^{1/2})^{-1} \vc\|}, \end{equation*}

kde $\vc = \nabla f(\vx)$. Tj. bez pro nás nepodstatného normalizačního faktoru dostáváme

\begin{equation*} \Delta \vx = - \big( \nabla^2 f(\vx) \big)^{-1} \cdot \nabla f(\vx)^T. \end{equation*}

Opět učiňme na tomto místě pouze několik obecných poznámek:

  • Tato metoda je jistě výpočetně náročnější, v každém kroku ještě musíme řešit soustavu lineárních rovnic. Opravdu není potřeba počítat maticovou inverzi, směr $\Delta \vx$ je řešením nehomogenní lineární soustavy

    \begin{equation*} \nabla^2 f(\vx) \cdot (-\Delta \vx) = \nabla f(\vx)^T. \end{equation*}

  • Pokud to lze, tak to ale většinou stojí za to. Lze očekávat podstatně lepší míru konvergence než u obyčejné gradientové metody. Existují různé upravené verze této metody, které nepočítají celou Hessovu matici a příslušnou soustavu, ale snaží se jí například iterativně aproximovat.

  • Pro kvadratickou funkci uvedenou níže nepřekvapivě dostáváme směr přímo k $\theta$.

  • Nepleťte tuto metodu s Newtonovou metodou v BI-MA1.

Na Obrázku 9.14 opět uvádíme opět ukázku pro funkci $f(x,y) = \frac{1}{9}x^2 + y^2$. Protože jde ale o kvadratickou funkci, není překvapivé, že Newtonova metoda přesně vystihne směr k bodu $\theta$.

Obrázek 9.14: Ilustrace k Newtonově metodě pro funkci $f(x,y) = \frac{1}{9}x^2 + y^2$, která je zde znázorněna pomocí svých kontur.

Pojďme chování Newtonovy metody podrobněji prozkoumat na funkcích tvaru $f(x,y) = \alpha x^m + \beta y^n$, kde $\alpha, \beta > 0$ a $m,n$ jsou kladná sudá přirozená čísla. V takovémto případě má funkce $f$ právě jedno lokální (i globální) ostré minimum v bodě $\theta$. Pro její gradient platí

\begin{equation*} \nabla f(x,y) = \big( \alpha m x^{m-1}, \beta n y^{n-1} \big), \quad (x,y)^T \in \R^2 \end{equation*}

a pro Hesseovu matici pak

\begin{equation*} \nabla^2 f(x,y) = \begin{pmatrix} \alpha m(m-1) x^{m-2} & 0 \\ 0 & \beta n(n-1) y^{n-2} \end{pmatrix}, \quad (x,y)^T \in \R^2. \end{equation*}

V bodě $(x,y)^T \neq \theta$ tak Newtonova metoda volí směr

\begin{equation*} - \big( \nabla^2 f(x,y) \big)^{-1} \cdot \nabla f(x,y)^T = - \begin{pmatrix} \frac{1}{\alpha m(m-1) x^{m-2}} & 0 \\ 0 & \frac{1}{\beta n(n-1) y^{n-2}} \end{pmatrix} \cdot \begin{pmatrix} \alpha m x^{m-1} \\ \beta n y^{n-1} \end{pmatrix} = -\begin{pmatrix} \frac{x}{m-1} \\ \frac{y}{n-1} \end{pmatrix}. \end{equation*}

Pokud platí rovnost $m = n$, pak Newtonova metoda vždy volí přímý směr k extrému! Chování znázorněné na Obrázku 9.14 tak bude totožné například i pro funkci $f(x,y) = \frac{1}{9}x^4 + y^4$.

V případě $m \neq n$ (stále obě kladná sudá) se již nevydáme zcela nejpřímějším směrem k minimum. Toto chování ilustruje Obrázek 9.15 na funkci $f(x,y) = x^4 + y^2$.

Obrázek 9.15: Ilustrace k Newtonově metodě pro funkci $f(x,y) = x^4 + y^2$, která je zde znázorněna pomocí svých kontur.