7.6 Diferenciální počet funkcí více proměnných

Pro analýzu funkcí jedné proměnné byl zásadní pojem derivace. Podobně tomu bude i pro funkce více proměnných. Situace nyní ovšem nebude tak přímočará jako v předchozích kapitolách.

7.6.1 Parciální derivace funkce

Nejprve se soustřeďme na chování pouze vzhledem k jedné zvolené proměnné.

Definice 7.10 (Parciální derivace (v bodě))

Mějme reálnou funkci $n$ reálných proměnných $f: D_f \to \R$, $D_f \subset \R^n$, definovanou na okolí bodu $\va \in D_f$ a $j \in \hat n$.

Existuje-li limita

\begin{equation}\label{eq_parc}\tag{7.4} \lim_{h \to 0} \frac{f(\va + h \ve_j) - f(\va)}{h}, \end{equation}

pak její hodnotu nazýváme parciální derivací funkce $f$ v bodě $\va$ podle $j$-té proměnné a značíme ji $\frac{\partial f}{\partial x_j}(\va)$, případně $\partial_{x_j} f(\va)$.

Označme $M$ jako množinu všech vnitřních bodů $\va$ množiny $D_f$, v kterých existuje limita (7.4). Potom funkci přiřazující hodnotu $\frac{\partial{f}}{\partial x_j}(\va)$ každému $\va \in M\subset\R^n$ nazýváme parciální derivací funkce $f$ podle $j$-té proměnné a značíme ji

\begin{equation*} \frac{\partial f}{\partial x_j}, \quad \text{případně} \quad \partial_{x_j} f. \end{equation*}

Předchozí definice je nápadně podobná definici derivace reálné funkce reálné proměnné. Má-li funkce $f: D_f \to \R$, $D_f \subset \R^n$, parciální derivaci v bodě $\va \in D_f$ podle $j$-té proměnné, pak pokud definujeme

\begin{equation*} g(x) \ceq f(\va + x \ve_j), \end{equation*}

pak je $g$ je reálná funkce jedné reálné proměnné definována na okolí bodu $0$ a pro její derivaci v bodě $0$ platí

\begin{equation*} g'(0) = \frac{\partial f}{\partial x_j}(\va). \end{equation*}

Odtud okamžitě plyne geometrická interpretace parciální derivace: číselná hodnota parciální derivace funkce $f$ v bodě $a$ udává míru růstu/poklesu funkčních hodnot funkce $f$ v bodě $\va$ ve směru $j$-té souřadné osy. Definice 7.10 je koncipována tak, že se „dívá“ na chování funkce $f$ v daném bodě pouze v daném směru.

Toto pozorování má i důležitý početní důsledek. Při parciálním derivování podle $x_j$ se na ostatní proměnné díváme jako na konstanty a můžeme používat známá pravidla pro derivování (součet, součin, podíl, složená funkce,…).

Obrázek 7.9: Ilustrace k definici parciálních derivací $\frac{\partial f}{\partial x}(\va)$ a $\frac{\partial f}{\partial y}(\va)$ funkce dvou proměnných $f$ v jistém bodě $\va$.

Parciální derivace funkce $f$ podle $j$-té proměnné je obecně funkce a má proto smysl uvažovat o její parciální derivaci podle $k$-té proměnné. K zjednodušení značení používáme následující zápis (pozor na pořadí)

\begin{equation*} \frac{\partial^2 f}{\partial x_k \partial x_j} \ceq \frac{\partial}{\partial x_k} \left( \frac{\partial f}{\partial x_j} \right) \ceq \frac{\partial \left( \frac{\partial f}{\partial x_j} \right)}{\partial x_k}. \end{equation*}

Dále případné opakované derivace podle stejné proměnné zkracujeme takto

\begin{equation*} \frac{\partial^2 f}{\partial x_k^2} \ceq \frac{\partial^2 f}{\partial x_k \partial x_k}. \end{equation*}

Podobně pro vyšší derivace. Například pod výrazem

\begin{equation*} \frac{\partial^3 f}{\partial x_1 \partial x_2^2}(1,2,3) \end{equation*}

máme na mysli parciální derivaci podle $x_1$ druhé parciální derivace funkce $f$ podle $x_2$ vypočtenou v bodě $(1,2,3)^T$.

Z výše uvedeného je patrné, že při výpočtu parciální derivace uplatníme znalosti z  BI-MA1. Derivujeme podle zadané proměnné a na ostatní se díváme jako na konstanty.

Příklad 7.6

Rozmyslete si následující výsledky.

  • Pro $f(x, y) = x + xy + y$ platí

    \begin{align*} \frac{\partial f}{\partial x} (x, y) &= 1 + 1 \cdot y + 0 = 1 + y, \\ \frac{\partial f}{\partial y} (x, y) &= 0 + x \cdot 1 + 1 = x + 1.\end{align*}

  • Pro $g(x, y, z) = e^y \cdot \sin(x+y) + z y$ platí

    \begin{align*} \frac{\partial g}{\partial y}(x, y, z) &= e^y \cdot \sin(x+y) + e^y \cdot \cos(x + y) + z, \\ \frac{\partial^2 g}{\partial z \partial y}(x,y,z) &= 1.\end{align*}

7.6.2 Gradient funkce

Pomocí parciálních derivací, existují-li, můžeme definovat tzv. gradient funkce. Jeho pravý význam odhalíme v další části textu.

Definice 7.11 (Gradient / Gradient)

Mějme reálnou funkci $n$ reálných proměnných $f: D_f \to \R$, $D_f \subset \R^n$ mající všechny parciální derivace v bodě $\va \in D_f$. Potom řádkový vektor

\begin{equation*} \left( \frac{\partial f}{\partial x_1}(\va), \frac{\partial f}{\partial x_2}(\va), \ldots, \frac{\partial f}{\partial x_n}(\va) \right) \in \R^{1,n} \end{equation*}

nazýváme gradientem funkce $f$ v bodě $\va$ a používáme pro něj značení

\begin{equation*} \nabla f(\va) \quad \text{nebo} \quad \mathrm{grad} f(\va). \end{equation*}

Podobně jako u parciální derivace se na $\nabla f$ díváme jako na zobrazení (vektorovou funkci), které bodu přiřazuje hodnotu gradientu $f$ v tomto bodě.

Příklad 7.7

Hned se zamysleme nad jednoduchými příklady:

  • Pro $f(x, y) = \pi$ máme $\nabla f (x,y) = (0, 0)$.

  • Pro $f(x, y) = x - y$ máme $\nabla f (x,y) = (1, -1)$.

Příklad 7.8

Mějme funkci $f(x_1, x_2) = x_1^3 + x_1 x_2$, $D_f = \R^2$. Potom gradient této funkce existuje v každém bodě jejího definičního oboru a platí

\begin{equation*} \nabla f(x_1, x_2) = \big( 3x_1^2 + x_2,\, x_1 \big). \end{equation*}

Příklad 7.9

Mějme funkci $f(x, y, z) = \sin(x) \cos(y + z)$, $D_f = \R^3$. Potom gradient této funkce existuje v každém bodě jejího definičního oboru a platí

\begin{equation*} \nabla f(x, y, z) = \big( \cos(x) \cos(y + z),\, -\sin(x)\sin(y + z),\, -\sin(x)\sin(y + z) \big). \end{equation*}

7.6.3 Derivace funkce

Parciální derivace zkoumala chování funkce jenom vzhledem k jedné proměnné.

Motivace k zobecnění derivace, bez přívlastku „parciální“, pro funkce více proměnných vychází z role první derivace při lineární aproximaci funkce. V BI-MA1 jsme ukázali, že pro dostatečně diferencovatelnou funkci $f$ v bodě $a$ představuje její první Taylorův polynom $T(x) = f(a) + f'(a) (x-a)$ nejlepší možnou aproximaci této funkce v tomto bodě (na jistém okolí). Graf tohoto polynomu prvního stupně pak navíc představuje tečnu funkce $f$ v bodě $a$. Derivace $f'(a)$, jedno číslo, v tomto vzorci hraje roli směrnice tečny, udává lineární člen. To nás motivuje k následující definici.

Definice 7.12 (Derivace (vektorové) funkce)

Mějme zobrazení $F: D_F \to \R^m$, $D_F \subset \R^n$, definované na okolí bodu $\va$.

Derivací zobrazení $F$ v bodě $\va$ nazýváme matici $DF(\va) \in \R^{m,n}$ splňující

\begin{equation*} \lim_{\vx \to \va} \frac{\|F(\vx) - F(\va) - DF(\va) \cdot (\vx - \va) \|}{\|\vx - \va\|} = 0. \end{equation*}

Tj. vágně $F(\vx) \approx F(\va) + DF(\va) \cdot (\vx - \va)$ pro $\vx$ blízko u $\va$, lokální chyba této aproximace je menší než lineární (dle definice). Podmínka v Definici 7.12 nemusí působit intuitivně, od definice derivace funkce jedné proměnné v bodě ( BI-MA1, Definice) se na první pohled liší. Následující poznámka ukazuje souvislost mezi těmito definicemi.

Poznámka 7.2 (Souvislost s derivací funkce jedné proměnné)

Během dřívějšího studia jsme se již s pojmem derivace setkali, konkrétně s derivací reálné funkce jedné reálné proměnné ( BI-MA1, Definice). Derivací takovéto funkce $f: D_f \to \R$, $D_f \subset \R$, definované na okolí bodu $a$, v bodě $a$ jsme nazývali limitu

\begin{equation*} f'(a) = \lim_{x\to a} \frac{f(x) - f(a)}{x - a}. \end{equation*}

Pokud je $f'(a) \in \R$, tj. $f$ je diferencovatelná v bodě $a$, pak je tato podmínka ekvivalentní podmínce

\begin{equation*} 0 = \lim_{x\ to a} \left| \frac{f(x) - f(a)}{x - a} - f'(a) \right| = \lim_{x\to a} \frac{|f(x) - f(a) - f'(a)(x - a)|}{|x - a|}, \end{equation*}

v které již jistě vidíme podmínku z Definice 7.12. V tomto případě diferencovatelné reálné funkce jedné reálné proměnné je tak vlastně $Df(a)$ rovna $1\times 1$ matici $\big(f'(a)\big)$.

Okamžitě se nabízí otázka, jak tato derivace souvisí s dříve zavedenými parciálními derivacemi (Definice 7.10). Odpověď nám dává následující věta.

Věta 7.11 (Složky matice $DF(\va)$ a její jednoznačnost)

Pokud má zobrazení $F: D_f \to \R^m$, $D_f \subset \R^n$, definované na okolí bodu $\va$, derivaci $DF(\va) \in \R^{m,n}$ v bodě $\va$, potom

\begin{equation*} DF(\va) = \begin{pmatrix} \frac{\partial F_1}{\partial x_1}(\va) & \frac{\partial F_1}{\partial x_2}(\va) & \cdots & \frac{\partial F_1}{\partial x_n}(\va) \\ \frac{\partial F_2}{\partial x_1}(\va) & \frac{\partial F_2}{\partial x_2}(\va) & \cdots & \frac{\partial F_2}{\partial x_n}(\va) \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial F_m}{\partial x_1}(\va) & \frac{\partial F_m}{\partial x_2}(\va) & \cdots & \frac{\partial F_m}{\partial x_n}(\va) \end{pmatrix}. \end{equation*}

Odtud ihned také plyne, že je tato matice dána jednoznačně, existuje-li.

Zobrazit důkaz

Určíme prvek matice $DF(\va)$ v $i$-tém řádku a $j$-tém sloupci. Z předpokladu a již jednou použité obecné nerovnosti $|\vz_i| \leq \|\vz\|$, $i\in\hat m$ a $\vz \in \R^m$, dostáváme

\begin{equation*} \lim_{\vx \to \va} \frac{\big|F_i(\vx) - F_i(\va) - \big(DF(\va) \cdot (\vx - \va) \big)_{i} \big|}{\|\vx - \va\|} = 0. \end{equation*}

Nyní použijeme větu o zúžení a budeme k $\va$ přistupovat po přímce $\vx = \va + h \ve_j$, kde $h \to 0$. Odtud s pomocí jednoduchých úprav plyne

\begin{align*} 0 &= \lim_{h \to 0} \frac{\big|F_i(\va + h\ve_j) - F_i(\va) - DF(\va)_{i,j} h\big|}{|h|} = \\ &= \lim_{h \to 0} \left| \frac{F_i(\va + h\ve_j) - F_i(\va)}{h} - DF(\va)_{i,j} \right|.\end{align*}

V tomto výrazu již vidíme parciální derivaci funkce $F_i$ podle $j$-té proměnné v bodě $\va$, která má nutně hodnotu $DF(\va)_{i,j}$.

$\square$

Na funkci $n$ proměnných $f: D_f \to \R$, $D_f \subset \R^n$, lze nahlížet jako na zobrazení $f: D_f \to \R^1$ a proto pokud má v bodě $\va \in D_f$ derivaci $Df(\va) \in \R^{1,n}$, pak podle předchozí věty pro ni platí

\begin{equation*} Df(\va) = \left( \frac{\partial f}{\partial x_1}(\va), \frac{\partial f}{\partial x_2}(\va), \ldots, \frac{\partial f}{\partial x_n}(\va) \right) = \nabla f(\va) \end{equation*}

a není tedy ničím jiným, než gradientem funkce $f$ v bodě $\va$!

Také je z tohoto pozorovaní patrné, proč jsme gradient striktně definovali jako řádkový vektor.

Poznámka 7.3 (Tečná rovina)

Vrátíme-li se zpět k motivaci, pak vidíme, že máme-li funkci $f: D_f \to \R$, $D_f \subset \R^n$ mající derivaci v bodě $\va \in D_f$, pak tečná rovina ke grafu funkce $f$ v bodě $\va$ (označíme-li osu, kam vynášíme závisle proměnnou jako $z$, tj. zmíněný graf je plocha $z = f(\vx)$) je dána rovnicí

\begin{equation*} z = f(\va) + DF(\va) \cdot (\vx - \va). \end{equation*}

Speciálně v případě dvou proměnných dostáváme rovnici

\begin{equation*} z = f(\va) + \nabla f(\va) \cdot ((x,y)^T - \va), \end{equation*}

resp. zcela explicitně

\begin{equation*} z = f(\va) + \frac{\partial f}{\partial x} (\va) (x - a_1) + \frac{\partial f}{\partial y}(\va) (y - a_2). \end{equation*}

K předchozímu pozorování, resp. vztahu mezi derivací a parciálními derivacemi, učiňme dvě poznámky.

  • Pokud má $f$ v bodě $\va$ derivaci $Df(\va)$, pak má v tomto bodě i všechny parciální derivace (ukázali jsme).

  • Toto tvrzení nelze obrátit, tj. samotná existenci parciálních derivací nestačí k existenci derivace. K existenci derivace $Df(\va)$ už ale stačí např. spojitost všech prvních parciálních derivací na okolí bodu $\va$ (nedokazujeme).

Více do této problematiky zabíhat nebudeme.

7.6.4 Hesseova matice

Při analýze vlastností funkcí jedné proměnné jsme vedle první derivace využívali i druhou derivaci. Ta souvisela s konvexností a konkávností, využívali jsme ji při hledání extrémů. Jak je to s druhou derivací funkce více proměnných?

Definice 7.13 (Hesseova matice)

Na derivaci, resp. gradient, funkce $f: D_f \to \R$, $D_f \subset \R^n$, lze nahlížet jako na zobrazení $Df: A \to \R^n$, $A \subset D_f$, jeho derivací v bodě $\va \in A$ je pak matice typu $\R^{n,n}$, kterou nazýváme Hesseovou maticí a značíme $\nabla^2 f(\va)$. Pokud existuje, pak platí

\begin{equation*} \nabla^2 f(\va) = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2}(\va) & \frac{\partial^2 f}{\partial x_2 \partial x_1}(\va) & \cdots & \frac{\partial^2 f}{\partial x_n \partial x_1}(\va) \\ \frac{\partial^2 f}{\partial x_1 \partial x_2}(\va) & \frac{\partial^2 f}{\partial x_2^2}(\va) & \cdots & \frac{\partial^2 f}{\partial x_n \partial x_2}(\va) \\ \vdots & \vdots & \cdots & \vdots \\ \frac{\partial^2 f}{\partial x_1 \partial x_n}(\va) & \frac{\partial^2 f}{\partial x_2 \partial x_n}(\va) & \cdots & \frac{\partial^2 f}{\partial x_n^2}(\va) \end{pmatrix}. \end{equation*}

Hesseova matice (někdy nesprávně zkráceně Hessián) je pojmenována po Ludwigovi Ottovi Hesseovi, německém matematikovi, jenž žil v letech 1811 – 1874.

Pořadí derivování ve smíšených derivacích nelze obecně zaměnit (viz Příklad 7.10 níže). Pokud ale například jsou všechny druhé parciální derivace spojité na okolí bodu $\va$, pak bude Hesseova matice symetrická (typicky náš případ). Toto pozitivní tvrzení je známo pod jménem Schwarzova–Clairautova věta.

Příklad 7.10 (Smíšené derivace nelze obecně zaměnit)

Uvažme funkci definovanou předpisem

\begin{equation}\label{eq_zamenost}\tag{7.5} f(x, y) = \begin{cases} xy \frac{x^2 - y^2}{x^2 + y^2}, & (x,y)^T \neq \theta, \\ 0, & (x,y)^T = \theta. \end{cases} \end{equation}

Tato funkce je definována na $\R^2$ a je spojitá v nule (netriviální cvičení, které není cílem tohoto příkladu). Ukažte, že v bodě $\theta$ existují obě její smíšené derivace a nejsou si rovny, tj.

\begin{equation*} \frac{\partial^2 f}{\partial x \partial y} (\theta) \neq \frac{\partial^2 f}{\partial y \partial x}(\theta). \end{equation*}

Graf této funkce je uveden na Obrázku 7.10.

Zobrazit řešení

Ukážeme si výpočet jedné z parciálních derivací. U druhé pouze prozradíme výsledek a výpočet necháme k dopočítání zvídavému čtenářstvu. Přímo z definice (7.5) a s využitím znalosti derivace součinu a podílu plyne vztah

\begin{equation*} \frac{\partial f}{\partial x}(x, y) = y \frac{x^4 + 4x^2 y^2 - y^4}{(x^2 + y^2)^2}, \quad (x,y)^T \neq \theta. \end{equation*}

Zdůrazněme jeho platnost všude mimo bod $\theta$. K výpočtu parciální derivace funkce $f$ v bodě $\theta$ podle $x$ musíme využít přímo definici, do předchozího vztahu nulu jen tak nedosadíme. To ale není těžké, opět s využitím definice (7.5) rovnou dostáváme

\begin{equation*} \frac{\partial f}{\partial x}(\theta) = \lim_{h\to 0} \frac{f(h, 0) - f(0, 0)}{h} = \lim_{h \to 0} \frac{0}{h} = 0. \end{equation*}

A konečně potom s využitím již napočteného (N.B.: při výpočtu limity $h \to 0$ nás ve výrazu $\partial_x f(0, h)$ situace s $h = 0$ nezajímá)

\begin{align*} \frac{\partial^2 f}{\partial y \partial x}(\theta) &= \lim_{h\to 0} \frac{\partial_x f(0, h) - \partial_x f(0,0)}{h} = \\ &= \lim_{h\to 0} \frac{1}{h} \cdot h \frac{0^4 + 4 \cdot 0^2 \cdot h^2 - h^4}{(0^2 + h^2)^2} = -1.\end{align*}

Naprosto analogickým způsobem lze vypočítat

\begin{equation*} \frac{\partial^2}{\partial x \partial y}(\theta) = 1. \end{equation*}

Obrázek 7.10: Graf funkce z Příkladu 7.10. Na první pohled byste do ní neřekli, že v bodě $\theta$ nemá záměnné druhé smíšené parciální derivace.

7.6.5 Další vlastnosti derivací

Na závěr této podkapitoly shrneme ještě několik užitečných vlastností derivací, které budeme v dalším výkladu potřebovat.

Věta 7.12 (Derivace složené funkce)

Mějme zobrazení $F: D_F \to \R^k$, $D_F \subset \R^m$ a $G: D_G \to \R^m$, $D_G \subset \R^n$ a bod $\va \in D_G$ takové, že existují $DG(\va)$ a $D F\big( G(\va) \big)$. Potom existuje i derivace složeného zobrazení $F \circ G$ v bodě $\va$ a platí

\begin{equation*} D\big( F \circ G \big)(\va) = DF\big(G(\va)\big) \cdot DG(\va). \end{equation*}

Doceňte kompaktní zápis pomocí matic a jejich násobení! Rozepsán explicitně pro $F = (F_1,\ldots,F_k)^T$ a $G = (G_1,\ldots,G_m)^T$ tento vztah po složkách říká (tzv. řetězové pravidlo)

\begin{equation*} \frac{\partial (F \circ G)_{\clr{blue}{i}}}{\partial x_{\clr{red}{\ell}}} (\va) = \sum_{\clr{brown}{j}=1}^m \frac{\partial F_{\clr{blue}{i}}}{\partial x_{\clr{brown}{j}}} (G(\va)) \cdot \frac{\partial G_{\clr{brown}{j}}}{\partial x_{\clr{red}{\ell}}}(\va), \quad i\in\hat k, \ \ell\in\hat n. \end{equation*}

Zobrazit důkaz

Důkaz vynecháváme.

$\square$

Věta 7.13 (Derivace ve směru)

Nechť $f: D_f \to \R$, $D_f \subset \R^n$ má derivaci v bodě $\va \in D_f$. Buď $\vv$ vektor délky $1$.

Potom existuje limita (tzv. derivace funkce $f$ ve směru $\vv$ v bodě $\va$)

\begin{equation*} \frac{\partial f}{\partial \vv}(\va) \ceq \partial_{\vv} f(\va) \ceq \lim_{h \to 0} \frac{f(\va + h\vv) - f(\va)}{h} \end{equation*}

a je rovna $\langle \nabla f(\va)^T \mid \vv \rangle$.

Zobrazit důkaz

Použijte větu o derivaci složené funkce na $g(h) = f(\va + h \vv)$.

$\square$

Důsledek 7.1 (Gradient jakožto směr největšího růstu)

Nechť $f: D_f \to \R$, $D_f \subset \R^n$ má nenulovou derivaci v bodě $\va \in D_f$. Buď $\vv$ vektor délky $1$.

Potom $\partial_{\vv}f(\va)$ nabývá největší hodnoty pro $\vv = \nabla f(\va)^T / \|\nabla f (\va)\|$.

Zobrazit důkaz

Platí nerovnost $|\langle \nabla f(\va)^T \mid \vv \rangle| \leq \|\nabla f(\va)\|$ a současně platí rovnost $\langle \nabla f(\va)^T \mid \pm\nabla f(\va)^T \rangle = \pm \|\nabla f(\va)\|^2$.

$\square$

Na Obrázku 7.11 se pokusíme graficky znázornit funkci $f(x,y) = 2x^2 + y^2$ (levý graf) a jejího gradient $\nabla f(x,y) = (4x, 2y)$ vizualizovaný pomocí vektorového pole (pravý graf). Zdůrazněme, že graf funkce dvou proměnných je množina bodů v $\R^3$, ale gradient takovéto funkce má pouze dvě složky! Vágně řečeno „žije“ v rovině, kde leží definiční obor.

Obrázek 7.11: Vizualizace funkce a jejího gradientu, jakožto vektorového pole.

Je také zajímavé zpětně reflektovat situaci reálné funkce jedné reálné proměnné, jak si zde představit gradient? V případě diferencovatelné funkce $f: \R \to \R$ a bodu $a \in D_f$ je gradient řádkový vektor $\nabla f(a) = (f'(a)) \in \R^{1,1}$, jeho ilustraci uvádíme na Obrázku 7.12. Opět si všimněte, že leží na ose $x$!

Obrázek 7.12: Gradient reálné funkce jedné reálné proměnné.
Otázka 7.1

Je-li funkce $f: \R \to \R$ diferencovatelná v bodě $\va \in \R$, jaký je směrový a normálový vektor její tečny v bodě $\va$?

Zobrazit odpověď

Normálovým vektorem je například $(-f^\prime(a), 1)$ a směrovým vektorem je například $(1, f^\prime(a))$.