1.3 Derivadas, gradientes e diferenciais - parte 2

« página anterior: Folha de exercícios da parte 1

Linearização

Uma outra maneira de olhar para a extensão, do contexto de uma ou duas variáveis para o contexto de mais do que duas variáveis, da noção de diferenciabilidade, para além da semelhança puramente formal das expressões, é que tanto num caso como no outro a diferenciabilidade é caracterizada pela possibilidade de os valores da função se poderem localmente aproximar linearmente.

Mais precisamente, da maneira como foi definida,

a diferenciabilidade de $f$ em $P_0$ garante que a diferença $f(P)-f(P_0)$, sendo aproximada por $\nabla f(P_0)\cdot (P-P_0)$, é aproximada por uma expressão que depende linearmente da diferença $P-P_0$.

De facto, $\nabla f(P_0)\cdot (P-P_0)$ pode ser equivalentemente obtida pelo produto da matriz-linha

(1)
\begin{align} \big[f'_{x_1}(P_0) \, \ldots \, f'_{x_n}(P_0) \big] \end{align}

por $P-P_0$ encarado como vetor-coluna, sendo portanto a matriz-linha acima a matriz da transformação linear em causa. É possível provar que a escolha desta matriz é a única possível1 mantendo a estrutura da definição de diferenciabilidade, logo desse ponto de vista a extensão feita da noção de diferenciabilidade de uma para mais dimensões é a única possível.

Dando-nos a definição de diferenciabilidade de $f$ em $P_0$ a indicação de que, para pontos $P$ próximos de $P_0$, a diferença $f(P)-f(P_0)-\nabla f(P_0)\cdot (P-P_0)$ tende a ser muito mais pequena que a distância $\| P-P_0 \|$,

quando se usa o valor $f(P_0)+\nabla f(P_0)\cdot (P-P_0)$ em vez de $f(P)$ diz-se que se está a usar uma aproximação (linear, pelos motivos explicados acima) de $f$ junto a, ou numa vizinhança de, $P_0$ (já que a aproximação acima só terá alguma utilidade se for usada apenas para pontos $P$ próximos de $P_0$). Diz-se também que

${\displaystyle \qquad f(P_0)+\nabla f(P_0)\cdot (P-P_0)}$,

ou, por exemplo (no caso de $z$ ser o nome da variável a ser usado no conjunto de chegada de $f$),

${\displaystyle \qquad z = f(P_0)+\nabla f(P_0)\cdot (P-P_0)}$,

é a linearização de $f$ junto a, ou numa vizinhança de, $P_0$.

Observa que no caso de uma função $f$ do par de variáveis $P := (x,y)$ a linearização de $f$ junto a $P_0 := (x_0,y_0)$ é a expressão

(2)
\begin{equation} z = f(x_0,y_0)+(x-x_0)f'_x(x_0,y_0)+(y-y_0)f'_y(x_0,y_0) \end{equation}

que nos dá o plano tangente ao gráfico de $f$ em $(x_0,y_0,f(x_0,y_0))$.

Exemplo

Considere-se a função $f$ definida em $\mathbb{R}^2$ por $f(x,y)=\sqrt{x^2+y^2}$. O seu gráfico é o cone $z=\sqrt{x^2+y^2}$, ilustrado na seguinte figura:

Ficheiro gcf para manipular no Graphing Calculator Viewer: cone.gcf. Para o caso de estranhares a expressão que aparece como definidora da superfície, fica a informação de que se trata da expressão para a função $f$ acima escrita nas chamadas coordenadas cilíndricas (a serem consideradas com algum detalhe em Cálculo III — para os cursos que têm Cálculo III). Foram usadas estas por terem produzido no programa em causa um melhor efeito visual do que usando coordenadas cartesianas.

Considere-se o ponto $(3,4)$ do interior do domínio da função.

Como as derivadas parciais existem e são contínuas fora de $(0,0)$, sendo dadas por

(3)
\begin{align} f'_x = \frac{x}{\sqrt{x^2+y^2}}, \quad f'_y = \frac{y}{\sqrt{x^2+y^2}}, \end{align}

o critério dado no final da parte anterior2 garante-nos que a função é diferenciável em $\mathbb{R}^2 \setminus \{ (0,0) \}$, logo, em particular, também em $(3,4)$, onde $f'_x(3,4)=\frac{3}{5}$ e $f'_y(3,4)=\frac{4}{5}$.

A linearização de $f$ junto a $(3,4)$ é, assim,

(4)
\begin{align} z=5+\Big(\frac{3}{5},\frac{4}{5}\Big)\cdot (x-3,y-4) \Leftrightarrow z=5+\frac{3}{5}(x-3)+\frac{4}{5}(y-4). \end{align}

O valor, por exemplo, de $f(3,1;3,9)$ “deverá” então ser bem aproximado por $5 + \big(\frac{3}{5};\frac{4}{5}\big) \cdot (0,1;-0,1)$. Na verdade, o primeiro é 4,98196…, enquanto o segundo é 4,98, o que corresponde a um erro relativo de cerca de 0,04 %.

A linearização foi no passado (antes do advento dos computadores e calculadoras eletrónicas) muito importante do ponto de vista prático, pois permitia, com cálculos mais simples e pelas razões anteriormente explicadas, obter $f(P_0)+\nabla f(P_0)\cdot (P-P_0)$ como valor aproximado para $f(P)$ com um erro "muito pequeno" quando a diferença entre $P$ e $P_0$ era "pequena".

Apesar de ter perdido a importância prática acima referida no contexto dos problemas aqui ilustrados, a ideia de de algum modo linearizar uma situação não linear é uma ideia forte em análise matemática e que continua a ser explorada em matemática mais avançada (e complicada).

Diferenciais

Tal como referido, embora a qualidade da aproximação (linear) local venha da própria estrutura do limite na definição de diferenciabilidade, e a qualidade da aproximação exibida no exemplo acima seja uma consequência disso mesmo, pode por outro lado também ser apreciada visualmente na seguinte figura no contexto de funções de uma variável, a qual servirá também como introdução à noção de diferencial.

Ficheiro gcf para manipular no Graphing Calculator Viewer: diferencial1.gcf

A transformação linear/afim em causa está representada graficamente na figura acima através da reta a vermelho, que é a reta tangente ao gráfico de $f$ no ponto $(x_0,f(x_0))$3. O desvio (também dito acréscimo ou incremento) $\Delta x := x-x_0$ de $x_0$ provoca um desvio $\Delta f$ no valor da função, que, para valores muito pequenos de $\Delta x$, se confunde com o valor identificado como $df$ na figura (que podes explorar dinamicamente, manipulando o ficheiro indicado). Por esta vê-se também que o chamado diferencial $df$ de $f$ se obtém como $df = f(x_0)+\frac{df}{dx}\!(x_0)\,\Delta x - f(x_0)$, ou seja,

(5)
\begin{align} df = \frac{df}{dx}\!(x_0)\,\Delta x = f'(x_0)\Delta x. \end{align}

Acrescentámos a segunda igualdade para não se pensar que a definição estaria mal feita por sofrer de algum tipo de circularidade: o $\frac{df}{dx}\!(x_0)$ que aparece na expressão do meio é simplesmente a usual notação alternativa para $f'(x_0)$, não tendo o $df$ vida própria nessa notação, embora esta se designe por notação diferencial para derivada.

Na verdade, na definição acima em vez de $\Delta x$ também é comum ver-se escrito $dx$, e a justificação é a seguinte: para a função $g(x):=x$ tem-se, de acordo com a definição (5), que $dg=\Delta x$, e como em vez de "a função $g$" se diz muitas vezes "a função $g(x)$", "a função $y=x$" ou, simplesmente, "a função $x$", daí a escrever-se $dx=\Delta x$ é um instante. Na verdade, até é mais correto escrever-se, com esta interpretação (isto é, com o $dx$ visto como o diferencial da função identidade)

(6)
\begin{align} df = f'(x_0)\, dx, \end{align}

pois se no primeiro membro se fizer alusão ao desvio $\Delta x$ onde o $df$ está a ser calculado, a fórmula acima dá origem à expressão correta

(7)
\begin{align} df(\Delta x) = f'(x_0)\, dx(\Delta x). \end{align}

Observe-se também que de (6) sai a relação

(8)
\begin{align} \frac{df}{dx}=f'(x_0), \end{align}

onde aqui já o $df$ não está a ser visto como um mero componente de uma notação para derivada, mas realmente como a função diferencial acima definida. Para que a identificação com essa notação fosse completa só faltaria a referência a "$x_0$" no primeiro membro de (8). E, de facto, tal como foi acima definida a função diferencial depende do $x_0$ (poderás apreciar a dependência de $x_0$ explorando novamente o ficheiro indicado junto à figura acima, manipulando uma corrediça — slider em inglês — que faz variar o valor de $x_0$), mas, para não sobrecarregarmos a notação, não faremos refletir essa dependência na notação para a função diferencial, ficando apenas subentendida.

No caso de funções $f$ de duas variáveis, a reta a vermelho na figura acima é substituída pelo plano tangente ao gráfico de $f$ em $(P_0,f(P_0))$, de equação

(9)
\begin{align} z = f(P_0)+\nabla f(P_0)\cdot (P-P_0), \end{align}

sendo, naturalmente e por analogia com o caso de uma variável acima ilustrado, a parcela $\nabla f(P_0)\cdot (P-P_0)$ na expressão acima designada por diferencial $df$ de $f$. E o mesmo se passa no caso de uma função $f$ de um qualquer número $n \in \mathbb N$ de variáveis, exceto que não falaremos em geral nem em retas nem em planos tangentes.

Em resumo, e usando $\Delta P := P-P_0$,

dada $f : D \subset \mathbb R^n \to \mathbb R$ diferenciável em $P_0 \in {\rm int} D$, o diferencial $df$ de $f$ (no ponto $P_0$) define-se como a função que a cada $\Delta P$ associa o valor

${\displaystyle \qquad df := \nabla f(P_0)\cdot (\Delta P)}$.

Exemplo

Aproveitando os cálculos já feitos no exemplo acima, a partir de (4) sai que para $f(x,y):=\sqrt{x^2+y^2}$ o diferencial no ponto $(3,4)$ é a função

(10)
\begin{align} df = \frac{3}{5}\Delta x+\frac{4}{5}\Delta y, \end{align}

que também se pode escrever, e até mais corretamente, como

(11)
\begin{align} df = \frac{3}{5}\, dx + \frac{4}{5}\, dy, \end{align}

onde aqui $dx$ e $dy$ são as funções diferenciais, no mesmo ponto, das funções projeção na coordenada $x$ e projeção na coordenada $y$ respetivamente.

Conjugando com a definição de linearização dada anteriormente (cf. 2.º destaque no cimo desta página), podemos também em geral dizer que

a linearização de $f$ junto a, ou numa vizinhança de, $P_0$ pode ser descrita através da expressão

${\displaystyle \qquad f(P_0)+df}$,

tratando-se, de acordo com as explicações dadas acima, o $df$ nesta expressão da função diferencial de $f$ no ponto $P_0$ (e, de acordo com a sua definição, a ser calculada para os desvios $\Delta P$ de $P_0$ quando se quiser usar a expressão acima para se determinar um valor aproximado para $f(P)$).

Regra da cadeia

Seja $f: D \subset \mathbb R^n \to \mathbb R$ e suponhamos que parte do domínio $D$ é descrito pelo sistema de equações paramétricas

(12)
\begin{align} \left\{ \begin{array}{l} x_1 = g_1(t) \\ \ldots\dots\ldots \\ x_n = g_n(t) \end{array} \right.,\quad t \in I \subset \mathbb R, \end{align}

ou, o que é equivalente, pela equação vetorial

(13)
\begin{align} P := (x_1, \ldots, x_n) = (g_1(t), \ldots, g_n(t)) =: \vec{g}(t), \quad t \in I, \end{align}

de modo que faz sentido considerar a composição

(14)
\begin{align} (f \circ \vec{g})(t) := f(g_1(t), \ldots, g_n(t)). \end{align}

Sejam $t_0 \in {\rm int}I$ e $P_0 := \vec{g}(t_0) \in {\rm int}D$.

Regra da cadeia

No enquadramento acima, se $g_1, \ldots, g_n$ forem diferenciáveis em $t_0$ e se $f$ for diferenciável em $P_0$ então $f \circ \vec{g}$ é diferenciável em $t_0$ e

${\displaystyle \qquad \frac{d(f \circ \vec{g})}{dt}(t_0) = \nabla f(P_0) \cdot \Big(\frac{dg_1}{dt}(t_0), \ldots, \frac{dg_n}{dt}(t_0)\Big)}$.

Notas:

  1. Quando $g_1, \ldots, g_n$ são diferenciáveis em $t_0$ também se diz que a função (vetorial) $\vec{g}$ é diferenciável em $t_0$ e que $\left(\frac{dg_1}{dt}(t_0), \ldots, \frac{dg_n}{dt}(t_0)\right)$ é a sua derivada $\frac{d\vec{g}}{dt}(t_0)$ em $t_0$. Com estas definições, a fórmula da regra da cadeia dada acima também se pode escrever na forma mais abreviada

    ${\displaystyle \qquad \frac{d(f \circ \vec{g})}{dt}(t_0) = \nabla f(P_0) \cdot \frac{d\vec{g}}{dt}(t_0)}$.
  2. Existe um bom motivo geométrico para se ter destacado o vetor que acima se denotou por $\frac{d\vec{g}}{dt}(t_0)$, e que pode mais simplesmente ser denotado por $\vec{g}\!\phantom{i}'(t_0)$ já que não há aqui possível confusão sobre a variável relativamente à qual se está a derivar: é que nos casos de $n=2$ e de $n=3$ se for não nulo tal vetor tem a direção da tangente à curva imagem de $\vec{g}$ no ponto $P_0$. Não cabe aqui explorar esse tema completamente, que cai no domínio de Cálculo III, mas pode-se pelo menos dar a seguinte indicação no caso de $(x,y)=P=\vec{g}(t) \in \mathbb R^2$ verificar $g'_1(t_0) \not= 0$ e se poder descrever como o gráfico da função real de uma variável real $y=h(x)$, isto é, com $h$ definida de tal modo que $g_2(t)=h(g_1(t))$, $t \in I$:
    Supondo $h$ diferenciável em $x_0:=g_1(t_0)$, sabemos que $(1,h'(x_0))$, sendo um vetor tangente ao gráfico de $h$ em $(x_0,h(x_0))$, é então tangente à curva de equação $(x,y)=\vec{g}(t)$ em $(g_1(t_0),g_2(t_0))$. Consequentemente, multiplicando esse vetor por $g'_1(t_0)$, obtém-se ainda um vetor tangente à mesma curva no mesmo ponto. Ora $(g'_1(t_0),h'(g_1(t_0))g'_1(t_0))$ é, pela regra da cadeia para funções de uma variável, o mesmo que $(g'_1(t_0),(h\circ g_1)'(t_0))$, ou seja, $\vec{g}\!\phantom{i}'(t_0)$.

Atendendo a que $f \circ \vec{g}$ é uma função real de uma variável real, é suficiente provar a fórmula para a derivada, já que, sendo dada pela expressão acima, dá-nos sempre um valor finito. O argumento envolve os pontos $t_0$ e $P_0$ e os desvios $\Delta t$ e $\Delta P = (\Delta g_1,\ldots,\Delta g_n)$.

Começamos por observar que

(15)
\begin{align} \lim_{\Delta t \to 0} \frac{\| \Delta P \|}{|\Delta t|} = \left\| \frac{d\vec{g}}{dt}(t_0) \right\| \in \mathbb R. \end{align}

De facto,

(16)
\begin{eqnarray} \frac{\| \Delta P \|}{|\Delta t|} & = & \left\| \left(\frac{\Delta g_1}{\Delta t}, \ldots, \frac{\Delta g_n}{\Delta t} \right) \right\| \\ & = & \sqrt{\left( \frac{\Delta g_1}{\Delta t} \right)^2 + \ldots + \left( \frac{\Delta g_n}{\Delta t} \right)^2} \\ & \underset{\Delta t \to 0}{\longrightarrow} & \sqrt{\left(\frac{dg_1}{dt}(t_0)\right)^2 + \ldots + \left(\frac{dg_n}{dt}(t_0)\right)^2} \\ & = & \left\| \frac{d\vec{g}}{dt}(t_0) \right\| \in \mathbb R. \end{eqnarray}

Em particular ter-se-á que verificar a igualdade

(17)
\begin{align} \lim_{\Delta t \to 0} \| \Delta P \| = 0. \end{align}

Observe-se também que

(18)
\begin{align} \left| \frac{\Delta (f \circ \vec{g})}{\Delta t} - \nabla f(P_0) \cdot \left(\frac{\Delta g_1}{\Delta t}, \ldots, \frac{\Delta g_n}{\Delta t} \right) \right| = \frac{|\Delta f (P) - \nabla f(P_0) \cdot \Delta P|}{|\Delta t|} \end{align}

e uma de duas coisas ocorre de certeza: ou $\Delta P = 0$, e nesse caso as expressões acima valem $0$, como se vê facilmente pelo segundo membro; ou $\Delta P \not= 0$ e nesse caso podemos prosseguir da seguinte maneira a partir da igualdade acima:

(19)
\begin{align} \left| \frac{\Delta (f \circ \vec{g})}{\Delta t} - \nabla f(P_0) \cdot \left(\frac{\Delta g_1}{\Delta t}, \ldots, \frac{\Delta g_n}{\Delta t} \right) \right| = \frac{|\Delta f (P) - \nabla f(P_0) \cdot \Delta P|}{\| \Delta P \|}\frac{\| \Delta P \|}{|\Delta t|}. \end{align}

Independentemente de qual situação ocorre, usando (17), a diferenciabilidade de $f$ em $P_0$ e (15) conclui-se que

(20)
\begin{align} \lim_{\Delta t \to 0} \, \left| \frac{\Delta (f \circ \vec{g})}{\Delta t} - \nabla f(P_0) \cdot \left(\frac{\Delta g_1}{\Delta t}, \ldots, \frac{\Delta g_n}{\Delta t} \right) \right| = 0. \end{align}

Finalmente, como o segundo termo dentro do módulo acima claramente converge para $\nabla f(P_0) \cdot \Big(\frac{dg_1}{dt}(t_0), \ldots, \frac{dg_n}{dt}(t_0)\Big)$, o mesmo terá que suceder ao primeiro termo e a fórmula para a derivada na regra da cadeia fica provada.

Diferenciais revisitados

Recordamos que, no caso de $f : D \subset \mathbb R \to \mathbb R$ diferenciável em $x_0 \in {\rm int} D$,

(21)
\begin{align} df = f'(x_0)\, dx. \end{align}

Se $f \circ g$ fizer sentido, para uma função $g : I \subset \mathbb R \to \mathbb R$ diferenciável em $t_0 \in {\rm int} I$, e se $g(t_0)=x_0$, sabemos, pela regra da cadeia para funções de uma só variável, que

(22)
\begin{align} (f \circ g)'(t_0) = f'(x_0)g'(t_0), \end{align}

de modo que

(23)
\begin{align} d(f \circ g) = (f \circ g)'(t_0)\, dt = f'(x_0)g'(t_0) \, dt = f'(x_0)\, dg. \end{align}

Isto permite-nos flexibilizar o uso da notação diferencial trabalhando com os nomes das variáveis em vez de trabalharmos com os nomes das funções. Por exemplo, designando por $y$ o nome da variável a usar no conjunto de chegada da função $f$ acima, ao escrevermos $dy$ admitimos que se possa chegar a $y$ quer começando com $x$ através da função $f$ quer começando com $t$ e passando por $x$ através da composição $f \circ g$. Assim, quando escrevermos

(24)
\begin{align} dy = f'(x_0)\, dx \end{align}

podemos estar tanto a referir-nos a (21), onde $dx$ é o diferencial da função identidade, como a (23), onde agora o $dx$ em (24) se refere ao diferencial da função $x=g(t)$, que sabemos ser dado por

(25)
\begin{align} dx = g'(t_0)\, dt, \end{align}

e portanto a escrita em (24) também é coerente com as fórmulas em (23).

Analogamente, no caso de $f : D \subset \mathbb R^n \to \mathbb R$ e $g_1,\ldots,g_n : I \subset \mathbb R \to \mathbb R$ como na regra da cadeia provada acima, se designarmos novamente por $y$ o nome da variável a usar no conjunto de chegada da função $f$,

(26)
\begin{align} dy = f'_{x_1}(P_0)\, dx_1 + \ldots + f'_{x_n}(P_0)\, dx_n \end{align}

tanto pode referir-se ao diferencial de $f$, de acordo com a definição e o exemplo dados mais acima nesta página, e onde $dx_1, \ldots, dx_n$ se referem aos diferenciais das projeções nas coordenadas $x_1, \ldots, x_n$ respetivamente, como ao diferencial de $f \circ \vec{g}$, no caso de $dx_1, \ldots, dx_n$ se referirem aos diferenciais das funções $x_1=g_1(t), \ldots, x_n=g_n(t)$ respetivamente, já que neste último caso (26) se desenvolveria como

(27)
\begin{align} dy = f'_{x_1}(P_0)g'_1(t_0)\, dt + \ldots + f'_{x_n}(P_0)g'_n(t_0)\, dt = (f'_{x_1}(P_0)g'_1(t_0) + \ldots + f'_{x_n}(P_0)g'_n(t_0))\, dt, \end{align}

designando $dt$ o diferencial da função identidade, fórmula que está de facto correta atendendo à regra da cadeia provada acima, que nos garante que o fator $f'_{x_1}(P_0)g'_1(t_0) + \ldots + f'_{x_n}(P_0)g'_n(t_0)$ é, na realidade, igual a $(f \circ \vec{g})'(t_0)$.


página seguinte: Folha de exercícios »

Comentários:

Add a New Comment
Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License