Matrixfunktion

Eine Matrixfunktion ist in der Mathematik eine Funktion, welche als Funktionsargument eine quadratische Matrix besitzt. Es gibt unterschiedliche Definitionen solcher Funktionen, deren Funktionswerte meistens Skalare oder wieder quadratische Matrizen sind. Generell versteht man in der Mathematik unter dem Begriff Matrixfunktion explizit den letzteren Fall, das bedeutet

f : C n × n C n × n . {\displaystyle f:\mathbb {C} ^{n\times n}\to \mathbb {C} ^{n\times n}.}

Zum ersten Fall gehören klassische Funktionen wie die Determinante oder die Spur. Da dieser Fall selbsterklärend ist, wird im Artikel nur der letzte Fall behandelt. Im Artikel werden drei äquivalente Methoden zur Erzeugung einer Matrixfunktion erklärt.

Einführung

Sei A = ( a i j ) i j {\displaystyle A=(a_{ij})_{ij}} eine quadratische Matrix, C n × n {\displaystyle \mathbb {C} ^{n\times n}} der dazugehörige Matrizenraum und f : C C {\displaystyle f\colon \mathbb {C} \to \mathbb {C} } eine skalare Funktion. Das Ziel ist es nun, f ( A ) {\displaystyle f(A)} zu definieren. Dafür gibt es unterschiedliche Möglichkeiten, darunter:

  • Die elementweise Evaluation
f ( A ) = ( f ( a i j ) ) i j = ( f ( a 11 ) f ( a 12 ) f ( a 21 ) f ( a 22 ) ) . {\displaystyle f(A)=(f(a_{ij}))_{ij}={\begin{pmatrix}f(a_{11})&f(a_{12})&\cdots \\f(a_{21})&f(a_{22})&\cdots \\\vdots &\vdots &\ddots \end{pmatrix}}.}
  • Die skalarwertige Evaluation f : C n × n C {\displaystyle f:\mathbb {C} ^{n\times n}\to \mathbb {C} } .
  • Die matrixwertige Evaluation f : C n × n C n × n {\displaystyle f:\mathbb {C} ^{n\times n}\to \mathbb {C} ^{n\times n}} .

Der erste Fall wird häufig von Programmiersprachen verwendet, spielt in der Mathematik aber eine untergeordnete Rolle, da er die Regeln der Matrix-Algebra bricht. Den zweiten Fall trifft man häufig an, klassische Beispiele sind die Determinante det ( A ) {\displaystyle \det(A)} , die Spur tr ( A ) {\displaystyle \operatorname {tr} (A)} und der Spektralradius ρ ( A ) {\displaystyle \rho (A)} .

Die ersten beiden Fälle sind selbsterklärend, deshalb werden wir nur den letzten Fall behandeln und werden solche Funktionen f : C n × n C n × n {\displaystyle f:\mathbb {C} ^{n\times n}\to \mathbb {C} ^{n\times n}} als Matrixfunktionen bezeichnen.

Es existieren noch weitere Fälle, die wir auch nicht behandeln werden, so fällt die Vektorisierung in keine der Kategorien.

Matrixfunktion

Es existieren unterschiedliche Wege, wie wir die matrixwertige Funktion einer skalaren Funktion f : C C {\displaystyle f:\mathbb {C} \to \mathbb {C} } definieren können. Drei übliche Wege sind

  • über die jordansche Normalform,
  • über die Polynominterpolation,
  • über den Cauchyschen Integralsatz.

Wenn f {\displaystyle f} eine analytische Funktion in einer Umgebung ist, welche das Spektrum umschließt, dann sind alle drei Definitionen äquivalent.

Wir brauchen folgende wichtige Definition, welche uns später garantiert, dass wir die Funktion f {\displaystyle f} auf allen Jordan-Blöcken anwenden können:

Sei A C n × n {\displaystyle A\in \mathbb {C} ^{n\times n}} eine Matrix und λ 1 , , λ s {\displaystyle \lambda _{1},\dots ,\lambda _{s}} ihre eindeutigen Eigenwerte, das heißt s {\displaystyle s} ist die Anzahl Eigenwerte ohne Berücksichtigung algebraischer Vielfachheiten. Sei m i {\displaystyle m_{i}} die Größe des größten Jordan-Blockes zum Eigenwert λ i {\displaystyle \lambda _{i}} . Wir nennen eine Funktion f {\displaystyle f} auf dem Spektrum von A {\displaystyle A} definiert, wenn die folgenden Werte existieren
f ( j ) ( λ i ) , j = 0 , , m i 1 , i = 1 , , s {\displaystyle f^{(j)}(\lambda _{i}),\quad j=0,\dots ,m_{i}-1,\quad i=1,\dots ,s} [1]

Definition 1 (Jordan-Normalform)

Sei f {\displaystyle f} auf dem Spektrum von A C n × n {\displaystyle A\in \mathbb {C} ^{n\times n}} definiert. Weiter seien J = Z 1 A Z {\displaystyle J=Z^{-1}AZ} die Jordan-Normalform und J 1 , , J p {\displaystyle J_{1},\dots ,J_{p}} die dazugehörigen Jordan-Blöcke mit ihren Größen n 1 , , n p {\displaystyle n_{1},\dots ,n_{p}} , das heißt n 1 + + n p = n {\displaystyle n_{1}+\cdots +n_{p}=n} und p n {\displaystyle p\leq n} . Seien λ 1 , , λ p {\displaystyle \lambda _{1},\dots ,\lambda _{p}} die zu den J 1 , , J p {\displaystyle J_{1},\dots ,J_{p}} dazugehörigen Eigenwerte.

Die Matrixfunktion ist definiert als

f ( A ) := Z f ( J ) Z 1 = Z diag ( f ( J 1 ) , , f ( J p ) ) Z 1 , {\displaystyle f(A):=Zf(J)Z^{-1}=Z\operatorname {diag} \left(f(J_{1}),\dots ,f(J_{p})\right)Z^{-1},}

wobei die f ( J 1 ) , , f ( J p ) {\displaystyle f(J_{1}),\dots ,f(J_{p})} wie folgt definiert sind

f ( J k ) = ( f ( λ k ) f ( 1 ) ( λ k ) f ( 2 ) ( λ k ) 2 ! f ( n k 1 ) ( λ k ) ( n k 1 ) ! 0 f ( λ k ) f ( 1 ) ( λ k ) f ( n k 2 ) ( λ k ) ( n k 2 ) ! 0 0 f ( λ k ) f ( 2 ) ( λ k ) 2 ! f ( λ k ) f ( 1 ) ( λ k ) 0 0 0 0 f ( λ k ) ) , f ( J k ) C n k × n k , k = 1 , , p . {\displaystyle f(J_{k})={\begin{pmatrix}f(\lambda _{k})&f^{(1)}(\lambda _{k})&{\frac {f^{(2)}(\lambda _{k})}{2!}}&\cdots &\cdots &{\frac {f^{(n_{k}-1)}(\lambda _{k})}{(n_{k}-1)!}}\\0&f(\lambda _{k})&f^{(1)}(\lambda _{k})&\ddots &\cdots &{\frac {f^{(n_{k}-2)}(\lambda _{k})}{(n_{k}-2)!}}\\0&0&f(\lambda _{k})&\ddots &\ddots &\vdots \\\vdots &\ddots &\ddots &\ddots &\ddots &{\frac {f^{(2)}(\lambda _{k})}{2!}}\\\vdots &\ddots &\ddots &\ddots &f(\lambda _{k})&f^{(1)}(\lambda _{k})\\0&0&\dots &0&0&f(\lambda _{k})\end{pmatrix}},\quad f(J_{k})\in \mathbb {C} ^{n_{k}\times n_{k}},\quad k=1,\dots ,p.} [1]

Erklärung der Matrix

Die Matrix in der Definition lässt sich wie folgt erklären, man bildet die Taylor-Reihe von f ( x ) {\displaystyle f(x)} und verwendet als Entwicklungspunkt den Eigenwert λ k {\displaystyle \lambda _{k}} , das heißt

f ( x ) = i = 0 f ( i ) ( λ k ) i ! ( x λ k ) i {\displaystyle f(x)=\sum _{i=0}^{\infty }{\frac {f^{(i)}(\lambda _{k})}{i!}}(x-\lambda _{k})^{i}}

Nun substituiert man x {\displaystyle x} mit dem Jordan-Block J k {\displaystyle J_{k}} und erhält

f ( J k ) = i = 0 n k 1 f ( i ) ( λ k ) i ! ( J k λ k I n k ) i , {\displaystyle f(J_{k})=\sum _{i=0}^{n_{k}-1}{\frac {f^{(i)}(\lambda _{k})}{i!}}(J_{k}-\lambda _{k}I_{n_{k}})^{i},}

wobei I n k {\displaystyle I_{n_{k}}} die Identitätsmatrix der Dimension n k {\displaystyle n_{k}} ist. Da ( J k λ k I n k ) {\displaystyle (J_{k}-\lambda _{k}I_{n_{k}})} eine nilpotente Matrix mit Nilpotenzindex n k {\displaystyle n_{k}} ist, ist die Taylorreihe endlich und somit ein Polynom. Da Matrizen dieselben Operationen wie Polynome besitzen (Addition, Subtraktion, Multiplikation usw.), existiert auch das Matrixpolynom. Durch Ausschreiben der Taylorreihe erhält man die Matrix aus der Definition

f ( J k ) = f ( λ k ) I n k + f ( 1 ) ( λ k ) ( J k λ k I n k ) + + f ( n k 1 ) ( λ k ) ( n k 1 ) ! ( J k λ k I n k ) n k 1 , {\displaystyle f(J_{k})=f(\lambda _{k})I_{n_{k}}+f^{(1)}(\lambda _{k})(J_{k}-\lambda _{k}I_{n_{k}})+\cdots +{\frac {f^{(n_{k}-1)}(\lambda _{k})}{(n_{k}-1)!}}(J_{k}-\lambda _{k}I_{n_{k}})^{n_{k}-1},}

wobei jeder Term eine der diagonalen Linien in der oberen Dreiecksmatrix bildet. Das macht man nun für jeden Jordan-Block.[1]

Erläuterungen

  • Wenn A {\displaystyle A} diagonalisierbar ist, dann ist die Jordan-Normalform gerade die Diagonalmatrix der Eigenwerte D = diag ( λ 1 , , λ n ) {\displaystyle D=\operatorname {diag} (\lambda _{1},\dots ,\lambda _{n})} und die Spalten von Z {\displaystyle Z} sind die Eigenvektoren. Das bedeutet wiederum, dass
f ( A ) = Z f ( D ) Z 1 {\displaystyle f(A)=Zf(D)Z^{-1}}
und somit hat f ( A ) {\displaystyle f(A)} die gleichen Eigenvektoren wie A {\displaystyle A} und die Eigenwerte von f ( A ) {\displaystyle f(A)} erhält man durch Anwendung von f {\displaystyle f} auf die Eigenwert von A {\displaystyle A} , das heißt f ( λ 1 ) , , f ( λ n ) {\displaystyle f(\lambda _{1}),\dots ,f(\lambda _{n})} .
  • Es spielt keine Rolle, welche Reihenfolge die Jordan-Blöcke haben, das resultierende f ( A ) {\displaystyle f(A)} wird dasselbe sein.

Beispiel

Seien die Jordan-Blöcke

J 1 = ( 2 1 0 2 ) , J 2 = ( 1 1 0 1 ) {\displaystyle J_{1}={\begin{pmatrix}2&1\\0&2\end{pmatrix}},\qquad J_{2}={\begin{pmatrix}1&1\\0&1\end{pmatrix}}}

und die Funktion f ( x ) = x 3 {\displaystyle f(x)=x^{3}} gegeben, dann berechnet man

f ( J 1 ) = ( f ( 2 ) f ( 2 ) 0 f ( 2 ) ) = 4 ( 2 3 0 2 ) , f ( J 2 ) = ( f ( 1 ) f ( 1 ) 0 f ( 1 ) ) = ( 1 3 0 1 ) . {\displaystyle f(J_{1})={\begin{pmatrix}f(2)&f'(2)\\0&f(2)\end{pmatrix}}=4{\begin{pmatrix}2&3\\0&2\end{pmatrix}},\qquad f(J_{2})={\begin{pmatrix}f(1)&f'(1)\\0&f(1)\end{pmatrix}}={\begin{pmatrix}1&3\\0&1\end{pmatrix}}.}

Es lässt sich leicht überprüfen, dass die Resultate mit J 1 3 {\displaystyle J_{1}^{3}} und J 2 3 {\displaystyle J_{2}^{3}} übereinstimmen.

Nun ist

f ( A ) = Z f ( J ) Z 1 {\displaystyle f(A)=Zf(J)Z^{-1}}

mit

f ( J ) = ( f ( J 1 ) 0 0 f ( J 2 ) ) = ( 8 12 0 0 0 8 0 0 0 0 1 3 0 0 0 1 ) . {\displaystyle f(J)={\begin{pmatrix}f(J_{1})&\mathbf {0} \\\mathbf {0} &f(J_{2})\end{pmatrix}}={\begin{pmatrix}8&12&0&0\\0&8&0&0\\0&0&1&3\\0&0&0&1\end{pmatrix}}.}

Definition 2 (Polynominterpolation)

Sei f {\displaystyle f} auf dem Spektrum von A C n × n {\displaystyle A\in \mathbb {C} ^{n\times n}} definiert. Weiter sei φ {\displaystyle \varphi } das Minimalpolynom von A {\displaystyle A} , das heißt das monische Polynom mit dem kleinsten Grad, so dass φ ( A ) = 0 {\displaystyle \varphi (A)=0} . Seien λ 1 , , λ s {\displaystyle \lambda _{1},\dots ,\lambda _{s}} die eindeutigen Eigenwerte und m i {\displaystyle m_{i}} die Größe des größten Jordan-Blockes zum Eigenwert λ i {\displaystyle \lambda _{i}} .

Das Polynom der Hermiteinterpolation P {\displaystyle P} besitzt den Grad

deg ( P ) i = 1 s m i = deg ( φ ) {\displaystyle \operatorname {deg} (P)\leq \sum \limits _{i=1}^{s}m_{i}=\operatorname {deg} (\varphi )}

und erfüllt

P ( j ) ( λ i ) = f ( j ) ( λ i ) , j = 0 , , m i 1 , i = 1 , , s {\displaystyle P^{(j)}(\lambda _{i})=f^{(j)}(\lambda _{i}),\quad j=0,\dots ,m_{i}-1,\quad i=1,\dots ,s}

Die Matrixfunktion ist definiert als[1]

f ( A ) := P ( A ) . {\displaystyle f(A):=P(A).}

Erläuterungen

  • Diese Methode basiert darauf, dass G ( A ) {\displaystyle G(A)} für ein beliebiges Polynom G {\displaystyle G} vollständig durch die Auswertung der Eigenwerte G ( λ i ) {\displaystyle G(\lambda _{i})} bestimmt ist.
  • Es ist wichtig zu verstehen, dass das Polynom P {\displaystyle P} von den Werten von f {\displaystyle f} auf dem Spektrum von A {\displaystyle A} abhängt.

Beispiel

Sei p ( x ) = 1 3 ( x + 2 ) {\displaystyle p(x)={\tfrac {1}{3}}(x+2)} das Polynom, welche die oben aufgeführten Interpolationsbedingungen erfüllt. Dann ist für A C 2 × 2 {\displaystyle A\in \mathbb {C} ^{2\times 2}}

p ( A ) = 1 3 ( A + 2 I 2 ) . {\displaystyle p(A)={\tfrac {1}{3}}(A+2I_{2}).}

Definition 3 (Cauchyscher Integralsatz)

Sei A C n × n {\displaystyle A\in \mathbb {C} ^{n\times n}} und f {\displaystyle f} sei analytisch auf und innerhalb einer geschlossenen Kontur Γ {\displaystyle \Gamma } , welche das Spektrum σ ( A ) {\displaystyle \sigma (A)} umschließt. Die Matrixfunktion ist definiert als

f ( A ) := 1 2 π i Γ f ( z ) ( z I n A ) 1 d z , {\displaystyle f(A):={\frac {1}{2\pi i}}\int _{\Gamma }f(z)(zI_{n}-A)^{-1}dz,}

wobei I n {\displaystyle I_{n}} die Identitätsmatrix ist.[1]

Die Einträge der Matrix f ( A ) {\displaystyle f(A)} sind explizit

f k j = 1 2 π i Γ f ( z ) e k T ( z I n A ) 1 e j d z , k = 1 , , n , j = 1 , , n {\displaystyle f_{kj}={\frac {1}{2\pi i}}\int _{\Gamma }f(z)e_{k}^{\mathrm {T} }(zI_{n}-A)^{-1}e_{j}dz,\quad k=1,\dots ,n,\quad j=1,\dots ,n}

wobei e k , e j {\displaystyle e_{k},e_{j}} die entsprechenden Einheitsvektoren sind.

Erläuterungen

  • Da die Kontour Γ {\displaystyle \Gamma } um das Spektrum herum geht, gilt Γ σ ( A ) = {\displaystyle \Gamma \cap \sigma (A)=\emptyset } und die Resolvente
R ( A , z ) = ( z I n A ) 1 . {\displaystyle R(A,z)=(zI_{n}-A)^{-1}.}
existiert.

Äquivalenz der Definitionen

Die ersten beiden Definition sind äquivalent:[1]

Definition 1 Definition 2 {\displaystyle {\text{Definition 1}}\equiv {\text{Definition 2}}}

Wenn f {\displaystyle f} zusätzlich analytisch auf und innerhalb der Kontour Γ {\displaystyle \Gamma } ist, dann sind alle drei Definitionen äquivalent

Definition 1 Definition 2 Definition 3 . {\displaystyle {\text{Definition 1}}\equiv {\text{Definition 2}}\equiv {\text{Definition 3}}.}

Eigenschaften

Sei A C n × n {\displaystyle A\in \mathbb {C} ^{n\times n}} und f {\displaystyle f} auf dem Spektrum von A {\displaystyle A} definiert. Dann gilt[2]

  • f ( A ) {\displaystyle f(A)} und A {\displaystyle A} kommutieren, das heißt A f ( A ) = f ( A ) A {\displaystyle Af(A)=f(A)A} respektive für den Kommutator gilt [ A , f ( A ) ] = 0 {\displaystyle [A,f(A)]=0} .
  • f ( A ) = f ( A ) {\displaystyle f(A^{*})=f(A)^{*}} .
  • f ( X A X 1 ) = X f ( A ) X 1 {\displaystyle f(XAX^{-1})=Xf(A)X^{-1}} .
  • Die Eigenwerte von f ( A ) {\displaystyle f(A)} sind f ( λ i ) {\displaystyle f(\lambda _{i})} , wobei λ i {\displaystyle \lambda _{i}} die Eigenwerte von A {\displaystyle A} sind.
  • Falls A = diag ( A 1 , A 2 , , A p ) {\displaystyle A=\operatorname {diag} (A_{1},A_{2},\dots ,A_{p})} , wobei A 1 , A 2 , , A p {\displaystyle A_{1},A_{2},\dots ,A_{p}} Matrizenblöcke auf der Diagonale sind, dann gilt f ( A ) = diag ( f ( A 1 ) , f ( A 2 ) , , f ( A p ) ) {\displaystyle f(A)=\operatorname {diag} (f(A_{1}),f(A_{2}),\dots ,f(A_{p}))} .
  • f ( I p A ) = I p f ( A ) {\displaystyle f(I_{p}\otimes A)=I_{p}\otimes f(A)} , wobei {\displaystyle \otimes } das Kronecker-Produkt ist.
  • f ( A I p ) = f ( A ) I p {\displaystyle f(A\otimes I_{p})=f(A)\otimes I_{p}} , wobei {\displaystyle \otimes } das Kronecker-Produkt ist.

Literatur

  • Nicholas Higham: Functions of Matrices: Theory and Computation. Hrsg.: SIAM, Philadelphia (= Other Titles in Applied Mathematics). 2008, ISBN 978-0-89871-646-7. 
  • Gene H. Golub und Charles F. Van Loan: Matrix Computations. Hrsg.: Johns Hopkins University Press (= Johns Hopkins Studies in the Mathematical Sciences). 2013, ISBN 978-1-4214-0794-4. 

Einzelnachweise

  1. a b c d e f Nicholas Higham: Functions of Matrices: Theory and Computation. Hrsg.: SIAM, Philadelphia. 2008, ISBN 978-0-89871-646-7, S. 3–8. 
  2. Nicholas Higham: Functions of Matrices: Theory and Computation. Hrsg.: SIAM, Philadelphia. 2008, ISBN 978-0-89871-646-7, S. 10.