+ All Categories
Home > Documents > [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

[Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Date post: 08-Dec-2016
Category:
Upload: wolf
View: 222 times
Download: 5 times
Share this document with a friend
177

Click here to load reader

Transcript
Page 1: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Kapitel 4

Eigenwerte und Normalformen von Matrizen

4.1 Basiswechsel und Koordinatentransformationen

In diesem Abschnitt ist K ein beliebiger Körper. „Vektorraum“ bedeutet stets „K-Vektor-raum“. Ist u1, . . . , un eine Basis des Vektorraums V, so lässt sich jeder Vektor x ∈ V alsLinearkombination x = x1u1+. . .+xnun mit (durch x) eindeutig bestimmten x1, . . . , xn ∈ Kdarstellen. Diese Körperelemente x1, . . . , xn heißen Komponenten von x oder Koordina-ten von x in der Basis u1, . . . , un.1 Wir wollen hier der Frage nachgehen, wie sich dieseKoordinaten des Vektors x ändern, wenn wir ihn in einer anderen Basis w1, . . . ,wn ∈ Ventwickeln. Dazu schreiben wir zuerst die neuen Basisvektoren wi als Linearkombinatio-nen der alten Basisvektoren ui:

w1 =

n∑ν=1

aν1uν, . . . , wn =

n∑ν=1

aνnuν . (4.1)

Die Koordinaten aνμ der neuen Basisvektoren wμ in der alten Basis bilden die Spalten

einer Matrix

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝a1

1 · · · a1n

......

an1 · · · an

n

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ K(n,n) . (4.2)

Diese Matrix A ist eine Übergangsmatrix, mit den Koordinaten des i-ten (neuen)Basisvektors wi als i-te Spalte.

1 Dass die Indizes jetzt oben angebracht sind, ist mathematisch bedeutungslos, mnemotechnisch aberhoffentlich von Vorteil: Über die „hochgestellt-tiefgestellt“-auftretenden Indizes wird summiert.

383P. Knabner, W. Barth, Lineare Algebra, Springer-Lehrbuch, DOI 10.1007/978-3-642-32186-3_4, © Springer-Verlag Berlin Heidelberg 2013

Page 2: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

384 4 Eigenwerte und Normalformen von Matrizen

Definition 4.1

Seien B = (u1, . . . , un), B′ = (w1, . . . ,wn) Basen eines K-Vektorraums V . Dann heißtA ∈ K(n,n) mit (4.2) und (4.1) Übergangsmatrix von B nach B′.

Bisher wurden für eine Matrix A die Komponenten mit aν,μ indiziert, wobei ν der Zeilen-index war und μ der Spaltenindex. In der Notation von (4.2) werden die Komponenten vonÜbergangsmatrizen A nun mit aν

μ geschrieben. Für Übergangsmatrizen gilt somit:

Die hochgestellten Indizes sind die Zeilenindizes.Die tiefgestellten Indizes sind die Spaltenindizes.

A ist eine spezielle Darstellungsmatrix. Sie stellt bezüglich der Basis u1, . . . , un eine lineareAbbildung dar, und zwar diejenige Abbildung, welche

u1 �→ w1, . . . , un �→ wn

abbildet und dadurch nach Hauptsatz 2.23 eindeutig bestimmt ist. Da die w1, . . . ,wn eineBasis von V bilden, ist Rang(A) = n, die Übergangsmatrix A ist invertierbar. Ein Vektorx ∈ V schreibt sich nun auf die zwei Weisen

x =∑n

1 xνuν =∑n

1 yμwμ

alte Koordinaten: neue Koordinaten:⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝x1

...xn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝y1

...yn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

die durch folgende Beziehung verknüpft sind:

n∑ν=1

xνuν = x =n∑

μ=1

yμwμ =

n∑μ=1

⎛⎜⎜⎜⎜⎜⎝ n∑ν=1

aνμuν

⎞⎟⎟⎟⎟⎟⎠ = n∑ν=1

⎛⎜⎜⎜⎜⎜⎜⎝ n∑μ=1

aνμy

μ

⎞⎟⎟⎟⎟⎟⎟⎠ uν .

Daraus folgt für die Koordinaten:

Alte Koordinaten =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝x1

...xn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ =⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝a1

1 · · · a1n

......

an1 · · · an

n

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝y1

...yn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

anders formuliert:Alte Koordinaten = A „mal“ neue Koordinaten

bzw.

neue Koordinaten = A−1 „mal“ alte Koordinaten. (4.3)

(4.3) bedeutet natürlich nicht, dass A−1 bestimmt werden muss, sondern nur, dass das LGSfür y

Page 3: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.1 Basiswechsel und Koordinatentransformationen 385

Ay = x

gelöst werden muss. Ist bei K = K A orthogonal bzw. unitär, d. h. A−1 = A†, so ist (4.3)explizit zu berechnen. Dieses Transformationsverhalten, welches die Koordinaten einesVektors x ∈ V aufweisen, heißt kontravariantes Transformationsverhalten. (Die Koordina-ten transformieren sich „gegenläufig“ zur Übergangsmatrix.)

Beispiel 4.2 (Geometrie) Die Kontravarianz des Transformationsverhaltens bedeutet geo-metrisch folgendes. Der Transformation eines Koordinatensystems mit A ∈ K(n,n) ent-spricht die Transformation der betrachteten Teilmenge M von Kn mit A−1. Einer FolgeA = AkAk−1 · · · A1 von Transformationen des Koordinatensystems (mit A1 als Erster) ent-spricht demnach A−1 = A−1

1 A−12 · · ·A−1

k als Transformation von M (mit A−1k als Erster).

Sind insbesondere bei K = K die Ai orthogonal bzw. unitär, dann ist A−1 = A†1 · · · A†k . ◦Ein anderes Transformationsverhalten besitzen die Vektoren des Dualraums V∗. Um daszu bestimmen wählen wir in V∗ die Dualbasen zu der zur Übergangsmatrix A gehörendenalten Basis u1, . . . , un und der neuen Basis {w, . . . ,wn}:

f 1, · · · , f n mit f μ(uν) = δμν (alt) und

g1, · · · , gn mit g j(wi) = δji (neu)

– angepasst wird hier somit auch das Kronecker-Symbol δ j,i als δji geschrieben. –

Jetzt entwickeln wir die alte Dualbasis in der neuen

f μ =

n∑j=1

cμjg

j ,

hier wird nun anders als bei (4.1) der Summationsindex der Koordinaten tiefgestellt undfolgerichtig die Indizierung der Basen hochgestellt. Die zugehörige Übergangsmatrix mitC := (cμ

j )μ, j ist also Ct. Der Grund für diese Schreibweise ergibt sich aus

f μ(w j) =n∑

k=1

cμkg

k(w j) =n∑

k=1

cμkδ

kj = cμ

j

und andererseits

f μ(w j) = f μ

⎛⎜⎜⎜⎜⎜⎝ n∑ν=1

aνjuν

⎞⎟⎟⎟⎟⎟⎠ = n∑ν=1

aνj f μ(uν) =

n∑ν=1

aνjδ

μν = aμ

j ,

also cμj = aμ

j und damit:

Zur linearen Abbildung gμ �→ f μ gehört die Matrix At,zur linearen Abbildung f μ �→ gμ gehört die Matrix (At)−1.

Im Vektorraum V∗ gehört folglich zum Übergang von der alten Basis f 1, . . . , f n zur neuenBasis g1, . . . , gn die Übergangsmatrix (At)−1. Jetzt wenden wir für diesen Basiswechsel dasan, was wir soeben ganz allgemein über Koordinatentransformationen und Übergangsma-

Page 4: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

386 4 Eigenwerte und Normalformen von Matrizen

trizen gesehen haben:

Alte duale Koordinaten = (At)−1 „mal“ neue duale Koordinaten bzw.neue duale Koordinaten = At „mal“ alte duale Koordinaten.

Richtig „schön“ wird diese Formel erst, wenn wir die Koordinaten eines Vektors im Dual-raum als Zeilenvektor schreiben und dann die letzte Gleichung transponieren:

Neue duale Koordinaten = alte duale Koordinaten „mal“ A .

Dieses Transformationsverhalten heißt kovariant.

Es wurde gezeigt:

Theorem 4.3: Koordinatentransformation

Seien V ein K-Vektorraum, B und B′ Basen von V . Sei A ∈ K(n,n) die Übergangs-matrix nach (4.2).Dann transformieren sich die Koordinaten x ∈ Kn bezüglich B zu den Koordinateny ∈ Kn bezüglich B, gemäß

y = A−1x (kontravariant).

Sind B∗ bzw. B′∗ die jeweils dualen Basen von V∗, dann transformieren sich dieKoordinaten bezüglich B∗, α ∈ K(1,n) zu denen bezüglich B∗, β ∈ K(1,n), gemäß

β = αA (kovariant).

Jetzt ist es wohl angebracht, einige - hoffentlich klärende - Worte zur Notation zu verlieren:

• Vektoren, in ihrer ganzen Allgemeinheit, sind Elemente eines Vektorraums. Dieserkann ziemlich unanschaulich sein: Ein Dualraum, ein Quotientenraum, ein Funk-tionenraum usw. Jede Veranschaulichung solcher Vektoren versagt. Nur über dieabstrakte Theorie der Vektorräume gelingt es, solche Vektoren zu beschreiben.

• Ein Vektor des Anschauungsraums, „mit einem Pfeilchen vorne dran“, ist ein Ele-ment des Zahlenraums Rn, und wird durch ein n-Tupel reeller Zahlen gegeben.Dieses n-Tupel können wir wahlweise als Spalte oder als Zeile schreiben. Darauf,auf die Systematik der Indizes, kommt es nicht an.

• Hat man einen endlichdimensionalen Vektorraum und darin eine Basis, so gehörtzu jedem Vektor des Vektorraums sein Koordinatenvektor, ein n-Tupel von Körper-elementen (d. h. Zahlen.) Um die Koordinaten von den Vektoren zu unterscheiden,wird der Index der Koordinaten oben notiert und der Vektor wird fett geschrieben:

Page 5: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.1 Basiswechsel und Koordinatentransformationen 387

x =n∑

ν=1

xνuν .

Einen Koordinatenvektor eines Vektors aus dem Vektorraum V wollen wir uns im-mer als Spaltenvektor vorstellen, sodass seine oberen Indizes die Zeile angeben.

• Hingegen den Koordinatenvektor eines Vektors im Dualraum V∗, bezüglich derDualbasis, wollen wir uns immer als Zeilenvektor vorstellen. Die Dualkoordinatenbekommen ihre Indizes unten, weil sie sich kovariant transformieren, d. h. so wiedie Übergangsmatrix die ursprünglichen Basisvektoren. Untere Indizes geben so-mit die Spalte an. Die Zeilenschreibweise ist in Übereinstimmung mit der Darstel-lung von ϕ ∈ (Rn)∗ als ϕ(x) = (a . x) = at x über den Rieszschen Darstellungssatz(3.48).

Eine gewisse Logik bekommt dieses System, wenn man sich folgende Version der Ein-steinschen2 Summenkonvention zu eigen macht: Kommen in einer Formel zwei gleicheIndizes vor, einer unten und einer oben, so muss darüber automatisch summiert werden,auch wenn kein Summenzeichen vorhanden ist. Damit ist sodann

∑xνuν dasselbe wie xνuν.

Das Skalarprodukt, d. h. das Produkt eines Zeilenvektors mit einem Spaltenvektor, schreibtsich dann

(c1, . . . , cn) ·⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝x1

...xn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = cνxν .

Nicht nur Koordinaten von Vektoren aus einem Vektorraum V oder von Vektoren im Dual-raum V∗ ändern sich bei Koordinatentransformationen, sondern auch Matrizen zu linearenAbbildungen. Dies müssen wir als Nächstes untersuchen.

Sei dazu Φ : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W.Zudem seien u1, . . . , un ∈ V und w1, . . . ,wm ∈ W Basen und es sei

C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝c1

1 · · · c1n

......

cm1 · · · cm

n

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠die Darstellungsmatrix gemäß Hauptsatz 2.23, welche die Abbildung Φ in diesen Basenbeschreibt, d. h.

Φ(uν) =m∑

i=1

ciνwi .

Wir wechseln zu neuen Basen u′1, . . . , u′n in V und w′1, . . . ,w

′m in W, d. h.:

2 Albert Einstein ∗14. März 1879 in Ulm †18. April 1955 in Princeton

Page 6: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

388 4 Eigenwerte und Normalformen von Matrizen

Neue Basis Beziehung zur alten Basis Übergangsmatrix

u′1, . . . , u′n u′μ =

∑nν=1 aν

μuν A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝a1

1 · · · a1n

......

an1 · · · an

n

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠w′1, . . . ,w

′m w′j =

∑mi=1 bi

jwi B =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝b1

1 · · · b1m

......

bm1 · · · am

m

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠und berechnen die Darstellungsmatrix C′ für die Abbildung Φ bezüglich der neuen Basen

Φ(u′μ) =m∑

j=1

(c′) jμw′j =

m∑j=1

m∑i=1

(c′) jμbi

jwi =

m∑i=1

⎛⎜⎜⎜⎜⎜⎜⎝ m∑j=1

(c′) jμbi

j

⎞⎟⎟⎟⎟⎟⎟⎠wi ,

u′μ =n∑

ν=1

aνμuν ⇒ Φ(u′μ) =

n∑ν=1

aνμΦ(uν) =

n∑ν=1

m∑i=1

aνμci

νwi =

m∑i=1

⎛⎜⎜⎜⎜⎜⎝ n∑ν=1

aνμci

ν

⎞⎟⎟⎟⎟⎟⎠wi .

Durch Koeffizientenvergleich findet man hieraus

n∑ν=1

ciνa

νμ =

m∑j=1

bij(c′) j

μ für jedes i ∈ {1, . . . , m}

oder in Form eines Matrizenprodukts CA = BC′ bzw.

Neue Darstellungsmatrix

C′ = B−1CA .

Hier sind C,C′ ∈ K(m,n), B ∈ K(m,m) und A ∈ K(n,n).

Es wurde also bewiesen:

Theorem 4.4: Darstellungsmatrix unter Basiswechsel

Seien V, W zwei n- bzw. m-dimensionale K-Vektorräume, B1, B2 und auch B′1, B′2Basen von V bzw. W. Sei Φ ∈ Hom(V, W) mit Darstellungsmatrix C ∈ K(m,n) be-züglich B1, B2 und C′ Darstellungsmatrix ∈ K(m,n) bezüglich B′1, B′2.Ist A die Übergangsmatrix von B1 nachB′1 und B die Übergangsmatrix von B2 nachB′2, dann ist das folgende Diagramm kommutativ:

Page 7: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.1 Basiswechsel und Koordinatentransformationen 389

Kn KmC

KmKnC′

B−1BA−1A (4.4)

Basistransformationen erzeugen daher über ihre Übergangsmatrizen A ∈ GL(n, K), B ∈GL(m, K) eine neue Darstellung gemäß (4.4). Andererseits erzeugen A ∈ GL(n, K), B ∈GL(m, K) Basistransformationen gemäß (4.1), (4.2) mit (4.4) als Konsequenz.

Satz 4.5: Normalform bei beliebigem Basiswechsel

Es seien V, W endlichdimensionale K-Vektorräume. Es sei Φ : V → W eine lineareAbbildung vom Rang r. Dann gibt es Basen in V und W, in denen Φ die Darstel-lungsmatrix

dim(W)

{(1r 00 0

)︸����︷︷����︸

dim(V)

hat.

Beweis: Es sei C ∈ K(m,n) die Matrix für Φ bezüglich beliebiger, aber fest gewählterBasen von V und W. Es ist zu zeigen, dass es invertierbare Matrizen A ∈ GL(n, K) undB ∈ GL(m, K) gibt, derart, dass das Produkt B−1CA die angegebene Form hat. Dies istschon in (2.144) gezeigt worden. �

Dieser Satz ist eine Formulierung des Homomorphiesatzes 3.37 bzw. des Isomorphie-satzes 2.77 in der Sprache der Matrizen. Der Sinn seiner Aussage besteht darin, dass mandurch voneinander unabhängige Basiswechsel im Urbild- und im Bildraum ihre Matrizenauf eine ganz einfache Normalform bringen kann, die nur vom Rang der linearen Abbil-dung abhängt. Andererseits zeigt dies auch, dass die Freiheit der unabhängigen Basiswahlim Urbild- und Bildraum nur noch den Rang als invariante Information lässt.

Völlig anders ist die Situation für lineare Abbildungen eines Vektorraums in sich selbst.Dann ist nämlich der Bildraum W gleich dem Urbildraum V , wir haben sinnvollerweisenur eine einzige Basis, die wir wechseln können, es ist in obiger Formel B = A zu setzen.Bei einem Basiswechsel des Vektorraums V mit Übergangsmatrix A wird die Matrix C zueiner linearen Abbildung Φ : V → V in

C′ = A−1CA

Page 8: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

390 4 Eigenwerte und Normalformen von Matrizen

transformiert. Die Abschnitte bis einschließlich 4.3 sind der Frage nach einer möglichsteinfachen Form C′, auf welche wir die Matrix C transformieren können, gewidmet.

Definition 4.6

Zwei Matrizen C,C′ ∈ K(n,n) heißen ähnlich, wenn es eine invertierbare Matrix A ∈GL(n, K) gibt, so dass

C′ = A−1CA

bzw. im kommutativen Diagramm

Kn KnC

KnKnC′

A−1AA−1A

Man sagt auch: C′ ergibt sich aus C durch eine Ähnlichkeitstranformation.C ∈ K(n,n) heißt über K diagonalisierbar, wenn C ähnlich ist zu einer Diagonal-

matrix C′ = diag(λi) mit λi ∈ K, i = 1, . . . , n.

Die diagonalisierbaren Matrizen sind daher genau diejenigen, die durch gemeinsamen Ba-siswechsel in Urbild- und Bildraum Kn Diagonalgestalt erhalten. Die Art der dafür not-wendigen Basen wird in Abschnitt 4.2 studiert. Diese Ähnlichkeit von Matrizen ist eineÄquivalenzrelation (Abschnitt A, Definition A.20):

• Reflexivität: A = 1n ⇒ C = 1−1n C1n ,

• Symmetrie: C′ = A−1CA⇒ C = (A−1)−1C′A−1 ,• Transitivität: Aus C′ = A−1CA und C′′ = B−1C′B folgt C′′ = B−1A−1 C AB =

(AB)−1 C AB .

Für einen endlichdimensionalen K-Vektorraum V können Begriffe für Matrizen, die invari-ant unter Ähnlichkeitstransformationen sind, also auf Φ ∈ Hom(V, V), übertragen werden,indem sie über die Darstellungsmatrix für eine fest gewählte Basis und damit genauso auchfür alle anderen Basen definiert werden. Zum Beispiel:

Definition 4.7

Sei V ein endlichdimensionaler K-Vektorraum, Φ ∈ HomK(V, V), C die Darstel-lungsmatrix bezüglich einer fest gewählten Basis, dann heißt

Page 9: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.1 Basiswechsel und Koordinatentransformationen 391

det(Φ) := det(C)

die Determinante von Φ.

Ist nämlich C′ die Darstellungsmatrix bezüglich einer anderen Basis, so gibt es ein inver-tierbares A mit C′ = A−1C A und nach dem Determinanten-Multiplikations-Satz (Theo-rem 2.111) ist

det(C′) = det(A−1C A) = det(A−1) det(C) det(A) = (det(A))−1 det(C) det(A) = det(C) .

Damit können wir als Teilmenge von GL(V), die auch bezüglich der Komposition eineGruppe darstellt, einführen (in Erweiterung von (2.151))

SL(V) := {Φ ∈ GL(V) : detΦ = 1} .

Bemerkung 4.8 Auch die in (4.4) eingeführte Relation auf K(m,n), d. h.

C ∼ C′ :⇔ es gibt A ∈ GL(n, K), B ∈ GL(m, K), so dass C′ = B−1CA ,

ist eine Äquivalenzrelation auf K(m,n). Man sagt manchmal, C und C′ seien äquivalent.Satz 4.5 zeigt, dass sich hier sehr große Äquivalenzklassen ergeben, etwa bei m = n

[C] = GL(n, K) für alle C ∈ GL(n, K) .

In den Äquivalenzklassen der Ähnlichkeitsrelation möglichst einfache Repräsentanten zufinden, ist Aufgabe der nächsten Abschnitte. �Ist speziell K = K und haben die Vektorräume jeweils ein inneres Produkt 〈 . 〉 (d. h. wirbenutzen die gleiche Schreibweise für verschiedene Räume), so können auch Orthonor-malbasen (ONB) betrachtet werden. Als Vorbereitung zeigen wir:

Satz 4.9: Orthogonalität der Darstellungsmatrix bei ONB

Seien V, W zwei n- bzw. m-dimensionale euklidische oder unitäre K-Vektorräumeund Φ ∈ HomK(V, W). Weiter seien B1 ⊂ V und B2 ⊂ W zwei ONB und A ∈ K(m,n)

die Darstellungsmatrix von Φ bezüglich B1 und B2.Dann gilt:

Φ ist orthogonal bzw. unitär ⇐⇒ A ist orthogonal bzw. unitär.

Beweis: Dies folgt aus Bemerkung 2.62. Ein alternativer Beweis ist:Nach Satz 3.30 ist Φ genau dann unitär bzw. orthogonal, wenn Φ längenerhaltend ist.

Das gilt insbesondere für A ∈ K(m,n) mit dem euklidischen inneren Produkt. Außerdemlässt sich nach Bemerkungen 1.110, 1) der Koeffizientenvektorα eines Vektors x bezüglich

Page 10: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

392 4 Eigenwerte und Normalformen von Matrizen

einer ONB explizit angeben (Fourier-Koeffizienten) und damit gilt (siehe (1.89))

‖x‖ = ‖α‖ .Damit ergibt sich etwa aus Bemerkungen 2.6, 1)

Φ ist orthogonal bzw. unitär ⇔ ‖Φx‖ = ‖x‖ ⇔ ‖Aα‖ = ‖Φx‖ = ‖x‖ = ‖α‖ ,wobei α der Koeffizientenvektor von x bezüglichB1 und damit Aα der Koeffizientenvektorvon Φx bezüglich B2 ist. �

Dies bedeutet für einen Basiswechsel zwischen ONB:

Satz 4.10: Basiswechsel zu ONB

Seien V, W zwei n- bzw m-dimensionale euklidische oder unitäre K-Vektorräume.

1) Sind B und B′ ONB von V , so ist die Übergangsmatrix A ∈ K(n,n) dazu unitärbzw. orthogonal.

2) Sei Φ ∈ HomK(V, W). Die Basen B1,B′1 von V seien ONB. Genau dann, wenndie Basen B2,B′2 von W ONB sind, ändert sich die Darstellungsmatrix beim Basis-wechsel von B1 und B2 zu B′1 und B′2 zu

C′ = B−1CA = B†CA

und A, B sind unitär bzw. orthogonal.

3) Sei V = W = Kn mit dem euklidischen inneren Produkt versehen und seiC ∈ K(n,n), dann ist die Darstellungsmatrix der zugehörigen Abbildung x �→ Cxbezüglich einer ONB B = {u1, . . . , un}

C′ = A−1CA = A†CA .

Dabei ist A unitär bzw. orthogonal, nämlich

A = (u1, . . . , un) .

Beweis: Zu 1): Die Übergangsmatrix ist die Darstellungsmatrix in der Basis B zu derlinearen Abbildung, die B auf B′ abbildet. Diese ist nach Theorem 2.17 unitär bzw. ortho-gonal und damit folgt die Behauptung aus Satz 4.9.Zu 2): „⇒“ aus 1), „⇐“ folgt mit der Argumentation von 1), d. h. der Verweis auf Theo-rem 2.17.Zu 3): Die Abbildung x �→ Cx hat die Darstellungsmatrix C bezüglich der Standardbasis,so dass die Übergangsmatrix A von {e1, . . . , en} zuB nach 1) unitär bzw. orthogonal ist undA auch die angegebene Gestalt hat, woraus dies wiederholt ersichtlich ist. �

Page 11: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.1 Basiswechsel und Koordinatentransformationen 393

Die höheren Forderungen an die transformierende Matrix bzw. die neue Basis fassen wirin folgendem Begriff zusammen:

Definition 4.11

1) Sind C,C′ ∈ C(n,n), dann heißt C unitär ähnlich zu C′, wenn ein A ∈ O(n,C)existiert, so dass

A†CA = C′ bzw. CA = AC′ .

2) Sei C ∈ C(n,n). C heißt unitär diagonalisierbar, wenn C unitär ähnlich zu einerDiagonalmatrix ist.

3) Seien C,C′ ∈ R(n,n). C heißt orthogonal ähnlich zu C′, wenn ein A ∈ O(n,R)existiert, so dass

A†CA = C′ bzw. CA = AC′ .

4) Sei C ∈ R(n,n). C heißt orthogonal diagonalisierbar, wenn C orthogonal ähn-lich zu einer Diagonalmatrix in R(n,n) ist.

Bemerkungen 4.12

1) Genau wie „ähnlich“ sind auch „unitär ähnlich“ und „orthogonal ähnlich“ Äquivalenz-relationen. Man kann somit auch von der (unitären bzw. orthogonalen) Ähnlichkeit von Cund C′ reden.

2) In Ergänzung von Satz 4.10 gilt: C ist unitär bzw. orthogonal ähnlich zu C′ ⇔ C′ istdie Darstellungsmatrix der Abbildung x �→ Cx bezüglich einer komplexen bzw. reellenONB.

3) Offensichtlich gilt für C ∈ K(m,n): C ist unitär bzw. orthogonal diagonalisierbar⇒ C istdiagonalisierbar über K und für C ∈ R(n,n):

C ist diagonalisierbar über R =⇒ C ist diagonalisierbar über CC ist orthogonal diagonalisierbar =⇒ C ist unitär diagonalisierbar

Später werden wir sehen, dass keine der Implikationen i. Allg. umgedreht werden kann.�

Was Sie in diesem Abschnitt gelernt haben sollten

Begriffe:

• Übergangsmatrix

Page 12: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

394 4 Eigenwerte und Normalformen von Matrizen

• Ähnlichkeit von Matrizen, orthogonale bzw. unitäre Ähnlichkeit für reelle bzw.komplexe Matrizen

• Übertragung ähnlichkeitstransformationsinvarianter Begriffe von Matrizen auf Ho-momorphismen

Zusammenhänge

• Kontravariante und kovariante Koordinatentransformation (Theorem 4.3)• Darstellungsmatrix unter Basiswechsel (Theorem 4.4)

Aufgaben

Aufgabe 4.1 (K) Der Homomorphismus ϕ : R3 → R2 werde bezüglich der Standardba-sen durch die Matrix

M =(

0 2 21 −2 2

)beschrieben. Man berechne die Darstellungsmatrix von ϕ bezüglich der Basis

a1 = (0, 1, 1)t , a2 = (1, 0, 3)t , a3 = (1, 0, 1)t

des R3 und der Basis

b1 = (1, 1)t , b2 = (1,−1)t

des R2.

Aufgabe 4.2 (K) Geben Sie die Darstellungsmatrix der linearen Abbildung

f : R3 → R3 ,

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ x1

x2

x3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ �→⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ x2

x3

x1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠bezüglich der kanonischen Basis des R3 an und bezüglich der Basis

a1 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 101

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ , a2 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 011

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ , a3 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 110

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ R3 .

Aufgabe 4.3 (K) Im R4 seien die Vektoren

a1 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝1200

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , a2 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝2100

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , a3 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝0012

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , a4 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝0021

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

Page 13: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Aufgaben 395

gegeben. Weiter sei f : R4 → R4 eine lineare Abbildung mit

f (a1) = a2 , f (a2) = a1 , f (a3) = f (a4) = a3 + a4 .

Geben Sie die Darstellungsmatrix von f in der kanonischen Basis des R4 an.

Aufgabe 4.4 (T) Durch

C ∼ C′ :⇔ Es gibt invertierbare A ∈ K(m,m) bzw. B ∈ K(n,n) ,

so dass B−1CA = C′

wird auf K(m,n) eine Äquivalenzrelation definiert.

Page 14: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

396 4 Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie

4.2.1 Definitionen und Anwendungen

Das Problem, eine möglichst einfache Normalform für ähnliche oder orthogonal bzw. uni-tär ähnliche Matrizen zu finden, hat eine Bedeutung, die weit über die lineare Algebra, jaweit über die Mathematik hinausgeht. Dies soll an einem einfachen Differentialgleichungs-System aus der Mechanik illustriert werden. (Wie eine solche Differentialgleichung auf-gestellt wird, ist ein Problem der mathematischen Modellierung, Lösungsmethoden dafürbrauchen Analysis, Numerik und auch Lineare Algebra.)

Beispiel 3(6) – Massenkette Wir greifen wieder das Beispiel einer Massenkette auf, erst einmal nur fürden Fall von zwei Federn, die frei hängen (siehe Abbildung 1.2), also n = 3, m = 2. Es sollen keineäußeren Kräfte angreifen ( f = 0). Das sich nach (MM.41) ergebende LGS

Ax = 0 mit A =(c1 + c2 −c2−c2 c2

)= c

(2 −1−1 1

)(MM.71)

bei gleicher Federkonstante c = c1 = c2 hat die Ruhelage x = 0 als einzige Lösung. Werden die Massen-punkte x1, x2 daraus ausgelenkt, werden sie eine von der Zeit t abhängige Bewegung vollführen, d. h. zubestimmen sind Funktionen

xi : [t0,∞)→ R, i = 1, 2 ,

für die

x(t0) = x0 ∈ R2 – die Position – (MM.72)

und x(t0)(=

(x1(t0)x2(t0)

))= x′0 – die Geschwindigkeit – (MM.73)

zu einem Anfangszeitpunkt t0 gegeben sind.

– Der Punkt bezeichnet nunmehr die Ableitung nach t, bei vektorwertigen Funktionenkomponentenweise zu nehmen. –

Zur Bestimmung fehlt eine Gleichung, die sich aus (MM.71) ergibt, indem in die dort beschriebene Kräf-tebilanz die zusätzliche Kraft nach dem Newtonschen Gesetz

Kraft = Masse · Beschleunigung , d. h.

Kraft = mi · xi(t) ,

aufgenommen wird, wobei mi die Masse im Punkt i bezeichnet (Genaueres in Beispiel 3(1) bzw. Bei-spiel 3(3)), so dass sich LGS (MM.71) erweitert zu den gewöhnlichen Differentialgleichungen(

m1 x1m2 x2

)+ Ax = 0 , (MM.74)

die zusammen mit (MM.72) eine Anfangswertaufgabe bilden. Zur Vereinfachung sei m = m1 = m2, durchSkalierung kann dann m = c = 1 erreicht werden.

Für das konkrete Beispiel ändern wir die Notation von(x1(t)x2(t)

)in

(y1(t)y2(t)

).

Page 15: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 397

Für die Funktion

t �→(y1(t)y2(t)

)∈ R2

ist also die folgende Differentialgleichung zu lösen:(y1

y2

)=

(−2 11 −1

) (y1

y2

). (MM.75)

Die obigen Differentialgleichungen sind von Ordnung 2 (die zweite Ableitung tritt auf), linear (es tre-ten keine Produkte etc. von der gesuchten Funktion und ihren Ableitungen auf) und homogen (es tretenkeine von y unabhängigen Funktionen auf der rechten Seite auf: zusätzliche Anregungsterme) und als Fol-ge beider Eigenschaften ist die Lösungsmenge ein Vektorraum (Übung). In Abschnitt 8.6 werden dieseEigenschaften allgemeiner untersucht.

Das Problem besteht in der Kopplung der beiden Gleichungen für die beiden Koordinaten y1 und y2.Entsprechende skalare Gleichungen wie

x = λx für λ ∈ Rsind leicht zu lösen. Für λ < 0 sieht man durch direktes Einsetzen, dass

x(t) = α1 sin(μt) + α2 cos(μt)

für α1, α2 ∈ R, wobei μ :=√−λ ,

(MM.76)

Lösungen sind und auch alle Lösungen darstellen, da die Lösungsmenge ein R-Vektorraum ist, der (wieKenntnisse über gewöhnliche Differentialgleichungen zeigen, siehe auch Abschnitt 8.6) die Dimension 2hat. Für den Fall λ > 0 bekommt man

x(t) = α1 exp(νt) + α2 exp(−νt)

für α1, α2 ∈ R, wobei ν :=√λ ,

(MM.77)

was wieder direktes Nachrechnen und die Information, dass der Lösungsraum 2-dimensional ist, bestätigtund schließlich für λ = 0

x(t) = α1 + α2t . (MM.78)

Durch Anpassung der Koeffizienten α1, α2 können jeweils die zwei Anfangsvorgaben analog zu (MM.72)erfüllt werden. Falls die Koeffizientenmatrix

C =(−2 1

1 −1

)ähnlich zu einer Diagonalmatrix, d. h. diagonalisierbar über R wäre, etwa(

λ1 00 λ2

)= A−1CA ,

dann hätten wir für die Funktion (x1(t)x2(t)

):= A−1

(y1(t)y2(t)

)wegen

Page 16: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

398 4 Eigenwerte und Normalformen von Matrizen(y1

y2

)=

¨(A

(x1

x2

))= A

(x1

x2

)die Gleichung (

x1

x2

)= A−1C

(y1

y2

)= A−1CA

(x1

x2

)=

(λ1 00 λ2

) (x1

x2

).

Dies sind zwei entkoppelte Differentialgleichungen

x1 = λ1 x1, x2 = λ2 x2

für die beiden Komponenten. Diese können nach (MM.76) bzw. (MM.77) bzw. (MM.78) explizit gelöstwerden. Die Lösung des Ausgangssystems ergibt sich dann durch(

y1

y2

)= A

(x1

x2

),

d. h. durch Linearkombination von x1 und x2. Lässt man die Parameter αi1, α

i2 ∈ R in xi, i = 1, 2, frei, hat

man eine Darstellung des 4-dimensionalen Lösungsraums von (MM.75), durch Anpassung der Parameterkann die Anfangsvorgabe erfüllt werden (siehe unten Beispiel 3(7)).

Analoge Systeme 1. Ordnung, die dann auch linear und homogen sind, haben die Gestalt

y = Cy (MM.79)

für y : R → Rn bei gegebenem C ∈ R(n,n). Der Punkt bezeichnet weiterhin die Ableitung nach t, die hierkomponentenweise zu verstehen ist. Die entsprechende skalare Gleichung

x = λx, λ ∈ Rfür x : R→ R hat die allgemeine Lösung

x(t) = α exp(λt) (MM.80)

mit α ∈ R. �

Sei jetzt V ein K-Vektorraum und Φ : V → V eine K-lineare Abbildung. Wir fragen, wannes eine Basis B := {u1, . . . , un} von V gibt, in der Φ durch eine Diagonalmatrix

C = diag (λ1, . . . , λn)

beschrieben wird. Genau dann, wenn das so ist, gilt für die Basisvektoren u1, . . . , un

Φ(uν) = λνuν, ν = 1, · · · , n .

(Diese Vektoren werden durch Φ demnach nur gestreckt um den Faktor λν, ihre Richtungwird nicht geändert.) Es folgt: Für die Darstellungsmatrix C ∈ K(m,n) bezüglich B gilt

C = diag(λ1, . . . , λn)⇐⇒

Alle ui, i = 1, . . .n, sind Eigenvektoren (zum Eigenwert λi), wobei:

Page 17: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 399

Definition 4.13

Ein Vektor 0 � u ∈ V heißt Eigenvektor der linearen Abbildung Φ : V → V, wennein Skalar λ ∈ K existiert, sodass

Φ(u) = λu .

Insbesondere heißt 0 � x ∈ Kn ein Eigenvektor zur Matrix C ∈ K(n,n), wenn

Cx = λx .

Bemerkungen 4.14

1) Der Streckungsfaktor λ ist durch den Eigenvektor u und die lineare Abbildung Φ ein-deutig bestimmt, denn wenn Φ(u) = λ1 · u = λ2 · u, dann folgt (λ1 − λ2) · u = 0, folglichu = 0 (siehe Rechenregeln nach Definition 1.30).

*2) Ist Speziell V = Kn, so spricht man manchmal statt von Eigenvektoren genauer vonrechten Eigenvektoren und bezeichnet dann mit linken Eigenvektoren u ∈ Kn, u � 0,sodass

u†C = λu† . �

Definition 4.13 b

Der eindeutige Streckungsfaktor λ ∈ K heißt der Eigenwert zum Eigenvektor u.Die Menge

Kern(Φ − λ id) bzw. Kern(C − λ1) ,

d. h. die Menge der Eigenvektoren und zusätzlich der Vektor 0, heißt der Eigenraumvon Φ bzw. C zum Eigenwert λ.dimK Kern(Φ − λ id) bzw. dimK Kern(C − λ1) heißt die geometrische Vielfachheitvon λ.

Die Menge der Eigenvektoren ist also kein Vektorraum, da 0 kein Eigenvektor ist, aberwenn sie nicht verschwinden, sind Linearkombinationen von Eigenvektoren wieder Ei-genvektoren. Der Eigenraum zu einem Eigenwert λ ist somit immer mindestens eindimen-sional. Ist K unendlich, gibt es immer unendlich viele Eigenvektoren zu einem Eigenwert.Die Bemerkungen 4.14, 1) bedeutet sodann

Kern(C − λ11) ∩Kern(C − λ21) = {0}für verschiedene Eigenwerte λ1, λ2.

Page 18: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

400 4 Eigenwerte und Normalformen von Matrizen

Wir werden uns im Folgenden meist auf die Matrizenschreibweise beschränken oderzwanglos zwischen Matrizen- und Endomorphismenschreibweise hin und her gehen, dagilt:

Satz 4.15

Sei V ein endlichdimensionaler K-Vektorraum, Φ ∈ HomK(V, V), sei B eine Basisvon V und C ∈ K(n,n) die Darstellungsmatrix von Φ bezüglichB. Dann sind folgendeAussagen äquivalent:

(i) λ ∈ K ist Eigenwert von Φ zum Eigenvektor u ∈ V .

(ii) λ ∈ K ist Eigenwert von C zum Eigenvektor x ∈ Kn.

Dabei ist x der Koordinatenvektor von u bezüglich B.

Beweis: Sei B = {u1, . . . , un} und u =∑n

i=1 xiui, C = (cij)i, j. Dann gilt:

Φu = λu⇔n∑

i=1

xiΦui =n∑

j=1

λx ju j ⇔n∑

j=1

n∑i=1

c ji xiu j =

n∑j=1

λx ju j ⇔ Cx = λx .

Definition 4.16

Sei V ein n-dimensionaler K-Vektorraum Φ ∈ HomK(V, V).

σ(Φ) :={λ ∈ K : λ ist Eigenwert von Φ

}heißt das (Punkt-)Spektrum von Φ in K.

Bemerkungen 4.17

1) Satz 4.15 zeigt, dass für endlichdimensionale K-Vektorräume V alle Information ausdem Fall V = Kn, Φ = C ∈ K(n,n) gezogen werden kann. Der Fall unendlichdimensionalerV ist nicht vollständig mit Methoden der Linearen Algebra behandelbar (siehe Funktional-analysis).

2) Für unendlichdimensionale K-Vektorräume (für K = K) wird das Spektrum allgemeingefasst und ist i. Allg. eine Obermenge des Punkt-Spektrums (siehe Funktionalanalysisoder Definition 7.18). �

Page 19: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 401

Sind also u1, . . . , uk Eigenvektoren, dann gilt für V := span(u1, . . . , uk), dass

C · V ⊂ V ,

d. h. V ist invariant unter C, wobei:

Definition 4.18

Sei V ein K-Vektorraum, Φ ∈ HomK(V, V), U ⊂ V ein linearer Unterraum. U heißtinvariant unter Φ, wenn

Φ(U) ⊂ U .

Bemerkungen 4.19

1) Unter Missbrauch der deutschen Sprache spricht man auch von einem invarianten Un-terraum von Φ.

2) Sei U = span(u1, . . . , uk) und uk+1, . . . , un eine Ergänzung zu einer Basis B des n-dimensionalen Raums V .

U ist invariant unter Φ ∈ HomK(V, V), genau dann wenn die Darstellungsmatrix Cvon Φ bezüglich B die Gestalt

C =(

C1,1 C1,2

0 C2,2

)hat mit C1,1 ∈ K(k,k).

V := span(uk+1, . . . , un) ist invariant unter Φ ⇔ C1,2 = 0 .

Eigenvektoren unter den Basisvektoren führen dazu, dass die Blöcke C1,1 oder C2,2

weiter zerfallen, d. h. z. B. bis zu

C1,1 =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ1 0

. . .

0 λk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

wenn u1, . . . , uk Eigenvektoren sind, bis schließlich bei einer Basis nur aus Eigen-vektoren der Diagonalfall erreicht ist.

Page 20: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

402 4 Eigenwerte und Normalformen von Matrizen

Theorem 4.20: Tautologische Formulierung der Diagonalisierbarkeit

Die Matrix C ∈ K(n,n) ist ähnlich zu einer Diagonalmatrix, d. h. über K diagona-lisierbar genau dann, wenn der Vektorraum Kn eine Basis besitzt, die aus lauterEigenvektoren für C besteht.

Beweis: Dies braucht nicht mehr bewiesen zu werden, da es nur eine Zusammenfassungder obigen Diskussion ist. Weil es so wichtig ist, aber noch einmal:

Es gibt ein A = (u1, . . . , un) ∈ GL(K, n), d. h. mit ui als Bezeichung der Spalten, so dass

A−1CA = diag(λi) ⇔ CA = diag(λi)A ⇔ Cui = λiui für alle i = 1, . . . , n .

Insbesondere daher: Die Spalten der Übergangsmatrix sind somit genau die eine Basisbildenden Eigenvektoren. �

Analog zu Definition 4.6 setzt man:

Definition 4.21

Sei V ein K-Vektorraum. Φ ∈ HomK (V . V) heißt diagonalisierbar, wenn eine Basisvon V existiert, die nur aus Eigenvektoren von Φ besteht.

Bemerkung 4.22 Nach Satz 4.15 sind demnach für endlichdimensionales V äquivalent:

(i) Φ ∈ HomK(V, V) ist diagonalisierbar,

(ii) Die Darstellungsmatrix C von Φ bezüglich einer Basis B ist diagonalisierbar,

(iii) Die Darstellungsmatrix C von Φ bezüglich jeder Basis B ist diagonalisierbar. �Wir haben noch keine Aussage darüber, ob Eigenwerte und zugehörige Eigenvektorenexistieren und wie diese gefunden werden können. Die entscheidende (theoretische) Ideebesteht darin, zuerst Eigenwerte zu suchen:

Satz 4.23: Eigenwertgleichung

Ein Skalar λ ∈ K ist genau dann Eigenwert der Matrix C (zu einem Eigenvektor0 � u ∈ Kn), wenn gilt:

det(C − λ1n) = 0 .

Diese Gleichung für λ heißt Eigenwertgleichung.

Page 21: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 403

Beweis: Für einen Vektor u ∈ V ist

Cu = λu ⇔ (C − λ1n)u = 0 .

Es gibt genau dann einen Vektor 0 � u ∈ V mit dieser Eigenschaft, wenn

Rang(C − λ1n) < n (Hauptsatz 1.85) ,

und dies ist äquivalent mit

det(C − λ1n) = 0 (Theorem 2.111, 2)) . �

Bemerkungen 4.24

1) Es sei daran erinnert, dass wegen Satz 4.15 und Bemerkungen 4.17 1) die Charakte-risierung der Eigenwerte in Satz 4.23 statt für C ∈ K(m,n) ebenso für Φ ∈ HomK(V, V)gilt.

2) Nach Satz 4.23 sind daher äquivalent für C ∈ K(n,n):

0 ist Eigenwert von C ⇐⇒ det(C) = 0 ⇐⇒ C ist nicht invertierbar

und der Eigenraum zu λ = 0 ist gerade Kern C. In die Äquivalenzliste von Hauptsatz 1.85kann dann bei m = n noch aufgenommen werden:

(x) 0 ist kein Eigenwert von A. �

Beispiel 3(7) – Massenkette Wir suchen Eigenwerte der Matrix

C =(−2 1

1 −1

)aus Beispiel 3(6). Die Eigenwertgleichung für diese Matrix ist

det(C − λ12) = det(−2 − λ 1

1 −1 − λ

)= (−2 − λ)(−1 − λ) − 1 = λ2 + 3λ + 1 = 0 .

Die Nullstellen λ1,2 = 1/2(−3 ± √5

)dieser quadratischen Gleichung sind die Eigenwerte. Die zugehöri-

gen Eigenvektoren v berechnet man aus den linearen Gleichungssystemen

(C − λ112)u =(− 1

2 (1 +√

5)v1 + v2

v1 + 12 (1 − √5)v2

)=

(00

),

u(1) := s1 ·(

21 +√

5

), s1 ∈ R, s1 � 0 ,

(C − λ212)u =( 1

2 (−1 +√

5)v1 + v2

v1 + 12 (1 +

√5)v2

)=

(00

),

u(2) := s2 ·(

21 − √5

), s2 ∈ R, s2 � 0 .

Page 22: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

404 4 Eigenwerte und Normalformen von Matrizen

Diese Eigenvektoren sind linear unabhängig und damit eine Basis des R2, d. h. C ist über R diagonalisier-bar. Der Lösungsraum von (MM.75) hat also die Darstellung für A =

(u(1), u(2)

)(für s1 = s2 = 1)

y(t) = Ax(t) = x1(t)u(1) + x2(t)u(2) .

Dabei sind x1 und x2 Lösungen der skalaren Differentialgleichung zu λ = λ1 bzw. λ = λ2 nach (MM.76) -(MM.78). Also, da λ1 < 0, λ2 < 0:(

y1(t)y2(t)

)= (α1 sin(μ1t) + α2 cos(μ1t))

(2

1 +√

5

)+ (β1 sin(μ2t) + β2 cos(μ2t))

(2

1 − √5

)für α1,2, β1,2 ∈ R und

μ1 :=(

12

(3 − √5))1/2

, μ2 :=(

12

(3 +√

5))1/2

.

Der Lösungsraum ist aus diesem Grund 4-dimensional, die vier Freiheitsgrade können nach (MM.72)durch Vorgabe von

y1(t0), y1(t0), y2(t0), y2(t0) ,

d. h. durch Ausgangsposition und -geschwindigkeit für einen festen „Zeitpunkt“, festgelegt werden. �

Beispiel 3(8) – Massenkette Für die Massenkette mit konstanten Materialparameter im HookeschenGesetz (im Folgenden o. B. d. A. c = 1) können Eigenwerte und Eigenvektoren explizit angegeben werden.Wir betrachten den Fall mit beidseitiger Einspannung, d. h. A ∈ R(m,m) nach (MM.11) und den Fall ohnejede Einspannung, d. h. A ∈ R(n,n) nach (MM.15).

In beiden Fällen sind die „inneren“ Gleichungen 2, . . . , n − 1 jeweils gleich und lauten für das Eigen-wertproblem

−xj−1 + 2xj − xj+1 = λxj , j = 2, . . . , m − 1 .

Eine Lösungsfamilie im Parameter α ∈ [0, 2π] ist gegeben durch

λα = 2 − 2 cos α

uα = (vα, j) = (sin( jα)) j=1,...,m . (MM.81)

Dies entspricht dem trigonometrischen Additionstheorem

− sin(( j − 1)α) + 2 sin( jα) − sin(( j + 1)α) = (2 − 2 cos α) sin( jα) ,

das sich direkt mit eiϕ = cos(ϕ) + i sin(ϕ) als Imaginärteil der Identität

−ei( j−1)α + 2ei jα − ei( j+1)α = (2 − e−iα − eiα)ei jα = (2 − 2 cos α)ei jα

ergibt (i bezeichnet hierbei die imaginäre Einheit). Diese Argumentation zeigt, dass in (MM.81) sin auchdurch cos und j durch j + r für r ∈ R ersetzt werden kann.

Die Paramenter α (und r) müssen so gewählt werden, dass die verbliebenen Gleichungen 1 und n aucherfüllt sind:

A nach (MM.11):Hier kann bei Erweiterung von x ∈ Rm auf x = (xi)i=0,...,m+1 ∈ Rm+2 die Gleichung in 1 und m umge-schrieben werden zu

Page 23: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 405

(a) x0 = 0(b) −x0 + 2x1 − x2 = λx1(c) −xm−1 + 2xm − xm+1 = λxm(d) xm+1 = 0 .

Dabei stellt nur (d) eine Bedingung, nämlich sin((m + 1)α) = 0 , die

α :=kπ

m + 1für ein k ∈ Z

erzwingt. Für k = 1, . . . , m ergeben sich die Eigenwerte

λk := 2 − 2 coskπ

m + 1, k = 1, . . . , m (MM.82)

und dazu die Eigenvektoren u1, . . . , um ∈ Rm, wobei

uk = (vk, j) j =

(sin

(j

kπm + 1

))j=1,...,m

.

A nach (MM.15):Hier lautet die äquivalente Erweiterung

(a) x0 = x1(b) −x0 + 2x1 − x2 = λx1(c) −xm−1 + 2xm − xm+1 = λxm(d) xm = xm+1 ,

die erfüllt wird durch die Wahl

λk = 2 − 2 cos(

kπm

), k = 1, . . . , m − 1

uk = (vk, j) j =

(cos

((j − 1

2

)kπm

))j=1,...,m−1

.

Da die Zeilensummen von A alle verschwinden, kommt noch

λ0 = 0

u0 = (1, . . . , 1)t ,

d. h. der Fall k = 0, dazu. �

Bei der (theoretischen) Suche nach den Eigenwerten kommt es mithin darauf an, die Null-stellen λ der Funktion λ �→ det(C − λ · 1n) zu finden.

Definition 4.25

Sei C = (ci, j) ∈ K(n,n).

sp(C) := c1,1 + c2,2 + . . . + cn,n

heißt Spur von C .

Page 24: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

406 4 Eigenwerte und Normalformen von Matrizen

Die Spur einer Matrix A ∈ K(m,n) wird in der englischen Literatur oft mit tr(A) bezeichnet(von trace).

Satz 4.26

Es sei C = (ci, j) ∈ K(n,n). Die Funktion

χC : K ! λ �→ det(C − λ1n) ∈ K

ist ein Polynom vom Grad n. Dann gilt:

χC(λ) = (−1)nλn + (−1)n−1 · sp(C) · λn−1 + . . . + det(C) .

Beweis: Die Leibniz-Formel

χC(λ) =∑σ∈Σn

sign(σ) · (c1,σ(1) − λδ1,σ(1)) · . . . · (cn,σ(n) − λδn,σ(n))

zeigt, dass χC(λ) ein Polynom in λ vom Grad ≤ n ist. Man findet auch als Koeffizienten

bei λn (nur σ = id :) (−1)n ,bei λn−1 (nur σ = id :) (−1)n−1(c1,1 + . . . + cn,n) ,bei λ0 (betrachte λ = 0 :) det(C).

Bemerkung 4.27 Sei p ∈ K[x] ein Polynom n-ten Grades,

p(x) =n∑

i=0

aixi mit ai ∈ K, i = 0, . . . , n und an = 1 ,

dann gibt es mindestens ein C ∈ K(n,n), so dass

χC(λ) = p(λ) .

Dies gilt nämlich für die Begleitmatrix

C :=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 1 0. . .

. . .

. . .. . .

0. . . 1

−a0 · · · · · · · · · −an−1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠. (4.5)

Man erhält dies etwa durch die Entwicklung von det(C − λ1) nach der letzten Zeile (siehe Übung).

Page 25: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 407

Definition 4.28

Das Polynom χC(λ) = det(C − λ1n) heißt charakteristisches Polynom der MatrixC. Allgemein heißt für ein Φ ∈ HomK(V, V) bei einem endlichdimensionalen K-Vektorraum V auch

χΦ(λ) := det(Φ − λ id)

das charakteristische Polynom des Homomorphismus Φ. Sei λ ∈ K Eigenwert vonΦ, d. h. Nullstelle von χΦ. Ist λ eine k-fache Nullstelle, d. h. χΦ lässt sich schreibenals

χφ(λ) = (λ − λ)k p(λ)

mit

p ∈ Kn−k[x], p(λ) � 0 ,

so hat λ die algebraische Vielfachheit k.

Die Grundlagen für die Abdivision von Linearfaktoren zu Nullstellen finden sich im An-hang B, Satz B.21. Nach der Begründung der Wohldefinition von det(Φ) gemäß Satz 4.5kann dabei für Φ ∈ HomK(V, V) jede Darstellungsmatrix C, d. h. zu einer beliebig in Vgewählte Basis genommen werden. Dann hat −λ id immer die Darstellungsmatrix −λ1und man erhält jeweils das gleiche Polynom n-ten Grades (nach Satz 4.26). Dies bedeutetumformuliert:

Satz 4.29

Ähnliche Matrizen haben dasselbe charakteristische Polynom.

Beweis: Wenn C′ = A−1CA, dann ist in Wiederholung der Überlegung nach Definition 4.7

χC′ (λ) = det(A−1CA − λ1n) = det(A−1(C − λ1n)A)

= det(A)−1 · det(C − λ1n) · det(A) = χC(λ)

nach Theorem 2.111, 1). �

Satz 4.30: Ähnliche Matrizen

Ähnliche Matrizen haben

1) die gleiche Determinante,

Page 26: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

408 4 Eigenwerte und Normalformen von Matrizen

2) die gleiche Spur,

3) die gleichen Eigenwerte (bei gleicher algebraischer Vielfachheit).

Beweis: Folgt sofort aus Satz 4.29. �

Bemerkungen 4.31

1) Sei C ∈ K(n,n) diagonalisierbar, λ1, . . . , λn ∈ K seien die Eigenwerte, dann gilt

det(C) = λ1 · . . . · λn ,

sp(C) = λ1 + . . . + λn .

Sei C ähnlich zu D = diag(λi), dann gilt

det(C) = det(D) = λi · . . . · λn , sp(C) = sp(D) = λ1 + . . . + λn .

In Satz 4.53 wird die Aussage allgemein gezeigt werden.

2) Vergleicht man dies mit der LR-Zerlegung

PC = LR ,

P Permuations-, L normierte untere, R obere Dreiecksmatrix, dann gilt nach (2.154)

det(C) = det(P) det(R) = (−1)lr1,1 . . . rn,n .

Dies ist demnach für gerades l das Produkt der Eigenwerte und das Produkt der Pivotele-mente, die aber i. Allg. nicht identisch sind.

3) In der Situation von Bemerkungen 4.19, 2) gilt deswegen für das charakteristischePolynom von Φ bzw. C nach der Kästchenregel:

χΦ(λ) = det(C − λ1) = det(C1,1 − λ1k) det(C2,2 − λ1n−k) .

Die Eigenwerte von Φ bzw. C setzen sich also zusammen aus denen von C1,1 und C2,2.

4) Für K = K gilt: Seien A, B ∈ K(m,n), dann ist

sp(AB†) =∑m

j=1∑n

k=1 a j,kb j,k = A : B , (4.6)

d. h. sp(AB†) ist eine andere Darstellung für das in (3.22) eingeführte innere Produkt.Insbesondere gilt für A ∈ K(m,n):

‖A‖2F = sp(AA†) (4.7)

und damit folgt aus den Normeigenschaften

Page 27: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 409

A = 0⇔ sp(AA†) = 0 ,

sp(AB†) ≤ ‖A‖F‖B‖F = sp(AA†)1/2 sp(BB†)1/2 (4.8)

(Cauchy-Schwarz-Ungleichung). Wegen ‖A‖F = ‖A†‖F folgt aus (4.8) auch

sp(AB) ≤ ‖A‖F‖B‖F . �

Da nicht jedes nichtkonstante reelle Polynom reelle Nullstellen besitzt, gibt es also nachBemerkung 4.27 auch reelle Matrizen, die keine reellen Eigenwerte besitzen.

Beispiel 4.32 (Drehmatrix) Wir betrachten die Matrix

C =(cos(ϕ) − sin(ϕ)sin(ϕ) cos(ϕ)

),

welche eine Drehung um den Winkel ϕ in der Ebene R2 beschreibt. Ihr charakteristischesPolynom

χC(λ) = det(cos(ϕ) − λ − sin(ϕ)

sin(ϕ) cos(ϕ) − λ

)= (cos(ϕ) − λ)2 + sin2(ϕ)

hat die Nullstelle λ ∈ R, für welche λ = cos(ϕ) während sin(ϕ) = 0. Es gibt dafür nur dieFälle:

Winkel ϕ Eigenwert λ Drehung0 1 Identitätπ −1 Punktspiegelung

Dies ist auch anschaulich völlig klar: Bei einer echten Drehung (nicht um den Winkel 0oder π) ändert jeder Vektor seine Richtung. Ganz anders ist die Situation, wenn man Cals Matrix komplexer Zahlen auffasst, und Eigenwerte in C sucht. Diese sind Wurzeln derquadratischen Gleichung

λ2 − 2 cos(ϕ) λ + 1 = 0 ,

also λ1,2 = cos(ϕ) ± i · sin(ϕ) für ϕ ∈ [0, π] . ◦Allgemein kann jede reelle (n, n)-Matrix durch Komplexifikation auch als komplexe (n, n)-Matrix aufgefasst werden und hat als solche (nach Satz B.21, Hauptsatz B.33) mindestenseinen komplexen Eigenwert bzw. genauer k ≤ n komplexe Eigenwerte, deren algebraischeVielfachheiten sich zu n addieren (siehe Definition 4.28). Mit Satz 4.26 lässt sich dascharakteristische Polynom einer reellen oder komplexen Matrix C schreiben als

χC(λ) = (λ1 − λ) . . . (λn − λ) mit den komplexen Eigenwerten λ1, . . . , λn .

Die geometrische Interpretation komplexer Eigenwerte wird in (4.15) ff. klar werden. Manbeachte auch, dass eine reelle Matrix zu einem komplexen, nicht reellen Eigenwert keinerein reellen Eigenvektoren haben kann.

Page 28: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

410 4 Eigenwerte und Normalformen von Matrizen

Beispiel 4.33 Wir betrachten als einfachstes Beispiel eine reelle 2 × 2-Matrix, d. h.

A =(a bc d

)∈ R(2,2).

Dann ist

χA(λ) = λ2 − sp(A)λ + det(A)

und damit gilt mit δ := sp(A)2 − 4 det(A) = (a − d)2 + 4bc:

1) A hat zwei verschiedene reelle Eigenwerte, wenn δ > 0.2) A hat einen reellen Eigenwert mit algebraischer Vielfachheit 2, wenn δ = 0.3) A hat zwei zueinander komplex-konjugierte Eigenwerte, wenn δ < 0.

Im Fall 3), in dem keine reellen Eigenwerte vorliegen, werde A sodann als komplexe Ma-trix aufgefasst. Weiter gilt:

Ist A symmetrisch, b = c, dann hat A nur reelle Eigenwerte.

Nur A =(a 00 a

)hat einen Eigenwert der algebraischen Vielfachheit 2.

Insbesondere ist A diagonalisierbar.

(4.9)

Dies kann man wie folgt einsehen:

δ = (a − d)2 + 4b2 ≥ 0

sichert die Existenz reeller Eigenwerte, und

δ = 0⇔ a = d und b = 0

zeigt, dass nur Vielfache von 1 einen mehrfachen Eigenwert haben. Neben diesem Fall, in dem schonDiagonalgestalt vorliegt, hat somit A zwei Eigenräume V1 und V2 zu verschiedenen Eigenwerten λ1 undλ2.Sei x ∈ V1, y ∈ V2, x � 0, y � 0, dann folgt zum Beispiel aus x = αy, dass x auch Eigenvektor zu λ2ist im Widerspruch zu Bemerkungen 4.14 1), d. h. x, y sind linear unabhängig und damit V1 ⊕ V2 = R2 ,was in Theorem 4.42 allgemein gezeigt werden wird. Damit hat R2 eine Eigenvektorbasis, d. h. A istdiagonalisierbar. Dass symmetrische Matrizen allgemein (reell) diagonalisierbar sind, ist der Inhalt vonSatz 4.39.

◦Ziemlich offensichtlich sind die im folgenden Satz formulierten Beziehungen für Eigen-werte und Eigenvektoren. In 1) benutzen wir die Notation Ck, k ∈ N, für die k-te Potenzder Matrix C, wie sie in (2.42) definiert ist.

Satz 4.34: Eigenwerte abgeleiteter Matrizen

Die n×n-Matrix C ∈ K(n,n) habe den Eigenwert λ ∈ K mit zugehörigem Eigenvektorx ∈ Kn.

1) Dann ist x auch Eigenvektor

Page 29: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 411

a) für αC, α ∈ K, zum Eigenwert αλ,

b) für α1n +C, α ∈ K, zum Eigenwert α + λ,

c) für Ck zum Eigenwert λk,

d) für C−1 zum Eigenwert 1/λ, falls C invertierbar ist.

2) Auch die transponierte Matrix Ct besitzt den Eigenwert λ.

3) Falls K = C, dann ist λ Eigenwert für C zum Eigenvektor x, und λ ist auchEigenwert für C†. Hat also die reelle Matrix C den Eigenwert λ ∈ C zum Eigenvektorx ∈ Cn, so hat sie auch den Eigenwert λ zum Eigenvektor x ∈ Cn. (KomplexeEigenwerte reeller Matrizen treten in konjugierten Paaren auf.)

4) Ist C = (ci, j) eine obere (oder untere) Dreiecksmatrix, dann sind ihre Eigenwertegerade die Diagonaleinträge ci,i.

Beweis: Die Formeln in 1) sind offensichtliche Umformungen der EigenwertgleichungCx = λ·x. Mit Theorem 2.111, 3) hat die transponierte Matrix das gleiche charakteristischePolynom

det(Ct − λ1n) = det(C − λ1n)t = det(C − λ1n)

wie C. Damit folgt 2). Konjugieren der Eigenwertgleichung

Cx = λx⇒ Cx = λx

führt auf die erste Aussage in 3) und die zweite Aussage folgt mit 2). Schließlich ist mit Cauch C − λ1n eine Dreiecksmatrix und deren Determinante ist das Produkt

(c1,1 − λ) · . . . · (cn,n − λ)

ihrer Diagonaleinträge. �

Bemerkungen 4.35

1) Sei C ∈ R(n,n) und ci ∈ C \ R ein Eigenwert und damit auch ci, dann hat das charak-teristische Polynom (über C) die Linearfaktoren (ci − λ) und (ci − λ), demnach auch denTeiler (siehe Satz B.19)

(ci − λ)(ci − λ) = λ2 − 2 Re ciλ + |ci|2= (λ − ai)2 + b2

i , wobei ai = Re ci, bi = Im ci

=: qi(λ)

(4.10)

und damit hat p den reellen, über R irreduziblen (siehe Definition B.28), quadratischenFaktor qi.

*2) Damit gilt also mit den Bezeichnungen aus Bemerkungen 4.14, 2):

Page 30: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

412 4 Eigenwerte und Normalformen von Matrizen

x ∈ Kn ist linker Eigenvektor zu C zum Eigenwert λ⇔x†C = λx† ⇔ C†x = λx⇔

x ∈ Kn ist rechter Eigenvektor zu C† zum Eigenwert λ .

Ist C ∈ K(n,n) diagonalisierbar, d. h. A−1CA = D = diag(λi) für ein A ∈ GL(n,K) bzw.A†C†A−† = D†, dann sind die Spalten von A eine Basis aus rechten Eigenvektoren von C,die Spalten von A−† sind eine Basis von rechten Eigenvektoren von C† zu den Eigenwertenλi. Demnach sind die Spalten von A−† eine Basis von linken Eigenwerten für C. Wegen

(A−†)†A = A−1A = 1n

gilt für die sich entsprechenden rechten Eigenvektoren

u1, . . . , un (zu λ1, . . . , λn)

und linken Eigenvektoren

w1, . . . ,wn (zu λ1, . . . , λn)

die Beziehung ⟨ui .w j

⟩= δi. j für i, j = 1, . . . , n .

Hat insbesondere λk für C die einfache algebraische Vielfachheit (und damit auch für C†),so sind uk bzw. wk Basen für den Eigenraum von C† zu λk, so dass für alle rechten bzw.linken Eigenvektoren u bzw. w zu λk gilt:

〈u .w〉 � 0 .

Im Fall eines einfachen Eigenwerts λ werden (durch Normierung) rechte und linke Eigen-vektoren u und w so gewählt, dass

〈u .w〉 = 1 .

Dann ist

P = u ⊗ w (4.11)

die Darstellungsmatrix einer Projektion auf den Eigenraum span(u). Für K = R entsprichtsie der Definition von (2.57). �

Beispiel 4.36 Es sei P : Kn → Kn eine Projektion. Dann ist P2 = P und aus Satz 4.34,1) folgt für jeden Eigenwert λ von P, dass λ2 = λ, somit λ = 1 oder = 0. Alle Vektorenim Kern von P sind Eigenvektoren zum Eigenwert 0, alle Vektoren im Bild von P sindEigenvektoren zum Eigenwert 1. Nach Hauptsatz 2.44, 1) ist Kn = Kern(P) ⊕ Bild(P).Somit ist P diagonalisierbar (was wir aber in Hauptsatz 2.44, 3) schon bewiesen haben).Speziell für ‖a‖2 = 1 und P = a ⊗ a, die Projektion auf Ka, ist der Eigenraum:

Page 31: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 413

zum Eigenwert der Unterraumλ = 0 a⊥λ = 1 Ka

◦Beispiel 4.37 Es sei a ∈ Kn mit ‖a‖2 = 1. Dann ist S = 1n − 2a ⊗ a die Matrix derSpiegelung an der Hyperebene a⊥. Aus S 2 = 1n folgt mit Satz 4.34, 1) für jeden Eigenwertλ von S , dass λ2 = 1, also λ = ±1. Es ist der Eigenraum:

zum Eigenwert der Unterraumλ = −1 Kaλ = +1 a⊥

◦Spezielle Matrizen haben gelegentlich spezielle Eigenwerte. Wir erinnern an die folgendenArten spezieller Matrizen A ∈ C(n,n):

• A heißt hermitesch, wenn A† = At= A. Eine reelle Matrix ist hermitesch genau

dann, wenn sie symmetrisch ist.• U heißt unitär, wenn UU† = 1n. Eine reelle Matrix ist unitär genau dann, wenn sie

orthogonal ist.

Diesen beiden Arten spezieller Matrizen fügen wir noch eine dritte Art hinzu:

Definition 4.38

Die Matrix A ∈ C(n,n) heißt antihermitesch , wenn A† = −A. Das ist genau dann derFall, wenn A = i ·H mit einer hermiteschen Matrix H. Eine reelle Matrix A ist genaudann antihermitesch, wenn At = −A. Eine solche Matrix heißt antisymmetrisch oderschiefsymmetrisch.

Satz 4.39: Eigenwerte spezieller Matrizen

1) Jeder Eigenwert einer hermiteschen n × n-Matrix H ist reell.

2) Jeder Eigenwert λ einer unitären Matrix U hat den Betrag |λ| = 1.

3) Jeder Eigenwert einer antihermiteschen Matrix A ist rein imaginär.

Beweis: Wir verwenden das innere Produkt 〈x . y〉 = xty auf dem Cn.

Zu 1): Falls x ∈ Cn ein Eigenvektor der hermiteschen Matrix H zum Eigenwert λ ∈ C

ist, dann gilt folglich

Page 32: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

414 4 Eigenwerte und Normalformen von Matrizen

λ 〈x . x〉 = 〈λx . x〉 = 〈Hx . x〉 = 〈x . Hx〉 = 〈x . λx〉 = λ 〈x . x〉 .

Daraus folgt (λ − λ) 〈x . x〉 = 0. Da x ein Eigenvektor ist, ist 〈x . x〉 � 0 und daher λ = λ,d. h. λ ∈ R.Zu 2): Hier ist

〈x . x〉 = 〈Ux . Ux〉 = 〈λx . λx〉 = λλ 〈x . x〉 .

Wegen 〈x . x〉 � 0 folgt |λ| = λλ = 1.Zu 3): Die Matrix iA ist hermitesch und hat nur reelle Eigenwerte. Die Behauptung folgtaus 1). �

Unabhängig von der Diagonalisierbarkeit soll noch einmal der Charakter von Eigenwertenund Eigenvektoren verdeutlicht werden.

Beispiel 4.40 Sei A ∈ R(3,3) antisymmetrisch, d. h. A hat die Gestalt

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 0 a b−a 0 c−b −c 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠mit a, b, c ∈ R. Sei x := (a, b, c)t � 0 d. h. A � 0, dann gilt

Kern A = span

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝−cb−a

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .Neben λ = 0 hat A noch die rein imaginären Eigenwerte

λ = ± i‖x‖2,

denn das charakteristische Polynom ist

pA(λ) = −λ(λ2 + ‖x‖22

).

◦Beispiel 4.41 (Differenzengleichung) Für A ∈ K(n,n) ist x(k) ∈ Kn, k ∈ N gesucht, so dass

x(0) gegeben, x(k+1) = Ax(k) . (4.12)

Solche (zeit-)diskreten dynamischen Systeme entstehen etwa durch die Approximationder Ableitung in (MM.74) oder (MM.79) durch einen Differenzenquotienten (siehe (4.25))und werden daher auch (lineare) Differenzengleichungen genannt.

Man spricht hier auch von Fixpunktform, bei (4.12) von Fixpunktiteration, da etwa fürK = K der Grenzwert x der Folge x(k) (siehe Abschnitt 7) (bei Existenz) notwendigerweisedie Fixpunktgleichung

x = Ax

Page 33: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 415

erfüllt.Die Lösungsfolge ist offensichtlich gegeben durch

x(k) = Ak x(0) , (4.13)

so dass für das Langzeitverhalten Ak x(0) für große k zu betrachten ist. Das ist besonderseinfach für einen Eigenvektor x(0) möglich:

Sei A ∈ K(n,n) für einen Körper K, λ ∈ K Eigenwert und x ∈ Kn ein Eigenvektor dazu.Sei

U := span(x) ,

dann ist

A(U) ⊂ U ,

d. h. der eindimensionale Unterraum U ist invariant unter A und eingeschränkt darauf ver-hält sich A wie eine Streckung/Stauchung mit dem Faktor λ. Anwendung von Ak bedeutetdaher Multiplikation mit λk. Für K = K bedeutet das etwa in der euklidischen Norm:

1) |λ| < 1 : Die „Bedeutung“ dieser(-s) Lösung(-santeils) verschwindet für k → ∞:

‖Ak x‖ = |λ|k‖x‖ → 0 für k → ∞ . (4.14)

2) |λ| = 1 : ‖Ak x‖ = ‖x‖ ,

3) |λ| > 1 : ‖Ak x‖ = |λ|k‖x‖ → ∞ für k → ∞ ,

mit analogen Interpretationen.Noch konkreter bleibt bei K = R und λ ∈ R für λ > 0 die Richtung von x erhalten, bei

λ < 0 alterniert sie mit der von −x (siehe Abbildung 4.1).

x A2 x

Ax

A3 x

x

Ax

A2 x

A3 x

λ < −1x

A2 xAx

A3 xx AxA2 x

A3 x

λ > 10 < λ < 1

−1 < λ < 0

Abb. 4.1: Verhalten von A auf Eigenvektoren, reelle Eigenwerte.

Page 34: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

416 4 Eigenwerte und Normalformen von Matrizen

Wie schon im obigen Beispiel gesehen, gibt es reelle Matrizen, speziell die Drehmatrizen,die keine reellen, aber komplexe Eigenwerte haben. Auch hier gibt es einen invariantenUnterraum und ein einfaches Verhalten von Ak x darauf:

Sei also A ∈ R(n,n), λ ∈ C, λ � R, Eigenwert zum Eigenvektor x ∈ Cn. Nach Satz 4.34,3) hat A auch den Eigenwert λ zum Eigenvektor x. Mit

λ = μ + iν , μ, ν ∈ R ,

x = y + iz , y, z ∈ Rn, z � 0 ,

d. h. nach (3.6)

μ =12

(λ + λ) , y =12

(x + x)

ν =12i

(λ − λ) , z =12i

(x − x)(4.15)

folgt dann

Ay =12

(λx + λx) = μy − νz

Az =12i

(λx − λx) = μz + νy .

(4.16)

Damit ist der Unterraum

U := span(y, z) (4.17)

invariant unter A. Dieser Unterraum ist zweidimensional, denn y, z sind linear unabhängig.Wie oben gezeigt sind nämlich x und x als Eigenvektoren zu den verschiedenen Eigen-

werten λ und λ linear unabhängig und damit auch y, z, da sie nach (4.15) das Bild von xund x sind unter der invertierbaren Abbildung von R2n nach R2n, definiert durch(

x′

x′′

)�→

( 121

121

12i1 − 1

2i1

) (x′

x′′

),

wobei 1 ∈ Rn die Einheitsmatrix ist. Die die Abbildung darstellende Matrix ist invertier-bar, z. B. nach Aufgabe 2.36.

U hat demnach die Basis {y, z} und die Darstellungsmatrix von A|U : U → U bezüglichdieser Basis ist nach (4.16)

Q :=(

μ ν−ν μ

)= α

( μα

να−ν

αμα

)(4.18)

mit α := |λ| = (ν2 + μ2)12 und ( μ

ανα− ν

αμα

)∈ SO(2) ,

Page 35: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 417

einer Drehmatrix zum Winkel ϕ ∈ [0, 2π). Dabei ist

cos(ϕ) =μ

α, sin(ϕ) = − ν

α.

Auf U ist somit A eine Drehstreckung mit dem Streckungsfaktor α, so dass für das Ver-halten von Ak x, x ∈ U das Gleiche wie in (4.14) gilt. Die oben beschriebene Bewegungvon Ak x auf dem eindimensionalen U ist zu ersetzen durch eine entsprechende „spiralige“Bewegung in der Ebene U (siehe Abbildung 4.2). Wie schon bei der Drehmatrix gesehen,

x

Ax

A3xA2x

|λ| < 1|λ| > 1A3x

A2x

Axx

ϕϕ

ϕ ϕ

ϕϕ

Abb. 4.2: Verhalten von A auf span(Re x, Im x), Eigenvektor x ∈ Cn zu Eigenwert λ ∈C\R.

entsprechen die reellen Fälle den Drehwinkeln ϕ = 0 (λ > 0) und ϕ = π (λ < 0). ◦

4.2.2 Diagonalisierbarkeit und Trigonalisierbarkeit

Wenn im Folgenden nur explizit von Matrizen C ∈ K(n,n) die Rede ist, gelten dennochwegen Satz 4.15 alle Aussagen auch für Φ ∈ HomK(V, V) bei einem n-dimensionalenK-Vektorraum V .

Zur Vorbereitung der Diagonalisierungskriterien formulieren wir:

Theorem 4.42: Summe aus Eigenräumen direkt

Sei C ∈ K(n,n), λi, i = 1, . . . , l seien paarweise verschiedene Eigenwerte in K von C.Dann gilt für die Eigenräume

Vi := Kern(C − λi1n) :

Page 36: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

418 4 Eigenwerte und Normalformen von Matrizen

Die Summe von Eigenräumen ist direkt, d. h. V1 + . . . + Vl = V1 ⊕ . . . ⊕ Vl bzw.äquivalent dazu: Sind ui ∈ Vi, ui � 0, i = 1, . . . , l, Eigenvektoren zu verschiedenenEigenwerten, dann sind die ui linear unabhängig.

Beweis: Nach Satz 2.46 sind beide Aussagen äquivalent, so dass nur die Zweite zu bewei-sen ist. Dies soll durch vollständige Induktion über l geschehen:

l = 1 : Klar.l→ l + 1 : Für αi ∈ R und ui ∈ Vi, ui � 0 sei

∑l+1i=1 αiui = 0 .

Also ist (Anwendung von C):∑l+1

i=1 αiλiui = 0

bzw. (Multiplikation mit λl+1)∑l+1

i=1 αiλl+1ui = 0

und damit∑l

i=1 αi(λl+1 − λi)ui = 0 .

Nach Induktionsvoraussetzung und wegen λl+1 − λi � 0 für i = 1, . . . , l ist damit gezeigt,dass α1 = . . . = αl = 0, weshalb auch αl+1 = 0 folgt. �

Bemerkungen 4.43 Sei V ein endlichdimensionaler K-Vektorraum und Φ ∈ HomK(V, V).

1) Für die Eigenräume Vi := Kern(Φ − λi id), i = 1, . . . k, wobei die (Eigenwerte) λi ∈ Kpaarweise verschieden seien, gilt demzufolge:

• Φ|Vi= λi id, insbesondere Vi ist Φ-invariant.

• Die Summe der Vi ist direkt.

• Φ ist diagonalisierbar⇔⊕ki=1 Vi = V .

2) Sei andererseits V =∑k

i=1 Vi eine Zerlegung von V , so gilt:

Φ ∈ Hom(V, V) ist diagonalisierbar undVi ist Eigenraum zum Eigenwert λi für i = 1, . . . , k

⇔ Φ|Vi= λi id für i = 1, . . . , k.

Die Summe ist dann direkt und die Vi sind Φ-invariant.

3) Unter den Voraussetzungen von 2) seien Pi : V → Vi die nach Satz 2.46 zugehörigenProjektionen zur direkten Zerlegung V =

⊕ki=1 Vi von V . Dann gilt:

Φ ∈ HomK(V, V) ist diagonalisierbar⇔ Φ =∑k

i=1 λiPi für gewisse λi ∈ K.Bei „⇒“ beachte man

Φ = Φ ◦⎛⎜⎜⎜⎜⎜⎜⎝ k∑

i=1

Pi

⎞⎟⎟⎟⎟⎟⎟⎠ = k∑i=1

Φ ◦ Pi =

k∑i=1

λiPi

wegen Φ|Vi = λi id nach 2). Zu „⇐“: Aus Φ =∑k

j=1 λ jP j folgt Φ|Vi = Φ ◦ Pi|Vi = λi Pi|Vi = λi id wegenPj ◦ Pi = 0 für j � i und damit nach 2) die Diagonalisierbarkeit.

Page 37: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 419

Satz 4.44: Diagonalisierbarkeitskriterien

Sei C ∈ K(n,n).

1) Notwendige Bedingung: Wenn C über K diagonalisierbar ist, dann zerfällt ihrcharakteristisches Polynom χC in ein Produkt von Linearfaktoren über K:

χC(λ) = (λ1 − λ) · . . . · (λn − λ), λk ∈ K .

2) Hinreichende Bedingung: Wenn χC in Linearfaktoren zerfällt und alle seine Null-stellen λ1, . . . , λn ∈ K paarweise verschieden sind, dann ist C über K diagonalisier-bar.

Beweis: Zu 1): Die Aussage ist klar, da C das gleiche charakteristische Polynom wieC′ = diag(λi) hat.Zu 2): Zu den n paarweise verschiedenen Eigenwerten λ1, . . . , λn finden wir als Lösungender linearen Gleichungssysteme (C − λk1n)u = 0 Eigenvektoren u1, . . . , un. Zu zeigen ist,dass die u1, . . . , un linear unabhängig sind, was direkt aus Theorem 4.42 folgt. �

Auch wenn (reelle) Eigenwerte existieren, muss die Matrix nicht diagonalisierbar sein:

Beispiel 4.45 (Jordan3-Block) Wir werden uns im Abschnitt 4.5 ausführlich mit n×n-Matrizen der Form

C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝c 1

. . .. . .

. . . 1c

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , c ∈ K

beschäftigen, sogenannten Jordan-Blöcken zu Eigenwerten c. Sein charakteristischesPolynom

χC(λ) = (c − λ)n

hat nur die einzige Nullstelle c, diese mit der (algebraischen) Vielfachheit n. Wenn wiralle Eigenvektoren des Jordan-Blocks bestimmen wollen, müssen wir das lineare Glei-chungssystem

Cx = cx, d. h. (C − c1n)x = 0

lösen. Nun ist

Page 38: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

420 4 Eigenwerte und Normalformen von Matrizen

(C − c1n)x =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝0 1

. . .. . .

. . . 10

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

x1

x2...

xn−1xn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

x2

x3...

xn

0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠!= 0 .

der Nullvektor, falls x2 = . . . = xn = 0, d. h. alle Eigenvektoren liegen auf der Geraden,welche vom ersten Koordinatenvektor e1 aufgespannt wird. Damit ist die geometrischeVielfachheit nur 1, falls n ≥ 2 gibt es keine Basis aus Eigenvektoren und damit ist einJordan-Block nicht diagonalisierbar. ◦Dass die geometrische Vielfachheit wie im Fall des Jordan-Blocks höchstens zu kleinsein kann, zeigt:

Satz 4.46

Sei C ∈ K(n,n) und μ ∈ K Eigenwert von C. Dann gilt für μ:

1 ≤ geometrische Vielfachheit ≤ algebraische Vielfachheit ≤ n .

Beweis: Sei u1, . . . , ul ∈ Kn eine Basis des Eigenraums zu μ. Damit ist

l = geometrische Vielfachheit von μ .

Wir ergänzen diese Basis zu einer Basis von Kn mit ul+1, . . . , un ∈ Kn. C ist damit ähnlichzu (vgl. Bemerkungen 4.19 ,2))

C′ :=(μ1l A0 B

)für ein A ∈ K(l,n−l), B ∈ K(n−l,n−l). Also

χC = χC′ und χC′ (λ) = det(

(μ − λ)1l A0 B − λ1n−l

)und nach der Kästchenregel (siehe Hauptsatz 2.114) ist weiterhin

χC′ (λ) = (μ − λ)lχB(λ) .

Damit gilt

algebraische Vielfachheit von μ ≥ l . �

Wir formulieren jetzt ein Diagonalisierbarkeitskriterium, welches sowohl hinreichend alsauch notwendig ist. Theoretisch ist dies eine sehr befriedigende Beschreibung der Diago-

Page 39: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 421

nalisierbarkeit; praktisch für das Problem, eine konkret gegebene Matrix zu diagonalisie-ren, jedoch oft unbrauchbar.

Hauptsatz 4.47: Notwendiges und hinreichendes Diagonalisierbarkeitskriteri-

um

Eine Matrix C ∈ K(n,n) ist genau dann diagonalisierbar, wenn

1) das charakteristische Polynom χC in Linearfaktoren zerfällt, etwa

χC(λ) = (λ1 − λ)r1 · . . . · (λk − λ)rk , r1 + . . . + rk = n , (4.19)

wobei die Nullstellen λ1, . . . , λk alle paarweise verschieden sein sollen, aber mitihren algebraischen Vielfachheiten r1, . . . , rk zu Potenzen zusammengefasst, und

2) für die verschiedenen Nullstellen λ1, . . . , λk, j = 1, . . . , k gilt

Rang(C − λ j1n) = n − r j

(bzw. dim

(Kern(C − λ j1n)

)= r j

).

Beweis: „⇒“: Sei C diagonalisierbar, also etwa ähnlich zur Matrix

C′ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

λ1. . .

λ1λ2

. . .

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠und seien r1, . . . , rk die Vielfachheiten, mit denen die verschiedenen Eigenwerte λ1, . . . , λk

in C′ auftreten. Dann zerfällt das charakteristische Polynom χC(λ) = χC′ (λ) = (λ1 − λ)r1 ·. . . · (λk − λ)rk in Linearfaktoren. Für j = 1, . . . , k ist

C − λ j1n = AC′A−1 − λ j1n = A(C′ − λ j1n)A−1

und deswegen Rang(C−λ j1n) = Rang(C′−λ j1n). Schließlich fallen in C′−λ j1n genau dier j Diagonaleinträge weg, die gleich λ j sind, während an den anderen Stellen der Diagonaledie Zahlen λi − λ j für i � j stehen. Diese sind ungleich Null. Der Rang von C′ − λ j1n istdie Zahl der Diagonaleinträge ungleich 0, und damit gleich n − r j.Die letzte Identität ist eine Folge der Dimensionsformel I (Theorem 1.82).„⇐“: Für j = 1, . . . , k sei

V j := Kern(C − λ j1n)

der Eigenraum zu λ j. Nach 2) und Theorem 1.82 ist dim(V j) = n − (n − r j) = r j.Nach Theorem 4.42 gilt für

Page 40: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

422 4 Eigenwerte und Normalformen von Matrizen

V :=V1 + . . . + Vk

dim V =k∑

j=1

r j = n

und damit (z. B. nach Bemerkungen 1.77, 2))

V = Kn .

Basen der einzelnen Eigenräume setzen sich folglich zu einer Basis von Kn zusammen. �

Das Diagonalisierbarkeitskriterium kann man demnach sehr griffig folgendermaßen for-mulieren:

Eine Matrix über K ist über K diagonalisierbar.⇐⇒

Das charakteristische Polynom zerfällt über K in Linearfaktoren.Für jeden Eigenwert ist algebraische Vielfachheit = geometrische

Vielfachheit.

Manchmal benutzen wir folgende Sprechweisen:

Definition 4.48

Sei C ∈ K(m,n) und λ ∈ K Eigenwert von C. Dann heißt λ halbeinfach, wenn gilt:

algebraische Vielfachheit von λ = geometrische Vielfachheit von λ .

λ heißt einfach, wenn gilt:

algebraische Vielfachheit λ = 1 .

Ein einfacher Eigenwert ist somit halbeinfach, Diagonalisierbarkeit liegt genau dann vor,wenn das charakteristische Polynom zerfällt und alle Eigenwerte halbeinfach sind.

Für einen Jordan-Block ab n ≥ 2 ist die Lücke zwischen algebraischer und geome-trischer Vielfachheit maximal, nämlich (n − 1). Er ist geradezu im höchstmöglichen Maßun-diagonalisierbar.

Wenn wir eine Matrix diagonalisieren wollen, kommt es nach Hauptsatz 4.47, Eigen-schaft 1), zunächst darauf an, die Nullstellen des charakteristischen Polynoms dieser Ma-trix zu suchen. Dies ist auch eine Frage nach den Eigenschaften des Grundkörpers K.Es gibt reelle Polynome (etwa das charakteristische Polynom einer Drehmatrix), welchekeine reellen Nullstellen besitzen.

Da aber nach Satz B.21, Hauptsatz B.33 nichtkonstante komplexe und damit auch reellePolynome immer komplexe Nullstellen haben, so dass (4.19) gilt, werden wir immer reelleMatrizen als komplexe auffassen, um wenigstens komplexe Eigenwerte zu haben, die auch

Page 41: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 423

einfach geometrisch interpretiert werden können (siehe (4.15) ff.). Nach Satz 4.34 tretenechte komplexe Eigenwerte einer reellen Matrix als komplex-konjugierte Paare λ und λauf.

Ist nun der Grad des (charakteristischen) Polynoms p ungerade, so können nicht alleNullstellen als solche Paare auftreten, es muss mindestens eine reelle Nullstelle von pgeben. (Dass reelle Polynome ungeraden Grades immer mindestens eine reelle Nullstellebesitzen, kann man auch mit dem Zwischenwertsatz der Analysis zeigen.)

Hieraus folgt der zweite Teil des nächsten Satzes, dessen erster Teil sich aus dem Fun-damentalsatz (Satz B.21, Hauptsatz B.33) ergibt.

Satz 4.49: Existenz von Eigenwerten

Eine C-lineare Abbildung eines endlichdimensionalen komplexen Vektorraums insich hat immer mindestens einen komplexen Eigenwert, also auch immer mindes-tens einen (komplexen) Eigenvektor. Eine R-lineare Abbildung eines reellen Vektor-raums ungerader Dimension hat immer mindestens einen reellen Eigenwert, daherauch mindestens einen reellen Eigenvektor.

Beispiel 1(4) – Historische Probleme Nachdem 1833 William Rowan Hamilton4 die Fundierung derkomplexen Zahlen im Sinn von Beispiele 3.11, 2) gelungen war, mühte er sich viele Jahre vergeblich,R3 mit einer Körperstruktur zu versehen, die mit der von R � Re1 ⊂ R3 verträglich ist. Die folgendeÜberlegung zeigt, dass dies unmöglich ist:

Sei (R3 ,+, ·) ein solcher Körper. R3 ist dann ein R3-Vektorraum und damit auch ein R-Vektorraumüber dem Unterkörper R, also

λx =

⎛⎜⎜⎜⎜⎜⎜⎜⎝ λ00

⎞⎟⎟⎟⎟⎟⎟⎟⎠ · x für λ ∈ R, x ∈ R3 .

Dann wird durch ein beliebiges x ∈ R3 mittels

S xy := x · y ∈ R3

eine lineare Abbildung auf R3 definiert, wobei hier „·“ die Multiplikation im Körper (R3 ,+, ·) ist. Fürdiese existiert ein Eigenwert λ ∈ R mit Eigenvektor z ∈ R3, z � 0. Ist e das neutrale Element bezüglichder Multiplikation im Körper (R3 ,+, ·) und 1 das neutrale Element der Multiplikation in R, folgt somit

x · z = S x z = λz = λ1z = λe · zund so (x − λe) · z = 0, demzufolge wegen der Nullteilerfreiheit ein Widerspruch

x = λe für alle x ∈ R3.

Mehr Glück hatte Hamilton mit der Einführung einer Schiefkörper-Struktur auf R4, den Quaternionen:Am 16. Oktober 1843 fielen ihm bei einem Spaziergang an der Brougham Bridge in Dublin die entschei-denden Multiplikationsregeln ein, die er spontan dort einritzte. �

4 William Rowan Hamilton ∗4. August 1805 in Dublin †2. September 1865 in Dunsink bei Dublin

Page 42: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

424 4 Eigenwerte und Normalformen von Matrizen

Im Folgenden wird sich mehrfach die Fragestellung ergeben, ob aus einer (unitären) Ähn-lichkeitstransformation einer Matrix C′ auf eine solche einer daraus abgeleiteten größerenMatrix C′ geschlossen werden kann. Dies lässt sich allgemein beantworten:

Sei K ein Körper, C′ ∈ K(n−k,n−k) gehe durch die durch A ∈ GL(n − k, K) gegebeneÄhnlichkeitstransformation über in C:

A−1C′A = C .

Sei

C′ :=(

C1 C2

0 C′

),

wobei C1 ∈ K(k,k), C2 ∈ K(k,n−k). Dann gilt(1k 00 A−1

) (C1 C2

0 C′

) (1k 00 A

)=

(C1 C2A0 C

)=: C . (4.20)

Dies ist wegen (1k 00 A

)−1

=

(1k 00 A−1

)eine Ähnlichkeitstransformation von C′ zu C. Für K = K ist die Transformationsmatrixunitär (orthogonal), wenn A unitär (orthogonal) ist. Offensichtlich gilt:

C ist obere Dreiecksmatrix, wenn C1 und Cobere Dreiecksmatrizen sind.

(4.21)

Die gleichen Aussagen gelten für (obere) Blockdreiecksmatrizen bzw. auch für Block-diagonalmatrizen, falls C2 = 0 (siehe Definition 4.54).

Die Interpretation der Eigenwerte als Nullstellen des charakteristischen Polynoms isttheoretisch nützlich, aber nicht unbedingt zu deren numerischen Bestimmung geeignet.Die Bestimmung der Koeffizienten des Polynoms ist unklar und im Allgemeinen sindauch bei bekanntem charakteristischem Polynom numerische Verfahren zur Nullstellen-bestimmung nötig. Gerade mehrfache Nullstellen (algebraische Vielfachheit > 1) bereitenhier Schwierigkeiten. Insofern ist auch eine Dreiecksmatrix als Normalform, aus der dieEigenwerte direkt ablesbar sind, nützlich.

Definition 4.50

Sei C ∈ K(n,n). C heißt trigonalisierbar über K, wenn C ähnlich zu einer (oberen)Dreiecksmatrix ist.

Analog zur Diagonalisierbarkeit bedeutet also Triagonalisierbarkeit die Existenz einer Ba-sis u1, . . . , un, so dass (bei geeigneter Anordnung der ui) die Unterräume

Page 43: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 425

Vi := span(u1, . . . , ui), i = 1, . . . , n

alle C-invariant sind, u1 daher insbesondere ein Eigenvektor ist. Soll demnach jede Matrixtriagonalisierbar sein über einen Körper K, muss K algebraisch abgeschlossen sein (sieheBemerkung 4.27). In diesem Fall ist dies auch möglich:

Hauptsatz 4.51: Komplexe Schur-Normalform

Jede komplexe n × n-Matrix C ist ähnlich zu einer oberen Dreiecksmatrix⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝c1 ∗ · · · ∗0 c2 ∗

...... .

. . . ∗0 · · · 0 cn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Man spricht auch von (komplexer) Schur5-Normalform.Die transformierende Matrix A kann unitär gewählt werden, d. h. A ∈ O(n,C)

und damit ist C unitär ähnlich zu einer oberen Dreiecksmatrix.

Beweis (Induktion nach n): Für den Induktionsanfang n = 1 ist nichts zu zeigen. Sei alson ≥ 2. Nach dem Fundamentalsatz der Algebra (Hauptsatz B.33) existiert ein Eigenwert c1mit einem zugehörigen Eigenvektor u1, ‖u1‖ = 1. Wir ergänzen u1 zu einer ONB u1, . . . , undes Vektorraums Cn. Dabei verändert sich die Darstellungsmatrix C durch diesen Wechselvon alter ONB ({e1, . . . , en}) zu neuer ONB mit einer unitären Ähnlichkeitstransformationin ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

c1 ∗ · · · ∗0... C′0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠mit einer komplexen (n − 1) × (n − 1)-Matrix C′. Nach Induktionsannahme existiert danneine Matrix A ∈ O(n− 1,C) so, dass A−1C′A eine obere Dreiecksmatrix ist. Dann hat auchdie nach (4.20) (k = 1) zu C ähnliche 2 × 2 Block-Matrix⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

c1 ∗ · · · ∗0... A−1C′A0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠Dreiecksgestalt und die transformierende Matrix ist unitär. �

5 Issai Schur ∗10. Januar 1875 in Mogiljow †10. Januar 1941 in Tel Aviv

Page 44: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

426 4 Eigenwerte und Normalformen von Matrizen

Bemerkungen 4.52

1) Die induktiv gesuchten Eigenvektoren (der jeweils kleineren Matrizen) können zu-nächst alle zum gleichen Eigenwert λ1, dann zum nächsten Eigenwert λ2 der Matrix C,und so weiter, gewählt werden. Dann erhält man als Diagonaleinträge in der zu C ähnli-chen Matrix:

c1 = · · · = cr1 = λ1cr1+1 = · · · = cr1+r2 = λ2

......

...cn−rk+1 = · · · = cn = λk

⎫⎪⎪⎪⎪⎪⎪⎪⎬⎪⎪⎪⎪⎪⎪⎪⎭ paarweise voneinander verschieden.

2) Ist C ∈ K(n,n) über K trigonalisierbar, dann zerfällt χC über K in Linearfaktoren.Der Beweis ist analog zum Beweis von Hauptsatz 4.47.

3) Von den Eigenschaften des Körpers C haben wir nur den Fundamentalsatz der Alge-bra im Beweis benutzt. Wir hätten von vorneherein auch voraussetzen können, dass dascharakteristische Polynom χC in Linearfaktoren zerfällt, dann hätte der Beweis keine Vor-aussetzung an dem Körper gebraucht. Wir sehen zusammen mit 1):

Eine Matrix ist (über einem beliebigen Körper K) genau dann trigonalisierbar, wennihr charakteristisches Polynom über diesem Körper K in Linearfaktoren zerfällt.

Das ist folglich insbesondere für eine reelle Matrix der Fall, wenn das charakteristischePolynom in Linearfaktoren (über R) zerfällt, auch wenn nicht gilt:

Algebraische Vielfachheit = geometrische Vielfachheit .

Analog gilt für einen Körper K:

Jede Matrix über K ist triagonalisierbar genau dann, wenn K algebraisch abgeschlos-sen ist.

(Zur Definition von algebraisch abgeschlossen siehe Definition B.20.) Daher wird im Fol-genden oft vorausgesetzt, dass K algebraisch abgeschlossen ist, statt der KonkretisierungK = C. �

Satz 4.53

Sei K algebraisch abgeschlossen und C ∈ K(n,n), λ1, . . . λn ∈ K seien die Eigenwertevon C. Dann gilt:

Page 45: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 427

det(C) = λ1 · . . . · λn

sp(C) = λ1 + . . . + λn .

Beweis: Nach Bemerkungen 4.52, 3) ist C ähnlich zur oberen Dreiecksmatrix mit den λi

als Diagonalelementen. Satz 4.30 (siehe auch Bemerkungen 4.31, 1)) ergibt die Behaup-tung. �

Eine reelle Matrix, die echt komplexe Eigenwerte besitzt, kann nicht ähnlich zu einerreellen Dreiecksmatrix sein, aber sie besitzt eine stark verwandte Normalform. Zur Vorbe-reitung sei definiert:

Definition 4.54

Sei A ∈ K(n,n) eine Matrix. Durch n1, n2, . . . , nk ∈ {1, . . . , n} mit∑k

l=1 nl = n sei einePartitionierung von A in Teilmatrizen Ai, j ∈ K(ni ,nj), i, j = 1, . . . , k gegeben.

1) A heißt obere Blockdreiecksmatrix, wenn gilt

Ai, j = 0 für i > j .

Analog wird eine untere Blockdreiecksmatrix definiert.2) A heißt Blockdiagonalmatrix, wenn gilt Ai, j = 0 für i � j. Die Blöcke Ai,i

heißen Diagonalblöcke.

Theorem 4.55: Reelle Schur-Normalform

Sei C ∈ R(n,n). Dann ist C (reell) ähnlich zu einer oberen Blockdreiecksmatrix

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝B1 ∗ · · · ∗0

. . . ∗ ......

. . .. . . ∗

0 · · · 0 Bk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Die Diagonalblöcke Bi sind dabei entweder (1, 1)- oder (2, 2)-Blöcke. Die (1, 1)-Blöcke entsprechen genau den reellen Eigenwerten λ ∈ R von C. Die (2, 2)-Blöckeentsprechen genau den komplex-konjugierten Paaren λ und λ von Eigenwertendurch

λ = μ + iν, μ, ν ∈ R, B = α

(cos(ϕ) − sin(ϕ)sin(ϕ) cos(ϕ)

),

wobei α := |λ|, ϕ ∈ [0, π) so, dass cos(ϕ) = μα

und sin(ϕ) = − να

.

Page 46: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

428 4 Eigenwerte und Normalformen von Matrizen

C ist auch orthogonal ähnlich zu einer oberen Blockdreiecksmatrix, deren Dia-gonalblöcke nur (1, 1)- oder (2, 2)-Blöcke sind. Die (1, 1)-Blöcke sind genau diereellen Eigenwerte von C. Man spricht auch von der reellen Schur-Normalform.

Beweis: Der Beweis folgt aus Hauptsatz 4.51 zusammen mit den Überlegungen von (4.15)ff.Für n = 1 ist die Aussage klar, für n = 2 sei λ ∈ C ein Eigenwert von C. Ist λ ∈ R, somuss auch der zweite Eigenwert reell sein und es kann Hauptsatz 4.51 unter Beachtungvon Bemerkungen 4.52, 2) angewendet werden. Sei daher λ ∈ C\R,

λ = μ + iν, μ, ν ∈ R und x = y + iz, y, z ∈ Rn, z � 0 ein Eigenvektor von C ,

analog zu (4.15) ff. sei

A = (y, z) ∈ R(2,2), C′ := α

(cos(ϕ) − sin(ϕ)sin(ϕ) cos(ϕ)

)für α := |λ|, ϕ ∈ [0, π), so dass cos(ϕ) = μ

α, sin(ϕ) = − ν

α.

Dann ist C′ die Darstellungsmatrix bezüglich der neuen Basis {y, z} (und C die Darstel-lungsmatrix des Homomorphismus bezüglich der Standardbasis {e1, e2}), also ist A dieÜbergangsmatrix und so

C′ = A−1CA .

Die Modifikationen zu einer orthogonalen Übergangsmatrix ist ein Spezialfall der denBeweis abschließenden Überlegungen.

Für den Induktionsschluss sei n ≥ 3 und C ∈ R(n,n). Hat C einen reellen Eigenwertc1 ∈ R, kann wie in Beweis von Hauptsatz 4.51 verfahren werden. Kann nur ein echtkomplexer Eigenwert λ ∈ C\R gesichert werden, so wird wie oben bei n = 2 verfahren(bei gleicher Notation).Die linearen unabhängigen y, z ∈ Rn werden mit u3, . . . , un ∈ Rn zu einer Basis ergänzt.Dies verändert die Darstellungsmatrix zu⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

B∗ · · · ∗∗ · · · ∗

0 0...

...0 0

C′

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠mit B = α

(cos(ϕ) − sin(ϕ)sin(ϕ) cos(ϕ)

), C′ ∈ R(n−2,n−2) . (4.22)

Nach Induktionsvoraussetzung gibt es zu C′ ein A ∈ GL(n − 2,R), so dass A−1C′A eineobere Blockdreiecksmatrix der beschriebenen Art ist. Nach (4.20) (k = 2) ergibt sich alsreell ähnliche Matrix

Page 47: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 429⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝B∗ · · · ∗∗ · · · ∗

0 0...

...0 0

A−1C′A

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠. (4.23)

In beiden Fällen haben wir also durch eine reelle Ähnlichkeitstransformation eine obereBlockdreiecksmatrix der behaupteten Struktur erhalten.

Soll die obere Blockdreiecksmatrix auch orthogonal ähnlich sein, so kann statt {y, z}eine ONB {y′, z′} von V = span{y, z} gewählt werden, die mit u3, . . . , un zu einer ONBdes Rn ergänzt wird. Dadurch verändert sich B zu einem B ∈ R(2,2) in (4.22) und diezugehörige Übergangsmatrix ist orthogonal nach Satz 4.10 3). Für den weiteren Schrittzu (4.23) kann A in O(n − 2,R) gewählt werden. Damit ist auch die Übergangsmatrix in(4.20) und damit die gesamte Ähnlichkeitstranformation orthogonal. �

Beispiele 4.56 (Differenzengleichung)

1) In Beispiel 3(6) wurden Exempel betrachtet für (kontinuierliche) dynamischen Systemeder Art

x(t) = Cx(t) (4.24)oder x(t) = Cx(t), t ∈ R.

Hierbei ist C ∈ K(n,n), x(t0) bzw. x(t0) ∈ Kn und t0 ∈ R gegeben und Funktionenx : R → Kn gesucht. Der Punkt bezeichnet wieder die Ableitung nach t und ist für xkomponentenweise zu verstehen. Kontinuierliche dynamische Systeme stehen in engemZusammenhang mit diskreten dynamischen Systemen in der Form einer Fixpunktiterati-on, wie sie in (4.12) formuliert ist.Eine solche Fixpunktiteration entsteht nämlich z. B. aus (4.24), wenn dieses System nurzu diskreten (Zeit-) Punkten tk (z. B. tk = kΔt + t0 für ein Δt > 0) betrachtet wird und x(tk)durch einen Differenzenquotienten angenähert wird, etwa

1Δt

(x(tk+1) − x(tk)) ≈ x(tk) = Cx(tk) , (4.25)

d. h. durch eine Differenzengleichung.Betrachtet man demzufolge ein System der Form (4.12) mit

A := 1n + ΔtC , (4.26)

so kann man erwarten, dass die x(k) Näherungswerte für x(tk) sind. Diese Approximationnennt man das explizite Euler6-Verfahren.Umgekehrt kann man für Δt > 0 und Auflösung von (4.26) nach C eine Fixpunktform(4.12) in die Form einer Differenzengleichung überführen. Dies erklärt auch die Bezeich-nung in (MM.19) und (4.12).

6 Leonhard Euler ∗15. April 1707 in Basel †18. September 1783 in Sankt Petersburg

Page 48: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

430 4 Eigenwerte und Normalformen von Matrizen

2) Wir kehren zurück zur Fixpunktformulierung (4.12). Sei A diagonalisierbar in K, d. h.

D = C−1AC

mit D = diag(λi) und den Eigenwerten λ1, . . . , λn sowie C = (u1, . . . , un), wobei u1, . . . , uneine Basis aus Eigenvektoren ist. Dann lässt sich eine Lösungsdarstellung von (4.12) an-geben.Seien λ(1), . . . , λ(l) die paarweise verschiedenen Eigenwerte und V1, . . . , Vl die zugehöri-gen Eigenräume.x(0) ∈ Kn hat also die eindeutige Darstellung

x(0) = x1 + . . . + xl mit xi ∈ Vi

und nach Satz 4.34, 1) ist

x(k) =(λ(1)

)kx1 + . . .

(λ(l)

)kxl . (4.27)

Genauer ist die Lösungsdarstellung von (4.12) für beliebiges D

x(k) = CDkC−1 x(0) = CDkα

und damit für diagonales D

x(k) =

n∑i=1

αiλki ui , (4.28)

wobei λi die Eigenwerte zu den Eigenvektoren ui bezeichnen und α = C−1x(0) . Sei imFolgenden K = K.Das Verhalten der einzelnen Anteile in (4.27) für k → ∞ hängt demnach von |λ| ab, wieschon in (4.14) dargestellt. Die Anteile für λ(i) mit |λ(i)| < 1 verschwinden also für k → ∞aus der Iterierten x(k). Gibt es Anteile mit |λ(i)| > 1, dann wächst x(k) unbeschränkt.Ein asymptotischer Zustand für k → ∞, d. h.

x(k) → x ∈ Kn für k → ∞,

wird erreicht, wenn es keine Eigenwerte mit |λ(i)| > 1 und bei |λ(i)| = 1 nur λ( j) = 1 auftritt(dann x = x j), da x notwendigerweise

Ax = x

erfüllt, folglich ein Fixpunkt von A ist.

3) Ist A reell, aber nur in C diagonalisierbar, so gibt es analog zu Theorem 4.55 (sieheAufgabe 4.14) (bzw. in Vorgriff auf Satz 4.100) eine reelle Blockdiagonalform

Page 49: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 431

D =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

λ1. . . 0

λ�

B1

0. . .

B�′

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠, (4.29)

mit λi ∈ R , i = 1, . . . , � , B j =

(μ j ν j

−ν j μ j

), j = 1, . . . , �′ .

Die Übergangsmatrix

C = (u1, . . . , u�, u1,w1, . . . , u�′ ,w�′) (4.30)

besteht dabei aus den Eigenvektoren für reelle λ bzw. aus Real- und Imaginärteil davonfür komplex-konjugierte Eigenvektoren. Das nach (4.28) für die Lösungsdarstellung zuberechnende Dk ist gegeben durch die (1, 1)-Blöcke λk

i und die (2, 2)-Blöcke

Dkj = ak

j

(cos(kϕ j) − sin(kϕ j)sin(kϕ j) cos(kϕ j)

)(4.31)

mit a =(μ2 + ν2

) 12 , cos(ϕ) =

μ

a, sin(ϕ) = − ν

a(4.32)

(unter Beachtung von (2.45)). Daher lautet die Lösungsdarstellung

x(k) =

�∑i=1

αiλmi ui +

�′∑i=1

|λi|k(βi(cos(kϕi)ui + sin(kϕi)wi) + γi(cos(kϕi)wi − sin(kϕi)ui)),

(4.33)

wobei (α1, . . . , α�′ , β1, γ1, . . . , β�′ , γ�′)t = C−1u(0) . ◦Beispiel 1(5) – Historische Probleme Wir kehren zurück zur Folge der Fibonacci-Zahlen nach (MM.17),(MM.18). Sei

x(k) :=(

fk+1fk+2

)für k = 0, 1, . . . ,

dann gilt

x(k+1) =

(0 11 1

)x(k) ,

so dass nur die Eigenwerte von

A =(0 11 1

)untersucht werden müssen. Diese sind

Page 50: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

432 4 Eigenwerte und Normalformen von Matrizen

λ1 =1 +√

52

, λ2 =1 − √5

2

mit zugehörigen Eigenvektoren

x1 =

(1λ1

), x2 =

(1λ2

).

Der Startvektor x(0) = (0, 1)t hat in dieser Basis die Darstellung

x(0) =1

λ1 − λ2(x1 − x2) =: x1 + x2

und somit erhält man für fk als erste Komponente von x(k−1) nach (4.27):

fk =1√5

⎛⎜⎜⎜⎜⎜⎜⎝⎛⎜⎜⎜⎜⎝1 +√

52

⎞⎟⎟⎟⎟⎠k

−⎛⎜⎜⎜⎜⎝1 − √5

2

⎞⎟⎟⎟⎟⎠k⎞⎟⎟⎟⎟⎟⎟⎠ .

So erhalten wir auch (MM.31), ohne auf den Ansatz (MM.32) zurückgreifen zu müssen. �

Beispiel 4.57 (Differenzengleichung) Wie in Beispiel 1(5) eine lineare Differenzenglei-chung 2. Ordnung in ein System 1. Ordnung umgewandelt worden ist, kann dies auch miteiner Gleichung m-ter Ordnung nach (MM.20), (MM.21) geschehen. Dazu sei

x(k) :=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝fk+1...

fk+m

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ Km , k ∈ N0 ,

so dass gilt

x(k+1) =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝0 1

. . .. . .

0 1a(0) · · · · · · a(m−1)

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = Ax(k) . (4.34)

A heißt auch Begleitmatrix der Differenzengleichung. Demnach sind die Eigenwerte vonA zu bestimmen. Aus Bemerkung 4.27 ist bekannt: Die Eigenwerte von A sind gerade dieNullstellen der (skalaren) charakteristischen Gleichung

λm −m−1∑i=0

a(i)λi = 0 , (4.35)

wie schon in Beispiel 1(4) gesehen.Wegen a(0) � 0 kann also λ = 0 kein Eigenwert sein, für die Eigenwerte ist daher immer

der Eigenraum eindimensional, da die ersten m − 1 Zeilen von A − λ1 für λ � 0 linearunabhängig sind. A ist somit genau dann diagonalisierbar in K, wenn (4.35) insgesamt mverschiedene Nullstellen in K besitzt. Genau dann hat demzufolge die allgemeine Lösungvon (MM.21) die Darstellung

Page 51: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.2 Eigenwerttheorie 433

1 2 3 4 5 6 7 80

50

100

150

200

250

300

λ > 1

1 2 3 4 5 6 7 8150

100

50

0

50

100

150

200

250

300

λ < −1

1 2 3 4 5 6 7 80

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0 < λ < 1

1 2 3 4 5 6 7 80.5

0.4

0.3

0.2

0.1

0

0.1

0.2

0.3

−1 < λ < 0

1 2 3 4 5 6 7 840

20

0

20

40

60

80

100

λ ∈ C , |λ| > 1

1 2 3 4 5 6 7 80.15

0.1

0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

λ ∈ C , |λ| < 1

Abb. 4.3: Typische Lösungsverläufe für Differenzengleichungen.

Page 52: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

434 4 Eigenwerte und Normalformen von Matrizen

fk =m∑

i=1

βiλki (4.36)

mit den paarweise verschiedenen Eigenwerten λi und βi ∈ K, so dass

f j =

m∑i=1

βiλji für j = 1, . . . , m .

Diese existieren eindeutig (vergleiche (2.149) ff.). Genauer sind ui :=(1, . . . , λm−1

i

)tzu λi

gehörige Eigenvektoren von A.Sind die a(i) reell und hat (4.35) insgesamt m paarweise verschiedene Nullstellen, die

aber nicht alle reell sind, so ergibt die Anwendung von (4.33)

fk =�∑

i=1

αiλki +

�′∑i=1

|λi| (βi cos(kϕi) − γi sin(kϕi)) ,

wobei die λ j, j = 1, . . . , � , die reellen, λ j = μ j + iν j, j = 1, . . . , �′ die komplexen Eigen-werte (ohne die jeweils komplex-konjugierten) bezeichnet, mit ϕi durch (4.32) gegeben(Übung). ◦

Was Sie in diesem Abschnitt gelernt haben sollten

Begriffe:

• Eigenwert, Eigenvektor, Eigenraum, geometrische Vielfachheit• Diagonalisierbar• Eigenwertgleichung, charakteristisches Polynom, algebraische Vielfachheit• Spur sp(A) einer Matrix• Schur-Normalform (komplex oder reell) (Hauptsatz 4.51 und Theorem 4.55)

Zusammenhänge:

• Diagonalisierbar = Basis aus Eigenvektoren (Theorem 4.20)• Invarianten unter Ähnlichkeitstransformation (Satz 4.29)• Summe aus Eigenräumen ist direkt (Theorem 4.42)• Geometrische ≤ algebraische Vielfachheit (Satz 4.46),

diagonalisierbar⇔ geometrische = algebraische Vielfachheit (Hauptsatz 4.47)

Beispiele:

• Diagonalisierung und Systeme linearer gewöhnlicher Differentialgleichungen• Eigenwerte von Projektion, Spiegelung, hermitescher, antihermitescher, unitärer

Matrix• Diagonalisierung und Systeme linearer Differenzengleichungen

Page 53: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Aufgaben 435

Aufgaben

Aufgabe 4.5 (K) Gekoppelte Federn, wie am Anfang dieses Abschnitts, kann man sehrschön experimentell aufbauen. Die senkrechten Schwingungen kann man aber sehr schlechtbeobachten, weil die Federn schnell horizontal ins Wackeln kommen. Einfacher ist das,wenn man die untere Masse mit einer dritten Feder stabilisiert. Die Bewegungsgleichun-gen lauten dann

my1 = −ky1 + k(y2 − y1) = k(y2 − 2y1) ,

my2 = −k(y2 − y1) − ky2 = k(y1 − 2y2) .

Bestimmen Sie (für k = m = 1) Eigenwerte und Eigenvektoren der Koeffizientenmatrixdieses Systems (und verifizieren Sie, dass dieses System auch mathematisch „einfacher“zu behandeln ist).

Aufgabe 4.6 (K) Bestimmen Sie alle Eigenwerte und die Dimensionen aller Eigenräumefür die Matrizen

M =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 3 −2 44 −3 4−2 1 −3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ und N =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 3 −2 43 −3 2−2 1 −3

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠und entscheiden Sie, ob M und N ähnlich sind.

Aufgabe 4.7 (K) Im R-Vektorraum aller Abbildungen von R in R betrachte man den vonden Funktionen

f (x) = ex , g(x) = xex , h(x) = e−x

aufgespannten Unterraum V = R f +Rg +Rh und den Endomorphismus

Φ : V → V , F �→ F′ (Differentiation)

von V . Bestimmen Sie die Eigenwerte und Eigenräume von Φ.

Aufgabe 4.8 (K) Entscheiden Sie, welche der folgenden Matrizen zueinander ähnlichsind und welche nicht, und begründen Sie Ihre Antwort:

a) A =(

1 10 1

), B =

(1 11 0

), C =

(1 01 1

).

b) A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝1 0 00 −1 00 0 −1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ , B = 19

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝−1 4 84 −7 48 4 −1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Aufgabe 4.9 (K) Seien V = R3 und f : V → V die lineare Abbildung mit der Matrix

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 3 −1 12 0 1−1 1 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Page 54: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

436 4 Eigenwerte und Normalformen von Matrizen

Bestimmen Sie alle Unterräume U ⊂ V , für die f (U) ⊂ U.

Aufgabe 4.10 (K) Sei A eine reelle 3× 3-Matrix mit charakteristischem Polynom det(A−λ1) = λ3 − λ.

a) Man begründe, dass A über R diagonalisierbar ist.b) Man gebe den Rang der Matrizen A, A2, A2 + 1, A2 − 1 an.c) Man bestimme alle r, s, t ∈ R mit r1 + sA + tA2 = 0.d) Man zeige, dass A1954 = A1958 = A1988 = A2000 = A2 ist.e) Man gebe eine solche reelle Matrix A an.

Aufgabe 4.11 (K) Gegeben seien die Matrizen

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 1 2 30 2 30 0 −2

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ , B =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝1 5 60 0 20 2 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ , C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝1 0 01 2 01 1 2

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Man beweise oder widerlege:

a) Es gibt eine invertierbare Matrix T mit A = T−1BT .b) Es gibt eine invertierbare Matrix T mit A = T−1CT .

Aufgabe 4.12 (K) Zeigen Sie, dass die Matrix

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝2 1 00 1 −10 2 4

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ R(3,3)

über R nicht diagonalisierbar, aber trigonalisierbar ist. Geben Sie ein S ∈ GL(3,R) an, sodass S AS −1 eine Dreiecksmatrix ist.

Aufgabe 4.13 (T) Sei A ∈ K(n,n). Zeigen Sie:Der Lösungsraum von

x(t) = Ax(t) , t ∈ [a, b] für a, b ∈ R, a < b (∗)ist ein Vektorraum der Dimension 2n.Hinweis: Man benutze das folgende Ergebnis der Analysis: Es gibt genau ein x ∈C([a, b],Kn), so dass (∗) gilt und x(a) = x0, x(a) = x0

′ für beliebige vorgegebenex0, x0

′ ∈ Kn.

Aufgabe 4.14 (T) Sei A ∈ R(n,n), A sei diagonalisierbar, wobei nicht alle Eigenwerte reellsind. Zeigen Sie: A ist reell ähnlich zu einer Blockdiagonalmatrix, die genau der Block-Diagonalen der Matrix aus Theorem 4.55 entspricht.

Aufgabe 4.15 (T) Sei A ∈ K(n,n). Dann lässt sich A eindeutig in einen symmetrischenbzw. hermiteschen Anteil AS und einen antisymmetrischen bzw. antihermiteschen AnteilAA zerlegen.

Aufgabe 4.16 (T) Arbeiten Sie Beispiel 4.57 im Detail aus.

Page 55: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 437

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation

Nach Satz 4.39 sind die komplexen Eigenwerte einer reellen symmetrischen Matrix reell,so dass hier die Chance auf reelle Diagonalisierbarkeit besteht. Das Problem bei einerÄhnlichkeitstransformation eines symmetrischen S ∈ R(n,n) ist, dass

S ′ = A−1S A für ein allgemeines A ∈ GL(n,R)

nicht symmetrisch ist. Betrachtet man aber nur orthogonale Ähnlichkeitstransformationen,d. h. A ∈ O(n,R), so gilt

(S ′)t = AtS tA−t = A−1S A = S ′, d. h.

orthogonale Ähnlichkeit erhält Symmetrie. (4.37)

Anwendung der reellen Schur-Normalform (Theorem 4.55) auf eine symmetrische Ma-trix S ∈ R(n,n) liefert also die orthogonale Ähnlichkeit zu einer reellen oberen Dreiecks-matrix, da keine komplex-konjugierten Eigenwerte auftreten (Satz 4.39). Die obere Drei-ecksmatrix ist auch symmetrisch und damit eine Diagonalmatrix.

Analog zu (4.37) gilt im Komplexen:

Unitäre Ähnlichkeit erhält die Hermite-Eigenschaft einer Matrix S ∈ C(n,n) . (4.38)

Analog folgt mit der komplexen Schur-Normalform (Hauptsatz 4.51), dass A unitär-ähnlich zu einer reellen Diagonalmatrix ist. Zusammengefasst gilt demnach:

Hauptsatz 4.58: Hauptachsentransformation für selbstadjungierte Matrizen

Sei S ∈ K(n,n) selbstadjungiert. Dann gibt es eine reelle orthogonale (bzw. komplexeunitäre) Matrix A derart, dass A−1S A eine reelle Diagonalmatrix ist, d. h. insbeson-dere ist S orthogonal bzw. unitär diagonalisierbar.

Nach Satz 4.10 ist dies damit äquivalent, dass zu jeder selbstadjungierten Matrix S ∈ K(n,n)

eine ONB des Kn aus Eigenvektoren von S (zu reellen Eigenwerten) existiert.

Bemerkungen 4.59

1) Die Bezeichnung Hauptachsentransformation kommt nicht von der Diagonalisierungeiner Matrix als Darstellung einer linearen Abbildung, sondern als Darstellung einer Bili-nearform, d. h. einer Abbildung

ϕ : Rn ×Rn → R, (x, y) �→ xtS y .

Bei der Hauptachsentransformation kann man durch Basis-, d. h. „Achsen-“wechsel einevereinfachte Darstellung von Bilinearformen angeben, und damit auch von Quadriken,

Page 56: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

438 4 Eigenwerte und Normalformen von Matrizen

d. h. den Nullstellenmengen von Polynomen 2. Grades in den Variablen x1, . . . , xn (sieheKapitel 5).

2) Seien V, W euklidische bzw. unitäre endlichdimensionale K-Vektorräume, B1 bzw. B2

fest gewählte ONB von V bzw. W, und es seien Φ ∈ Hom(V, W) und S ∈ K(m,n). Φ hatbezüglich B1 bzw. B2 die Darstellungsmatrix S , genau dann wenn die Adjungierte Φ† dieDarstellungsmatrix S † bezüglich B2 und B1 hat.Diese ergibt sich aus folgender Identität für u ∈ V, w ∈ W:⟨

u . Φ†w⟩= 〈Φu .w〉 = ⟨

ΞB2 (Φu) . ΞB2w⟩=

⟨S (χB1u) . ΞB2w

⟩=

⟨χB1u . S †ΞB2w

⟩. (4.39)

Dabei sind

χB1 : V → Kn und ΞB2 : W → Km

die Koordinatenabbildungen. Bei der zweiten Gleichheit geht Bemerkung 2.18 und damit die Orthonor-malität der Basis ein, bei der dritten Gleichheit (2.16). Mit der gleichen Argumentation kann die Identitätfortgesetzt werden zu ⟨

u . Φ†w⟩=

⟨u . χ−1

B1S †ΞB2w

⟩und da u ∈ V beliebig ist, also für w ∈ W,

Φ†w = χ−1B1

S †ΞB2w .

Daraus folgt sodann:

Φ ∈ Hom(V, V) ist symmetrisch/hermitesch/orthogonal/unitär⇐⇒

S ∈ K(n,n) ist symmetrisch/hermitesch/orthogonal/unitär.

Dabei ist S die Darstellungsmatrix bezüglich irgendeiner ONB von V .

�Die Invarianz unter unitärer bzw. orthogonaler Ähnlichkeitstransformation gilt auch fürweitere Eigenschaften, etwa:

Eine zu einer unitären bzw. orthogonalen Matrix unitär bzw.orthogonal ähnliche Matrix ist unitär bzw. orthogonal. (4.40)

Dies folgt sofort aus

S ′−1 = A−1S −1A = A†S †(A†)† = (A†S A)† = S ′†

für S −1 = S † und A−1 = A† (analog im Reellen).

Entsprechendes gilt für die Eigenschaften antihermitesch bzw. schiefsymmetrisch.

Analog zu Definition 4.21 lässt sich der Begriff der orthogonalen/unitären Diagonalisier-barkeit auf Homomorphismen übertragen:

Page 57: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 439

Definition 4.60

Sei V ein euklidischer bzw. unitärer K-Vektorraum, Φ ∈ HomK(V, V). Φ heißt or-thogonal (für K = R) bzw. unitär (für K = C) diagonalisierbar, wenn eine ONB ausEigenvektoren von Φ existiert.

Bemerkungen 4.61

1) Eine Matrix S ∈ K(n,n) ist orthogonal bzw. unitär diagonalisierbar, genau dann wenn Sorthogonal bzw. unitär ähnlich zu einer Diagonalmatrix ist.

2) Unter den Voraussetzungen von Definition 4.60 gilt für endlichdimensionales V:

Ein Φ ∈ HomK(V, V) ist orthogonal bzw. unitär diagonalisierbar⇐⇒

die Darstellungsmatrix C von Φ bezüglich einer ONB ist orthogonalbzw. unitär diagonalisierbar

⇐⇒die Darstellungsmatrix C von Φ bezüglich jeder ONB ist orthogonal

bzw. unitär diagonalisierbar.

Man beachte dazu Satz 4.15 und die Tatsache, dass die Koordinatenabbildung ΨB : V → Kn für eine ONBnach (1.89) eine orthogonale Transformation ist, somit nach Theorem 2.17 ONBs in ONBs überführt undfür die letzte Äquivalenz Satz 4.10, 2).

3) Unter den Voraussetzungen von Definition 4.60 gilt:Φ ∈ HomK(V, V) ist orthogonal bzw. unitär diagonalisierbar⇐⇒Es gibt eine direkte Zerlegung V =

⊕ki=1 Vi,

⊕ki=1i� j

Vi ⊂ V⊥j für alle j = 1, . . . , k, und

Φ =

k∑i=1

λiPi

für gewisse λi ∈ K. Die Pi : V → Vi sind dabei die durch die Zerlegung definiertenProjektionen.Bei den Pi handelt es sich um orthogonale Projektionen.Dies folgt aus Bemerkungen 4.43, 3) und Definition 4.60. Die Orthogonalität folgt aus 3) und Bemerkun-gen 2.47.

�Ein die bisherigen Beispiele (4.37), (4.38) und (4.40) umfassender Begriff ist:

Definition 4.62

Sei V ein euklidischer bzw. unitärer K-Vektorraum endlicher Dimension. Φ ∈HomK(V, V) bzw. S ∈ K(n,n) heißen normal, wenn gilt

Page 58: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

440 4 Eigenwerte und Normalformen von Matrizen

Φ†Φ = ΦΦ† bzw. S †S = S S † .

Dies ist die größtmögliche Klasse von unitär diagonalisierbaren Matrizen, denn:

Satz 4.63: Unitär ähnlich überträgt Normalität

Seien S , S ′ ∈ K(n,n).

1) Ist S normal und S ′ zu S orthogonal bzw. unitär ähnlich, dann ist auch S ′ normal.

2) Ist S unitär ähnlich zu einer Diagonalmatrix, dann ist S normal.

Beweis: Zu 1): Sei A ∈ O(n,K) und S ′ = A−1S A = A†S A und S †S = S S †, dann

S ′†S ′ = A†S †AA−1S A = A†S †S A = A†S S †A = A†S AA†S †A = S ′S ′† .

Zu 2): Eine Diagonalmatrix D ∈ K(m,n) ist offensichtlich normal und damit nach 1) aucheine dazu unitär ähnliche Matrix. �

Beispiel 4.64 Für reelle (2, 2)-Matrizen ist die Situation besonders übersichtlich: Sei

S =(

a bc d

)∈ R(2,2) und normal, d. h.

S tS = S S t. Dies ist äquivalent zu den Gleichungen

c2 = b2 und a(b − c) = d(b − c) .

Daraus folgt, dass nur zwei Fälle möglich sind:

1. Fall:

S =(

a bb d

). (4.41)

S ist demnach symmetrisch, d. h. reell diagonalisierbar und hat Eigenwerte λ1 � λ2 (sieheBeispiel 4.33) falls b � 0 oder a � d.

2. Fall:

S =(

a b−b a

)(b � 0) .

S ist daher eine Drehstreckung und die Eigenwerte berechnen sich zu

λ1,2 = a ± ib .

Spezialfälle davon sind:

Page 59: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 441

S ist orthogonal ⇔ a2 + b2 = 1⇔ |λ| = 1 für die Eigenwerte λ

undS ist schiefsymmetrisch ⇔ a = 0⇔ λ ∈ iR für die Eigenwerte λ . ◦

Satz 4.65: Eigenschaften normaler Operatoren

Sei V ein euklidischer bzw. unitärer K-Vektorraum endlicher Dimension mit deminneren Produkt 〈 . 〉, sei Φ ∈ HomK(V, V) normal. Dann gelten:

1) 〈Φu . Φu〉 =⟨Φ†u . Φ†u

⟩für alle u ∈ V .

2) Sei S ∈ K(n,n) normal und folgendermaßen partitioniert:

S =(

S 1,1 S 1,2

S 2,1 S 2,2

)(4.42)

mit S 1,1 ∈ K(l,l) für ein l ∈ {1, . . . , n}. Dann folgt

‖S 1,2‖F = ‖S 2,1‖F .

3) Ist U ein Φ-invarianter Unterraum von V , dann ist auch U⊥ ein Φ-invarianterUnterraum und U sowie U⊥ sind auch Φ†-invariant.

4) Ist U ein Φ-invarianter Unterraum von V , dann ist ΦU := Φ|U ∈ HomK(U, U)normal und (ΦU)† =

(Φ†

)U

.

5) Ist u ein Eigenvektor von Φ zum Eigenwert λ ∈ K, dann ist u auch ein Eigenvektorvon Φ† zum Eigenwert λ.

6) Sind V1, V2 Eigenräume zu verschiedenen Eigenwerten, dann sind V1 und V2 or-thogonal, d. h. Eigenvektoren zu verschiedenen Eigenwerten sind orthogonal.

Ist S ∈ K(n,n) eine normale Matrix, dann gelten zusätzlich zu 2) auch die restlichenAussagen 1) und 3)-6) analog.

Beweis: Zu 1): 〈Φu . Φu〉 =⟨u . Φ†Φu

⟩=

⟨u . Φ Φ†u

⟩=

⟨u . (Φ†)†Φ†u

⟩=

⟨Φ†u . Φ†u

⟩.

Zu 2): In der angegebenen Partitionierung ist

S † =⎛⎜⎜⎜⎜⎝S †1,1 S †2,1

S †1,2 S †2,2

⎞⎟⎟⎟⎟⎠und daher ergibt S S † = S †S für jeden Block eine Identität, die für die Position (1, 1) lautet(vergleiche die Überlegungen vor (4.41)):

Page 60: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

442 4 Eigenwerte und Normalformen von Matrizen

S 1,1S †1,1 + S 1,2S †1,2 = S †1,1S 1,1 + S †2,1S 2,1 .

Daraus folgt mit Bemerkungen 4.31, 4):

‖S 1,1‖2F + ‖S 1,2‖2F = ‖S †1,1‖2F + ‖S †2,1‖2F = ‖S 1,1‖2F + ‖S 2,1‖2Fund damit

‖S 1,2‖F = ‖S 2,1‖F .

Zu 3): Es sei n = dim V und {u1, . . . , um} eine ONB von U, die mit einer ONB {um+1, . . . , un}von U⊥ zu einer ONB von V ergänzt wird.

Dabei ist die Orthonormalität der Basen der Unterräume immer mit dem SchmidtschenOrthonormalisierungsverfahren zu erreichen. Und die Orthonormalität der Zusammenset-zung wird durch die Orthogonalität der Räume gesichert.

Sei S die Darstellungsmatrix von Φ bezüglich der gewählten ONB, dann ist

S =(

B C0 D

)(4.43)

mit der Nullmatrix 0 ∈ K(n−m,m) und B ∈ K(m,m) wegen der Φ-Invarianz von U. Wegen 2)ist auch C = 0 ∈ K(m,n−m) und damit folgt aus (4.43) die Φ-Invarianz von U⊥.Da nach Bemerkungen 4.59, 2) Φ† in der gewählten ONB die Darstellungsmatrix

S † =(

B† 00 D†

)(4.44)

hat, folgt ebenso die Φ†-Invarianz von U und U⊥.Zu 4): Aus dem Beweis von 3) und insbesondere (4.44) folgt

(ΦU)† =(Φ†

)U

und daher die Normalität von ΦU :

ΦU (ΦU)† = ΦUΦ†U =(Φ Φ†

)U=

(Φ†Φ

)U= (ΦU )†ΦU .

Zu 5): Sei V1 := span(u), dann ist V1 Φ-invariant und nach 3) folglich auch Φ†-invariant,d. h. Φ†u = μu für ein μ ∈ K. Aus

λ 〈u . u〉 = 〈Φu . u〉 =⟨u . Φ†u

⟩= μ 〈u . u〉 ,

folgt μ = λ.Zu 6): Seien Φu = λu, Φw = μw für u,w � 0 und λ, μ ∈ K, λ � μ. Dann ist nach 5)

λ 〈u .w〉 = 〈Φu .w〉 =⟨u . Φ†w

⟩= 〈u . μw〉 = μ 〈u .w〉

und somit

Page 61: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 443

〈u .w〉 = 0 . �

In Erweiterung von Hauptsatz 4.58 folgt nun

Hauptsatz 4.66: Unitäre Diagonalisierung normaler Matrizen

1) Sei S ∈ K(n,n) eine (obere) Dreiecksmatrix und normal, dann ist S eine Diago-nalmatrix.

2) Sei S ∈ C(n,n) normal, dann existiert eine unitäre Matrix A ∈ C(n,n) derart, dass

A−1S A = D

eine Diagonalmatrix ist, d. h. S ist unitär diagonalisierbar.

3) Sei V ein unitärer C-Vektorraum mit Dimension n und Φ ∈ HomC(V, V) normal.Dann gibt es eine ONB von V aus Eigenvektoren von Φ.

Beweis: Zu 1): Vollständige Induktion über n:Für n = 1 ist nichts zu zeigen.Es gelte die Behauptung für n, sei S ∈ K(n+1,n+1) eine obere Dreiecksmatrix und nor-mal. Betrachtet man eine Partitionierung nach (4.42) mit l = 1, so ist S 2,1 = 0 und nachSatz 4.65, 2) auch S 1,2 = 0. Nach Satz 4.65, 4) ist auch S 2,2 ∈ Kn,n normal und als obereDreiecksmatrix nach Induktionsvoraussetzung diagonal.

Zu 2): Nach Hauptsatz 4.51 ist S unitär ähnlich zu einer oberen Dreiecksmatrix, die nach1) diagonal ist.

Zu 3): Folgt sofort aus 2) unter Beachtung von Bemerkungen 4.59, 2). �

Bemerkungen 4.67 Sei V ein endlichdimensionaler K-Vektorraum mit SKP.

1) Tatsächlich gilt also in Hauptsatz 4.66 wegen Satz 4.63, 2) die Äquivalenz zwischenNormalität und der Existenz einer ONB aus Eigenvektoren.

2) Für unitäre als spezielle normale Operatoren gilt wegen Satz 4.39, 2):

Es gibt eine ONB aus Eigenvektoren und für alle Eigenwerte λ gilt |λ| = 1 . (4.45)

Tatsächlich charakterisiert (4.45) unitäre Operatoren (Übung).

3) Die folgende Teilaussage von Hauptsatz 4.58 über hermitesche Operatoren auf einemC-Vektorraum endlicher Dimension folgt sofort wegen Satz 4.39, 1):

Es gibt eine ONB aus Eigenvektoren und für alle Eigenwerte λ giltλ ∈ R .

(4.46)

Page 62: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

444 4 Eigenwerte und Normalformen von Matrizen

Tatsächlich charakterisiert (4.46) hermitesche Operatoren. Für euklidische Vektorräume(d. h. über R) und symmetrische Operatoren beinhaltet Hauptsatz 4.58 ebenfalls (4.46),was nicht unmittelbar aus Hauptsatz 4.66 folgt. Auch hier ist (4.46) wieder eine Charakte-risierung für Symmetrie.Beide Aussagen folgen daraus, dass für eine ONB {u1, . . . , un} aus Eigenvektoren (Φui = λiui) mit reellenEigenwerten gilt: ⟨

(Φ† −Φ)u j . uk⟩=

⟨u j . Φuk

⟩−

⟨Φu j . uk

⟩= (λk − λ j)

⟨u j . uk

⟩= 0 für alle j, k = 1, . . . , n

und damit Φ† = Φ.

4) Die Aussagen 2) und 3) lassen sich auch so formulieren: Sei S ∈ K(n,n) normal. Danngilt:

S ist selbstadjungiert.⇐⇒ Alle Eigenwerte sind reell.S ist orthogonal bzw. unitär.⇐⇒ Alle Eigenwerte haben den Betrag 1.

S ist antihermitesch.⇐⇒ Alle Eigenwerte sind rein imaginär.

5) Sei S ∈ R(n,n) normal und x = y+ iz ∈ Cn, ein Eigenvektor zum Eigenwert λ = μ+ iν ∈C, ν � 0. Dann gilt:

‖y‖2 = ‖z‖2 und 〈y . z〉 = 0 .

Das kann man folgendermaßen einsehen: Mit x ist auch x Eigenvektor zum Eigenwert λ (Satz 4.34, 3)).Da λ � λ, folgt nach Satz 4.65, 6):

0 =⟨x . x

⟩= 〈y + iz . y − iz〉 = 〈y . y〉 − 〈z . z〉 + i(〈y . z〉 + 〈z . y〉)

und damit die Behauptung.

�Die auf Theorem 4.55 aufbauende reelle Variante lautet:

Satz 4.68: Orthogonale Block-Diagonalisierung reeller normaler Matrizen

1) Sei S ∈ K(n,n) eine normale (obere) Block-Dreiecksmatrix. Dann verschwindenalle Nichtdiagonalblöcke, S ist also eine Blockdiagonalmatrix.

2) Sei S ∈ R(n,n) normal, dann existiert eine orthogonale Matrix A ∈ R(n,n) derart,dass

A−1S A = D

Page 63: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 445

eine Blockdiagonalmatrix ist mit (1, 1)- oder (2, 2)-Blöcken. Dabei sind die Ersterengenau die reellen Eigenwerte von S und die (2, 2)-Blöcke haben die Gestalt einerDrehstreckung, d. h.

B =(

μ ν−ν μ

)mit μ, ν ∈ R .

Dabei ist

λ := μ + iν ∈ Cein Eigenwert von S .Die an den entsprechenden Positionen von A stehenden Spalten y und z spanneneinen invarianten Unterraum auf, denn:

S y = μy − νz ,

S z = νy + μz

und

x := y + iz ∈ Cn

ist Eigenvektor von S zum Eigenwert λ.

Beweis: Zu 1): Der Beweis ist völlig analog zu dem Hauptsatz 4.66, 1) mit Induktionüber die Anzahl der Diagonal-Blöcke.

Zu 2): Folgt direkt aus 1) und Theorem 4.55. Es ist nur noch zu klären, dass im Beweisvon Theorem 4.55 die Matrix B in (4.22) so erhalten bleibt und die zugehörigen Spaltender Transformation eine ONB bilden. Dies ist der Fall, da nach Bemerkungen 4.67, 5)Realteil y und Imaginärteil z der Eigenvektoren orthogonal sind und gleiche Länge haben,sodass sie mit ‖y‖ = ‖z‖ normiert werden können, um eine (n Teil einer) ONB zu erhalten,ohne dass sich die Darstellungsmatrix ändert. �

Bemerkungen 4.69

1) Sei S ∈ O(n,R), dann gibt es ein A ∈ SO(n,R), so dass D = A−1S A die Gestalt

Page 64: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

446 4 Eigenwerte und Normalformen von Matrizen

D =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1. . . 0

1−1

. . .

−1D1

0. . .

Dk

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠hat, wobei l die Anzahl der Eigenwerte 1, m die Anzahl der Eigenwerte −1 und k dieAnzahl der (2, 2)-Drehungen Di ist, d. h. es ist l + m + 2k = n.Nach Satz 4.39, 2) haben alle Eigenwerte S den Betrag 1, was die Darstellung mittels Satz 4.68, 2) ergibt,A ∈ O(n,R) und damit | det A| = 1. Wenn det A = −1 ist, muss einer der Eigenwerte von A reell sein, dadie komplex-konjugierten Paare immer λλ = |λ|2 = 1 ergeben, dann kann bei einer Spalte von A, nämlicheinem zugehörigen Eigenvektor, zum Negativen übergegangen werden.

2) Sei V ein endlichdimensionaler euklidischer bzw. unitärer Raum, Φ ∈ Hom(V, V) seidiagonalisierbar oder sogar normal. Die in Bemerkungen 4.43 bzw. 4.61, 3) untersuchtenProjektionen auf Eigenräume Vi können weiter zerlegt werden durch Zerlegen der Vi ineindimensionale Unterräume span(ui), d. h.

V =n⊕

i=1

span(ui)

mit einer Eigenvektorbasis {u1, . . . , un}.Nach Satz 2.46 werden durch

Pi : V → span(ui) , u =n∑

j=1

α ju j �→ αiui

Projektionen definiert, die im normalen Fall, wenn die Basen orthonormal gewählt werden,auch orthogonale Projektionen sind, da dann die Räume span(ui) auch orthogonal sind(siehe Satz 4.65, 6)). Daraus folgt die Spektraldarstellung

Φ =

n∑i=1

λiPi .

In Matrixschreibweise für normale Matrizen S mit einer Eigenvektor-ONB u1, . . . , un be-deutet dies

S =n∑

i=1

λiui ⊗ ui . (4.47)

Page 65: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 447

3) Die Spektraldarstellung verallgemeinert somit die orthogonale Projektion auf einenendlichdimensionalen Unterraum U (mit ONB u1 . . . , un), bei der nur die Eigenwerte 1und 0 auftreten (vgl. (2.51)). �

Beispiele 4.70 (Geometrie) Die ebenen Drehungen und Spiegelungen wurden in Be-merkung 2.27 untersucht. Analoges kann nun für die räumlichen Drehungen, d. h. S ∈SO(3,R), und Spiegelungen, d. h. S ∈ O(3,R), det S = −1, geschehen:

1) Eine Drehung um eine Koordinatenachse, etwa die z-Achse wird beschrieben durch

S =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ cos(ϕ) − sin(ϕ) 0sin(ϕ) cos(ϕ) 0

0 0 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ =: D(ϕ, e3) (4.48)

für ein ϕ ∈ [0, 2π) und analog für die Drehachsen a = e1 oder a = e2. Allgemein ist eineebene Drehung um eine Drehachse a ∈ R3, ‖a‖2 = 1

S = U−1D(ϕ, e3)U =: D(ϕ, a) .

Hierbei ist U ∈ SO(3,R) eine Matrix mit Ua = e3, beschreibt also eine entsprechendeorthogonale Koordinatentransformation. Insbesondere ist daher

S a = a .

Man vergleiche Bemerkungen 2.134, 2).

Analog wird eine Drehspiegelung um die z-Achse beschrieben durch

S =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ cos(ϕ) − sin(ϕ) 0sin(ϕ) cos(ϕ) 0

0 0 −1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ =: DS (ϕ, e3)

für ein ϕ ∈ [0, 2π) und eine Drehspiegelung um die Drehachse a ∈ R3, ‖a‖3 = 1 durch

S = U−1DS (ϕ, e3)U =: DS (ϕ, a) ,

wobei U ∈ SO(3,R) eine Matrix mit Ua = e3 ist.

2) Zu S ∈ SO(3,R) gibt es eine Drehachse, d. h. a ∈ R3, so dass S eine durch ϕ ∈ [0, 2π)beschriebene ebene Drehung um diese Drehachse darstellt. S lässt sich schreiben als

S = D(ϕ, a) = cos(ϕ)1 + (1 − cos(ϕ))a ⊗ a + sin(ϕ)3∑

i=1

(a × ei) ⊗ ei (4.49)

bzw. komponentenweise mit c := cos(ϕ), s := sin(ϕ), c := 1 − c

Page 66: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

448 4 Eigenwerte und Normalformen von Matrizen⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ a21c + c a1a2c − a3s a1a3c + a2s

a2a1c + a3s a22c + c a2a3c − a1s

a3a1c − a2s a3a2c + a1s a23c + c

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

S ∈ SO(3,R) muss mindestens einen reellen Eigenwert und damit den Eigenwert λ = 1 haben. Seia ∈ R3, ‖a‖2 = 1, ein Eigenvektor dazu. Nach Bemerkungen 4.69, 1) gibt es somit ein A ∈ SO(3,R), sodass

S = ADA−1 mit D =(D1 00 1

), D1 =

(cos(ϕ) − sin(ϕ)sin(ϕ) cos(ϕ)

),

wobei ϕ ∈ [0, 2π) auch die Fälle ϕ = 0 und ϕ = π, d. h. ein diagonales D1, mit umfasst. Damit istS eine Drehung um die Achse a mit dem Winkel ϕ. Die Darstellung (4.49) ergibt sich durch folgendeÜberlegung:Nach Satz 4.68, 2) ist A = (u1, u2, a), wobei u1, u2 für ϕ � 0 und ϕ � π Real- und Imaginärteile einesEigenvektors zum komplexen Eigenwert cos(ϕ) − i sin(ϕ) sind bzw. sonst Eigenvektoren zu 1 bzw. -1.Daher:

S = ADAt = (cu1 + su2,−su1 + cu2, a)

⎛⎜⎜⎜⎜⎜⎜⎜⎝ ut1ut2at

⎞⎟⎟⎟⎟⎟⎟⎟⎠= c(u1 ⊗ u1 + u2 ⊗ u2) + s(u2 ⊗ u1 − u1 ⊗ u2) + a ⊗ a .

(4.50)

Nach (2.51) ist P1 := u1 ⊗ u1 + u2 ⊗ u2 die orthogonale Projektion auf span(u1, u2) = a⊥, es gilt folglichnach (2.52)

P1 = 1 − a ⊗ a .

P2 := u2 ⊗ u1 − u1 ⊗ u2 ist eine Abbildung auf span(u1, u2) mit

P2u1 = u2, P2u2 = −u1 und P2 a = 0 .

Die gleichen Eigenschaften hat

P2x := a × x ,

da det(u1, u2, a) = 1 > 0, also (u1, u2, a) ein Rechtssystem bilden. Somit ist

P2x = a × x = a ×3∑

i=1

xiei =

3∑i=1

(a × ei)xi =

3∑i=1

(a × ei) ⊗ ei x

und damit folgt die Darstellung (4.49).

3) Zu S ∈ O(3,R), det(S ) = −1 gibt es eine Drehachse a ∈ R3, so dass S eine durchϕ ∈ [0, 2π) beschriebene Drehspiegelung darstellt. A lässt sich schreiben als

S = DS (ϕ, a) = cos(ϕ)1 − (1 + cos(ϕ))a ⊗ a + sin(ϕ)3∑

i=1

(a × ei) ⊗ ei . (4.51)

Da S notwendigerweise den Eigenwert -1 hat, ergibt sich die Aussage völlig analog zu 2).

4) Nach Beispiele 3.2, 7) und Definition 2.123 ist ein S ∈ SO(3,R) dadurch charakte-risiert, dass eine festgewählte rechtsorientierte ONB auf eine rechtsorientierte ONB ab-

Page 67: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.3 Unitäre Diagonalisierbarkeit: Die Hauptachsentransformation 449

gebildet wird. Diese Abbildung kann man auch als Produkt von drei Drehungen um die„kartesischen Hauptachsen“ schreiben. Dies ergibt die Beschreibung einer rechtsorientier-ten ONB (zur Beschreibung von Körperkoordinaten, etwa Flugzeugen) durch drei Win-kel in Bezug auf ein festgewähltes „erdgebundenes“ rechtsorientiertes ONB, o. B. d. A.B1 = {e1, e2, e3}.Sei dann B2 = {u1, u2, u3} ein ONB von R3 mit det(u1, u2, u3) = 1. Dann kann S =(u1, u2, u3) ∈ SO(3,R) folgendermaßen zerlegt werden:S 1 : (e1, e2, e3) �→ (u′1, u

′2, e3), wobei

v′1 :=1α

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ v1,1

v1,20

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ , v′2 :=1α

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝−v1,2

v1,10

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ mit α := (v21,1 + v2

1,2)12 .

S 1 kann nach (4.48) durch einen Drehwinkel Ψ um die Drehachse e3 beschrieben werden.S 2 : (u′1, u

′2, e3) �→ (u1, u′2, u

′3), wobei u′3 := u1 × u′2.

S 2 kann man durch einen Drehwinkel Θ um die Drehachse u′2 (die „neue“ y-Achse) be-schreiben.S 3(u1, u′2, u

′3) �→ (u1, u2, u3). S 3 kann durch einen Drehwinkel Φ um die Drehachse u1 (die

„neue“ x-Achse) beschrieben werden.Die auftretenden Winkel heißen auch Euler-Winkel . In der Luftfahrt heißen Ψ Gierwin-kel , Θ Nickwinkel und Φ Rollwinkel , die Hilfsachsen u′1, u

′2, u′3 heißen Knotenachsen. ◦

Satz 4.71: Simultane Diagonalisierbarkeit

Für zwei normale n × n-Matrizen S 1 und S 2 sind äquivalent:

(i) Es gibt eine Orthonormalbasis des Kn, deren Vektoren Eigenvektoren sowohlfür S 1 als auch für S 2 sind.

(ii) S 1S 2 = S 2S 1.

Beweis: „(i)⇒ (ii)“: Ist A die Übergangsmatrix in diese (Orthonormal-)basis, so sindD1 := A−1S 1A und D2 := A−1S 2A beides Diagonalmatrizen. Diese kommutieren, unddaraus folgt

S 1S 2 = AD1A−1 AD2A−1 = A D1D2 A−1 = A D2D1 A−1

= AD2A−1 AD1A−1 = S 2S 1.

„(ii)⇒ (i)“: Nach Hauptsatz 4.66 gibt es eine Orthonormalbasis des Kn aus Eigenvekto-ren für S 1. Die zugehörigen Eigenwerte brauchen nicht alle verschieden zu sein.

Seien λ1, · · · , λm die Verschiedenen unter den Eigenvektoren und Vk := {u ∈ Kn :S 1u = λku} ⊂ Kn, k = 1, . . . , m, die zugehörigen Eigenräume von S 1. Es gibt somit einedirekte Summenzerlegung

Kn = V1 ⊕ . . . ⊕ Vm

Page 68: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

450 4 Eigenwerte und Normalformen von Matrizen

in paarweise orthogonale Eigenräume von S 1. Sei u ∈ Vk. Aus (ii) folgt

S 1(S 2u) = S 2(S 1u) = S 2 λku = λkS 2u.

In Worten: Der Vektor S 2u ist auch Eigenvektor von S 1 zum selben Eigenwert λk, dem-nach S 2u ∈ Vk. Da dies für beliebige Vektoren u ∈ Vk gilt, ist der Eigenraum Vk invariantunter der linearen Abbildung mit Matrix S 2. Die orthogonale direkte Summen-Zerlegungist also auch unter der linearen Abbildung u �→ S 2u invariant. Ist A eine Übergangsmatrixin eine Orthonormalbasis, welche dieser Zerlegung angepasst ist, so ist A−1S 2A eine ent-sprechende Blockdiagonalmatrix. Dabei sind die Kästchen in dieser Matrix normal nachSatz 4.65, 4), während die Kästchen in A−1S 1A Vielfache der Einheitsmatrix sind. Jetztwenden wir Hauptsatz 4.66 auf die einzelnen Kästchen in A−1S 2A an und erhalten Or-thonormalbasen der einzelnen Eigenräume Vk aus Eigenvektoren für S 2. Die Vereinigungdieser Orthonormalbasen ist eine Orthonormalbasis des ganzen Kn aus Eigenvektoren fürS 2, die gleichzeitig Eigenvektoren für S 1 sind. �

Bemerkung 4.72 Die Charakterisierung der simultanen Diagonalisierbarkeit (es gibt eineBasis des Kn, deren Vektoren Eigenvektoren sowohl für S 1 als auch S 2 sind) durch dieKommutativität im Matrixprodukt gilt allgemein für diagonalisierbare S 1, S 2 (und damitfür eine Menge diagonalisierbarer Matrizen). Der Beweis (i)⇒(ii) von Satz 4.71 gilt auchhier und (ii)⇒(i) ist eine Folge von Bemerkung 4.116. �

Was Sie in diesem Abschnitt gelernt haben sollten

Begriffe:

• Normaler Operator, normale Matrix• Spektraldarstellung• Simultane Diagonalisierbarkeit

Zusammenhänge:

• Hauptachsentransformation für selbstadjungierte Matrizen (Hauptsatz 4.58)• Normal bleibt durch unitäre Ähnlichkeitstransformation erhalten (Satz 4.63)• Mit U ist auch U⊥Φ-invariant für normales Φ• Eigenräume bei normalen Operatoren sind orthogonal (Satz 4.65)• Normal⇔ unitär diagonalisierbar (Hauptsatz 4.66)

Aufgaben

Aufgabe 4.17 (K) Sei A eine symmetrische, reelle 3 × 3-Matrix, deren fünfte Potenz dieEinheitsmatrix 1 ist. Man zeige A = 1.

Page 69: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Aufgaben 451

Aufgabe 4.18 (K) Zeigen Sie, dass die Matrix

S :=16

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 1 2 32 3 13 1 2

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠mittels einer orthogonalen Matrix A auf Diagonalform D = A−1S A gebracht werden kann,und geben Sie die Matrix D explizit an.

Aufgabe 4.19 (K) Üben Sie auf die Matrix

S =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝−1 0 2 0

0 −1 0 22 0 −1 00 2 0 −1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ R4×4

eine Hauptachsentransformation aus, d. h. bestimmen Sie eine Matrix A ∈ R4×4, so dassAtS A diagonal ist.

Aufgabe 4.20 (T) Zeigen Sie, dass jedes Φ ∈ Hom(V, V), das (4.45) erfüllt, unitär ist.

Page 70: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

452 4 Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform

4.4.1 Der Satz von Cayley-Hamilton

Im Anhang B, Definition B.16 werden Polynome allgemein über einem Körper K definiert.Eine andere Art der Bildung entsteht, wenn ein Polynom über K „ausgewertet“ wird aneinem Element x ∈ V , wobei V ein K-Vektorraum ist, auf dem auch eine Multiplikationdefiniert ist (genauer ist V somit eine sogenannte K-Algebra (siehe Definition 3.17)). EinBeispiel dafür ist V = K(n,n) für ein beliebiges n ∈ N oder allgemein Hom(W, W) für einenK-Vektorraum W. Für festes C ∈ K(n,n) ist

m∑ν=0

aνCν = amCm + am−1Cm−1 + . . . + a1C + a01n ∈ K(n,n)

und somit ist die Abbildung

ϕ :

⎧⎪⎪⎨⎪⎪⎩K[x] → K(n,n)

p = p(λ) =∑m

0 aνλν �→ ϕ(p) := p(C) :=

∑m0 aνCν

(4.52)

wohldefiniert und auch K-linear.Analog ist p(Φ) für ein Φ ∈ Hom(W, W) definiert. Bei p(C) für C ∈ K(n,n) sprechen wir

vom Matrizenpolynom. Nach (2.20) hat Φk die Darstellungsmatrix Ck, falls Φ zu gegebe-ner Basis die Darstellungsmatrix C hat. Damit gilt

p(Φ) hat die Darstellungsmatrix p(C). (4.53)

Beispiel 4.73 Sei etwa p(λ) = λ2 − 1. Dann ist

p(C) = C2 − 1 .

Die Faktorisierung p(λ) = (λ + 1)(λ − 1) ergibt die gleiche Faktorisierung für das Matri-zenpolynom:

(C + 1)(C − 1) = C2 +C − C − 1 = C2 − 1 . ◦Diese Produktformel gilt ganz allgemein:

Satz 4.74

Ist

p(λ) = q1(λ)q2(λ)

ein Polynom-Produkt, so gilt für jede n × n-Matrix C

Page 71: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 453

p(C) = q1(C)q2(C) .

Beweis: Offensichtlich gilt für die Abbildung ϕ aus (4.52)

ϕ(xi+ j) = Ci+ j = CiC j = ϕ(xi)ϕ(x j) .

Wegen der K-Linearität von ϕ gilt dies auch für entsprechende Linearkombinationen unddamit folgt die Behauptung. �

Ein ganz wesentlicher Punkt ist, dass man daher im obigen Produkt die Faktoren vertau-schen darf:

q1(C)q2(C) = q2(C)q1(C) .

Obwohl Matrizen i. Allg. nicht kommutieren, kommutieren Matrizen, die Polynome dergleichen Matrix C sind, immer. Außerdem ist die Polynombildung mit der Ähnlichkeit-stransformation verträglich:

Satz 4.75

Die Matrix C′ = A−1CA sei ähnlich zur Matrix C. Dann gilt für jedes Polynom p(λ)

p(C′) = A−1 p(C)A .

Beweis: Dies kann als Folgerung von (4.53) verstanden werden, soll aber noch einmalexplizit nachgerechnet werden. Wegen

(C′)ν = (A−1CA) (A−1CA) . . . (A−1CA)

= A−1C C . . .CA

= A−1CνA

ist die Ähnlichkeitsrelation mit Matrixpotenz verträglich, d. h. man kann einfach ausmul-tiplizieren

p(C′) =m∑0

aν(C′)ν =m∑0

(aν A−1CνA

)= A−1

⎛⎜⎜⎜⎜⎜⎝ m∑0

aνCν

⎞⎟⎟⎟⎟⎟⎠ A = A−1 p(C)A . �

Offensichtlich gilt für eine beliebige Basis B = {u1, . . . , un} von Kn

p(C) = 0 ⇔ p(C)ui = 0 für alle i = 1, . . . , n .

Sei insbesondere C diagonalisierbar und habe daher eine Basis aus Eigenvektoren u1, . . . , unzu den Eigenwerten λ1, . . . , λk ∈ K. Sei

Page 72: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

454 4 Eigenwerte und Normalformen von Matrizen

χC(λ) :=k∏

i=1

(λi − λ)ri

das charakteristische Polynom und

pC(λ) :=k∏

i=1

(λi − λ) , (4.54)

d. h. pC hat die gleichen Nullstellen wie χC , aber jeweils nur einfach. Dann gilt

χC(C) = 0 und pC(C) = 0 . (4.55)

Dies kann man folgendermaßen einsehen:Sei uα Eigenvektor zu Eigenwert λβ, dann ist

pC(C)uα =k∏

i=1

(λi1 −C)uα =k∏

i=1i�β

(λi1 −C)(λβuα − Cuα) = 0

und analog auch χC(C)uα = 0.Alternativ hätte Satz 4.75 auch um die folgende Aussage ergänzt werden können:

Sei p ∈ K[x], C ∈ K(n,n), λ ∈ K ein Eigenwert von C zum Eigenvektor u. Dann ist

p(C)u = p(λ)u . (4.56)

Zur Bestätigung von (4.55) betrachten wir:

Beispiel 4.76 (Drehmatrix) Wir kürzen ab

cos(ϕ) = c, sin(ϕ) = s,

dann hat eine Drehmatrix die Form:

C =(

c −ss c

).

Ihr charakteristisches Polynom ist

χC(λ) = (c − λ)2 + s2 .

Einsetzen von C liefert:

χC(C) = (c · 12 − C)2 + s2 · 12 =

(0 s−s 0

)2

+

(s2 00 s2

)=

(−s2 00 −s2

)+

(s2 00 s2

)= 0 . ◦

Page 73: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 455

In Abschnitt 4.2.2 wurde der Jordan-Block (zum Eigenwert 0) als spezielle strikte obereDreiecksmatrix in K(n,n) eingeführt, die nur den Eigenwert 0 hat. Solche Matrizen sindnilpotent, wobei:

Definition 4.77

Sei C ∈ K(n,n). C heißt nilpotent, wenn ein k ∈ N existiert, so dass

Ck = 0 .

Sei V ein K-Vektorraum, Φ ∈ HomK(V, V). Φ heißt nilpotent , wenn ein k ∈ N

existiert, so dass

Φk = 0.

Satz 4.78

1) (Obere) Dreiecksmatrizen C ∈ K(n,n) mit

ci,i = 0 für alle i = 1, . . . , n ,

sind nilpotent.

2) Sei K ein algebraisch abgeschlossener Körper7, C ∈ K(n,n) habe genau den Ei-genwert 0. Dann ist C nilpotent.

Im Fall der Nilpotenz gilt mindestens Cn = 0.

Beweis: Zu 1): Seien A = (ai, j), B = (bi, j) ∈ K(n,n) obere Dreiecksmatrizen und l ∈ N0

ai, j = 0 für j ≤ i + l , bi, j = 0 für j ≤ i ,

dann erfüllt AB = (di, j)

di, j = 0 für j ≤ i + l + 1 .

Es ist nämlich

di, j =

n∑k=1

ai,k︸︷︷︸=0 fürk≤i+l

bk, j︸︷︷︸=0 für

j≤k

=

j−1∑k=i+l+1

ai,kbk, j = 0

7 siehe Anhang Definition B.20

Page 74: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

456 4 Eigenwerte und Normalformen von Matrizen

für j − 1 < i + l + 1 d. h. j ≤ i + l + 1.Sukzessive Anwendung auf A = Cl+1, B = C für l = 0, . . ., zeigt, dass mindestens(

Cl+1)

i, j= 0 für j ≤ i + l

und damit Cn = 0.Zu 2): Ist C ähnlich zu C und C nilpotent, so ist auch C nilpotent. Nach Hauptsatz 4.51und Bemerkungen 4.52, 2) ist C ähnlich zu einer oberen Dreiecksmatrix, deren Diagonal-einträge verschwinden. �

Bemerkungen 4.79

1) Unter den angegebenen Bedingungen sind die in Satz 4.78, 1) bzw. 2) beschriebenenMatrizen auch die einzigen nilpotenten oberen Dreiecksmatrizen bzw. n×n-Matrizen überK.Für c ∈ K, c � 0, gilt auch cn � 0 für alle n ∈ N.

Zu 1): Hat C ein Diagonalelement ci � 0, so gilt für alle n ∈ N : (Cn)ii = cni � 0, C kann folglich nicht

nilpotent sein.

Zu 2): Hat C einen Eigenwert μ � 0, so ist nach Hauptsatz 4.51, Bemerkungen 4.52, 2) C ähnlich zueiner oberen Dreiecksmatrix, bei der nicht alle Diagonalelemente verschwinden. Nach 1) kann diese nichtnilpotent sein und damit auch nicht C.

2) Ein Φ ∈ HomK(V, V) ist nilpotent genau dann, wenn die Darstellungsmatrix bezüglicheiner und dann bezüglich aller Basen nilpotent ist. �

Beispiel 4.80 Für einen Jordan-Block J zum Eigenwert 0 der Dimension n gilt:

Jk =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 · · · 0 1 · · · 0. . .

. . .. . .

.... . .

. . . 1. . . 0

. . ....

0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠hat k−1 mit Null besetzte obere Nebendiagonalen neben der Diagonalen. Insbesondere istJn = 0 . ◦Dies zeigt

χC(C) = 0

für jede (auch nichtdiagonalisierbare) strikte (obere) Dreiecksmatrix. Es sei dazu nämlich

Page 75: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 457

C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝0 ∗ · · · ∗...

. . .. . .

......

. . . ∗0 · · · · · · 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Sie hat den einzigen Eigenwert λ = 0 mit der Vielfachheit n. Ihr charakteristisches Poly-nom ist demnach

χC(λ) = (−λ)n.

Nach Satz 4.78 gilt:

χC(C) = (−1)n · Cn = 0.

Die gefundene Aussage gilt allgemein.

Theorem 4.81: Satz von Cayley-Hamilton8

Sei K algebraisch abgeschlossen, dann gilt für jede Matrix C ∈ K(n,n):

χC(C) = 0 .

Beweis: Nach dem Trigonalisierbarkeitskriterium Hauptsatz 4.51 (siehe auch Bemerkun-gen 4.52, 2)) ist C ähnlich zu einer oberen Dreiecksmatrix C′. Es ist deswegen

χC′ (λ) = χC(λ)

und wegen Satz 4.75 gilt mit der Transformationsmatrix A

χC′ (C′) = χC(C′) = A−1χC(C)A .

Damit ist

χC(C) = 0 ⇔ χC′ (C′) = 0 . (4.57)

Es genügt also, die Aussage für die obere Dreiecksmatrix C′ zu beweisen. Mit anderenWorten: Wir können o. B. d. A. annehmen, C selbst ist eine obere Dreiecksmatrix. Auf derDiagonale von C stehen dann die Eigenwerte, etwa in der Reihenfolge

λ1, λ2, . . . , λn .

Wir beweisen jetzt durch Induktion nach k = 1, . . . , n die folgende Aussage:

8 Arthur Cayley ∗16. August 1821 in Richmond upon Thames †26. Januar 1895 in Cambridge

Page 76: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

458 4 Eigenwerte und Normalformen von Matrizen

(λ1 · 1n −C)(λ2 · 1n −C) . . . (λk · 1n −C)ei = 0 für i = 1, . . . , k .

Anders ausgedrückt: Die ersten k Spalten der Matrix

(λ1 · 1n − C) . . . (λk · 1n −C)

sind Null-Spalten. Für k = n ist dies die Behauptung unseres Satzes.Induktionsanfang (k = 1): Die Matrix λ1 · 1n hat, ebenso wie die Matrix C in ihrer linkenoberen Ecke den Eintrag λ1. Alle anderen Einträge dieser beiden Matrizen in der erstenSpalte sind Null. Aufgrund dessen sind alle Einträge Null in der ersten Spalte der Matrixλ1 · 1n − C.Induktionsannahme: Die Behauptung gelte für alle i < k.Induktionsschluss: Für jedes i < k ist (Vertauschbarkeit von Polynomen derselben Matrix)

(λ1 · 1n −C) . . . (λk · 1n −C)ei

= (λi+1 · 1n −C) . . . (λk · 1n −C) [(λ1 · 1n −C) . . . (λi · 1n −C)ei]= (λi+1 · 1n −C) . . . (λk · 1n −C)0 = 0

nach Induktionsannahme. Für i = k ist der (k, k)-Diagonal-Eintrag der Matrix λk · 1n −Cgerade λk − λk = 0. Deswegen stehen in der k-ten Spalte dann höchstens Einträgec1, . . . , ck−1 auf den ersten k − 1 Positionen, d. h.

(λk · 1n − C)ek =

k−1∑1

ciei .

Daraus folgt auch für i = k

(λ1 · 1n −C) . . . (λk · 1n −C)ek

= (λ1 · 1n −C) . . . (λk−1 · 1n − C)(c1e1 + . . . + ck−1ek−1) = 0 .

Für k = n ist damit gezeigt, dass χC(C) die Nullmatrix ist. �

Bemerkungen 4.82

1) Dieser Satz von Cayley-Hamilton gilt nun für komplexe Matrizen C und damitauch für reelle Matrizen. Mit anderen Methoden (unter Rückgriff auf die Matrix der Ad-junkten) kann man zeigen, dass dieser Satz allgemein für jeden Körper K gilt, ohne dieVoraussetzung, dass K algebraisch abgeschlossen ist. So soll er auch im Folgenden be-nutzt werden.

2) Übersetzt für ein Φ ∈ HomK(V, V), mit einem ein endlichdimensionalen K-Vektorraum V ,bedeutet der Satz von Cayley-Hamilton

χΦ(Φ) = 0( ∈ HomK(V, V)

),

da χΦ(Φ) nach (4.53) die Darstellungsmatrix χΦ(C) hat, wenn Φ die DarstellungsmatrixC für eine gegebene Basis hat. Damit ist χΦ(C) = χC(C) = 0 .

Page 77: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 459

Sind C,C′ Darstellungsmatrizen für ein Φ ∈ HomK(V, V) bezüglich verschiedener Basen,so gilt nach (4.57) allgemein

χC(C) = 0⇔ χC′ (C′) = 0 ,

so dass die Überlegung unabhängig von der Wahl der Darstellungsmatrix, d. h. unabhängigvon der gewählten Basis ist.Für ein C ∈ K(n,n) gibt es mindestens ein p ∈ K[x] mit

p(C) = 0 ,

und der Satz von Cayley-Hamilton zeigt insbesondere

1 ≤ grad(p) ≤ n .

Die Aussage dim K(n,n) = n2 hätte hier nur ein p ∈ K[x] mit 1 ≤ grad(p) ≤ n2 gesichert. Nur für dieschwächere Aussage p(C)x = 0, x ∈ Kn fest, hätte ein p ∈ K[x] mit 1 ≤ grad(p) ≤ n = dim Kn gesichertwerden können.

�Mit den Abschnitten 4.4.2 und 4.4.3 werden ein nichtkonstruktiver und ein konstruktiverWeg angeboten zur nächsten Zwischenstation für eine allgemeine Normalform, nämlicheiner spezifischen Blockdiagonaldarstellung. Will man dem Weg von 4.4.3 folgen, ist derRest dieses Abschnitts entbehrlich.

Ist C zusätzlich diagonalisierbar und k die Anzahl der verschiedenen Eigenwerte, sosagt (4.55), dass es auch ein Polynom pC mit grad(p) = k und pC(C) = 0 gibt. Dies legtdie Definition nahe:

Definition 4.83

Sei C ∈ K(n,n). Das normierte Polynom

μC(λ) = λν + aν−1λν−1 + . . . + a0 � 0

kleinsten positiven Grades mit μC(C) = 0 heißt Minimalpolynom der Matrix C.

Satz 4.84: Teilereigenschaft des Minimalpolynoms

Sei C ∈ K(n,n). Ist μC(λ) � 0 das Minimalpolynom, so teilt μC jedes andere Polynomp(λ) mit der Eigenschaft p(C) = 0.

Beweis: In K[x] kann man mit Rest dividieren, d. h. nach Anhang B, Satz B.19 gibt esq, r ∈ K[x], so dass

Page 78: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

460 4 Eigenwerte und Normalformen von Matrizen

p(λ) = μC(λ) · q(λ) + r(λ)

und grad(r) < grad(μC).Andererseits folgt aus p(C) = 0, dass

r(C) = p(C) − μC(C)q(C) = 0 .

Daher kann nicht r � 0 gelten, und damit ist die Behauptung bewiesen. �

Bemerkung 4.85 Ähnliche Matrizen haben das gleiche Minimalpolynom. Daher kannauch vom Minimalpolynom eines Φ ∈ HomK(V, V) für endlichdimensionales V gespro-chen werden (als Minimalpolynom einer und damit jeder Darstellungsmatrix).Seien C und C′ ähnlich, d. h. C′ = A−1CA für ein A ∈ GL(n, K), μC und μC′ bezeichnen die Minimalpoly-nome. Aus μC(C) = 0 folgt mit Satz 4.75 auch μC(C′) = 0 und damit wird μC von μC′ geteilt. Da μC undμC′ gleichen Grad haben und normiert sind, folgt (siehe Satz B.19) nun μC = μC′ .

�Aus dem Satz von Cayley-Hamilton folgt: Das Minimalpolynom μC teilt das charak-teristische Polynom χC . Jede Nullstelle von μC(λ) ist also auch eine Nullstelle von χC(λ),d. h. ein Eigenwert. Davon gilt aber auch die Umkehrung:

Satz 4.86: Eigenwerte und Minimalpolynom

Sei K algebraisch abgeschlossen.

1) Die Eigenwerte einer Matrix C ∈ K(n,n) sind genau die Nullstellen ihres Minimal-polynoms μC(λ).

2) Ist C diagonalisierbar, so hat μC nur einfache Nullstellen.

Beweis: Zu 1): Die Eigenwerte von C seien λ1, . . . , λk. Wir gehen über in eine Basis, inder C obere Dreiecksform hat (Hauptsatz 4.51). Auf der Diagonale von C stehen dann dieEigenwerte λ1, . . . , λk mit ihren entsprechenden Vielfachheiten. Jede Potenz Cν ist wiedereine obere Dreiecksmatrix mit den Diagonaleinträgen λν

1, . . . , λνk nach Beispiele 2.39, 3).

Für jedes Polynom p(λ) =∑

aνλν ist deswegen p(C) auch eine obere Dreiecksmatrix mit

den Diagonaleinträgen ∑aνλ

ν1 = p(λ1), . . . ,

∑aνλ

νk = p(λk) .

Weil für das Minimalpolynom μC(C) = 0 gilt, müssen für p(λ) = μC(λ) die Diagonalein-träge μC(λ1) = . . . = μC(λk) = 0 sein.Zu 2): Mit der Definition (4.54) von pC teilt somit pC nach 1) das Minimalpolynom μC .Nach (4.55) teilt aber das Minimalpolynom auch pC , so dass diese Polynome, eventuellbis auf das Vorzeichen, identisch sind. �

Die Nullstellen von χC und μC stimmen folglich überein. Der Unterschied zwischen beidenPolynomen liegt nur darin, dass diese Nullstellen in χC mit einer höheren Vielfachheitvorkommen können als in μC .

Page 79: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 461

4.4.2 Blockdiagonalisierung mit dem Satz von Cayley-Hamilton

Mit Abschnitt 4.4.1 sind die algebraischen Grundlagen gelegt, um eine Matrixdarstellungeiner linearen Abbildung durch einen Basiswechsel, d. h. durch eine Ähnlichkeitstransfor-mation im allgemeinen Fall zwar nicht zu diagonalisieren, aber zu block-diagonalisieren.Dies ist gleichbedeutend mit einer direkten Zerlegung in invariante Unterräume. Die indiesem Abschnitt präsentierte Vorgehensweise ist nur dann konstruktiv, wenn man (un-realistischerweise) annimmt, dass das charakteristische Polynom explizit bekannt ist undauch numerisch nicht effizient. Daher wird in Abschnitt 4.4.3 ein alternativer Zugang an-gedeutet. Aufbauend auf die Schur-Normalform bedeutet dies die Ähnlichkeit zu einerBlockdiagonalmatrix, deren Blöcke obere Dreiecksmatrizen (zu jeweils einem Eigenwert)sind. Abschnitt 4.5 entwickelt eine spezielle Basis für die invarianten Unterräume, so dassdann die Jordansche Normalform entsteht. Für Informationen über den Ring der Poly-nome sei auf Anhang B.3 verwiesen.

Satz 4.87: Zerlegung Raum und charakteristisches Polynom

Sei V ein endlichdimensionaler K-Vektorraum, Φ ∈ HomK(V, V) und V = U1 ⊕ U2eine Φ-invariante Zerlegung.Bezeichnet Φi : Ui → Ui die Einschränkung von Φ : V → V auf Ui für i = 1, 2,dann gilt für das charakteristische Polynom χΦ und das Minimalpolynom μΦ von Φ

χΦ = χΦ1χΦ2

und wenn μΦ1 , μΦ2 teilerfremd sind, auch für das Minimalpolynom

μΦ = μΦ1μΦ2 .

Beweis: Wähle eine Basis u1, . . . , un von V so, dass u1, . . . , uk eine Basis von U1 unduk+1, . . . , un eine Basis von U2 ist. Nach Bemerkungen 4.19, 2) gilt für die Darstellungs-matrizen C1 ∈ Kk,k von Φ1, C2 ∈ K(n−k,n−k) von Φ2 und C ∈ Kn,n von Φ

C =(

C1 00 C2

).

Demzufolge gilt für die charakteristischen Polynome nach der Kästchenregel ( Haupt-satz 2.114):

χC(λ) = χΦ1 (λ)χΦ2 (λ) .

Weiter gilt für ein beliebiges Polynom p

p(C) =(

p(C1) 00 p(C2)

)

Page 80: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

462 4 Eigenwerte und Normalformen von Matrizen

und damit folgt speziell für p = μC wegen μC(C) = 0 sofort μC(C1) = 0 = μC(C2). Somitgilt wegen Satz 4.84

μC1|μC und μC2

|μC

und nach Voraussetzung und Bemerkungen B.29, 4) auch μC1μC2|μC .

Andererseits folgt mit der Wahl von p = μC1μC2= μC2

μC1auch p(C) = 0 und damit

wegen Satz 4.84

μC |μC1μC2

.

Insgesamt ergibt sich also die folgende Behauptung: �

Theorem 4.88: Invariante Zerlegung aus Zerlegung Polynom

Sei V ein endlichdimensionaler K-Vektorraum und Φ ∈ HomK(V, V). Sei p ein Po-lynom mit p(Φ) = 0, das in der Form

p(λ) = p1(λ) · p2(λ)

in teilerfremde Faktoren p1(λ) und p2(λ), d. h. ohne gemeinsame Nullstellen, zer-fällt. Dann gilt für die Untervektorräume U1 := Kern p1(Φ), U2 := Kern p2(Φ) ⊂V:

1) U1 = Bild p2(Φ), U2 = Bild p1(Φ),

2) U1 ⊕ U2 = V ,

3) Ui ist invariant unter Φ für i = 1, 2.

4) Es sei Φi : Ui → Ui die Einschränkung von Φ auf Ui für i = 1, 2. Ist K algebra-isch abgeschlossen, dann folgt für p = χΦ

pi = χΦi

und für die Minimalpolynome

μΦ = μΦ1μΦ2 .

Beweis: Durch Wahl einer Darstellungsmatrix C ∈ K(n,n) kann der Beweis auch in Ma-trixschreibweise erfolgen.Korollar B.26 aus Anhang B.3 gestattet die Wahl von Polynomen fi, i = 1, 2, mit

f1(λ) · p1(λ) + f2(λ) · p2(λ) = 1 .

Für eine beliebige Matrix A bedeutet dies

Page 81: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 463

p1(A) f1(A) + p2(A) f2(A) = 1 (4.58)

und ebenfalls die weiteren Varianten, die Faktoren anzuordnen. Wir definieren die Matri-zen

C1 := p2(C), C2 := p1(C)

und wählen für i = 1, 2 als Unterräume Ui ⊂ Kn die Bilder der linearen AbbildungenCi : Kn → Kn, d. h.

U1 := Bild p2(C), U2 := Bild p1(C) .

Nach Voraussetzung folgt:

0 = p(C) = p1(C)p2(C) = p2(C)p1(C)

und damit

U1 = Bild p2(C) ⊂ Kern p1(C) , U2 = Bild p1(C) ⊂ Kern p2(C) .

Ist andererseits x ∈ Kern p1(C), so folgt aus (4.58)

x = p2(C) f2(C)x ∈ Bild p2(C) und damit Kern p1(C) ⊂ Bild p2(C)

und analog Kern p2(C) ⊂ Bild p1(C). Das zeigt 1).

Die Invarianzaussage 3) folgt sofort aus der Definition, da U = Bild p(C) für ein p ∈ K[x]immer unter C invariant ist wegen Cp(C)x = p(C)(Cx).

Weiter gilt 2), da sich jeder Vektor x ∈ Cn nach (4.58) als

x = 1x = p2(C)( f2(C)x) + p1(C)( f1(C)x) =: C1 x1 +C2 x2 =: u1 + u2 , (4.59)

d. h. als Summe zweier Vektoren ui := Cixi ∈ Ui, i = 1, 2, schreiben lässt. Für die Direkt-heit der Summen sei x ∈ U1 ∩ U2. Dann ist nach (4.59) und wegen Ui = Kern pi(Φ)

x = f1(C)p1(C)x + f2(C)p2(C)x = 0 .

Für den Nachweis von 4) sei speziell p = χC . Dann folgt nach Satz 4.87

p1(λ)p2(λ) = χC(λ) = χΦ1 (λ)χΦ2 (λ) .

Ist nun λα eine Nullstelle von pi, i = 1, 2, dann gilt mit (4.56)

Cx = λαx⇒ pi(C)x = 0 , d. h. Kern(C − λα1) ⊂ Ui ,

und damit ist λα Eigenwert von Φi. Da so jeder Linearfaktor in den pi erfasst wird, ist

χΦi (λ) = pi(λ) .

Page 82: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

464 4 Eigenwerte und Normalformen von Matrizen

χΦ1 und χΦ2 sind demnach teilerfremd und haben damit keine Eigenwerte gemeinsam.Somit sind auch die Minimalpolynome teilerfremd, d. h. nach Satz 4.87

μΦ(λ) = μΦ1 (λ)μΦ2 (λ) .

Das zeigt die Behauptung. �

Bemerkungen 4.89

1) Theorem 4.88, 4) gilt auch für K = R, da die quadratischen irreduziblen Faktoren nachBemerkungen B.31, 4) in komplexe Linearfaktoren zerlegt werden können. Dann wendetman Theorem 4.88, 4) für K = C an.

2) Es gilt also die Zerlegung in Φ-invariante Unterräume

V = Kern p1(Φ) ⊕ Kern p2(Φ) = Bild p2(Φ) ⊕ Bild p1(Φ) = Kern p1(Φ) ⊕ Bild p1(Φ) .

�Wenn U1 oder U2 weiter in eine direkte Summe C-invarianter Unterräume zerfällt, kanndie Block-Diagonaldarstellung weiter zerlegt werden.

Der Extremfall sind eindimensionale U1, . . . , Un, in dem C ähnlich zu einem diagonalenC′ ist. Dessen Einträge sind dann die Eigenwerte und

Ui = Kui ,

wobei u1, . . . , un eine Basis aus zugehörigen Eigenvektoren ist.Im nichtdiagonalisierbaren Fall könnte man daher für die Eigenräume, für die „alge-

braische = geometrische Vielfachheit“ gilt, die Diagonalstruktur erwarten, für die mit „zuwenig“ Eigenvektoren eine Blockstruktur als „Normalform“, die nach Hauptsatz 4.51 min-destens aus Dreiecksmatrizen bestehen kann.

Definition 4.90

Sei Φ : V → V linear. Eine direkte Summen-Zerlegung V = U1 ⊕ . . . ⊕ Uk heißtΦ-invariant, wenn Φ(U j) ⊂ U j für j = 1, . . . , k.

Bei einer direkten Zerlegung kann man nach Satz 2.46, 3) folgendermaßen eine Basis vonV wählen:

u1, . . . , ur1︸�����︷︷�����︸Basis von U1

, ur1+1, . . . , ur1+r2︸������������︷︷������������︸Basis von U2

, . . . , un−rk+1, . . . , un︸�����������︷︷�����������︸Basis von Uk

, r j = dim U j .

Für eine solche Basis sind dann folgende Aussagen äquivalent:

(i) Die Zerlegung ist Φ-invariant,

(ii) Die Basis-Vektoren von U j werden wieder nach U j abgebildet,

Page 83: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 465

(iii) Die darstellende Matrix C für Φ in einer derartigen Basis ist von der Form⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝C1 0 · · · 0

0 C2...

.... . . 0

0 · · · 0 Ck

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ (4.60)

mit Matrizen C j ∈ K(r j ,r j), j = 1, . . . , k.

Die Matrix C aus (4.60) ist nach Definition 4.54 eine Blockdiagonalmatrix der MatrizenC1, . . . ,Ck. Dabei ist jede Matrix C j die beschreibende Matrix für die lineare AbbildungΦ|Uj

: U j → U j, die Einschränkung von Φ auf U j, definiert durch

Φ|Uj: U j → U j , u �→ Φu .

Insbesondere ist das charakteristische Polynom der ganzen Matrix das Produkt

χC1 (λ) · . . . · χCk (λ)

der charakteristischen Polynome der Teilmatrizen (nach der Kästchenregel).

Eigenräume von Φ sind insbesondere Φ-invariant. Treten sie in einer solchen direktenZerlegung auf, ist das zugehörige Ci sogar λi1 für den Eigenwert λi. Ist ein Eigenraumnicht „groß genug“ (im Sinne geometrischer Vielfachheit < algebraische Vielfachheit),muss an seine Stelle ein größerer Raum mit nicht diagonalen Ci treten.

Für zwei verschiedene Eigenwerte ist dieser durch Theorem 4.88 schon als Kern(C −λ1)r identifiziert, wobei r die algebraische Vielfachheit des Eigenwerts λ ist. Dies gilt auchallgemein, wie Theorem 4.93 zeigen wird. Als Vorbereitung beweisen wir:

Definition 4.91

Sei V ein n-dimensionaler K-Vektorraum. Sei Φ ∈ HomK(V, V) mit charakteristi-schem Polynom

χΦ(λ) = (λ1 − λ)r1 · . . . · (λk − λ)rk , r1 + . . . + rk = n

und die λ1, . . . , λk ∈ K seien paarweise verschieden. Dann heißt der Unterraum

Vi := Kern(Φ − λi id)ri

verallgemeinerter Eigenraum oder Hauptraum zum Eigenwert λi und u ∈ Vi Haupt-vektor zu λi.

Page 84: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

466 4 Eigenwerte und Normalformen von Matrizen

Theorem 4.92: Invariante direkte Summe der Haupträume

1) Seien V ein K-Vektorraum und Φ,Ψ ∈ HomK(V, V) mit Φ ◦ Ψ = Ψ ◦ Φ. Dannist Kern Φ unter Ψ invariant.

Im Weiteren gelten die Voraussetzungen von Definition 4.91.

2) Seien pi(λ) := (λi − λ)ri , i = 1, . . . , k, dann ist pi(Φ) auf V j für i � j invertierbar.

3) Dann sind die Haupträume Φ-invariant und ihre Summe ist direkt, d. h.

V1 + . . . + Vk = V1 ⊕ . . . ⊕ Vk .

Beweis: Zu 1): Aus Φu = 0 folgt auch Φ ◦ Ψu = Ψ ◦Φu = 0.Zu 2): Φ und auch pi(Φ) = (Φ− λi id)ri kommutiert mit (Φ− λ j id)r j , weshalb nach 1) dieHaupträume V j somit Φ- und auch pi(Φ)-invariant sind. Also sind piΦu ∈ V j für u ∈ V j.pi und p j teilerfremd, d. h. nach Korollar B.26 gibt es Polynome f , g, so dass

pi(λ) · f (λ) + p j(λ) · g(λ) = 1 .

Damit gilt für u ∈ V j

u = f (Φ)pi(Φ)u + g(Φ)p j(Φ)u = f (Φ)pi(Φ)u ,

d. h. f (Φ)|V j ist die Inverse von pi(Φ) auf V j.Zu 3): Der Beweis der Direktheit der Summe erfolgt durch Induktion über k. Für k = 1 istnichts zu zeigen.

Für den Induktionsschluss k − 1 → k seien ui ∈ Vi, i = 1, . . . , k. Sei∑k

i=1 ui = 0, zuzeigen ist ui = 0 für i = 1, . . . , k. Für j ∈ {1, . . . , k} gilt

0 = p j(Φ)

⎛⎜⎜⎜⎜⎜⎜⎝ k∑i=1

ui

⎞⎟⎟⎟⎟⎟⎟⎠ = k∑i=1

p j(Φ)ui =k∑

i=1i� j

p j(Φ)ui .

Da Vi p j(Φ)-invariant ist, folgt zudem p j(Φ)ui ∈ Vi. Nach Induktionsannahme ist somit

p j(Φ)ui = 0 für i � j .

Nach 2) folgt daraus ui = 0 für i � j und so auch aus der Anfangsannahme ui = 0. �

Theorem 4.93: Invariante direkte Summenzerlegung durch Haupträume

Sei K algebraisch abgeschlossen und V sei ein n-dimensionaler K-Vektorraum. Essei Φ ∈ HomK(V, V) mit paarweise verschiedenen Eigenwerten λ1, . . . , λk ∈ K, beialgebraischer Vielfachheit ri. Sei

Page 85: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 467

Ui := Kern(Φ − λi id)ri , der Hauptraum zu λi .

Dann gilt

dim Ui = ri, i = 1, . . . , k ,

und die Ui bilden eine Φ-invariante direkte Summenzerlegung V = U1 ⊕ . . . ⊕ Uk,so dass Φ|Uj

das charakteristische Polynom (λ j − λ)r j hat, j = 1, . . . , k.

Beweis: (Induktion nach k). Der Induktionsanfang (k = 1) ist klar, da nach dem Satz vonCayley-Hamilton

0 = χΦ(Φ) = (λ1 id−Φ)r1

und damit

V = U1 = Kern(Φ − λ1 id)r1 ⇒ dim U1 = n = r1 .

Induktionsschluss (k − 1 → k): Sei k ≥ 2. Wir zerlegen das charakteristische PolynomχΦ(λ) in die zwei Faktoren

p1(λ) = (λ1 − λ)r1 , p2(λ) = (λ2 − λ)r2 · . . . · (λk − λ)rk .

Die beiden Faktoren p1 und p2 haben keine gemeinsame Nullstelle. Wir können also Theo-rem 4.88 anwenden und finden eine direkte Φ-invariante Summenzerlegung V = U1 ⊕ U2.Hier hat

U1 = Kern p1(Φ) = Kern(Φ − λ1 id)r1

schon die behauptete Form. Seien Φi, i = 1, 2 die Einschränkungen von Φ auf U1 bzw.U2.Nach Theorem 4.88, 4) gilt

χΦ1 (λ) = (λ1 − λ)r1 .

Wir haben eine Φ-invariante direkte Summenzerlegung V = U1 ⊕ U2, so dass Φ|U1das

charakteristische Polynom (λ1 − λ)r1 hat. Auf Φ|U2wenden wir die Induktionsannahme

an. Diese liefert U2, . . . , Uk ⊂ U2, so dass U2, . . . , Uk eine Φ2-invariante Zerlegung unddamit auch eine Φ-invariante von U2 bilden, dim Ui = ri (i = 2, . . . , k) gilt und Φ2|Ui

dascharakteristische Polynom (λi − λ)ri hat.Damit bilden U1, . . . , Uk eine Zerlegung von V . Diese Zerlegung ist auch direkt, denn gilt

0 = u1 +

k∑i=2

ui ,

Page 86: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

468 4 Eigenwerte und Normalformen von Matrizen

so ergibt die Direktheit von U1 ⊕ U2, dass u1 = 0 und∑k

i=2 ui = 0 und die Direktheit derZerlegung von U2, dass u2 = . . .uk = 0.Nach Satz 2.46, 3) muss notwendigerweise

dim U1 = r1

gelten. Weiter hat Φ|Ui= Φ2|Ui

das charakteristische Polynom (λi−λ)ri . Der nachfolgendeSatz 4.94 sichert dann

Ui = Kern(Φ − λi id)ri , i = 2, . . . , k . �

Satz 4.94: Eindeutigkeit einer invarianten Summenzerlegung

Seien Unterräume Ui ⊂ V gegeben, die eine Φ-invariante direkte SummenzerlegungV = U1 ⊕ . . .⊕Uk bilden, so dass Φ|Uj

das charakteristische Polynom (λ j − λ)r j hat,j = 1, . . . , k. Dann sind die Unterräume U j durch die lineare Abbildung Φ eindeutigbestimmt als

U j = Kern(Φ − λ j id)r j .

Beweis: Nach Forderung ist (λi − λ)ri das charakteristische Polynom von Φ|Ui. Aus dem

Satz von Cayley-Hamilton folgt für jeden Vektor u ∈ Ui

(Φ − λi · id)ri(u) = 0 .

Demnach ist Ui in Vi := Kern(Φ − λi · id)ri enthalten. Insbesondere gilt daher dim Ui ≤dim Vi für alle i. Da nach Theorem 4.92, 3)

V := V1 + . . . + Vk

direkt ist, folgt

dim V =∑

i

dim Vi ≥∑

i

dim Ui = n ,

also V = V . Damit ist

n =∑

i

dim Ui ≤∑

i

dim Vi = n ,

folglich dim Ui = dim Vi, und so Ui = Vi für alle i und damit

Ui = Vi = Kern(Φ − λi · id)ri für alle i = 1, . . . , k . �

Page 87: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 469

Korollar 4.95

Unter der Voraussetzung von Theorem 4.93 ist jede Matrix C ∈ K(n,n) ähnlich zu einerBlockdiagonalmatrix von oberen Dreiecksmatrizen C1, . . . ,Ck der Dimension (r j, r j)als Blöcke, wobei jede Matrix C j ausschließlich das Diagonalelement λ j hat und alscharakteristisches Polynom (λ j − λ)r j (nur eine einzige Nullstelle!). Dabei sind dieλ1, . . . , λk die paarweise verschiedenen Eigenwerte mit algebraischen Vielfachheitenr j.

Beweis: Dies ist Theorem 4.93 in Matrizenschreibweise. Kombination von Hauptsatz 4.51mit Bemerkungen 4.52, 2) zeigt mit den Überlegungen zu (4.21), dass die Ci als obereDreiecksmatrizen gewählt werden können. �

4.4.3 Algorithmische Blockdiagonalisierung – Die

Sylvester-Gleichung

Hier beschränken wir uns auf K = K und die Matrizenschreibweise. Die Verallgemeine-rung auf allgemeine Körper und lineare Operatoren auf endlich-dimensionalen Verktor-räumen ergibt sich ohne Probleme.

Nach Hauptsatz 4.51 zusammen mit Bemerkungen 4.52, 1) gibt es für C ∈ K(n,n),falls das charakteristische Polynom über K in Linearfaktoren zerfällt, eine sogar unitäreÄhnlichkeitstransformation, so dass C die Form annimmt:

C′ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝C1,1 C1,2 · · · C1,k

. . ....

. . ....

Ck,k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ K(n,n) . (4.61)

Dabei sind die Ci,i quadratische obere Dreiecksmatrizen, die jeweils nur den einzigen Ei-genwert λi ∈ C, i = 1, . . . , k haben.

Ziel ist deswegen, durch weitere (i. Allg. nicht unitäre) Ähnlichkeitstransformationen(algorithmisch) die Nichtdiagonalblöcke durch die Nullmatrix zu ersetzen. Dies kann suk-zessiv bzw. innerhalb eines Induktionsbeweises bewerkstelligt werden (siehe (4.21)), wennfolgende Grundaufgabe gelöst wird: Sei

C =(

C1,1 C1,2

0 C2,2

)mit C1,1 ∈ K(k,k), C2,2 ∈ K(l,l), k + l = n. Die Matrizen C1,1 und C2,2 haben keinenEigenwert gemeinsam.

Gesucht ist ein A ∈ K(k,l), so dass

Page 88: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

470 4 Eigenwerte und Normalformen von Matrizen(1k −A0 1l

) (C1,1 C1,2

0 C2,2

) (1k A0 1l

)=

(C1,1 0

0 C2,2

). (4.62)

Dabei handelt es sich um eine spezielle Ähnlichkeitstransformation, da(1k −A0 1l

)=

(1k A0 1l

)−1

,

wie man direkt nachrechnet.Die Gleichung (4.62) ist äquivalent zu

C1,1A − AC2,2 = −C1,2 . (4.63)

Dies ist ein lineares Gleichungssystem für die Matrix A, die Sylvester9-Gleichung.

Im allgemeinen Fall muss man den Begriff des Kronecker-Produkts nutzen, um(4.63) in ein LGS für eine Vektordarstellung von A umzuwandeln.

Im hier für K = C oder fürK = R (bei reellen Eigenwerten) interessierenden speziellenFall von oberen Dreiecksmatrizen C1,1 und C2,2 lässt sich (4.63) explizit lösen. Seien

A =(a(1), . . . , a(l)

),C12 =

(b(1), . . . , b(l)

)die Spaltendarstellungen, dann ist (4.63) äquivalent zu

C1,1

(a(1), . . . , a(l)

)−

(a(1), . . . , a(l)

) ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝c1,1 · · · c1,l

. . ....

0 cl,l

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = − (b(1), . . . , b(l)

), (4.64)

mit C2,2 =(ci, j

). Die erste Spalte dieser Gleichung ist

C1,1a(1) − c1,1a(1) = −b(1) bzw.(C1,1 − c1,11k

)a(1) = −b(1) .

Da c1,1 ein Eigenwert von C2,2 ist und damit kein Eigenwert bzw. Diagonalelement vonC1,1, existiert a(1) eindeutig (und kann durch Rückwärtssubstitution bestimmt werden).

Ist a(1) bekannt, so ergibt die zweite Spalte von (4.64) das LGS für a(2)

C1,1a(2) − c2,2a(2) = −b(2) + c1,2a(1) ,

das nach der gleichen Argumentation eine eindeutige Lösung besitzt. Allgemein ergibt diei-te Spalte das folgende LGS für a(i):

9 James Joseph Sylvester ∗3. September 1814 in London †15. März 1897 in London

Page 89: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 471

(C1,1 − ci,i1k

)a(i) = −b(i) +

i−1∑j=1

c j,ia( j) . (4.65)

Damit wurde bewiesen:

Satz 4.96: Eindeutige Lösbarkeit Sylvester-Gleichung

Seien C1,1 ∈ K(k,k), C2,2 ∈ K(l,l), C1,2 ∈ K(k,l) gegeben, so dass C1,1, C2,2 obereDreiecksmatrizen sind.Dann hat die Sylvester-Gleichung (4.63) genau dann eine eindeutige LösungA ∈ K(k,l), wenn C1,1, C2,2 keine gemeinsamen Eigenwerte haben. Die Lösung kanndurch l Rückwärtssubstitutionen der Dimension k, d. h. mit O(l k2) Operationen be-stimmt werden.

Beweis: Es bleibt nur „⇒“ zu zeigen.Die Lösung von (4.63) ist allgemein äquivalent mit (4.65). Eindeutige Lösbarkeit davonbedeutet, dass ci,i kein Diagonalelement von C1,1 ist und damit die Behauptung. �

Bemerkungen 4.97

1) Die Charakterisierung der eindeutigen Lösbarkeit gilt auch für C1,1, C2,2 ohne Drei-ecksgestalt.

2) Die Ähnlichkeitstransformation in (4.62) ist nur im Trivialfall A = 0, d. h. C1,2 = 0unitär.

�Daraus folgt folgendes Blockdiagonalisierungsresultat:

Theorem 4.98: Invariante direkte Summenzerlegung durch Haupträume

Sei C ∈ K(n,n) mit paarweise verschieden Eigenwerten λ1, . . . , λk ∈ K.

1) Dann ist C über K ähnlich zu einer Blockdiagonalmatrix⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝C1,1 0

. . .

0 Ck,k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Dabei sind Ci,i obere Dreiecksmatrizen mit Einträgen aus K, die auf der Diagonalejeweils genau den Eigenwert λi haben.

2) Es gebe eine Blockdiagonaldarstellung mit den in 1) spezifizierten Eigenschaf-ten. Sei

Page 90: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

472 4 Eigenwerte und Normalformen von Matrizen

Kn = U1 ⊕ . . . ⊕ Uk

die zugehörige direkte Summenzerlegung in C-invariante Unterräume von Kn. Seir j die algebraische Vielfachheit von λ j. Dann ist

U j = Kern(C − λ j1

)r j

der verallgemeinerte Eigenraum oder Hauptraum von C zum Eigenwert λ j und

dim U j = r j.

Beweis: 1) durch vollständige Induktion über k in (4.61): Für k = 2 folgt die Behauptungaus Satz 4.96 zusammen mit der Schur-Normalform (Hauptsatz 4.51). Beim Induktions-schluss wird die Behauptung für k − 1 vorausgesetzt. Anwendung von Satz 4.96 auf

C =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝C1,1 C1,2 · · · C1,k

0 C

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

wobei C vom Typ (4.61) ist, aber aus k − 1 Blöcken besteht, sichert ein A ∈ GL(n,K), sodass

A−1CA =(

C1,1 00 C

).

Anwendung der Induktionsvoraussetzung auf C sichert eine invertierbare K-wertige Ma-trix A, so dass

A−1CA =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝C2,2 0

. . .

0 Ck,k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Nach (4.20) vermittelt AA, wobei

A =(1 00 A

)die gewünschte Ähnlichkeitstransformation ist.Zu 2): Die erhaltene Blockdiagonalgestalt bedeutet gerade, dass die neu gewählte Basisin k Teilmengen zerfällt, die jeweils C-invariante Unterräume U j von Kn aufspannen. DieAbbildung

Φ j : U j → U j, x �→ Cx

hat gerade die Darstellungsmatrix C j, j und das charakteristische Polynom

Page 91: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 473

χΦ j (λ) = χC j, j (λ) =(λ j − λ

)r j.

Exakt wie in dem Beweis von Satz 4.94 zeigt man zuerst

U j ⊂ V j := Kern(C − λ j · id)r j

und dann mittels Theorem 4.92, 3), der auch für K = R wegen der dann vorausgesetztenreellen Eigenwerte angewendet werden kann,

U j = V j und dim U j = r j für j = 1, . . . , k. �

Bemerkung 4.99 Die einzige Variationsmöglichkeit in einer Blockdiagonaldarstellungwie in Theorem 4.98, 1), ist die Anordnung der Diagonalblöcke, d. h. der Eigenwerte. �Will man für eine reelle Matrix bei komplexen Eigenwerten die reelle Schur-Normalform(Theorem 4.55) blockdiagonalisieren, so muss die Lösbarkeit der Sylvester-Gleichungfür den Fall gesichert werden, dass C1,1 und C2,2 obere Blockdreiecksmatrizen sind, ent-weder mit (1, 1)-Blöcken zu einem reellen Eigenwert oder mit (2, 2)-Blöcken(

μ ν−ν μ

)zu einem komplexen Eigenwert λ = μ + iν, ν � 0 (siehe Theorem 4.55).

Geht man in (4.64) die aus den Spalten ergebenden LGS durch, so ergibt sich:Liegt der erste Fall für die jeweilige Spalte von C2,2 vor (reeller Eigenwert), so gilt die

Äquivalenz von (4.65). Da die Eigenwerte von C1,1 − ci,i1k alle von Null verschieden sind,sind diese LGS für die Spalten a(i) eindeutig lösbar.

Im zweiten Fall für die jeweilige Spalte von C2,2 (komplexer Eigenwert) muss auch dienächste Spalte betrachtet werden, so dass sich äquivalent zu (4.63) immer gekoppelte LGSergeben für zwei Spalten von A. Der Fall liege o. B. d. A. für a(1) und a(2) vor:

C1,1a(1) − μa(1) + νa(2) = −b(1)

C1,1a(2) − νa(1) − μa(2) = −b(2) (4.66)

bzw. in Blockform (C1,1 − μ1 ν1

−ν1 C1,1 − μ1

) (a(1)

a(2)

)= −

(b(1)

b(2)

).

Nach dem nachfolgenden Lemma (Lemma 4.102) ist dieses LGS eindeutig lösbar, wenndie Blöcke wie gefordert jeweils kommutieren, was offensichtlich ist, und die folgendeMatrix D invertierbar ist:

D := (C − μ1)2 + ν21 = C2 − 2μC + |λ|21 , C := C1,1 .

Es muss somit ausgeschlossen werden, dass α = 0 ein Eigenwert von D ist. Wegen derFaktorisierung für ν2 ≥ α

Page 92: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

474 4 Eigenwerte und Normalformen von Matrizen

x2 − 2μx + |λ|2 − α =(x − μ − i(ν2 − α)

12

) (x − μ + i(ν2 − α)

12

)ist α Eigenwert von D, genau dann wenn eine der Zahlen μ ± i(|ν|2 − α)

12 Eigenwert von

C ist. Für α = 0 müsste demnach μ + iν = λ oder μ − iν = λ Eigenwert von C sein,was ausgeschlossen ist. Es gilt daher ein Analogon zu Satz 4.96 und darauf aufbauend:

Satz 4.100: Reelle Blockdiagonalisierung

Sei C ∈ R(n,n) mit den paarweise verschiedenen Eigenwerten λ1, . . . , λk ∈ C, worinbei echt komplexem Eigenwert λ nur entweder λ oder λ auftritt. Dann ist C (reell)ähnlich zu der Blockdiagonalmatrix⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

C1,1 0. . .

0 Ck,k

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Dabei sind die C j, j entweder obere Dreiecksmatrizen aus R(r j,r j) mit einem reellenEigenwert λ j der algebraischen Vielfachheit r j auf der Diagonalen oder obere Block-dreiecksmatrizen aus R(2r j ,2r j) mit (2, 2)-Diagonalblöcken, alle von der Form(

μ ν−ν μ

),

wobei λ j = μ + iν, ν � 0 ein komplexer Eigenwert von C mit der algebraischenVielfachheit r j ist.

Beweis: Analog zum Beweis von Theorem 4.98 unter Rückgriff auf die reelle Schur-Normalform und die obigen Lösbarkeitsaussagen zur Sylvester-Gleichung. �

Bemerkungen 4.101

1) Der obige Zugang ist bei Vorliegen der Schur-Normalform völlig algorithmisch, dadie Blockdiagonalisierung ausschließlich auf das Lösen von LGS zurückgeführt ist, diebei Eigenwerten in K und Rechnen in K sogar gestaffelt sind.

2) Das (reelle) charakteristische Polynom der Blöcke C j, j ∈ R(r j,r j) mit Eigenwert λ j =

μ j + iν j ist:Im Fall λ j ∈ R : (λ − λ j)r j ,im Fall λ j � R : ((λ − μ j)2 + ν2

j)r j bzw. im Komplexen (λ − λ j)r j . �

Page 93: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.4 Blockdiagonalisierung aus der Schur-Normalform 475

Abschließend sei das benutzte Lemma formuliert, das die Formel zur Invertierung einer(2, 2)-Matrix (2.68) verallgemeinert.

Lemma 4.102

Sei K ein Körper und A =(

A1,1 A1,2

A2,1 A2,2

)∈ K(2n,2n), Ai, j ∈ K(n,n). Es gelte A1,1A2,2 =

A2,2A1,1, A1,2A2,1 = A2,1A1,2, A1,1A2,1 = A2,1A1,1, A1,2A2,2 = A2,2A1,2 und D :=A1,1A2,2 − A1,2A2,1 sei invertierbar. Dann ist A invertierbar und

A−1 =

(D−1 1

1 D−1

) (A2,2 −A1,2

−A2,1 A1,1

).

Beweis: Direktes Nachrechnen. �

Was Sie in diesem Abschnitt gelernt haben sollten

Begriffe:

• Matrizenpolynom• Minimalpolynom• Φ-invariant (Definition 4.90)• Sylvester-Gleichung (4.63)

Zusammenhänge:

• Satz von Cayley-Hamilton (Theorem 4.81)• Invariante direkte Summenzerlegung (Theorem 4.88, Theorem 4.92, Theorem 4.93

und Satz 4.94)• Lösbarkeit der Sylvester-Gleichung (Satz 4.96)• Ähnlichkeit zu direkter Summe von oberen Dreiecksmatrizen (Korollar 4.95 bzw.

Theorem 4.98)• Blockdiagonalisierung für komplexe Matrizen und reelle Matrizen mit reellen Ei-

genwerten (Theorem 4.98)• Blockdiagonalisierung für reelle Matrizen mit komplexen Eigenwerten (Satz 4.100)

Beispiele:

• Nilpotente Matrix

Page 94: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

476 4 Eigenwerte und Normalformen von Matrizen

Aufgaben

Aufgabe 4.21 (K) Finden Sie die Unterräume Ui aus Theorem 4.88 für die Zerlegung descharakteristischen Polynoms der Matrix

C =(

0 11 0

)in seine beiden Linearfaktoren.

Aufgabe 4.22 (T) Es sei D eine n × n-Matrix mit n verschiedenen Eigenwerten. ZeigenSie für jede n × n-Matrix C

CD = DC ⇔ C = p(D)

mit einem Polynom p(λ).

Aufgabe 4.23 (T) Der Matrizenraum R(2,2) werde aufgefasst als vier-dimensionaler Vek-torraumR4. Zeigen Sie für jede Matrix C ∈ R(2,2), dass alle ihre Potenzen 12,C,C2,C3, . . .in einer Ebene liegen.

Aufgabe 4.24 (K) Bestimmen Sie das Minimalpolynom der Matrix

B =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝1 0 10 1 00 0 2

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Aufgabe 4.25 (T) Vervollständigen Sie den Beweis von Satz 4.100.

Aufgabe 4.26 (K) Zeigen Sie Lemma 4.102.

Aufgabe 4.27 (T) Sei A ∈ K(n,n) nilpotent.Zeigen Sie: 1 − A ist invertierbar und geben sie die Inverse an.

Aufgabe 4.28 (K) Gegeben sei die Matrix

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝1 −1 −1 11 4 1 −3−1 −2 0 2

0 0 −1 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

a) Trigonalisieren Sie A, d. h. bestimmen Sie ein S ∈ GL(4,C), sodass S −1AS eineobere Dreiecksmatrix ist.

b) Bestimmen Sie ausgehend von a) durch Lösen der Sylvester-Gleichung ein T ∈GL(4,C), sodass T−1AT Blockdiagonalform hat.

Page 95: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 477

4.5 Die Jordansche Normalform

4.5.1 Kettenbasen und die Jordansche Normalform im Komplexen

Unabhängig vom eingeschlagenen Weg ist mit Theorem 4.93 und 4.94 bzw. mit Theo-rem 4.98 der gleiche Zwischenstand erreicht:

Eine Matrix C ∈ K(n,n) (ein linearer Operator auf einem n-dimensionalen K-Vektor-raum V) kann, sofern das charakteristische Polynom über K in Linearfaktoren zerfällt,durch eine Ähnlichkeitstransformation in eine Blockdiagonalmatrix überführt werden, de-ren Diagonalblöcke genau einen der k verschiedenen Eigenwerte λ j als Eigenwert habenund deren Dimension dessen algebraische Vielfachheit r j ist. Die der Ähnlichkeitstrans-formation zugrundeliegende neue Basis kann so in k Teilmengen zerlegt werden, dass dieaufgespannten Unterräume U j eine C- bzw. Φ- invariante direkte Zerlegung von C bzw. Φdarstellen und

U j = Kern(Φ − λ j id)r j

gerade der Hauptraum zu λ j ist. U j enthält somit den Eigenraum V j := Kern(Φ − λ j id)als Teilraum. Wegen dim U j = r j trifft also immer einer der folgenden beiden Fälle zu:

1) Ist dim V j = r j (geometrische=algebraische Vielfachheit), dann gilt:

U j = V j und C j = λ j1r j .

2) Ist dim V j < r j, dann gilt:

V j ist ein echter Teilraum von U j .

Im Fall von dim V j < r j muss die Struktur von U j und C j weiter untersucht werden. Wirwissen bisher, dass C j als obere Dreiecksmatrix gewählt werden kann, deren Diagonalele-mente alle gleich λ j sind:

C j =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ j ∗

. . .

0 λ j

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Demnach ist Nj := C j − λ j1 nach Satz 4.78 nilpotent, d. h.

Nkj = 0 für ein k = k j ∈ N .

Es reicht, für die Nj durch eine Ähnlichkeitstransformation eine Normalform N j zu finden,da dann auch

N j + λ j1 ähnlich ist zu Nj + λ j1 = C j .

Page 96: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

478 4 Eigenwerte und Normalformen von Matrizen

Im Folgenden sei nun V ein K-Vektorraum, vorerst für einen allgemeinen Körper K, unddas lineare Φ : V → V sei nilpotent, d. h. Φr = 0 für ein r ∈ N. Dann definiert jeder Vektoru ∈ V eine endliche Kette von Bildvektoren mit einer Länge, die höchstens r ist, wobei:

Definition 4.103

Sei K ein Körper, V ein K-Vektorraum, u ∈ V , Φ ∈ HomK(V, V). Die Vektoren

u, Φu, Φ2u, . . . , Φp−1u

bilden eine Kette der Länge p, falls alle Elemente von 0 verschieden sind, aber gilt

Φpu = 0 .

Insbesondere ist folglich Φp−1u ein Eigenvektor von Φ zum Eigenwert 0.

Satz 4.104

Sei K ein Körper, V ein K-Vektorraum, Φ ∈ HomK(V, V).

1) Eine Kette der Länge p, d. h. bestehend aus u, Φu, . . . , Φp−1u, ist linear unabhän-gig.

2) Es seien

u1, Φu1, . . . , Φr1u1, . . . , uk, Φuk, . . . , Φ

rkuk

Ketten in V der Längen r1 + 1, . . . , rk + 1. Dann sind äquivalent:

(i) Die in all diesen Ketten enthaltenen Vektoren sind linear unabhängig.

(ii) Die letzten Vektoren Φr1u1, . . . , Φrkuk dieser Ketten sind linear unabhängig.

Beweis: Zu 1): Dies folgt insbesondere aus 2). Zur Verdeutlichung sei der Beweis auchunabhängig davon angegeben. Sei

p−1∑i=0

αiΦiu = 0 . (4.67)

Anwendung von Φp−1 auf (4.67) liefert

0 =

p−1∑i=0

αiΦi+p−1u = α0Φ

p−1u

Page 97: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 479

und damit α0 = 0.Nun nehme man an, dass für ein k ∈ {0, . . . , p − 2} bereits α0 = . . . = αk = 0 gezeigt

sei.Anwendung von Φp−2−k auf (4.67) liefert

αk+1Φp−1u = −

p−1∑i=k+2

αiΦi+p−2−ku = 0

und damit ist auch αk+1 = 0.Zu 2): Zu zeigen ist nur (ii) ⇒ (i). Wir beweisen die Aussage durch Induktion nach dermaximalen Länge der beteiligten Ketten. Sei etwa eine lineare Relation

c1,0u1 + . . . + c1,r1Φr1u1 + . . . + ck,0uk + . . . + ck,rkΦ

rkuk = 0

gegeben. Anwendung von Φ liefert: Aus jeder Kette fällt der letzte Vektor weg. Die letztenVektoren der verkürzten Ketten sind aber nach wie vor linear unabhängig, da sie sich durchdie Anwendung von Φ nicht verändert haben. Nach Induktionsannahme sind dann alleVektoren der verkürzten Ketten linear unabhängig und es folgt

c1,0 = . . . c1,r1−1 = . . . = ck,0 = . . . ck,rk−1 = 0 .

Die ursprüngliche Relation wird eine Relation

c1,r1Cr1u1 + . . . + ck,rkC

rkuk = 0

zwischen den letzten Vektoren der beteiligten Ketten. Diese sind linear unabhängig undwir sehen c1,r1 = . . . = ck,rk = 0. �

Bemerkungen 4.105

1) Eine Kette B bildet nach Satz 4.104, 1) eine Basis des von ihr erzeugten Φ-invariantenUnterraums U. Die Darstellungsmatrix von Φ|U bezüglich B ist⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 0 · · · 0

1 0 · · · ...

0 1...

....... . .

...0 0 · · · 1 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠und daher bei umgekehrter Anordnung der Basiselemente der durch Transposition entste-hende Jordan-Block zum Eigenwert 0.In einer Basis und ihrer Darstellungsmatrix für einen Homomorphismus Φ entsprechensich daher Ketten und Jordan-Blöcke zum Eigenwert 0, insbesondere ist die Länge derKette die Dimension des Blocks.

Page 98: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

480 4 Eigenwerte und Normalformen von Matrizen

2) Nach Satz 4.104, 2) gilt sodann: Es gibt dim Kern Φ viele Ketten, so dass die Vereini-gung aller Elemente eine linear unabhängige Menge ergibt.

3) w ∈ V gehört zu einer Kette mindestens der Länge k in der Form

u, Φu, . . . , Φk−2u, Φk−1u = w ,

genau dann wenn

w ∈ Kern Φ ∩ Bild Φk−1 = Kern Φ ∩(Kern

(Φ†

)k−1)⊥

,

wobei man für die letzte Identität Bemerkungen 3.59 beachte. �

Theorem 4.106: Normalform für nilpotente lineare Abbildungen

Sei K ein Körper. Ist Φ : V → V eine nilpotente lineare Abbildung des endlich-dimensionalen K-Vektorraums V in sich, so gibt es eine Basis von V , die sich nuraus Ketten für Φ zusammensetzt. Bei umgekehrter Anordnung innerhalb der Kettenwird in einer solchen Basis die Abbildung Φ durch eine Matrix beschrieben, welcheeine Blockdiagonalmatrix von Blöcken der Form⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 1 0 · · · 0...

. . .. . .

. . ....

.... . .

. . . 0...

. . . 10 · · · · · · · · · 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠Jordan-Block zum Eigenwert 0

ist.

Beweis: Weil Φ nilpotent ist, gilt entweder Φ = 0, wobei wir hier p = 1 setzen oderΦ � 0, so dass also ein eindeutiges p ∈ N, p ≥ 2 existiert mit Φp = 0, aber Φp−1 � 0. Wirbeweisen die Behauptung durch Induktion nach p. Der Induktionsanfang ist p = 1. Dannist Φ = 0 die Nullabbildung. Jeder Vektor 0 � u ∈ V stellt eine – wenn auch kurze – Kettedar. Und jede Basis von V besteht aus derartigen Ketten der Länge 1.Sei jetzt p ≥ 2 für den Induktionsschluss p − 1 → p. Wir betrachten den Bildraum B :=Bild Φ ⊂ V . Die Einschränkung Φ|B bildet auch B in das Bild Φ ab, definiert also eineAbbildung Φ|B : B→ B. Für jeden Vektor b = Φu ∈ B ist

Φp−1 b = Φp−1Φu = Φpu = 0 .

Deswegen ist (Φ|B)p−1 = 0 und wir können auf Φ|B die Induktionsannahme anwenden. Esgibt somit eine Basis von B, die aus Ketten besteht:

Page 99: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 481

b1 → Φb1 → . . . → Φr1 b1 ,...

bk → Φbk → ... → Φrk bk .

Hier soll jeweils Φri bi � 0 sein, aber Φri+1bi = 0. Zuerst verlängern wir unsere Kettenetwas: Jedes bi ∈ B ist ein Bild Φui. Wir können zu jeder Kette einen solchen Vektor uihinzunehmen und ihre Länge um 1 vergrößern:

ui → Φui → Φ2ui → . . .→ Φri+1ui ,‖ ‖ . . . ‖bi → Φbi → . . .→ Φri bi .

Dann vermehren wir unsere Ketten auch noch: Die Vektoren Φri bi = Φri+1ui, i = 1, . . . , k,gehören zum Kern von Φ. Als Teil der gewählten Basis von B sind sie linear unabhängig.Wir können sie durch Vektoren uk+1, . . . , ul zu einer Basis des Kerns ergänzen. Jeden dieserergänzenden Vektoren im Kern fassen wir als eine kurze Kette auf. Die Gesamtheit dererhaltenen Ketten ist damit:

u1 Φu1 . . . Φr1+1u1...uk Φuk . . . Φrk+1ukuk+1...ul

(4.68)

Das Bild dieser Vektoren unter Φ ist genau die Kettenbasis von B, vermehrt um den Null-vektor. Die Anzahl aller Vektoren in einer Kettenbasis von B ist dim(B). Hier haben wirinsgesamt k Vektoren hinzugenommen um jede Kette zu verlängern. Schließlich haben wirdie gewählten Ketten um

l − k = dim(KernΦ) − k

kurze Ketten vermehrt. Damit ist die Anzahl aller Vektoren in unseren Ketten

dim(Bild Φ) + dim(Kern Φ) = dim V

geworden. Wir müssen nun nur noch zeigen, dass alle Vektoren der gewählten Ketten li-near unabhängig sind, um eine Kettenbasis von V zu erhalten. Dies folgt nach Satz 4.104,2), da die Vereinigung der jeweils letzten Kettenvektoren eine Basis von KernΦ bilden,d. h. linear unabhängig sind. Die Aussage über die Darstellungsmatrix folgt aus Bemer-kungen 4.105, 1). �

Bemerkung 4.107 Insbesondere entspricht also bei einer Kettenbasis und der zugehöri-gen Darstellungsmatrix aus Jordan-Blöcken (zum Eigenwert 0) eine Kette einem Block,d. h. die Anzahl der Blöcke (einer festen Größe) ist die Anzahl der Ketten (einer festenLänge). �

Page 100: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

482 4 Eigenwerte und Normalformen von Matrizen

Die in Theorem 4.106 auftretenden Ketten sind i. Allg. nicht eindeutig bestimmt, deswe-gen sind auch die durch die einzelnen Jordan-Blöcke definierten Φ-invarianten Unter-räume durch die lineare Abbildung i. Allg. nicht eindeutig bestimmt. Ihre Anzahlen undDimensionen dagegen sind dies sehr wohl.

Satz 4.108: Anzahl der Jordan-Blöcke

Die Größen der in Theorem 4.106 auftretenden Jordan-Blöcke und die Anzahl derBlöcke einer festen Größe sind durch die Abbildung Φ eindeutig bestimmt:Seien ai := dim Kern Φi für i ∈ N0, dann gilt für i ∈ N:

1) bi := ai − ai−1 ist die Anzahl der Jordan-Blöcke, deren Größe entweder größeroder gleich i ist,

2) ai ≥ ai−1,

3) ci = 2ai − ai−1 − ai+1 (4.69)ist die Anzahl der Jordan-Blöcke, deren Größe genau i ist,

4) bi+1 ≤ bi.

Insbesondere ist b1 = dim KernΦ die Anzahl aller Blöcke.Ist b j = 0 für ein j ∈ N, dann auch bi = 0 für i ≥ j und so ci = 0 für i ≥ j.

Beweis: Nach Bemerkung 4.107 können wir die Behauptung in der Sprache der Kettenbetrachten. Wir bezeichnen mit bi die Anzahl der Jordan-Blöcke bzw. Ketten mit Größegrößer oder gleich i. Wenden wir Φ auf eine Kette an, so fällt der erste Vektor weg, dieanderen reproduzieren sich. Weil die ursprünglichen Ketten eine Basis von V bilden, sinddie reproduzierten Kettenreste eine Kettenbasis von B = Bild Φ. Aus dem Beweis vonTheorem 4.106 folgt, dass jede Kettenbasis von B auf diese Weise aus einer Kettenbasisvon V hervorgeht. Damit haben wir eine Bijektion zwischen den Kettenbasen von V undB, wobei die Letzteren insgesamt

dim(V) − dim(B) = dim(Kern Φ)

weniger Kettenelemente haben und die Ketten von B jeweils um einen Vektor kürzer sind.Insbesondere bildet die Gesamtheit der „letzten“ Vektoren in der Kettenbasis von V

eine Basis von Kern Φ, d. h. dim Kern Φ ist die Anzahl der Ketten in der Kettenbasis vonV . Dies ergibt die vorletzte Aussage

dim Kern Φ = a1 = a1 − a0 = b1. (4.70)

Durch die Anwendung von Φ, d. h. die Reduktion von V auf Bild Φ, werden somit dieursprünglichen Ketten der Länge 1 aus der Basis entfernt. Zusammenfassend bezeichnetb2 die Anzahl der Ketten in der verbleibenden Kettenbasis von Bild Φ, also

b2 = dim KernΦ|Bild Φ

Page 101: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 483

und durch Fortführung dieses Prozesses ergibt sich für k ∈ N, k ≥ 2

bk = dim Kern Φ|Bild Φk−1 .

Nun ist nach Definition

a2 − a1 = dim Kern Φ2 − dim Kern Φ .

Diese Identität lässt sich umformen, da einerseits für a1 mit der offensichtlichen IdentitätKern Φ = Kern Φ|Kern Φ2 gilt

a1 = dim Kern Φ|KernΦ2 .

Zusätzlich gilt wegen

x ∈ Kern Φ|BildΦ ⇔ Φx = 0, x = Φy ⇔ Φ2y = 0, x = Φy⇔ x ∈ Bild Φ|KernΦ2

aber auch Kern Φ|Bild Φ = Bild Φ|KernΦ2 . Andererseits lässt sich a2 mit der Dimensionsfor-mel I (Theorem 2.32) als

a2 = dim Kern Φ2 = dim Bild Φ|Kern Φ2 + dim Kern Φ|KernΦ2

schreiben. Zusammengesetzt folgt daher

a2 − a1 = dim Bild Φ|Kern Φ2 + dim Kern Φ|Kern Φ2 − dim Kern Φ|Kern Φ2

= dim Kern Φ|Bild Φ = b2 .

Wegen

Kern Φ|Bild Φk−1 = Bild Φk−1∣∣∣KernΦk

folgt allgemein aus Theorem 2.32:

bk = dim Kern Φ|Bild Φk−1 = dim Bild Φk−1∣∣∣Kern Φk + dim Kern Φk−1

∣∣∣Kern Φk − dim Kern Φk−1

= dim Kern Φk − dim KernΦk−1 = ak − ak−1,

d. h. 1) gilt. Die Aussage 2) ist offensichtlich wegen KernΦi−1 ⊂ Kern Φi und es folgt auchsofort wegen bi ≥ 0 nach 1). Die Aussage 3) ergibt sich unmittelbar aus 2), da

ci = bi − bi+1 .

Da ci ≥ 0, folgt aus 3) sofort 4). Für die Schlussbehauptung ist nur

ai = ai−1, d. h. KernΦi = Kern Φi−1

=⇒Kern Φi+1 = KernΦi d. h. ai+1 = ai

Page 102: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

484 4 Eigenwerte und Normalformen von Matrizen

zu beachten. �

Bemerkung 4.109 Wegen der Dimensionsformel I aus Theorem 2.32 können die Identi-täten aus Satz 4.108 statt in dim Kern Φi auch in Rang Φi =: ri geschrieben werden:

bi = ri−1 − ri

ci = ri+1 + ri−1 − 2ri .

Eine Verifikation dieser Form kann alternativ zum Beweis von Satz 4.108, 1) auf folgendenÜberlegungen beruhen:

Bei Anwendung von Φi−1 fallen alle Ketten der Länge ≤ i − 1 weg, die Längen deranderen Ketten werden um i − 1 verringert. Bei Anwendung von Φi fallen alle Ketten derLänge ≤ i weg, die Längen der anderen Ketten werden um i verringert. In jeder Kette einerLänge ≥ i liegt genau ein Vektor mehr aus dem Bild von Φi−1 als im Bild von Φi. Also istdie Anzahl dieser Ketten der Länge ≥ i gerade die Differenz ri−1 − ri der Ränge. �Beispiel 4.110 Sei dim V = 7 und m = 3 die kleinste Potenz, so dass Φm = 0, dann sindfür die Zahlenfolgen bi, ci, ai, i = 1, 2, 3 folgende Fälle möglich:

bi 5 1 1 4 2 1 3 3 1 3 2 2ci 4 0 1 2 1 1 0 2 1 1 0 2ai 5 6 7 4 6 7 3 6 7 3 5 7

Satz 4.111: Hauptraum und Minimalpolynom

Sei V ein K-Vektorraum über einem algebraisch abgeschlossenen Körper K, Φ :V → V sei K-linear und das charakteristische Polynom χΦ bestehe aus linearen Fak-toren p mit den Vielfachheiten ri : χΦ(λ) =

∏ki=1 pri(λ). Sei pΦ das Minimalpolynom

von Φ.

1) Dann ist pΦ(λ) =∏k

i=1 pmi (λ) mit mi ≤ ri.

2) Für die invarianten Unterräume Ui nach Theorem 4.93 (bzw. Theorem 4.98) gilt

Ui = Kern pri(Φ) = Kern pmi (Φ) .

3) a) Φ ist (über K) diagonalisierbar genau dann, wenn

Ui = Kern(Φ − λi id) =: Ei für i = 1, . . . , k.

b) Φ ist (über K) diagonalisierbar genau dann, wenn alle Nullstellen des Mini-malpolynoms pΦ einfach sind, d. h. mi = 1 für i = 1, . . . , k.

Beweis: Zu 1): Folgt sofort aus Theorem 4.81 und 4.84.

Page 103: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 485

Zu 2): pmi ist das Minimalpolynom von Φ auf Ui nach Satz 4.94 und pmi (Φ) = 0 auf Ui

nach Definition. Damit gilt

Kern pri (Φ) ⊂ Kern pmi(Φ)

und die umgekehrte Inklusion gilt immer wegen mi ≤ ri.Zu 3a): Es gilt:

Φ ist diagonalisierbar⇔ dim Ui = dim Ei für i = 1, . . . , k (algebraische = geometrische

Vielfachheit)⇔ Ui = Ei für i = 1, . . . , k,

da immer Ei ⊂ Ui gilt.Zu 3b): „⇒“ wurde schon in Satz 4.86, 2) gezeigt. Für „⇐“ beachte man: das charak-teristische Polynom von Φ|Ui

ist das Polynom χi(λ) = (λi − λ)ri mit ri = dim(Ui). DasMinimalpolynom pi von Φ|Ui

kann nach Voraussetzung nur verschiedene einfache Line-arfaktoren haben, d. h. pi(λ) = (λi − λ). Also bedeutet pi(Φ)u = 0 für u ∈ Ui, dass Ui ⊂ Ei

und damit folgt die Behauptung mit 3a). �

Wir betrachten weiter einen algebraisch abgeschlossenen Körper K und benutzen wiederdie Matrixschreibweise, d. h. es sei C ∈ K(n,n), λ ∈ K. Wir schreiben im Folgenden alsAbkürzung

Cλ := C − λ1 .

Es gilt

Kern Cλ ⊂ Kern(C2λ) ⊂ . . . .

Die Unterräume Ui := Kern Ciλ sind demnach aufsteigend und sie sind invariant unter C,

nach Theorem 4.92,1).

Insbesondere muss es ein minimales k = kλ ∈ N, k ≤ n geben, so dass

Kern(Ckλ) = Kern(Ck+1

λ ) und deswegen Kern(Clλ) = Kern(Ck

λ) für l ≥ k . (4.71)

Die zu λ eindeutige existierende Zahl kλ wird (Fitting10-)Index genannt.

Sei λ ein Eigenwert von C und sei für k ∈ N im Folgenden

Uk := Kern(Ckλ),

d. h. speziell

Uλ := Urλ ,

10 Hans Fitting ∗13. November 1906 in Mönchengladbach †15. Juni 1938 in Königsberg (Preußen)

Page 104: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

486 4 Eigenwerte und Normalformen von Matrizen

der zu λ zugehörige invariante Unterraum aus Satz 4.94, dann folgt

kλ ≤ mλ ≤ rλ ,

wobei mλ die Vielfachheit von λ im Minimalpolynom ist. Es gilt nämlich

Umλ = Umλ+1 .

Hierbei ist die Inklusion „⊂“ klar und für „⊃“ sei x ∈ Umλ+1, d. h. Cmλ

λ Cλx = 0 undso Cλx ∈ Umλ . Hätte x in der C-invarianten Zerlegung Kn =

⊕ki=1 Ui nach Satz 4.94

(bei Beachtung von Satz 4.111, 2)), wobei etwa Uλ = U1, eine Komponente ul � 0 fürein l ≥ 2, so wäre auch Cλul � 0 wegen der für die Räume paarweise verschiedenenEigenwerte. Dies wäre ein Widerspruch zur Eindeutigkeit der entsprechenden Darstellungvon Cλx, folglich gilt x ∈ Umλ ,

also Ukλ = Ukλ+1 = . . . = Umλ = Urλ

und damit insbesondere

dim Kern(Ckλ

λ ) = dim Uλ = rλ .

Damit ist (C − λ1)kλ x = 0 für x ∈ Uλ und so teilt das Minimalpolynom χ Uλx = (x − λ)mλ

das Polynom pλ(x) = (x − λ)kλ . Infolgedessen ist auch

mλ ≤ kλ

insgesamt:

kλ = mλ .

Wegen der Dimensionsformel Theorem 2.32 entspricht der Folge aufsteigender Kerne eineFolge absteigender Bilder:

Bild(Cλ) ⊃ Bild(C2λ) ⊃ . . . ⊃ Bild(Ckλ

λ ) = Bild(Ckλ+1λ ) .

Die Rangbestimmung von Ckλ muss maximal bis zu k = rλ erfolgen und führt zur Be-

stimmung von mλ und damit des Minimalpolynoms. Genauer gilt in der Nomenklatur vonSatz 4.108:

bi = ci = 0 für i > m = Grad der Nullstelle 0 im Minimalpolynom,

und somit ist

Page 105: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 487

m∑i=1

bi =

m∑i=1

(ai − ai−1) = am = algebraische Vielfachheit.

Einen Jordan-Block der Größe mλ bzw. eine Kette der Länge mλ gibt es also im-mer,

da die Bedingung aus Bemerkungen 4.105, 3)

w ∈ Kern Cλ |Uλ∩ Bild Cmλ−1

λ

∣∣∣Uλ

wegen

Cmλ

λ

∣∣∣Uλ= 0, d. h. Bild Cmλ−1

λ

∣∣∣Uλ⊂ Kern Cλ |Uλ

immer erfüllbar ist.

Hauptsatz 4.112: Jordansche Normalform

Sei K algebraisch abgeschlossen. Jede Matrix ∈ K(n,n) ist ähnlich zu einer Blockdia-gonalmatrix ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

C1 0. . .

0 CI

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Für i = 1, . . . , I ist dabei C ∈ K(ri,ri) mit r1 + . . . + rI = n. Weiter entsprechendie Diagonaleinträge der Matrix Ci genau dem Eigenwert λi und auch die Ci sindwieder als eine Blockdiagonalmatrix gegeben, diesmal von der speziellen Gestalt

Ci =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝Ji,1 0

. . .

0 Ji,Mi

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Hier ist m = 1, . . . , Mi mit Ji,m ∈ K(si,m,si,m) und si,1 + . . . + si,Mi = ri. Dabei sind dieJi,m die sogenannten Jordan-Blöcke der Größe si,m zum Eigenwert λi und von derForm

Ji,m :=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

λi 1. . .

. . . 0

. . .. . .

0. . . 1

λi

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠∈ K(si,m,si,m) .

Page 106: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

488 4 Eigenwerte und Normalformen von Matrizen

Weiter ist die Anzahl der Blöcke einer festen Größe zu einem festen Eigenwertdurch die Matrix eindeutig bestimmt durch (4.69) und die Anzahl der Jordan-Blöcke zu einem festen Eigenwert ist gerade die geometrische Vielfachheit.

Beweis: Globale Zerlegung der Matrix in Blöcke Ci:Nach Theorem 4.93 bzw. Theorem 4.98, 1) ist die Matrix C ähnlich zu einer Blockdia-

gonalmatrix C0, d. h.

C = A−10 C0 A0 für eine geeignete Transformationsmatrix A0 ∈ K(n,n) .

C0 besteht dabei aus den Blöcken Ci ∈ K(ri,ri), i = 1, . . . , I, wobei I die Anzahl derpaarweise verschiedenen Eigenwerte ist. Die Ci haben das charakteristische Polynom(λi − λ)ri , d. h. ri ist gerade die algebraische Vielfachheit des i-ten Eigenwertes λi. Daszeigt r1 + . . . + rI = n. Zudem sind die Diagonaleinträge von Ci durch den Eigenwert λi

gegeben. Daher lässt sich Ci schreiben als

Ci = λi1ri + Ni ,

wobei die Matrix λi1ri ∈ K(ri,ri) schon Diagonalgestalt hat und Ni ∈ K(ri ,ri) nach Satz 4.78eine nilpotente Matrix ist.

Lokale Zerlegung der Blöcke Ci in Jordan-Blöcke Ji,m:Es ist anzumerken, dass nach Theorem 4.98 die Matrix Ci gerade die beschreibende

Matrix von C auf dem C-invarianten Hauptraum Ui = Kern(C − λi1)ri ist. Daher kann Ci

weiteren Ähnlichkeitstransformationen unterzogen werden, ohne dabei die anderen C j, j �i zu verändern. Das erlaubt alle Ci mittels einer weiteren Ähnlichkeitstransformation auf Ui

auf die gewünschte Gestalt zu bringen und zum Schluss alle Ähnlichkeitstransformationenauf den Ui zu einer globalen Ähnlichkeitstransformation für C zusammenzusetzen.

Um Ci auf die gewünschte Form zu bringen, untersuchen wir die nilpotente Matrix Ni

genauer. Wegen Theorem 4.106 ist Ni ähnlich zu einer Blockdiagonalmatrix Ji, d. h. es ist

Ni = A−1i Ji Ai für eine geeignete Transformationsmatrix Ai ∈ K(ri,ri) .

Ji besteht dabei wieder nach Theorem 4.106 aus Jordan-Blöcken Ji,m mit Eigenwert 0,m = 1, . . . , Mi. Das zeigt si,1 + . . . + si,Mi = ri. Nach Satz 4.108 ist hier Mi = dim Kern Ni,nämlich die Anzahl der Ketten, die benötigt werden um eine Basis für den Hauptraum Ui

zu bilden. Also:

Anzahl Jordan-Blöcke zu λi = Mi = dim Kern Ni = dim Kern(Ci − λi1ri)= geometrische Vielfachheit .

Mit den bisherigen Überlegungen gilt nun für Ci

Ci = λi1ri + Ni = A−1i λi1ri Ai + A−1

i Ji Ai =

= A−1i

(λi1ri + Ji

)Ai .

Page 107: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 489

D. h. Ci ist ähnlich zu einer Blockdiagonalmatrix Ji := λi1ri + Ji, die aus den Jordan-Blöcken Ji,m := λi1si,m + Ji,m zum Eigenwert λi besteht.

Die Eindeutigkeitsaussage folgt aus der Eindeutigkeit in Satz 4.94 bzw. Theorem 4.98,2) und Satz 4.108. Für die „globale“ Gültigkeit von (4.69) für die Gesamtmatrix C mussdie in Satz 4.108 gezeigte „lokale“ Gültigkeit für Ci auf C übertragen werden. Das folgtjedoch unmittelbar, da bereits bekannt ist, dass C auf dem C-invarianten Unterraum Ui

durch Ci beschrieben wird. Damit gilt für k ≤ ri = dim Ui die Identität

dim Kern(C − λi1)k = dim Kern (C − λi1)k∣∣∣Ui

,

hierbei folgt die Gleichheit der Räume aus Theorem 4.92 mit analogen Überlegungen imdortigen Beweis. �

Wegen des Eindeutigkeitsteils in Satz 4.108 können wir von der Jordanschen Normal-form einer Matrix sprechen. Somit wurde bewiesen

Satz 4.113: Größe der Jordan-Blöcke

In einer Jordanschen Normalform nach Hauptsatz 4.112 setze für jeden derpaarweise verschiedenen Eigenwerte λl, l = 1, . . . , I die Größen ai als a(l)

i :=dim Kern(Φ − λl1)i, i ∈ N. Dann gilt: (ai)i ist eine monoton nicht fallende Folgemit monoton nicht wachsenden Inkrementen ai − ai−1. Ab i = ml = Grad von λl imMinimalpolynom gilt

ak = aml für k ≥ ml .

Die Anzahl der Jordan-Blöcke der Größe i ist durch

ci := 2ai − ai−1 − ai+1

gegeben.Der größtmögliche Jordan-Block hat die Dimension ml und ein solcher tritt immerauf.

Jede solche Blockdiagonalmatrix aus Jordan-Blöcken aus Hauptsatz 4.112 lässt sichoffensichtlich zerlegen in eine Diagonalmatrix mit den Eigenwerten auf der Diagonaleund eine Matrix, die sich aus Jordan-Blöcken zum Eigenwert 0 zusammensetzt, alsonilpotent ist. Für den einzelnen Eigenwert λ ist diese Zerlegung

J = λ1 + N =: Jd + Jn ,

so dass Jd und Jn kommutieren. Damit kommutieren auch für die gesamte Matrix in derZerlegung J = Jd + Jn, Jd und Jn:

Jd Jn = JnJd ,

Page 108: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

490 4 Eigenwerte und Normalformen von Matrizen

wovon man sich durch Blockmultiplikation überzeugt.Für eine allgemeine Matrix C ∈ K(n,n), die durch eine Ähnlichkeitstransformation

A−1CA = J in die Jordansche Normalform gebracht wird, folgt

C = Cd +Cn (4.72)

mit Cd := AJdA−1, Cn := AJnA−1 und:

Cd ist diagonalisierbar,Cn ist nilpotent,CdCn = CnCd .

Eine solche Zerlegung (4.72) heißt Jordan-Zerlegung einer Matrix bzw. analog eineslinearen Operators.

Etwas struktureller notiert, gilt:

Theorem 4.114: Eindeutige Existenz Jordan-Zerlegung

Sei K ein algebraisch abgeschlossener Körper, V ein endlichdimensionaler K-Vektorraum, Φ : V → V linear. Dann existieren ein diagonalisierbares Φd undein nilpotentes Φn in HomK(V, V) so, dass

Φ = Φd +Φn und Φd ◦Φn = Φn ◦Φd .

Eine solche Darstellung von Φ heißt Jordan-Zerlegung. Weiter gilt:

1) Die Eigenräume von Φd sind die Haupträume von Φ.

2) Kommutiert Ψ ∈ HomK(V, V) mit Φ, so auch mit Φnund Φd aus einer Jordan-Zerlegung.

3) Die Jordan-Zerlegung ist eindeutig.

Beweis: Zu 1): Sei V = U1 ⊕ . . . ⊕ Uk die Φ-invariante direkte Summenzerlegung nachTheorem 4.93 bzw. Korollar 4.95 in die Haupträume

Ui := Kern(Φ − λi id)ri

für die paarweise verschiedenen Eigenwerte λi. Seien Pi : V → Ui die nach Satz 2.46definierten Projektionen, die für i = 1, . . . , k durch

Pi

⎛⎜⎜⎜⎜⎜⎜⎝ k∑j=1

u j

⎞⎟⎟⎟⎟⎟⎟⎠ := ui für u j ∈ U j, j = 1, . . . , k,

gegeben sind. Auf der Ebene der Darstellungsmatrix ist dies gerade die Einschränkung aufdie zum i-ten Diagonalblock gehörigen Komponenten. Der Bemerkung 4.43, 3) entspricht

Page 109: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 491

Φd :=k∑

i=1

λiPi .

Wegen Φd |Ui= λi1 ist Φd Ui-invariant und die Ui sind genau die Eigenräume von Φd zu

λi, so dass die Aussage 1) gilt. Φ kommutiert mit Φd, denn für u ∈ V , u =∑k

j=1 u j ∈ U j

gilt:

Φ

⎛⎜⎜⎜⎜⎜⎜⎝Φd

⎛⎜⎜⎜⎜⎜⎜⎝∑j

u j

⎞⎟⎟⎟⎟⎟⎟⎠⎞⎟⎟⎟⎟⎟⎟⎠ = Φ

⎛⎜⎜⎜⎜⎜⎜⎝∑j

λ ju j

⎞⎟⎟⎟⎟⎟⎟⎠ =∑j

λ jΦu j = Φd (Φu) , (4.73)

da Φu j ∈ U j und Φu =∑

Φu j die eindeutige Zerlegung von Φu ist.Man setze

Φn := Φ −Φd ,

so kommutiert auch Φ mit Φn und auch Φn mit Φd.Waren die bisherigen Überlegungen (zu 1)) allgemein für jede Φ-invariante Zerlegung, sofolgt die zur Existenz einer Jordan-Zerlegung noch fehlende Nilpotenz von Φn aus

Φrin

∣∣∣Ui= (Φ − λi1)ri |Ui

= 0 .

Zu 2): Wenn Ψ und Φ kommutieren, so lässt auch Ψ nach Theorem 4.92 die Haupträumeinvariant. Betrachtet man noch einmal (4.73), so sieht man, dass dort für Φ außer Linearitätnur diese Invarianz benutzt worden ist. Also gilt auch

Ψ ◦Φd = Φd ◦ Ψund damit die Vertauschbarkeit auch für Φn.

Zu 3): Sei Φ = Φ′d +Φ′n eine weitere Jordan-Zerlegung, dann gilt

Φd − Φ′d = Φ′n − Φn .

Da Φ′d, Φ′n miteinander kommutieren und daher ebenso mit Φ, kommutieren sie nach 2)

auch mit Φd und Φn. Nach dem folgenden Lemma 4.115 ist Φd −Φ′d diagonalisierbar undΦ′n −Φn nilpotent, was nur im Fall

Φd = Φ′d , Φn = Φ′n

möglich ist. �

Lemma 4.115

Sei V ein endlichdimensionaler K-Vektorraum über einem Körper K, seien Φ,Ψ ∈HomK(V, V) und kommutieren miteinander. Dann gilt:

Page 110: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

492 4 Eigenwerte und Normalformen von Matrizen

1) Sind Φ,Ψ diagonalisierbar, dann auch Φ + Ψ .

2) Sind Φ,Ψ nilpotent, dann auch Φ + Ψ .

Beweis: Zu 1): Nach Bemerkung 4.72 sind Φ und Ψ simultan diagonalisierbar und damitist auch Φ + Ψ diagonalisierbar.

Zu 2): Wegen der Kommutativität gilt

(Φ + Ψ )n =

n∑i=0

(ni

)Φi ◦ Ψn−i . (4.74)

Es sei m ∈ N, sodass Φl = Ψ l = 0, für l ≥ m, dann gilt infolgedessen

(Φ + Ψ )2m = 0 ,

denn in (4.74) ist für i = 0, . . . , m schon Ψ 2m−i = 0 und ebenso für i = m + 1, . . . , 2m auchΦi = 0. �

Bemerkung 4.116 Sei K ein abgeschlossener Körper, V ein n-dimensionaler K-Vektor-raum, und Φ,Ψ ∈ HomK(V, V) kommutieren miteinander, d. h. Ψ ◦Φ = Φ ◦Ψ . Dann gibtes eine Basis von V , deren Elemente sowohl Hauptvektoren für Φ als auch für Ψ sind (vgl.Satz 4.71).Es reicht, die Aussage für A1, A2, ∈ K(n,n) zu zeigen. Nach Voraussetzung kommutiert A2 auch mit (A1 −λ1)l für λ ∈ K und l ∈ N. Seien Ui = Kern(A1 − λi1)ri , i = 1, . . . , k, die Haupträume von A1 in einerJordan-Darstellung, dann ist also für x ∈ Ui:

(A1 − λi1)ri A2 x = A2(A1 − λ11)r x = 0 ,

d. h. A2 x ∈ Ui. Da also die Ui invariant unter A2 sind, besitzen sie jeweils eine Hauptraumzerlegungbezüglich A2:

Ui = Ui,1 ⊕ . . . Ui,ki .

Durch Auswahl von Kettenbasen von Ui, j bezüglich A2 erhält man insgesamt eine Basis aus Hauptvektorenvon A2, die auch Hauptvektoren von A1 sind.

�Beispiel 4.117 (Differenzengleichung) Im allgemeinen, nicht diagonalisierbaren Fall istmit der Jordanschen Normalform für (4.12) eine Lösungsdarstellung gegeben, falls dieEigenwerte in K liegen. Sei CJC−1 = A eine Jordan-Darstellung nach Hauptsatz 4.112,dann reicht wegen

Ak = CJkC−1

die Bestimmung von

Jk = (D + N)k ,

Page 111: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 493

wobei D der Diagonal- und N der nilpotente Anteil der Jordan-Zerlegung nach Theo-rem 4.114 ist. Sei D = diag(Di) die durch die paarweise verschiedenen Eigenwerteλ1, . . . , λr gegebene Zerlegung und verträglich N = diag(Ni) , dann ist Jk = diag(Jk

i ) =diag(Di + Ni)k , so dass nun nur noch die Blöcke zum festen Eigenwert λi betrachtet wer-den müssen. Sei weiter Ni = diag(Ni, j) die Zerlegung in Jordan-Blöcke zum Eigenwert0 , falls die Basis des zugehörigen invarianten Unterraums aus mehreren Ketten besteht.Für die entsprechende Zerlegung Ji = diag(Ji, j) gilt dann

Jki, j =

(Di + Ni, j

)k.

Ni, j habe die Dimension si, j. Da Di und Ni, j kommutieren, gilt (siehe (4.74)) für k ≥ si, j−1:

Jki, j =

k∑�=0

(k�

)N�

i, jDk−�i =

si, j−1∑�=0

(k�

)λk−�

i N�i, j

und daher

Jki, j =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λk

i

(k1

)λk−1

i · · ·(

ksi, j−1

k−si, j+1i

. . .. . .

.... . .

(k1

)λk−1

iλk

i

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠. (4.75)

Die Lösung (siehe Beispiele 4.56, 2) ) ist

u(k) = Aku(0) = CJkα ,

wobei α = C−1u(0) , und ist daher durch Linearkombination der Hauptvektorbasis zumjeweiligen Eigenwert λi gegeben, wobei aber in einer Hauptvektorenkette zu λi nur der Ei-genvektor den Vorfaktor λk

i (wie in (4.28)) bekommt, die Hauptvektoren r-ter Stufe (sieheDefinition 4.122) haben hingegen einen Vorfaktor der Form

r−1∑�=0

(k�

)λk−�

i . (4.76)

4.5.2 Die reelle Jordansche Normalform

Ist K = R und hat C ∈ R(n,n) nur reelle Eigenwerte, d. h. zerfällt χC in reelle Linearfakto-ren, dann können alle Überlegungen von Abschnitt 4.4.1, 4.4.2 und 4.5.1 inR durchgeführtwerden und Hauptsatz 4.112 gilt wörtlich mit einer reellen Ähnlichkeitstransformation.

Page 112: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

494 4 Eigenwerte und Normalformen von Matrizen

Hat C ∈ R(n,n) auch komplexe Eigenwerte, so kann Hauptsatz 4.112 wie schon dieSchursche Normalform in R nicht gelten. Mit Blick auf die reelle Schursche Normal-form (Theorem 4.55) ist aber eine analoge Variante der Jordanschen Normalform zuerwarten. Es ist also sicherzustellen, dass alle Transformationsschritte mit reellen Basis-wechseln durchzuführen sind. Diese sind:

1) Ähnlichkeitstransformation auf eine Blockdiagonalgestalt (Theorem 4.93 bzw.Theorem 4.98),

2) Normalform der Blöcke unter Kenntnis der Eigenwerte (für K = C: ein Eigenwert)(Theorem 4.106).

Ist man dem Weg von Abschnitt 4.4.3 gefolgt, so ist der Schritt 1) schon bewerkstelligt(Satz 4.100). Der Leser kann daher das Weitere überspringen und die Lektüre auf Seite496 oben fortsetzen.

Ist C ∈ R(n,n), so hat das charakteristische Polynom nach Bemerkungen 4.35, 1) diespezifische Gestalt

χΦ(λ) = pr11 · . . . · prk

k · qs11 · . . . · qsl

l , r1 + . . . + rk + 2(s1 + .. + sl) = n . (4.77)

Dabei seien λ1, . . . , λk die paarweise voneinander verschiedenen reellen Nullstellenvon p und

p1(λ) = (λ1 − λ), . . . , pk = (λk − λ) die linearen Faktoren undq1(λ) = (c1 − λ)(c1 − λ), . . . , ql(λ) = (cl − λ)(cl − λ) die quadratischen Faktoren

ohne gemeinsame (komplexe) Nullstellen. Dabei ist qi(λ) ein reeller quadratischerFaktor nach (4.10).

Wenn nun diese Faktoren noch berücksichtigt werden, können die Überlegungen von Ab-schnitt 4.4.1 und 4.4.2 auch in R durchgeführt werden. Dies braucht folgende Ergänzun-gen:

Ohne Beweis wird benutzt, dass Theorem 4.81 (Cayley-Hamilton) allgemein giltund weiter ist von den Überlegungen aus Abschnitt 4.4.2 nur Theorem 4.93 anzupassen:

Theorem 4.93I Invariante direkte Summenzerlegung, K = R

Es sei V ein endlichdimensionaler R-Vektorraum und Φ : V → V eine R-lineareAbbildung und das charakteristische Polynom habe die Darstellung (4.77). Danngibt es eine Φ-invariante reelle direkte Summenzerlegung

V = U1 + . . . + Uk +W1 + . . . +Wl

mit dim(U j) = r j, dim(Wj) = 2s j,

Page 113: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 495

so dass Φ|Ujdas charakteristische Polynom (λ j−λ)r j und Φ|Wj

das charakteristischePolynom qs j

j hat.

Beweis: Wir erweitern den Beweis von Theorem 4.93, wobei der Induktionsbeweis hierüber die Anzahl m(= k + l) aller Faktoren läuft. Für m = 1 liegt entweder ein linearerFaktor, wie in Beweis von Theorem 4.93 behandelt, vor oder es gibt einen quadratischenFaktor q mit Vielfachheit s = n/2. Für diesen gilt analog

0 = χΦ(Φ) = q(Φ)s = 0 ,

und so

W1 = V = Kern q(Φ)s .

Beim Induktionsschluss zerlegen wir

χΦ(λ) = p(1)(λ) · p(2)(λ)

in zwei reelle Faktoren ohne gemeinsame lineare oder quadratische Faktoren, wobei p(1)

einer (komplexen) Nullstelle entspricht, folglich ein linearer oder quadratischer Faktor ist.Mit Theorem 4.88 und Bemerkungen 4.89 1) zerlegen wir V = U (1) ⊕ U (2), so dass fürΦ1 := Φ|U(1) und Φ2 := Φ|U(2) gilt p(1)(Φ1) = 0 und p(2)(Φ2) = 0. Jetzt müssen wir aberzwei Fälle unterscheiden:

a) Wenn p(1)(λ) = (λ1 − λ)r mit λ1 ∈ R ist, dann verläuft der Induktionsschluss identischwie beim Beweis von Theorem 4.93.b) Wenn p(1)(λ) = q(λ)s = (c1−λ)s · (c1−λ)s mit c1 � R ist, dann folgt wie im Beweis vonTheorem 4.93, dass χΦ1 nur die Nullstellen c1 und c1 hat und diese jeweils mit der Viel-fachheit s := dim(U (1))/2, während χΦ2 nur komplexe Nullstellen ungleich c1, c1 besitzt.Aber aus

χΦ(λ) = χΦ1 (λ) · χΦ2 (λ) = (c1 − λ)s(c1 − λ)s · p2(λ)

folgt wieder χΦ1 (λ) = (c1 − λ)s · (c1 − λ)s und U (1) = Kern p(1) = Kern qs. Der restlicheBeweis verläuft wie sein Vorbild von Theorem 4.93. �

Satz 4.94I Eindeutigkeit einer invarianten Summenzerlegung, K = R

Wir betrachten den endlichdimensionalenR-Vektorraum V und die R-lineare Abbil-dung Φ : V → V . Gegeben sei eine direkte Summenzerlegung wie in Theorem 4.93I,wobei die invarianten Unterräume einheitlich mit V j und die charakteristischen Po-lynome von Φ j := Φ|V j

mit p j(λ)r j bezeichnet werden. Diese Unterräume sind durchΦ eindeutig bestimmt, und

U j = Kern(p j(Φ))r j .

Page 114: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

496 4 Eigenwerte und Normalformen von Matrizen

Beweis: Der Beweis folgt dem von Satz 4.94. Um nach U j ⊂ Kern(p j(Φ)r j) =: V j auchU j = Kern(p j(Φ)r j) zu zeigen, beachte man: Die spezielle Form der Polynome spieltkeine Rolle, so dass die Aussagen von Theorem 4.92 für die Räume V j unverändert gelten.Insbesondere ist die Summe direkt. Daher kann genau wie im Beweis von Theorem 4.92argumentiert werden. �

Korollar 4.95I

Jede reelle n × n-Matrix ist ähnlich zu einer Blockdiagonalmatrix aus oberen Block-dreiecksmatrizen C j als Blöcke, wobei jede Matrix C j entweder ein charakteristi-sches Polynom (λ j − λ)r j mit λ j ∈ R hat oder ein charakteristisches Polynom ps j

j mitp j = (a j − λ)2 + b2

j und 0 � b j ∈ R.

Mit den erzielten Ergebnissen kann nun auch im reellen Fall eine Jordansche Normal-form entwickelt werden. Es sei C eine reelle n×n-Matrix und Φ : Rn → Rn die zugehörigeR-lineare Abbildung. Das charakteristische Polynom χC(λ) zerfällt in Linearfaktoren, diezu reellen Eigenwerten gehören, und in quadratische Faktoren p(λ) = (μ− λ)2 + ν2, b > 0,welche zu komplexen Nullstellen μ ± iν gehören. In beiden Fällen sind die zugehörigenC-invarianten Unterräume Ui ⊂ Rn wohldefiniert (Theorem 4.93, 4.93I oder Satz 4.100)und führen auf eine Blockdiagonalmatrix, welche zu C reell ähnlich ist.

Ist λi ein reeller Eigenwert von C, so ist C − λi1 auf dem zugehörigen invariantenUnterraum Ui nilpotent. Nach Theorem 4.106 findet man eine Basis von Ui aus reellenKetten und eine direkte Summe von Jordan-Blöcken, welche die Abbildung Φ|Ui

indieser Basis beschreibt. Anders ist es bei einem invarianten Raum U zu einem Faktor((μ − λ)2 + ν2)r. Wir wählen eine reelle Basis von U und identifizieren damit U mit demR2r durch Wahl dieser Basis. Wir gehen über zu der darstellenden reellen 2r × 2r-MatrixA für Φ|U : U → U. Um die schon vorliegende komplexe Jordan-Form ausnutzenzu können, betrachten wir die Situation im Komplexen. Nach der komplexen Theorie istC2r = H ⊕ H die direkte Summe zweier komplexer invarianter Unterräume zu den kom-plexen Eigenwerten μ + iν und μ − iν

H = Kern((μ + iν)12r − A)r und H = Kern((μ − iν)12r − A)r .

Diese beiden komplexen Haupträume sind konjugiert im folgenden Sinn:

u ∈ H ⇔ u ∈ H,

d. h. die R-lineare Abbildung v �→ v bildet H bijektiv auf H ab.Nach Theorem 4.106 gibt es eine komplexe Basis für H, welche sich aus Ketten

u(1)1 , ..., u(1)

k1, ..., u(l)1 , ..., u(l)kl

, k1 + ... + kl = r,

zusammensetzt, die rückwärts durchlaufen werden. Die dazu komplex-konjugierten Vek-toren bilden wieder Ketten und damit bilden sie eine Kettenbasis von H. Die von diesen

Page 115: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 497

Ketten aufgespannten C-Untervektorräume sind eine Φ-invariante direkte Summenzerle-gung

H1 ⊕ ... ⊕ Hl ⊕ H1 ⊕ ... ⊕ Hl = H ⊕ H = C2r. (4.78)

Auf jedem dieser Summanden hat Φ bezüglich der Kettenbasis (mit rückwärts durchlaufe-nen Ketten) als darstellende Matrix einen Jordan-Block. Blockweise liegt demnach hierdie gleiche Situation vor, die schon in (4.15) ff. bzw. dann in Theorem 4.55 und Satz 4.100betrachtet worden ist, dort aber nicht für Elemente einer Kettenbasis und deren komplex-konjugierte, sondern nur für einen Eigenvektor. Für eine Kette (aus einer Kettenbasis)u1, . . . , uk zu λ = μ + iν und entsprechend u1, . . . , uk zu λ = μ − iν gilt

Φu j = λu j + u j−1 ,

wenn man u0 = 0 ergänzt. Dies bedeutet für u j = y j + iz j

Φ(y j + iz) = (μ + iν)(y j + iz j) + (y j−1 + iz j−1)

und damit in Real- und Imaginärteil zerlegt (vergleiche (4.16)):

Φy j = μy j − νz j + y j−1

Φz j = νy j + μz j + z j−1 .

Dies ergibt für R2k die Basis

y1, z1, y2, z2, . . . , yk, zk

(die lineare Unabhängigkeit zeigt man analog zu der Überlegung nach (4.17)) und

damit die Darstellungsmatrix⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

μ ν−ν μ

1 00 1μ ν−ν μ

1 00 1

0

. . .. . .

0

μ ν−ν μ

1 00 1μ ν−ν μ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠∈ R(2k,2k) , (4.79)

d. h. eine spezielle obere Blockdreiecksmatrix mit den aus (4.18) bzw. Satz 4.100 bekann-ten (2, 2) Diagonalblöcken. Wiederholt man diese Prozedur für alle Ketten zu einem kom-plexen Eigenwert und alle komplexen Eigenwerte, so erhält man den nachfolgenden Theo-rem 4.118. In Matrixschreibweise lautet das obige Argument:

Page 116: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

498 4 Eigenwerte und Normalformen von Matrizen

Nimmt man die oben angegebenen Kettenvektoren für alle Ketten einer Kettenbasisaus H (siehe (4.78)) als Spalten einer komplexen 2r × r-Matrix V , dann ist die komplexe2r × 2r-Matrix (V, V) die Übergangsmatrix in die Kettenbasis von H ⊕ H. In diese Basiswird Φ : U → U durch eine direkte Summe

(J 00 J

)=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

J1. . .

Jl

J1. . .

Jl

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠von komplexen Jordan-Blöcken beschrieben.

Wir gehen von der Transformationsmatrix (V, V) über zu

T := (V, V)1√2

(1r −i1r

1r i1r

)=

1√2

(V + V ,−i · (V − V)) = (√

2 Re(V),√

2 Im(V)).

Dabei ist Re(V) bzw. Im(V) eintragsweise definiert. Diese Transformationsmatrix ist somitrein reell. Mit ihr finden wir

T−1AT =12

(1r 1r

i1r −i1r

) (J 00 J

) (1r −i1r

1r i1r

)=

12

(1r 1r

i1r −i1r

) (J −iJJ iJ

)=

12

(J + J −iJ + iJ

iJ − iJ J + J

)=

(Re(J) Im(J)− Im(J) Re(J)

).

Dass (1n −i1n

1n i1n

)−1

=12

(1n 1n

i1n −i1n

)ist, ergibt direktes Nachrechnen (siehe auch Lemma 4.102). Durch Zusammenfügen derTransformationsmatrizen zu einer Blockdiagonalmatrix (siehe (4.20)) erhalten wir eineÄhnlichkeitstransformation der Gesamtmatrix C. Aus diesem Grund hat man bewiesen,dass jede reelle n×n-Matrix ähnlich ist zu einer Blockdiagonalmatrix aus reellen Jordan-Blöcken und aus Blöcken der Form

Page 117: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 499⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

μ 1 ν. . .

. . .. . .

. . . 1. . .

μ ν

−ν μ 1. . .

. . .. . .

. . .. . . 1

−ν μ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

.

Nun müssen noch zusammengehörige Real- und Imaginärteile μ und ν in diesen Blöcken indirekte Nachbarschaft gebracht werden. Dazu wird schließlich in jedem dieser Blöcke derGrößen (2r, 2r) die Ähnlichkeitstransformation mit der Permutationsmatrix durchgeführt,die die r + 1-te Spalte zwischen die erste und zweite Spalte schiebt, wodurch auch dier + 1-te Zeile zwischen die erste und zweite Zeile kommt, anschließend die r + 2-te Spaltezwischen die dritte und vierte Spalte, und damit die r + 2-te Zeile zwischen die dritte undvierte Zeile usw., so ergibt sich schließlich:

Theorem 4.118: Reelle Jordansche Normalform

Jede reelle n× n-Matrix ist (reell) ähnlich zu einer Blockdiagonalmatrix aus reellenJordan-Blöcken (zu den reellen Eigenwerten) und aus Blöcken der Form (4.79)Diese Blöcke entsprechen genau den echt komplexen Eigenwerten λ = μ + iν undden komplexen Jordan-Blöcken zu λ und λ in einer komplexen JordanschenNormalform. Die Anzahl der Blöcke zu einem festen Eigenwert ist dessen geome-trische Vielfachheit, auch die Anzahl der Blöcke einer festen Größe zu einem festenEigenwert ist durch die Matrix eindeutig bestimmt.

Beispiel 4.119 (Geometrie) In Fortführung von Bemerkungen 2.139, 4) können die ebe-nen Affinitäten (n = 2) klassifiziert werden, d. h. durch Wechsel des Koordinatensystemssind folgende Normalformen möglich:

(2) Dies bedeutet, dass 1 kein Eigenwert von A ist, es verbleiben also folgende Fälle:

(2.1) a, b ∈ R, a � b, Eigenwerte von A , a, b � {0, 1}:

A =(

a 00 b

), auch Euler-Affinität genannt,

(2.2) a ∈ R, a � 1, doppelter Eigenwert von A, diagonalisierbar:

A = a1: zentrische Streckung, eventuell mit Spiegelung, insbesondere für a =−1 Punktspiegelung,

(2.3) a ∈ R, a � 1, doppelter Eigenwert von A, nicht diagonalisierbar:

Page 118: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

500 4 Eigenwerte und Normalformen von Matrizen

A =(

a 10 a

): Streckscherung,

(2.4) λ, λ ∈ C\R komplex-konjugierte Eigenwerte:

A = r(

cos(ϕ) − sin(ϕ)sin(ϕ) cos(ϕ)

): Drehstreckung.

(3) Dies bedeutet, dass 1 Eigenwert von A ist mit eindimensionalem Eigenraum. Sofernnicht die Lösbarkeitsbedingung aus Bemerkungen 2.139, 4) verletzt ist und dann Fall (1)vorliegt, verbleiben folgende Fälle:

(3.1) 1 und a ∈ R, a � {0, 1} sind die Eigenwerte von A:

A =(

1 00 a

)für a > 0 ist eine Parallelstreckung, für a < 0 eine Streckspiegelung,

(3.2) 1 ist doppelter Eigenwert:

A =(

1 10 1

): Scherung. ◦

Beispiel 4.120 (Differenzengleichung) Es werde wieder die Lösungsdarstellung (4.13)für die Anfangswertaufgabe (4.12) betrachtet. Für den verbliebenen Fall einer (nicht dia-gonalisierbaren) reellen Matrix mit komplexen Eigenwerten kann durch den Beweis vonTheorem 4.118 eine explizite(re) Darstellung gegeben werden. Ein Vorgehen analog zuBeispiel 4.117 ergibt die dortige Darstellung für reelle Eigenwerte und für ein komplexesλi mit μi = Re(λi), νi = Im(λi), αi = |λi|, cos(ϕi) = μi/αi, sin(ϕi) = −νi/αi .

Jki, j =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

αki Bk

i

(k1

)αk−1

i Bk−1i · · ·

(k

si, j−1

k−si, j+1i Bk−si, j+1

i

. . .. . .

...

. . .(

k1

)αk−1

i Bk−1i

αki Bk

i

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

,

wobei B�i =

(cos(�ϕi) − sin(�ϕi)sin(�ϕi) cos(�ϕi)

).

Die Lösung beinhaltet also (für Ketten in der Hauptvektorbasis mit Länge größer 1) sowohldie „nachhängende“ Eigenvektor(betrags)potenz aus (4.75) als auch die „schwingende“Überlagerung durch die Drehmatrizen B�

i wie in (4.33). ◦

Page 119: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 501

4.5.3 Beispiele und Berechnung

Beispiele 4.121 1) n = 2 (siehe Beispiel 4.33): Die möglichen Jordanschen Normal-formen für reelle 2 × 2-Matrizen sind(

λ1 00 λ2

),

(λ 10 λ

),

(λ 00 λ

),

wobei λ1 � λ2. Um zu entscheiden, welche Jordansche Normalform eine reelle Matrix

C =(

a bc d

)hat, berechnen wir das charakteristische Polynom

χC(λ) = (a − λ)(d − λ) − bc = δ − σλ + λ2 ,

was hier noch problemlos möglich ist, wobei wir det(C) mit δ := ad − bc und sp(C) mitσ := a + d abkürzen. Die beiden Eigenwerte sind dann

λ1,2 =12

(σ ±√σ2 − 4δ)

und beide Eigenwerte fallen genau dann zusammen, wenn σ2 = 4δ. Da

σ2 = 4δ⇔ (a − d)2 = −4bc und λ =12

(a + d)

ist, betrachten wir die Dimension des Kerns von

C =(

a − λ bc d − λ

)=

( 12 (a − d) b

c 12 (d − a)

).

Es gibt die Fälle

- b = c = 0, d. h. a = d, also dim C = 2.

- b � 0 oder c � 0:Im Fall bc = 0, d. h. a = d ist also bei o. B. d. A. b � 0

C =(

0 b0 0

), d. h. dim C = 1 .

Im Fall bc � 0, d. h. h := 12 (d − a) � 0 ist die Matrix

C =(−h b

c h

), d. h. dim C = 1 .

Daraus folgt: C ist

Page 120: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

502 4 Eigenwerte und Normalformen von Matrizen

ähnlich zu(λ1 00 λ2

)⇔ sp(C)2 � 4 · det(C) ,

ähnlich zu(λ 00 λ

)⇔ sp(C)2 = 4 · det(C) und b = c = 0, d. h. a = d

ähnlich zu(λ 10 λ

)⇔ sp(C)2 = 4 · det(C) und b � 0 oder c � 0 .

Wenn sp(C)2 > 4 · det(C) ist, dann hat das charakteristische Polynom von C reelle Null-stellen und die Matrix C ist reell diagonalisierbar.

2) n = 3: Die möglichen Jordanschen Normalformen für 3 × 3-Matrizen sind:⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝∣∣∣λ1

∣∣∣ 0 00

∣∣∣λ2∣∣∣ 0

0 0∣∣∣λ3

∣∣∣⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝∣∣∣λ1 1

∣∣∣ 0∣∣∣0 λ1∣∣∣ 0

0 0∣∣∣λ2

∣∣∣⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝∣∣∣λ1

∣∣∣ 0 00

∣∣∣λ1∣∣∣ 0

0 0∣∣∣λ2

∣∣∣⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ (4.80)

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ λ 1 00 λ 10 0 λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝∣∣∣λ 1

∣∣∣ 0∣∣∣ 0 λ∣∣∣ 0

0 0∣∣∣λ ∣∣∣

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝∣∣∣λ ∣∣∣ 0 00

∣∣∣λ ∣∣∣ 00 0

∣∣∣λ ∣∣∣⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

wobei λ1, λ2, λ3 paarweise verschieden sind.Die zweite Zeile von Matrizen in (4.80) entspricht sodann für die ai, i = 1, . . . , 4 nachSatz 4.113 und die Vielfachheit m vom λ im Minimalpolynom den Möglichkeiten:

ai = 1, 2, 3, 3, . . . m = 3ai = 2, 3, 3, 3, . . . m = 2ai = 3, 3, 3, 3, . . . m = 1

Erinnern wir uns allgemein an die Entsprechung für eine Kettenbasis des invarianten Un-terraums U zu einem Eigenwert λ (Theorem 4.114):

Bezeichnet man die geometrische Vielfachheit jλ und die algebraische Vielfachheit rλ,so gilt:

Anzahl der Ketten = geometrische Vielfachheit = jλ ,

dim U = algebraische Vielfachheit, = rλ ,

Dimension größter Block = Vielfachheit im Minimalpolynom.

D. h. die geometrische Vielfachheit jλ legt schon die Anzahl der Einzelblöcke fest und diealgebraische Vielfachheit rλ bestimmt die Gesamtdimension.

Bezeichnet m die Vielfachheit von λ im Minimalpolynom, sind analog, wie für n = 2und n = 3 schon in Beispiele 4.121 gesehen, die folgenden Fälle festgelegt:

1) jλ = rλ: jλ Blöcke, und damit der Größe 1 (der „diagonalisierbare“ Unterraum):

Page 121: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 503

J =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

λ 0λ

λ

0. . .

λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠, m = 1.

2) jλ = 1 < rλ : Ein Block und damit der Größe rλ:

J =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

λ 1 0. . .

. . .

. . .. . .

0. . . 1

λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠, m = rλ.

Für kleine rλ ergeben sich einige Kombinationen zwangsläufig, etwa:

3) jλ = 2, rλ = 3 (siehe schon bei (4.80)): Zwei Blöcke, die damit notwendigerweise dieGrößen 1 und 2 haben, also bis auf die Reihenfolge

J =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ 10 λ

0

0 λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , m = 2.

4) jλ = 2, rλ = 4:

J =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ 10 λ

0

0λ 10 λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , m = 2 oder J =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ 1 00 λ 10 0 λ

0

0 λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , m = 3.

5) jλ = 3, rλ = 4:

J =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ 0

λ

0λ 10 λ

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , m = 2

und analog für rλ = 5, jλ = 2, 3, 4 . ◦Z. B. bei 4) oder im allgemeinen Fall kann die Jordansche Normalform dadurch be-stimmt werden, dass nicht nur dim Kern Cλ für Cλ := C − λ1 und einen Eigenwert λ, son-dern auch dim Kern(Ck

λ), k = 2, 3, . . . bestimmt werden, um dazu nach (4.69) die Anzahlenci der Jordan-Blöcke der Größe i zu berechnen, bis c j = 0 erreicht ist. Nach Bemer-

Page 122: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

504 4 Eigenwerte und Normalformen von Matrizen

kung 4.109 kann auch alternativ Rang(Ckλ) bestimmt werden, was mit dem Gaussschen

Eliminationsverfahren möglich ist, solange die Matrizen nicht zu schlecht konditioniertsind (siehe Abschnitt 8.1.1). Hat man (das charakteristische Polynom und) die Eigenwer-te bestimmt, was für kleine Dimensionen möglich ist, für größere aber nur in wenigenSpezialfällen gelingen wird, so kann man eventuell mit weiteren Rangbestimmungen dieStruktur der Jordanschen Normalform erschließen. Wenn aber auch die zugehörigenBasisübergangsmatrizen gesucht sind, müssen die invarianten Unterräume zu diesen Ket-tenbasen bestimmt werden. Vorerst beschränken wir uns auf Matrizenschreibweise: Uλ

umfasst den Eigenraum Eλ und eventuell weitere Vektoren. Diese können systematischmit folgendem Begriff aufgebaut werden:

Definition 4.122

u ∈ Kn, u � 0, heißt Hauptvektor der Stufe k ∈ N zur Matrix C ∈ K(n,n) und derenEigenwert λ ∈ K, wenn

(C − λ1)ku = 0 und (C − λ1)k−1u � 0 .

Die Eigenvektoren sind folglich gerade die Hauptvektoren der Stufe 1 und es gilt:

1) Ist u ein Hauptvektor zur Stufe k, dann ist Cλu ein Hauptvektor zur Stufe k − 1 fürk ∈ N, k ≥ 2.

2) Die Hauptvektoren der Stufe k sind nicht durch Hauptvektoren der Stufen l ≤ k−1linear kombinierbar.

Zum Aufbau einer Basis des Hauptraums von Uλ zum Eigenwert λ bietet es sich nunmehrals ersten Weg an, von einer Basis des Eigenraums Eλ auszugehen (durch Bestimmung derLösungsmenge des homogenen LGS Cλu = 0) und soweit nötig weitere linear unabhängigeVektoren durch Hauptvektoren 2. bis kλ-ter Stufe hinzuzugewinnen.

Ist b ein beliebiger Hauptvektor der Stufe j, so ergeben sich nach 1) Hauptvektoren derStufe j + 1 als genau die Lösungen der inhomogenen LGS

Cλu = b .

Da aber Cλ nicht invertierbar ist, muss b eine Lösungsbedingung erfüllen, die nach Haupt-satz 2.69 lautet:

b ∈ (Kern C†λ)⊥ (4.81)

(siehe Bemerkungen 4.105, 3)). Nur im z. B. für Anwendungen auf Differentialgleichun-gen wichtigen Spezialfall

geometrische Vielfachheit := jλ = dim Eλ = 1<

rλ = dim Uλ = algebraische Vielfachheit

Page 123: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 505

vereinfacht sich die Situation. Die Kettenbasis besteht hier aus einer einzigen Kette derLänge rλ und für den Fitting-Index nach (4.71) gilt kλ = rλ. Hier muss jeder Eigenvektorautomatisch die Lösungsbedingung (4.81) erfüllen, da sie sonst von keinem Eigenvektorerfüllt würde. Man bestimmt daher einen Eigenvektor u1 und dann einen (davon linearunabhängigen) Hauptvektor 2. Stufe als eine Lösung des LGS

Cλu2 = u1 .

Fortführung dieses Prozesses in der Form

Cλul+1 = ul für l = 1, . . . , rλ − 1

liefert mit ui, i = 1, . . . , kλ eine Basis von Uλ, wobei ui gerade ein Hauptvektor der Stufe iist. Wegen

Cul+1 = λul+1 + 1 · ulergibt sich als Darstellungsmatrix gerade ein Jordan-Block zum Eigenwert λ der Größekλ.

Im allgemeinen Fall muss die Lösbarkeitsbedingung berücksichtigt werden. Die sich soergebende Basis von Uλ wird im Allgemeinen nicht nur aus einer Kette bestehen, sondernaus mehreren, jeweils in einem Eigenvektor endenden Ketten (siehe (4.68)). Eine Ketteder Länge k entspricht in der Darstellung einem Jordan-Block der Größe k, wobei fürk = 1 sich der Jordan-Block auf (λ) reduziert.

Ein anderer Weg besteht darin, erst den Fitting-Index mλ des Eigenwerts λ dadurchzu berechnen, indem sukzessive der Rang von Cλ,C2

λ, . . . bestimmt wird, bis dieser nichtmehr abnimmt. Durch Ermittlung (einer Basis) des Lösungsraums von

Cmλ

λ u = 0

erhält man den invarianten Raum Uλ. Beschränken wir uns ab jetzt auf diesen, so fehltmithin noch eine Kettenbasis fur die nilpotente Matrix N := Cλ, wobei Nmλ = 0. Dies kannnach Bemerkungen 4.105, 3) dadurch geschehen, dass sukzessiv verschiedene Elementeaus Bild Nk−1 ∩ Kern N für k = mλ, mλ − 1 . . . bestimmt werden, die eine Kette der Längek erzeugen.

Gegeben sei also die nilpotente n × n-Matrix N mit Nr = 0, aber Nr−1 � 0. Als erstesbrauchen wir den Unterraum Z = Kern(N) ⊂ Kn, wir berechnen ihn als Lösungsraumdes homogenen LGS Nx = 0. Seine Elemente sind die Hauptvektoren der Stufe 1. Dannberechnen wir für k = 2, . . . , r − 1 die Matrix-Potenzen Nk. Den Spaltenraum der MatrixNk, also den Bildraum der durch Nk beschriebenen linearen Abbildung, bezeichnen wirmit Bk ⊂ Cn. Dann haben wir die Inklusionen

Br = {0} ⊂ Br−1 ⊂ . . . ⊂ B1 ⊂ B0 = Kn .

Sukzessive berechnen wir dann Ketten der Länge r, r − 1, . . . , 1, deren Vektoren eine Ket-tenbasis des Cn bilden. Damit ist folgendes Konstruktionsverfahren möglich:

Page 124: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

506 4 Eigenwerte und Normalformen von Matrizen

Schritt 1: Wir wählen eine Basis von Br−1 ∩ Z, etwa die Spaltenvektoren von Nr−1

zu den Indizes ν1, . . . , νl. Sie sind die Bilder Nr−1eνi der Einheitsvektoren eν1 , . . . , eνl .Diese Einheitsvektoren sind Hauptvektoren der Stufe r und erzeugen Ketten der Län-ge r mit den gewählten Spaltenvektoren als letzte Vektoren und den Einheitsvektorenals Urbilder unter Nr−1 als erstes Element. Die weiteren Elemente dazwischen erge-ben sich als entsprechende Spalten von N, N2, . . . , Nr−2. Nach Satz 4.104, 2) sindalle Kettenvektoren linear unabhängig, da die letzten Vektoren gerade eine Basis vonBr−1 ∩ Z bilden.

Schritt k + 1: Wir nehmen an, wir haben Ketten der Längen r, r − 1, . . . , r − k + 1konstruiert, deren letzte Vektoren eine Basis von Br−k ∩ Z sind. Wir ergänzen dieseBasis zu einer Basis von Br−k−1 ∩ Z durch geeignete Linearkombinationen von Spal-tenvektoren der Matrix Nr−k−1. Sie sind die Bilder unter Nr−k−1 der entsprechendenLinearkombinationen von Einheitsvektoren, Hauptvektoren der Stufe r − k. Die vonihnen erzeugten Ketten der Länge r − k nehmen wir zu unseren Ketten der Länge> r − k hinzu und haben auf diese Weise Ketten der Längen r, r − 1, . . . , r − k, derenletzte Vektoren eine Basis des Raums Br−k−1 ∩ Z bilden.

Nach dem Schritt k = r (Ketten der Länge 1) haben wir eine Kettenbasis des Kn

gefunden.

Ist K nicht algebraisch abgeschlossen, aber das charakteristische Polynom zerfällt über K,können die gleichen Vorgehensweisen auch dann durchgeführt werden.

Beispiel 4.123 Wir betrachten die folgende nilpotente Matrix N und rechnen für ihre Po-tenzen Ni Basen der Bildräume Bi und der Durchschnitte Bi ∩ Z aus. Dazu benötigen wirnatürlich die Information Z = span(e1, e2, e5 − e6).

i Ni Basis von Bi Basis von Bi ∩ Z

1

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 0 1 0 0 00 0 1 0 1 10 0 0 1 0 00 0 0 0 1 10 0 0 0 0 00 0 0 0 0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠e1 + e2, e3, e2 + e4 e1 + e2

2

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 0 0 1 0 00 0 0 1 0 00 0 0 0 1 10 0 0 0 0 00 0 0 0 0 00 0 0 0 0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠e1 + e2, e3 e1 + e2

3

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 0 0 0 1 10 0 0 0 1 10 0 0 0 0 00 0 0 0 0 00 0 0 0 0 00 0 0 0 0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠e1 + e2 e1 + e2

Page 125: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 507

Die vierte Potenz ist N4 = 0, also r = 4. Im ersten Schritt nehmen wir die Basis {e1 + e2}von Bild(N3)∩Z. Wir sehen e1+e2 = N3e5. Deswegen ist e1+e2 letzter Vektor einer Kette

e5, Ne5 = e2 + e4, N2e5 = e3, N3e5 = e1 + e2

der Länge 4. Für i = 2, 1 enthält Bi ∩ Z keine weiteren Hauptvektoren der Stufe 1 als denbereits benutzten Vektor e1 + e2 Anders ist es bei Bild(N0) = R6. Um Kern N = Z ganzzu erzeugen brauchen wir noch zwei Eigenvektoren, etwa e1 und e5 − e6. Insgesamt habenwir eine Kette der Länge vier und zwei Ketten der Länge 1. Mit ihnen bekommt man alsTransformationsmatrix

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 0 1 0 0 00 0 1 0 1 00 0 0 1 0 00 0 0 0 1 00 1 0 0 0 10 −1 0 0 0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠und die Jordan-Darstellung für N ist⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0 0 0 0 0 00 0 0 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 10 0 0 0 0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠.

◦Zur Bewertung der obigen Vorgehensweisen sei nochmals betont:

- Sie beruhen auf einer exakten (oder extrem genauen) Bestimmung der Eigenwerte(als Lösung einer nichtlinearen Polynomgleichung nur in Spezialfällen exakt be-stimmbar).

- Es wurden mehrfach Operationen mit den vollen Matrizen gemacht, was sich ineiner schlechten Komplexität der obigen Vorgehensweise bemerkbar macht.

Desweiteren ist zu beachten, dass die Bestimmung der Eigenwerte einer Matrix im Gegen-satz zu einer LGS ein nichtlineares Problem ist, bei dem bis auf Spezialfälle nicht ein Ver-fahren mit endlich vielen Rechenoperationen erwartet werden kann. Es müssen also itera-tive Verfahren formuliert werden, die die gewünschten Größen erst als Grenzwert liefern.Es gibt einfache solche Verfahren zur Bestimmung eines (speziellen) Eigenvektors undaufwändige allgemeine Verfahren zur Bestimmung etwa der Schurschen Normalform.In Abschnitt 8.2.4 wird auf den ersten Fall eingegangen. Das obige Zweistufen-Verfahren„erst Eigenwerte, dann Eigenvektoren“ zu bestimmen ist auch schon im diagonalisierbarenFall problematisch, wenn nur Näherungslösungen erzielt werden:

Ist λ nur eine Näherung zu einem Eigenvektor von C ∈ Kn,n, so wird λ im Allgemeinenkein Eigenwert sein, d. h.

Page 126: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

508 4 Eigenwerte und Normalformen von Matrizen

Kern(C − λ1) = {0} ,und Eigenvektoren können auch nicht näherungsweise über die Lösung des LGS

(C − λ1)x = 0

bestimmt werden. Ist a priori bekannt, dass eine spezielle Komponente bei einem Eigen-vektor nicht verschwindet, etwa o. B. d. A. x1, könnte x1 = 1 zu den Bedingungen aufge-nommen werden und für das (nichtlösbare) überbestimmte LGS

(C − λ1)x = 0

x1 = 1

eine Näherungslösung über die Lösung der Normalgleichungen (siehe (2.103)) bestimmtwerden. Im Allgemeinen wird solch eine Nebenbedingung nicht für alle Eigenvektorenbekannt sein. Nimmt man die immer zulässige Forderung

‖x‖2 = 1

etwa für die euklidische Norm ‖.‖ = ‖.‖2, mit auf, so entsteht ein überbestimmtes, aberauch nichtlineares Gleichungssystem.

Einfacher ist die Situation, wenn eine Näherung x für einen Eigenvektor x von C vor-liegt und daraus eine Näherung λ für den Eigenwert λ bestimmt werden soll. Der exakteEigenwert erfüllt

λ =〈Cx . x〉‖x‖22

, (4.82)

d. h. λ ist ein so genannter Rayleigh11-Koeffizient , denn aus Cx = λx folgt 〈Cx . x〉 =〈λx . x〉 = λ 〈x . x〉.

Die Beziehung (4.82) definiert aber auch eine sinnvolle Näherung λ zu dem nähe-rungsweisen Eigenvektor x :

λ =

⟨C x . x

⟩‖x‖22

,

denn die im Allgemeinen nichtlösbare Beziehung für λ bei gegebenem x ∈ Kn

xλ = C x

kann als ein überbestimmtes LGS für λ ∈ R1 mit n Gleichungen aufgefasst werden, dessenNormalgleichungen gerade

11 John William Strutt 3rd Baron Rayleigh ∗12. November 1842 in Maldon †30. Juni 1919 inWitham

Page 127: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.5 Die Jordansche Normalform 509

x† xλ = x†C x bzw. ‖x‖22λ =⟨C x . x

⟩sind.

Die Jordansche Normalform ist in numerischer Hinsicht zusätzlich kritisch: Die Fälle

- λ1 = λ2 ,- λ1 � λ2, |λ1 − λ2| sehr klein

für die Eigenwerte λ1, λ2 müssen genau unterschieden werden, was im numerischen Rech-nen fast unmöglich ist. Die Bestimmung der Jordanschen Normalform (für große Di-mension) kann also numerisch instabil sein oder anders ausgedrückt:

Numerisch gibt es nur Eigenwerte mit algebraischer Vielfachheit gleich 1 und damit nurden diagonalisierbaren Fall. Hier muss man sich dann damit behelfen, dass man sehr dichtzusammenliegende einfache Eigenwerte als einen mehrfachen auffasst. Es stellt sich dieFrage, ob es nicht eine andersartige Normalform gibt, die in mancher Hinsicht brauchbarerist. Dies ist der Fall und zwar sogar für Matrizen mit beliebiger Zeilen- und Spaltenanzahl,die Singulärwertzerlegung. (Abschnitt 4.6)

Abschließend soll angedeutet werden, wie die Kenntnisse der Transformation auf Jor-dansche Normalform bei der Lösung von linearen Differentialgleichungssystemen mitkonstanten Koeffizienten benutzt werden kann:

Betrachtet werde wie in (MM.79) das System von linearen Differentialgleichungen 1.Ordnung. Gesucht ist y : [t0,∞)→ Kn, so dass

y(t) = Ay(t) , (4.83)y(t0) = y0 . (4.84)

Dabei ist die Koeffizientenmatrix A ∈ K(n,n) und der Anfangsvektor y0 ∈ Kn fest vorge-geben. y bezeichnet die Ableitung nach t und ist komponentenweise zu verstehen, d. h.y(t) = (y1(t), . . . , yn(t))t.

Ist in Verallgemeinerung von Beispiel 3(7) u ∈ Kn ein Eigenvektor von A zum Eigen-wert λ ∈ K, so ist

u(t) := α exp(λt)u, α ∈ K (4.85)

eine Lösung von (4.83), denn

u(t) = λα exp(λt)u = λu(t) ,

die aber i. Allg. (4.84) nicht erfüllt.Man erhält durch eine Menge λ1, . . . , λk von Eigenwerten mit zugehörigen Eigenvek-

toren u(1), . . . , u(k) nach (4.85) Lösungen

u(i)(t) := αi exp(λit)ui, αi ∈ K .

(4.83) ist linear und homogen, d. h. jede Linearkombination von Lösungen ist eine Lösungvon (4.83). Für beliebiges y0 ∈ Kn existiert genau dann eine solche Linearkombination,wenn {u1, . . . , uk} eine Basis von Kn darstellt.

Page 128: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

510 4 Eigenwerte und Normalformen von Matrizen

Genau im diagonalisierbaren Fall erhält man somit durch die Bestimmung der (mehr-fach gezählten) Eigenwerte λi und einer Eigenvektorbasis ui dazu die allgemeine Lö-sung von (4.83)

u(t) =n∑

i=1

αi exp(λi(t − t0))ui (4.86)

und αi ist so zu wählen für (4.84), dass

Cα = y0 ,

wobei C = (u1, . . . , un), i = 1, . . . , n.

Im nicht diagonalisierbaren Fall gibt es keine Eigenvektorbasis, aber eine Basis ausHauptvektoren.

Sei u ∈ Kn ein Hauptvektor k-ter Stufe von A zum Eigenwert λ, dann ist für Aλ :=A − λ1n

u(t) := α exp(λt)k−1∑m=0

1m!

tmAmλ u, α ∈ K (4.87)

eine Lösung von (4.83), denn:

Au(t) = Aλu(t) + λu(t) = α exp(λt)k−2∑m=0

1m!

tmAm+1λ u(t) + λu(t)

und u(t) = λu(t) + α exp(λt)k−1∑m=1

1(m − 1)!

tm−1Amλ u(t) .

Damit ergibt sich für (einfach gezählte) Eigenwerte λi, i = 1, . . . , I mit algebraischerVielfachheit ri und Hauptvektoren ui, j j = 1, . . . , ri, jeweils mit der Stufe si, j(≤ ri), j =1, . . . , ri, die allgemeine Lösung von (4.83) als

u(t) :=I∑

i=1

exp(λit)ri∑

j=1

αi, j

si, j−1∑m=0

1m!

tmAmλiui, j . (4.88)

Etwas übersichtlicher wird die allgemeine Lösung, falls die Matrix A schon in Gestalteines Jordan-Blocks der Größe n zum Eigenwert λ vorliegt. Durch einen Eigenvektor uzu λ wird dann eine (umgekehrte) Kettenbasis {u1, . . . , un} erzeugt, d. h.

Aλui = ui−1, wobei u1 := u, u0 := 0 .

Dabei sind die ui Hauptvektoren der Stufe i. Nach (4.87) und (4.88) ist daher die allgemei-ne Lösung

Page 129: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Aufgaben 511

u(t) = exp(λt)n∑

i=1

αi

i−1∑m=0

1m!

tmAmλ ui

= exp(λt)n∑

i=1

αi

i−1∑m=0

1m!

tmui−m

(4.89)

für α1, . . . , αn ∈ K.

Was Sie in diesem Abschnitt gelernt haben sollten:

Begriffe:

• Ketten der Länge p, Kettenbasis• Hauptvektor der Stufe k zum Eigenwert λ• Fitting-Index des Eigenwerts λ• Rayleigh-Koeffizient• Jordan-Zerlegung

Zusammenhänge:

• Kettenbasen bei nilpotenten Abbildungen (Theorem 4.106)• Jordansche Normalform (in K bei Eigenwerten in K) (Hauptsatz 4.112)• Eindeutige Existenz der Jordan-Zerlegung (Theorem 4.114)• Reelle Jordansche Normalform (Theorem 4.118)• Φ-invarianter Unterraum zu einem Eigenwert λ = Kern pm(Φ), wobei pm Faktor

von λ in Minimalpolynom (Satz 4.111)

Beispiele:

• Jordansche Normalform für n = 2 und n = 3• Kettenbasisbestimmung zur nilpotenten Matrix (Seite 505)

Aufgaben

Aufgabe 4.29 (T)

a) Sei a ∈ Rn und sei Φ ein Endomorphismus des Rn mit Φn−1(a) � 0 und Φn(a) = 0.Man beweise, dass die Vektoren a, Φ(a), . . . , Φn−1(a) eine Basis des Rn bilden undgebe die Matrix von Φ bezüglich dieser Basis an.

b) Sei A ∈ R(n,n), B ∈ R(n,n), An−1 � 0, Bn−1 � 0, An = Bn = 0. Man beweise: DieMatrizen A und B sind ähnlich zueinander.

Aufgabe 4.30 (K) Man betrachte die Begleitmatrix nach (4.5). Unter Beachtung vonBemerkung 4.27 und der Eindimensionalität der Eigenräume bestimme man die Jor-

Page 130: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

512 4 Eigenwerte und Normalformen von Matrizen

dansche Normalform von A unter der Annahme, dass χ(λ) in K[x] in Linearfaktorenzerfällt.

Aufgabe 4.31 (K) Sei ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝0 0 0 0 01 0 0 0 0−1 0 0 0 01 1 1 0 00 0 0 1 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠darstellende Matrix eines Endomorphismus Φ : R5 → R5 bezüglich der kanonischenBasis des R5.

a) Bestimmen Sie Basen der Eigenräume zu den Eigenwerten von Φ.b) Geben Sie eine Matrix M in Jordanscher Normalform und eine Basis B des R5

an, so dass M die darstellende Matrix von Φ bezüglich B ist.

Aufgabe 4.32 (K) Gegeben sei die von einem Parameter p ∈ R abhängige Matrix

A(p) :=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝0 1 p1 0 −10 1 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ .a) Man bestimme das charakteristische Polynom von A(p).b) Man bestimme die Jordansche Normalform von A(p).c) Man bestimme das Minimalpolynom von A(p).

Aufgabe 4.33 (K) Sei das Polynom ϕ(t) = (t − 1)3(t + 1)2 ∈ C[t] gegeben.

a) Welche Jordanschen Normalformen treten bei komplexen 5 × 5-Matrizen mitdem charakteristischen Polynom ϕ auf?

b) Zeigen Sie: Zwei komplexe 5× 5-Matrizen mit dem charakteristischen Polynom ϕsind ähnlich, wenn ihre Minimalpolynome übereinstimmen.

Aufgabe 4.34 (K) Sei

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝ 2 2 1−1 −1 −1

1 2 2

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ C(3,3).

a) Bestimmen Sie die Eigenwerte und Eigenräume von A.b) Geben Sie die Jordansche Normalform von A an.c) Bestimmen Sie das Minimalpolynom von A.

Page 131: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 513

4.6 Die Singulärwertzerlegung

4.6.1 Herleitung

In den Abschnitten 4.2 bis 4.5 sind für die dort eingeführten Äquivalenzrelationen aufK(n,n) der Äquivalenz (Bemerkung 4.8), der Ähnlichkeit (Definition 4.6) und der unitären(orthogonalen) Ähnlichkeit (Definition 4.11, 1)) Normalformen untersucht worden. DieseRelationen stehen in folgender offensichtlicher Beziehung:

A, A′ ∈ K(n,n) sind

unitär (orthogonal) äquivalent⇒ äquivalent⇑ ⇑

unitär (orthogonal) ähnlich ⇒ ähnlich .

Dabei ist links oben ein neuer Begriff eingeführt worden, der folgendermaßen definiert ist:

Definition 4.124

Seien A, A′ ∈ K(n,n). A und A′ heißen unitär äquivalent, wenn es U, V ∈ O(n,K) gibt,so dass

A′ = U−1AV = U†AV

gilt. Für K = R spricht man von orthogonal äquivalent.

Der Unterschied in den vier Klassenbildungen besteht also darin, ob beim Übergang dieBasen in Urbild- und Bildraum gleich sind bzw. ob sie orthonormal sind.

Sei also A ∈ R(n,n), r := Rang(A). Die Tabelle 4.1 stellt die bisher erreichten Normal-formen für eine reelle Matrix zusammen. Ist die Situation (oben, links) zu aussagelos, istdie (oben, rechts) nicht immer befriedigend, insbesondere wenn sie numerisch instabil ist.Die Situation (unten, rechts) ist am aussagestärksten, aber auch am eingeschränktesten, sodass eventuell das noch nicht untersuchte (unten, links) einen allgemeinen aussagekräfti-gen Kompromiss bieten kann. Im Vorgriff ist hier schon die angesetzte (und erreichbare)Normalform notiert, d. h. : Gesucht werden mithin orthogonale bzw. unitäre U, V , so dass

U−1A V = U†A V = Σ = diag(σi) (4.90)

gilt.Eine Normalform kann für verschiedene Zwecke nützlich sein. Eine Diagonalisierung

oder auch die Jordansche Normalform erlaubt (prinzipiell) die explizite Berechnung vonLösungen von gewöhnlichen Differentialgleichungen (siehe das Ende von Abschnitt 4.5.3)bzw. damit zusammenhängend die Auswertung von Matrixpolynomen. Eine andere Frageist die nach der Lösbarkeit des LGS

Page 132: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

514 4 Eigenwerte und Normalformen von Matrizen

Basen ungleich Basen gleich

Basen beliebig

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1. . .

10

. . .

0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

}r

komplexe oder reelleJordansche Normalform,diagonalisierbar in C⇔algebraische = geome-trische Vielfachheit

Basen orthonormal

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

σ1

. . .

σr0

. . .

0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

komplexe oder reelleSchur-Normalform,unitär diagonalisierbar⇐⇒ A normalorthogonal diagonalisierbar⇐⇒ A symmetrisch

Tabelle 4.1: Mögliche Normalformen.

Ax = b

für A ∈ K(n,n), x, b ∈ Kn. Sei hier A nichtsingulär.

Hier ist die obere Zeile von Tabelle 4.1 (beliebige Basen) nicht sehr hilfreich, denn: Sei

U−1AV = D := 1 im linken bzw.

U = V und U−1AU = J im rechten Fall ,

wobei J aus Jordan-Blöcken oder fürK = R bei komplexen Eigenwerten aus den reellenBlöcken nach Theorem 4.118 bestehe und U, V ∈ R(n,n) nichtsingulär seien.

Dann folgt für

y := V−1x , d. h. x = Vy : (4.91)

Dy = U−1A Vy = U−1b (4.92)

im linken bzw.

Jy = U−1A Vy = U−1b (4.93)

im rechten Fall.

Page 133: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 515

Das LGS in (4.92) ist trivial zu lösen (durch yi = (U−1b)i, i = 1, . . . , n), das in (4.93)entsprechend, wobei für K = C oder K = R mit reellen Eigenwerten maximal eine aufeinen Term verkürzte Rückwärtssubstitution nötig ist. Das Problem liegt in der Bestim-mung von U−1b, was im Allgemeinen genau einem LGS des Ausgangstyps entspricht.

Anders ist dies in der zweiten Zeile der Tabelle, da dort U und V orthogonal bzw. unitärsind:Im rechten Fall ist (bei Eigenwerten in K)

U−1AU = T :=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝λ1 ∗

. . .

0 λn

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ,

wobei U =(u(1), . . . , u(n)

)unitär bzw. orthogonal ist, d. h.

U−1 = U†

und somit mit (4.91) (wobei U = V) gilt

Ty = U−1b = U†b

und dieses LGS ist durch Rückwärtssubstitution (wenn nicht T gar diagonal ist) mit gerin-gem Aufwand zu lösen, bei durch Matrix-Vektormultiplikation explizit bekannter rechterSeite.

Diese Vorteile bleiben auch im linken Fall erhalten, d. h. bei (4.90), dann:

Σy = U−1b = U†b ,

also

yi =1σi

(U†b)i, i = 1, . . . , n

und damit

x =n∑

i=1

1σi

(U†b)iu(i) , wobei V =

(u(1), . . . , u(n)

).

Eine äquivalente Schreibweise ist

x =∑n

i=11σi

⟨b . u(i)

⟩u(i) .

Es stellt sich heraus, dass für eine solche Singulärwertzerlegung keine Bedingungen an Agestellt werden müssen, ja sogar beliebige Zeilen- und Spaltenanzahlen zugelassen werdenkönnen.

Page 134: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

516 4 Eigenwerte und Normalformen von Matrizen

Definition 4.125

Seien n, m ∈ N, A ∈ K(m,n).Gesucht sind σ1, . . . , σk ∈ R, k = min(m, n), die Singulärwerte von A und orthogo-nale bzw. unitäre U ∈ K(m,m), V ∈ K(n,n), so dass

U†AV = Σ = diag(σi) , (4.94)

wobei Σ ∈ R(m,n) eine (verallgemeinerte) Diagonalmatrix ist (nach Bemerkung 1.47).(4.94) heißt eine Singulärwertzerlegung (SVD: Singular Value Decomposition) vonA. Die Spalten von V heißen auch rechte singuläre Vektoren, die von U linke singu-läre Vektoren.

Bemerkungen 4.126

1) Eine SVD (sofern sie existiert) kann (unwesentlich) modifiziert werden, indem die Vor-zeichen und die Anordnung der Singulärwerte verändert werden (bei veränderten U, V).Beide Modifikationen können nämlich durch Multiplikation (etwa von links) mit einer Diagonalmatrix,die für die Indizes, für die das Vorzeichen zu ändern ist, eine −1 und sonst eine 1 enthält bzw. mit einerPermutationsmatrix erzeugt werden, die daher im Produkt mit U† ein neues U† definieren.

Eine SVD kann folglich immer so gewählt werden, dass die Singulärwerte nicht negativsind und absteigend geordnet, d. h. es existiert ein r ∈ {1, . . . , k}, so dass

σ1 ≥ σ2 ≥ . . . ≥ σk > 0 = σk+1 = . . . = σn .

Eine solche SVD heißt normiert.

2) Sei eine normierte SVD gegeben. Die Matrixgleichung (4.94) ist dann äquivalent mit

Aui = σiui für i = 1, . . . , r ,

Aui = 0 für i = r + 1, . . . , n ,

daher die Bezeichnung rechte singuläre Vektoren für die ui, aber auch zu

u†j A = σ ju†j für j = 1, . . . , r,

u†j A = 0 für j = r + 1, . . . , m ,

daher die Bezeichnung linke singuläre Vektoren für die u j. Eine andere Bezeichnung fürdie u j, ui ist Karhunen-Loève1213-Basis.

Ist insbesondere A ∈ K(n,n) orthogonal bzw. unitär diagonalisierbar, d. h. es gilt für einU ∈ O(n,K), dass

12 Kari Karhunen ∗1915†199213 Michel Loève ∗22. Januar 1907 in Jaffa †17. Februar 1979 in Berkeley

Page 135: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 517

U†AU = Σ = diag(λi) , (4.95)

dann ist (4.95) eine SVD, wobei die Eigenwerte λi die Singulärwerte und die Eigenvek-toren die rechten und linken singulären Vektoren darstellen. Die normierte SVD erhältman durch Vorzeichenwechsel, wenn nötig, und Anordnung der |λi|. Ist A diagonalisier-bar, ohne dass die Eigenvektorbasis orthonormal ist, sind singuläre Vektoren i. Allg. keineEigenvektoren. �Abbildung 4.4 stellt die beinhalteten Fälle grafisch dar. Zum Nachweis der Existenz einer

=

=

=

(m, n) (m, m) (m, n)

(n, n)

(n, n) (n, n) (n, n) (n, n)

(m, m)

(n, n)

(m, n)(m, n)

V†

ΣUA

A

A

U Σ

U Σ

V†

V†

σ1. . .

σn

σ1. . .

σn

σ1. . .

σm

m > n

m = n

m < n

Abb. 4.4: Die verschiedenen Fälle der Singulärwertzerlegung.

SVD reicht es, den Fall m ≥ n zu behandeln, da der Fall m < n durch Übergang zurkonjugierten Matrix in diesen übergeht:

A = UΣV† ⇔ A† = VΣ†U† .

Page 136: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

518 4 Eigenwerte und Normalformen von Matrizen

Im Folgenden sollen notwendige Bedingungen aus der Existenz einer SVD hergeleitetund in einem zweiten Schritt gezeigt werden, dass diese Bedingungen erfüllbar sind undzu einer SVD führen. Das ergibt schließlich einen Existenzbeweis (Hauptsatz 4.127).

Sei also eine SVD von A ∈ K(m,n) gegeben:

U†A V = Σ .

Es besteht ein enger Zusammenhang zur unitären Diagonalisierung der selbstadjungiertenMatrizen A A† und A† A (siehe Hauptsatz 4.58), da folgt:

U†A A†U = U†A V V†A†U = ΣΣ† = diag(σ2i ) ,

V†A†A V = V†A†U U†A V = Σ†Σ = diag(σ2i ) .

Dabei ist für k := min(m, n)

diag(σ2i ) ∈ R(m,m), wobei

σ2i = σ2

i für i = 1, . . . , k, σ2i = 0 für i = k + 1, . . . , m

diag(σ2i ) ∈ R(n,n), wobei

σ2i = σ2

i für i = 1, . . . , k, σ2i = 0 für i = k + 1, . . . , n .

Deswegen etwa für m ≥ n:

diag(σ2i ) =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

σ21 0. . .

σ2n

0. . .

0 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠, diag(σ2

i ) =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝σ2

1 0. . .

0 σ2n

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

Die Matrizen U und V sind mithin notwendigerweise aus einer ONB von Eigenvektorenvon A A† bzw. A†A (die existieren) zusammengesetzt und es muss gelten:

Ist σi � 0, dann ist σ2i ein Eigenwert von AA† und von A†A .

Diese Bedingungen sind erfüllbar, da gilt:

A†Au = λu ⇒ A A†(Au) = λ(Au) ,A A†u = λu ⇒ A†A(A†u) = λ(A†u) .

(4.96)

Wir erinnern an

Kern A = Kern(A†A) ,Kern A† = Kern(A A†)

(siehe Bemerkungen 2.57, 3)) und daher Au � 0 im ersten Fall, denn u � Kern(A†A) =Kern A und analog im zweiten Fall, demnach sind die von Null verschiedenen Eigenwerte

Page 137: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 519

von A†A und A A† identisch und die Eigenvektoren gehen durch u �→ Au bzw. u �→ A†uineinander über.

Sie sind nicht nur reell nach Satz 4.39, 1), sondern auch nichtnegativ:

λ 〈u . u〉 =⟨A†Au . u

⟩= 〈Au . Au〉 ≥ 0 , (4.97)

so dass für die positiven Eigenwerte λ von A†A (und AA†), die o. B. d. A. absteigend ange-ordnet seien

λ1 ≥ λ2 ≥ . . . ≥ λr > 0

definiert werden kann

σi := +√λi für i = 1, . . . , r . (4.98)

Eine andere Anordnung der λi (und zugehörigen Eigenvektoren) bzw. eine andere Vor-zeichenwahl als in (4.98) kann als orthogonale Permutations- bzw. Diagonalmatrix in Uoder V aufgenommen werden und führt zu einer anderen Singulärwertzerlegung (sieheBemerkung 4.126, 1)). Die spezielle normierte SVD mit

σ1 ≥ σ2 ≥ . . . ≥ σr > 0 = σr+1 = . . . = σk

existiert, wenn überhaupt eine existiert.Aus diesem Grund ist die Summe der Dimensionen der Eigenräume von A†A zu von 0

verschiedenen Eigenwerten r. Damit gilt wegen der Diagonalisierbarkeit von A†A:

dim Kern(A†A) = n − r

und deshalb wegen der Dimensionsformel (siehe Theorem 2.32)

r = Rang(A†A)

und auch

n − r = dim Kern A und so r = Rang(A) .

Sei nunmehr ur+1, . . . , un eine ONB von Kern A, d. h. des Eigenraums von A†A zum Eigen-wert 0, dann gilt offensichtlich

Aui = 0 , i = r + 1, . . . , n .

Genauso gilt wegen der Diagonalisierbarkeit von A A†:

r + dim Kern(A A†) = m

und deshalb

Page 138: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

520 4 Eigenwerte und Normalformen von Matrizen

r = Rang(A A†)

(womit sich noch einmal Rang(A) = Rang(A†A) = Rang(A A†) ergibt), also

m − r = dim Kern(A†) .

Sei ur+1, . . . , um eine ONB von Kern A†, somit dem Eigenraum von A A† zum Eigenwert 0.Setzen wir genauer

σi := +√λi für i = 1, . . . , r,

σi := 0 für i = r, . . . , min(m, n)

für die Singulärwerte, so ist für die Gültigkeit von

AV = UΣ

schon Aui = 0ui = 0, i = r + 1, . . . , n erfüllt (man beachte m ≥ n) und noch

Aui = σiui, , i = 1, . . . , r (4.99)

zu sichern.Dazu wählen wir u1, . . . , ur als eine ONB von A†A zu den Eigenwerten λ1, . . . , λr. Nach

Satz 4.65, 6) wird diese mit ur+1, . . . , un zu einer ONB von Kn ergänzt, d. h. die Matrix

V = (u1, . . . , un) ∈ K(n,n)

ist orthogonal bzw. unitär. Damit ist auch

span (u1, . . . , ur) = (Kern A)⊥ = Bild(A†) .

Um (4.99) zu erfüllen, definieren wir

ui :=1σi

Aui, i = 1, . . . , r .

Nach (4.96) handelt es sich dabei um Eigenvektoren von AA† zu den Eigenwerten λi. Wirmüssen noch die Orthonormalität dieser Vektoren zeigen:

Sei 1 ≤ i, j ≤ r, dann

⟨ui . u j

⟩=

1σiσ j

⟨Aui . Au j

⟩=

1σiσ j

⟨A†Aui . u j

⟩=

σ2i

σiσ j

⟨ui . u j

⟩= δi, j, da die u1, . . . , ur orthonormal sind.

Wieder nach Satz 4.65, 6) werden diese mit ur+1, . . . , um zu einer ONB von Km ergänzt.Damit ist

Page 139: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 521

U = (u1, . . . , um) ∈ K(m,m)

also orthogonal bzw. unitär. Damit ist auch

span(u1, . . . , ur) = (Kern A†)⊥ = Bild A .

Folglich ist bewiesen:

Hauptsatz 4.127: Eindeutige Existenz der SVD

Sei A ∈ K(m,n). Dann existiert eine Singulärwertzerlegung (SVD) von A in der Form

U†A V = Σ

mit orthogonalen bzw. unitären U ∈ K(m,m), V ∈ K(n,n) und einer DiagonalmatrixΣ ∈ R(m,n) mit genau r = Rang(A) positiven Diagonalelementen σi (o. B. d. A. aufden Positionen 1, . . . , r absteigend angeordnet), den (positiven) Singulärwerten unddem Singulärwert 0 auf den Diagonalpositionen r + 1, . . . , min(m, n), die normierteSVD.

U und V sind erhältlich als Eigenvektor-ONB für A A† bzw. A†A zu den gemein-samen Eigenwerten λ1, . . . , λr > 0 und λr+1 = . . . = λm (bzw. λn) = 0 und

σi = +√λi, i = 1, . . . , r .

Andererseits ist für jede SVD die Anzahl der nichtverschwindenden Singulärwerter = Rang(A); U =

(u(1), . . . , u(m)

)und V =

(u(1), . . . , u(n)

)sind Eigenvektor-ONB für

A A† bzw. A† A. Die Singulärwerte können sich nur durch Vorzeichen oder Reihen-folge unterscheiden.

Weiter gilt:

{u(1), . . . , u(r)} ist eine ONB von Bild A,{u(1), . . . , u(r)} ist eine ONB von Bild A†,{u(r+1), . . . , u(m)} ist eine ONB von Kern A†,{u(r+1), . . . , u(n)} ist eine ONB von Kern A.

Die Singulärwertzerlegung kann auch in reduzierter (oder auch kompakter) Form ge-schrieben werden.

Sei o. B. d. A. m ≥ n, dann sei für A ∈ K(m,n)

A = U

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎝∑

1

0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎠ V†

mit Σ1 ∈ R(n,n) die normierte SVD.Zerlegt man U = (U1|U2) mit U1 ∈ K(m,n), U2 ∈ K(m,m−n), dann ist

Page 140: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

522 4 Eigenwerte und Normalformen von Matrizen

A = U1Σ1V† (4.100)

die reduzierte SVD.

Im Fall m ≥ n, in dem Rang(A) ≤ n gilt, sind also die Spalten u(i) von V eine ONB vonKn und die Spalten u( j), j = 1, . . . , n, von U1 eine ONB von W ⊃ Bild A (siehe (4.99)), sodass für

x =∑n

i=1 αiu(i) gilt: Ax =∑n

i=1 αiσiu(i) =∑n

i=1 σi

⟨x . u(i)

⟩u(i) ,

d. h. die Abbildung wird in den gewählten Koordinatensystemen V und U1 diagonal. Inder (nicht reduzierten) SVD wird U1 noch mit einer ONB von W⊥ (mit W⊥ ⊂ Bild A⊥ =Kern A†) ergänzt.

Die Darstellung des Bildes kann auch auf die σi � 0 beschränkt werden, d. h.

Ax =∑r

i=1 σi

⟨x . u(i)

⟩u(i) ,

da span(u(1), . . . , u(r)) = Bild A.Im Fall einer normalen Matrix, d. h. der Diagonalisierbarkeit mit einer orthogonalen bzw.unitären Ähnlichkeitsformation, d. h. bei

A = U Σ U†

mit orthogonalem bzw. unitärem U =(u(1), . . . , u(n)

)und Σ = diag(λi) gilt

A =n∑

i=1

λiu(i) ⊗ u(i)

(vgl. (4.47)). In dieser Spektraldarstellung in dyadischer Form ist also A als Summe vonVielfachen von orthogonalen Projektionen auf (eindimensionale) Eigenräume geschrie-ben.

Die entsprechende Darstellung für A ∈ K(m,n) auf der Basis der normierten SVD ist,wie schon gesehen,

Ax =r∑

i=1

σi

⟨x . u(i)

⟩u(i)

bzw.

A =∑r

i=1 σiu(i) ⊗ u(i) . (4.101)

Page 141: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 523

Auch hier kann man im übertragenen Sinn von Spektraldarstellung in dyadischer Formsprechen, auch wenn die σi keine Spektralwerte sind.

Die Interpretation ist sodann analog, wobei es sich um(für u(i) � u(i)

)nichtorthogonale

Projektionen handelt (siehe (2.58)).(4.101) zeigt auch, dass nicht nur der Singulärwert σ = 0 (wie allgemein der Kern A)

bei der Betrachtung von Bild A keine Rolle spielt, auch können anscheinend kleine, po-sitive σi vernachlässigt werden. Das ist eine Basis für Datenkompression (siehe Ab-schnitt 8.3).

Beim Handrechnen kann man folgendermaßen vorgehen, wobei o. B. d. A. m ≥ n:

• Bestimmung von A†A, der Eigenwerte λ1 ≥ λ2 ≥ . . . ≥ λr > 0 = λr+1 = λn undeiner Eigenvektor-ONB u1, . . . , un dazu. Dabei müssen nur die Basen der einzelnenEigenräume orthonormalisiert werden.

• σi :=√λi , i = 1, . . . , r ,

σi := 0 , i = r + 1, . . . , n.• ui := 1

σiAui, i = 1, . . . , r (oder: ui := αiAui für beliebiges αi � 0 und ui := ui/‖ui‖).

• ur+1, . . . , um ONB von Kern A†.

Bemerkungen 4.128 Singulärwertzerlegung und Hauptachsentransformation hängen engzusammen. Der Beweis von Hauptsatz 4.127 baut auf Hauptsatz 4.58 auf, andererseitskann Hauptsatz 4.58 auf der Basis von Hauptsatz 4.127 bewiesen werden.Sei A ∈ K(n,n) selbstadjungiert und A = VΣU† eine normierte SVD. Dann gilt auch A = A† = UΣtV† undso A2 = UΣtΣU†. Also hat A2 eine ONB aus Eigenvektoren ui mit den reellen Eigenwerten σ2

i . Es giltaber auch

Aui = σiui für i = 1, . . . , n ,

denn nach Bemerkungen 4.136, 3) kann A o. B. d. A. als positiv definit angenommen werden, darum

0 ≤ 〈A(Aui − σiui) . Aui − σiui〉 =⟨σ2

i ui − σiAui . Aui − σiui

⟩= −σi‖Aui − σiui‖ ≤ 0

und damit folgt die Behauptung.

4.6.2 Singulärwertzerlegung und Pseudoinverse

In der Konstruktion der normierten SVD einer Matrix A sind wieder die vier fundamenta-len Unterräume aufgetreten:

Page 142: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

524 4 Eigenwerte und Normalformen von Matrizen

von Kn : Kern A = span(ur+1, . . . , un)

Bild A† = span(u1, . . . , ur)= (konjugierter) Zeilenraum

von Km : Kern A† = span(ur+1, . . . , um)Bild A = span(u1, . . . , ur)= Spaltenraum .

Dadurch symbolisch:

U =(

Spaltenraum Kernvon A von A†

)∈ K(m,m) ,

V =(

(konjugierter) Zeilenraum Kernvon A von A

)∈ K(n,n) .

Mit der Singulärwertzerlegung, deren Aufwand etwa dem der Diagonalisierung einer sym-metrischen Matrix entspricht, lässt sich einfach der Lösungsraum für ein allgemeines Aus-gleichsproblem (2.102) und damit die Pseudoinverse von A angeben.

Für die Diagonalmatrix Σ folgt nach Bemerkungen 2.82, 6)

Σ+ = diag⎛⎜⎜⎜⎜⎝⎛⎜⎜⎜⎜⎝ 1

σi

⎞⎟⎟⎟⎟⎠⎞⎟⎟⎟⎟⎠ ∈ K(n,m)

mit ⎛⎜⎜⎜⎜⎝ 1σi

⎞⎟⎟⎟⎟⎠ :=1σi

, i = 1, . . . , r,⎛⎜⎜⎜⎜⎝ 1σi

⎞⎟⎟⎟⎟⎠ := 0, i = r + 1, . . . , min(n, m) . (4.102)

Theorem 4.129: Pseudoinverse und SVD

Sei A ∈ K(m,n) mit der Singulärwertzerlegung

A = UΣV† .

Der Lösungsraum für das Ausgleichsproblem ‖Ax − b‖ → min ist dann

Wb = VΣ+U†b + Kern A und Kern A = Vy′

für y′ = (0, . . . , 0, yr+1, . . . , yn)t ∈ Kn. Damit ergibt sich die Pseudoinverse von Adurch

Page 143: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 525

A+ = VΣ+U† .

A+ ist demzufolge eine SVD, die aber i. Allg. nicht normiert ist.

Beweis: Die Darstellung der Pseudoinversen (und damit die gesamte Aussage) folgt direktaus Bemerkungen 2.82, 5):

A = UΣV† ⇒ A+ = (V†)+(UΣ)+ = (V†)+Σ+U+ = VΣ+U† .

Ein alternativer, direkter Beweis (der auch (4.102) mit einschließt) ist: Sei ‖ . ‖ die euklidi-sche Norm auf Km bzw. Kn, dann folgt aus der Längenerhaltung durch orthogonale bzw.unitäre Abbildungen:

‖Ax − b‖2 = ‖UΣ V†x︸︷︷︸=y

−b‖2 = ‖Σy − U†b‖2

=∥∥∥diag(σ1, . . . , σr)(y1, . . . , yr)t − (U†b)i=1,...,r

∥∥∥2+

∥∥∥(U†b)i=r+1,...,m∥∥∥2

und daher wird dieses Funktional minimiert für y ∈ Kn mit

yi

{= (U†b)i/σi , i = 1, . . . , r∈ K beliebig , i = r + 1, . . . , n .

Für x = Vy = V(y1, . . . , yr, 0, . . . , 0)t + V(0, . . . , 0, yr+1, . . . , yn)t gilt daher

x = VΣ+U†b + V(0, . . . , 0, yr+1, . . . , yn)t

und damit wegen der Orthogonalität der beiden Summanden mit Pythagoras

‖x‖2 ≥ ‖VΣ+U†b‖2 ,

d. h. x = VΣ+U†b ist die Ausgleichslösung mit minimaler Norm und daher gilt A+b =VΣ+U†b. �

In dyadischer Spektralform lautet somit die Pseudoinverse

A+ =∑r

i=11σiui ⊗ ui .

Das allgemeine Bild über das Zusammenspiel der vier Fundamentalräume und von A undA+ wird demgemäß mit „Feinstruktur“ versehen (siehe Abbildung 4.5 in Anlehnung anStrang 2003):Geometrisch lässt sich eine SVD dann wie folgt interpretieren:

Sei dazu

S n−1 := {x ∈ Kn : ‖x‖2 = 1}die Oberfläche der „Kugel“ mit Radius 1 und Mittelpunkt 0 in Kn.

Page 144: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

526 4 Eigenwerte und Normalformen von Matrizen

Wesentlich für eine orthogonale Abbildung U ist gerade, dass sie S n−1 invariant lässt:

U(S n−1) ⊂ S n−1

(genauer „=“, da U nichtsingulär).Entsprechend kann man unter einem Ellipsoid in Kn die Bewegung (siehe Satz 2.12 ff.)

eines Ellipsoiden mit Mittelpunkt 0 und Halbachsen αi > 0, i = 1, . . . , n, d. h. von

E :=

⎧⎪⎪⎨⎪⎪⎩x ∈ Rn :n∑

i=1

(xi

αi

)2

= 1

⎫⎪⎪⎬⎪⎪⎭ , (4.103)

verstehen.

Definition 4.130

Sei T (x) := Φx+ a, wobei Φ ∈ Hom(Kn,Kn) orthogonal bzw. unitär ist und a ∈ Kn,eine Bewegung in Kn.

E := T [E]

mit E nach (4.103) heißt Ellipsoid um den Mittelpunkt a mit Halbachsen αi.

Dann gilt:

KernA

KernA†

Bild A †

Bild A

KmKn

span ui, i = 1, . . . , r

span ui, i = 1, . . . , r

r := b − p

A x = p:= PBild(A) b

A+ b = A+ p

x − A+ b

x b

Abb. 4.5: Die vier fundamentalen Unterräume und die SVD.

Page 145: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.6 Die Singulärwertzerlegung 527

Satz 4.131: Singulärwerte = Halbachsen

Sei A ∈ K(n,n), nichtsingulär mit normierter SVD

A = U Σ V†, Σ = diag(σi) .

Dann ist A(S n−1), das Bild der Einheitskugeloberfläche, ein Ellipsoid um 0 mit Halb-achsen σi, i = 1, . . . , n.Sei A ∈ K(m,n), m, n ∈ N, r = Rang(A). Dann ist A(S n−1), eingebettet in Kr durchAuswahl einer ONB von Bild A aus den Spalten von U, ein Ellipsoid in Kr um 0 mitHalbachsen σi, i = 1, . . . , r (vgl. Abbildung 4.6).

V†

b2

b1

b2 b1

1

1

1

1

b2 b1 b2b1

Abb. 4.6: Veranschaulichung der Singulärwertzerlegung

Beweis: Es reicht, die erste speziellere Aussage zu zeigen:Es ist

V†(S n−1) = S n−1

und

w ∈ Σ(S n−1)⇔ ‖Σ−1w‖ = 1⇔( n∑

i=1

(wi

σi

) )2

= 1 . �

Da Satz 4.131 auch auf A−1 bzw. A+ anwendbar ist, zeigt er, dass kleine positive σi inder SVD von A bei A+ zu einem starken „Auseinanderziehen“ (mit dem Faktor σ−1

i ) vonKomponenten (und der darin enthaltenen Fehler!) führt. Das lässt Schwierigkeiten beimLösen von LGS und Ausgleichsprobleme erwarten (siehe Abschnitt 8.1).

Bemerkung 4.132 Mit einer SVD kann auch die in Bemerkungen 1.93, 4) auf K(m,n) ein-geführte Norm äquivalent ausgedrückt werden:Sei A = UΣV† eine SVD, Σ = diag(σi), dann:

Page 146: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

528 4 Eigenwerte und Normalformen von Matrizen

‖A‖F =⎛⎜⎜⎜⎜⎜⎜⎝min(m,n)∑

i=1

σ2i

⎞⎟⎟⎟⎟⎟⎟⎠12

.

Das kann man folgendermaßen einsehen:Nach (4.7) ist

‖A‖2F = sp(AA†) = sp(UΣV†VΣ†U†) = sp(UΣΣ†U†) = sp(ΣΣ†)

unter Beachtung von Satz 4.30, 1) und damit die Behauptung.

Was Sie in diesem Abschnitt gelernt haben sollten:

Begriffe:

• (Normierte) Singulärwertzerlegung (SVD)• Spektraldarstellung in dyadischer Form

Zusammenhänge:

• Eindeutige Existenz der SVD (Hauptsatz 4.127)• SVD und Ausgleichsrechnung• SVD und Pseudoinverse (Theorem 4.129)• Bild der Einheitskugeloberfläche = Ellipsoid mit Singulärwerten als Halbachsen

Aufgaben

Aufgabe 4.35 (T) Sei A ∈ K(n,n). Zeigen Sie:

a) | det(A)| =∏mi=1 σi.

b) det(A) = 0 ⇒ det(A+) = 0.

Aufgabe 4.36 (T) Seien A ∈ R(m,n), m ≥ n und Rang A = n mit der SingulärwertzerlegungA = UΣVt. Man leite die Beziehung der Pseudoinversen

A+ = VΣ+Ut, Σ+ =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝σ−1

1 0 . . . . . . . . . 0. . .

. . ....

σ−1n 0 . . . 0

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠mit Hilfe der Normalgleichungen her.

Aufgabe 4.37 (K) Gegeben sei die Matrix

Page 147: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Aufgaben 529

A =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝1 22 00 11 1

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ .

a) Bestimmen Sie eine normierte Singulärwertzerlegung A = UΣV† mit orthogonalenMatrizen U und V .

b) Bestimmen Sie ausgehend von der Singulärwertzerlegung die Pseudoinverse A+

von A.

Aufgabe 4.38 (K) Sei A ∈ R(n,n) mit der Singulärwertzerlegung A = UΣVt gegeben,wobei Σ = diag(σ1, . . . , σn).Zeigen Sie, dass die Matrix

H =(

0 At

A 0

)die Eigenvektoren 1√

2

(ui±ui

)zu den 2n Eigenwerten ±σi besitzt.

Page 148: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

530 4 Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung

4.7.1 Positiv definite Matrizen

Die in 4.6 aufgetretenen selbstadjungierten A†A und AA† haben als wesentliche Eigen-schaft, dass sie nicht nur reelle, sondern auch nichtnegative Eigenwerte haben (siehe(4.97)). Grund dafür ist eine Eigenschaft, die schon bei der Gramschen Matrix aus (1.74)dafür gesorgt hat, dass die im Beweis von Bemerkungen 1.104, 1) zu minimierende Pa-rabel g nach oben geöffnet ist (siehe (1.75)) und damit ein eindeutiges Minimum besitzt.Eine umfassende Definition ist (immer für K ∈ {R,C}):

Definition 4.133

Sei (V, 〈 . 〉) ein euklidischer/unitärer Vektorraum (endlicher Dimension). Sei Φ ∈Hom(V, V), Φ sei selbstadjungiert, d. h. Φ = Φ†.Φ heißt positiv semidefinit, geschrieben auch Φ ≥ 0 genau dann, wenn

〈Φu . u〉 ≥ 0 für alle u ∈ V .

Φ heißt positiv definit (oder positiv), geschrieben auch Φ > 0, wenn

〈Φu . u〉 > 0 für alle u ∈ V, u � 0 .

Φ ≥ 0 oder Φ > 0 setzt also die Selbstadjungiertheit voraus. Manchmal setzt man es trotz-dem dazu und spricht z. B. von „symmetrischen, positiv definiten Matrizen“. Manchmalwird auch negativ definit verwendet für selbstadjungierte Abbildungen bzw. Matrizen, de-ren Negatives positiv definit ist. Liegt keiner der beiden Fälle vor, spricht man auch vonindefiniten selbstadjungierten Abbildungen bzw. Matrizen.

Bemerkungen 4.134

1) Die Selbstadjungiertheit von Φ allein sichert

〈Φu . u〉 ∈ R ,

denn:

〈Φu . u〉 = 〈u . Φu〉 = ⟨Φ†u . u

⟩= 〈Φu . u〉 .

2) Φ > 0 ist also äquivalent damit, dass durch

〈u .w〉Φ := 〈Φ u .w〉 , u,w ∈ V (4.104)

ein inneres Produkt auf V definiert wird,

Page 149: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 531

denn Definitheit wird gerade durch Definition 4.133 gesichert, Linearität (im ersten Argument) gilt immer,Hermite-Symmetrie ist gleichbedeutend mit der Selbstadjungiertheit von Φ.

Die von 〈 . 〉Φ erzeugte Norm wird mit ‖ . ‖Φ bezeichnet. Für V = Kn und das euklidischeinnere Produkt 〈 . 〉, A ∈ K(n,n) bedeutet demnach A > 0:

〈Ax . x〉 > 0 für alle x ∈ Kn, x � 0 .

Die von 〈 . 〉A erzeugte Norm ist daher

‖x‖A = 〈Ax . x〉 12 (4.105)

und wird manchmal Energienorm genannt und das innere Produkt manchmalEnergie-Skalarprodukt (siehe Bemerkungen 4.145,1)).

3) Für Diagonalmatrizen A = diag(λi) ∈ R(n,n) ist 〈x . y〉A =∑n

i=1 λixiyi (siehe (1.63)) unddamit

A ≥ 0 ⇔ λi ≥ 0 für alle i = 1, . . . , n ,A > 0 ⇔ λi > 0 für alle i = 1, . . . , n .

Die erzeugte Norm beinhaltet also eine komponentenweise Skalierung.

4) In Aufgabe 1.31 bzw. allgemein in Satz 5.3 werden die Bilinearformen bzw. hermite-schen Formen auf Rn bzw. Cn charakterisiert werden durch

ϕ(x, y) = 〈Ax . y〉 für x, y ∈ Kn ,

wobei A ∈ K(n,n).Symmetrische bzw. Hermite-symmetrische Formen sind demnach gerade durch selbstad-jungierte A gegeben und Definitheit der Form entspricht gerade der Positivität von A. Also:

Auf Kn sind alle möglichen inneren Produkte gegeben durch 〈 . 〉A, wobei A > 0.

5) Ist allgemeiner Φ ∈ Hom(V, V), {u1, . . . , un} eine ONB von V , A = (ai, j) ∈ K(n,n) diezugehörige Darstellungsmatrix, d. h.

Φu j =

n∑k=1

ak, juk,

dann ist für u =∑n

i=1 xiui , x = (xi) ∈ Kn,

Page 150: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

532 4 Eigenwerte und Normalformen von Matrizen⟨Φu j . uk

⟩= ak, j (Fourier-Koeffizient),

〈Φu . u〉 =n∑

k, j=1

⟨Φu j . uk

⟩x jxk =

n∑k, j=1

ak, jx jxk = 〈Ax . x〉

und somit

Φ >(≥) 0⇔ A >

(≥) 0 .

6) 1 > 0 bzw. id > 0 und auch

0 ≥ 0

(dabei ist die linke Seite das neutrale Element in HomK(V, V) bzw. Kn,n, die rechte Seitein R).

7)

Φ,Ψ ∈ HomK(V, V), Φ, Ψ >(≥) 0, dann:

Φ + Ψ >(≥) 0 ,

αΦ >(≥) 0 für α ∈ R, α > 0 ,

(aber i. Allg. nicht für α ∈ K).

8)

Seien Φ,Ψ ∈ Hom(V, V), Φ >(≥) 0, sei Ψ invertierbar, dann

Ψ†ΦΨ >(≥) 0 .

Dazu beachte man:⟨Ψ†ΦΨu . u

⟩= 〈Φw .w〉 für w = Ψu und w � 0⇔ u � 0.

In Matrizenschreibweise: Die Transformation

A �→ U†A U

für invertierbares U ∈ K(n,n) erhält die Positiv-(Semi-)Definitheit von A. Unitäre Ähn-lichkeit erhält aufgrund dessen Positiv-(Semi-)Definitheit, nicht aber i. Allg. Ähnlichkeit.Andererseits definiert

C ∼ C′ ⇔ es existiert ein A ∈ GL(n,K), so dass C′ = A†CA

Page 151: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 533

allgemein eine Äquivalenzrelation auf K(n,n), die in Kapitel 5 weiter untersucht wird undals Kongruenz bezeichnet wird. Eine Ähnlichkeitstransformation hingegen, selbst mit ei-nem A > 0, erhält nicht Positivdefinitheit, da die Selbstadjungiertheit verloren geht.

9) Auf der Menge S der selbstadjungierten linearen Abbildungen bzw. Matrizen, d. h.S ⊂ HomK(V, V) bzw. S ⊂ K(n,n), wird durch

A ≤ B :⇔ B − A ≥ 0

eine Ordnungsrelation (siehe Anhang Definition A.20) definiert,da A ≤ A nach 6), A ≤ B, B ≤ C ⇒ A ≤ C nach 7) und A ≤ B, B ≤ A⇒ A = B kann man folgendermaßeneinsehen: B − A ≥ 0 und A − B ≥ 0 implizieren 〈Ax . x〉 = 〈Bx . x〉 für alle x ∈ Kn, also ist die jeweilserzeugte Norm identisch:

‖x‖A = ‖x‖B für alle x ∈ Kn .

Nach (3.23) und (3.20) gilt dies auch für die zugehörigen inneren Produkte

〈Ax . y〉 = 〈x . y〉A = 〈x . y〉B = 〈Bx . y〉 für alle x, y ∈ Kn

und damit A = B.

Auf R(n,n) (nicht auf C(n,n)) kann auch alternativ eine Ordnungsrelation eingeführt werdendurch

A � B :⇔ B − A � 0und C = (ci, j) � 0 :⇔ ci, j ≥ 0 für alle i, j = 1, . . . , n .

Auch hier spricht man etwas ungenau von positiven Matrizen. Diese werden in Ab-schnitt 8.5 untersucht werden. Zwar gilt für ein positiv (semi)definites A immer

ai,i > 0 (≥ 0) ,

denn ai,i = 〈Aei . ei〉, aber Nichtdiagonalelemente können auch negativ sein. Im Allgemei-nen ist nun zwischen beiden Ordnungsrelationen genau zu unterscheiden, nur für Diago-nalmatrizen fallen die Begriffe zusammen. �Im Folgenden werden direkt positiv (definit)e Matrizen A ∈ K(n,n) betrachtet.

Satz 4.135: Positiv-Definitheit und Eigenwerte

Sei A ∈ K(n,n), A = A†.

1) A >(≥) 0⇔ Alle Eigenwerte λ1, . . . , λn von A sind positiv (nicht negativ).

2) Jedes positive A ist invertierbar und

A−1 > 0 .

3) Sei A >(≥) 0. Dann existiert eindeutig ein B ∈ K(n,n), B >

(≥) 0, mit

Page 152: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

534 4 Eigenwerte und Normalformen von Matrizen

B2 = B B = A ,

geschrieben: B = A12 , die Wurzel von A.

Beweis: Zu 1): Wegen A = A† hat A nur reelle Eigenwerte λ1, . . . , λn und es gibt eineHauptachsentransformation (nach Hauptsatz 4.58), d. h. für ein unitäres U ∈ K(n,n), U−1 =

U† gilt

U−1AU = D := diag(λi) ,

somit folgt der Beweis aus Bemerkungen 4.134, 3) und 8). Zur Verdeutlichung sei dieArgumentation noch einmal explizit dargestellt:

〈Ax . x〉 =⟨UDU−1x . x

⟩= 〈UDy . x〉 =

⟨Dy . U†x

⟩= 〈Dy . y〉

für y := U−1x, d. h. x � 0⇔ y � 0 .

„⇒“Wähle y := ei, dann λi = 〈Ax . x〉 >(≥) 0.

„⇐“

〈Ax . x〉 =n∑

i=1

λiy2i ≥ 0 für λi ≥ 0 bzw. > 0 für λi > 0 und y � 0 . (4.106)

Zu 2): Sei A > 0. Die Invertierbarkeit folgt sofort aus 1) und dann auch

A−1 = UD−1U−1

mit D−1 = diag(1/λi), 1/λi > 0, so dass A−1 > 0 auch aus 1) folgt.Zu 3): Bei A = UDU−1 >

(≥) 0 setze

B : = U D12 U−1, wobei

D12 : = diag(λ

12i ) ,

so dass offensichtlich

B2 = UD12 D

12 U−1 = A .

Eindeutigkeit : Sei B ≥ 0, so dass B2 = A.Dann BA = AB, da: BA = BB2 = B2B = AB. Nach Satz 4.71 über die simultane Diagona-lisierbarkeit haben demzufolge A und B eine simultane Hauptachsentransformation, d. h.es gilt auch

B = UDU−1, D := diag(μi)

mit den Eigenwerten μi ≥ 0 von B. Also UDU−1 = A = B2 = UD2U−1 und somit λi = μ2i ,

also μi = λ12i . �

Page 153: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 535

Bemerkungen 4.136

1) Sei A > 0. Nach (4.106) ist dazu äquivalent die Existenz einer Konstanten α > 0, sodass

〈Ax . x〉 ≥ α 〈x . x〉 für x ∈ Kn ,

wobei das maximal mögliche α > 0 der kleinste Eigenwert von A ist.

Diese Aussage kann auch ohne Rückgriff auf die Eigenwerte mit Methoden der Analysis gezeigt werden(man vergleiche Anhang C, Satz C.12).

2) Geometrisch gesehen ist für A > (≥) 0 der Winkel zwischen x und Ax für x � 0

kleiner als π/2 − δ (kleiner gleich π/2), wobei δ > 0 durch den kleinsten Eigenwert von Abestimmt wird.

3) Sei A ∈ K(n,n) selbstadjungiert. Dann gibt es ein λ > 0, so dass A + λ1 positiv definitist (Übung).

4) Sei A ∈ K(n,n). Dann besitzt A eine Polardarstellung, d. h. es gibt ein eindeutiges P ∈K(n,n), P ≥ 0 und ein orthogonales bzw. unitäres Q ∈ K(n,n), so dass

A = PQ .

Stattdessen kann die Polardarstellung auch in der Form

A = QP

mit orthogonalem bzw. unitärem Q und positiv definitem P angesetzt werden. Ist A inver-tierbar (genau dann wenn P > 0), ist die Polardarstellung eindeutig.Das kann man folgendermaßen einsehen: Die normierte SVD

A = UΣV†

nach Hauptsatz 4.127 ergibt

A = PQ mit P := UΣU† und Q := UV† .

Dabei ist Σ ≥ 0 und somit nach Bemerkungen 4.134, 8) auch P ≥ 0 und Q ist orthogonal/unitär. Seienzwei Polardastellungen gleich: P1Q1 = P2Q2 und Pi ≥ 0. Dann folgt daraus Q†1P1 = Q†2P2 und damit

P21 = P1Q1Q†1P1 = P2Q2Q†2P2 = P2

2 .

Die P2i sind selbstadjungiert und nach Satz 4.135, 3) auch P2

i ≥ 0. Damit sind auch ihre eindeutigenWurzeln (P2

i )12 nach Satz 4.135, 1) gleich. Diese sind aber Pi, d. h. P1 = P2. Im Fall Pi > 0 ist auch

Q1 = P−11 P2Q2 = Q2.

Die Polardarstellung verallgemeinert die Polardarstellung einer komplexen Zahl (siehe(3.7)). �

Page 154: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

536 4 Eigenwerte und Normalformen von Matrizen

Man betrachte für A, M ∈ K(n,n), M > 0 das verallgemeinerte Eigenwertproblem : Gesuchtsind λ ∈ K, x ∈ Kn, x � 0, so dass

Ax = λMx . (4.107)

In der Variablen y := M12 x ergibt sich die Standardform

Ay = λy

mit A := M−12 AM−

12 . Gegenüber A := M−1A (bei y = x) ergibt sich der Vorteil, dass

Selbstadjungiertheit und (Semi-)Positivität von A erhalten bleiben. Damit kann begründetwerden:

Bemerkungen 4.137

1) Ist A selbstadjungiert, so gibt es eine Basis aus Lösungen des verallgemeinerten Ei-genwertproblems, die orthonormal im Skalarprodukt 〈· . ·〉M ist, und die verallgemeinertenEigenwerte λ sind reell.Nach Hauptsatz 4.58 hat A reelle Eigenwerte und eine orthonormierte Eigenvektorbasis y1, . . . , yn unddamit erfüllen xi := M−

12 yi das Ausgangsproblem und

δi, j =⟨yi . y j

⟩=

⟨Mxi . x j

⟩.

2) Ist A zusätzlich positiv (semi-)definit, so sind die Eigenwerte im verallgemeinertenEigenwertproblem positiv (nicht negativ).Es gilt A >

(≥)0, so dass die Aussage aus Satz 4.135, 1) folgt.

3) Seien M > 0, A selbstadjungiert. Dann sind die Eigenwerte von M−1A reell und M−1Aist diagonalisierbar mit einer bezüglich 〈 . 〉M orthonormalen Eigenvektorbasis. Ist A auchpositiv (semi-)definit, sind sie alle positiv (nicht negativ).Wegen M−1Ax = λx ⇔ Ax = λMx folgt dies sofort aus 2) und 3).

�Ist A nicht selbstadjungiert, macht Positivdefinitheit keinen Sinn. Jedes A ∈ K(m,n) lässtsich aber nach Aufgabe 4.15 eindeutig in einen selbstadjungierten Anteil AS und einenantisymmetrischen bzw. antihermiteschen Anteil AA zerlegen. Satz 4.135, 1) überträgt sichin folgender Form:

Bemerkungen 4.138

1) Ist AS positiv definit, so gilt für die Eigenwerte λ von A: Re λ > 0.Wegen AS =

12 (A + A†) ist dies der Spezialfall G = 1

2 · 1 der nachfolgenden Aussage.

2) Gibt es ein G > 0, so dass

GA + A†G > 0 ,

dann gilt für alle Eigenwerte von A: Re λ > 0.

Page 155: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 537

Sei x ∈ Kn, x � 0, λ ∈ C, Ax = λx. Nach Voraussetzung ist⟨GAx + A†Gx . x

⟩> 0

und damit (λ + λ) 〈Gx . x〉 > 0 und wegen 〈Gx . x〉 > 0, folglich Re λ > 0.

Es gilt auch die Umkehrung der Aussage 2) (und wird dann Satz von Ljapunov14 ge-nannt). Solche Vorzeichenaussagen über Eigenwerte sind wesentlich zur Untersuchungdes Langzeitverhaltens von Differenzen- oder Differentialsystemen (siehe Beispiel 4.41und auch Abschnitt 8.6.2).

3) Gilt A, B > 0, A > B für A, B ∈ K(n,n), dann auch B−1 > A−1. Dabei ist A > B durchA − B > 0 definiert.Es reicht, die Aussage für A = 1 zu beweisen. Für den allgemeinen Fall folgt nämlich 1 > A−

12 BA−

12 nach

Bemerkungen 4.134, 8) (mit Φ = 1 − B, Ψ = A−12 ) und dann mit der Aussage für den Spezialfall

A12 B−1A

12 > 1

und daraus wieder B−1 > A−12 A−

12 = A−1.

Sei also A = 1, für die Eigenwerte λ von B gilt damit λ < 1 und wegen B > 0, also 0 < λ < 1.Die Eigenwerte von B−1 als Kehrwerte erfüllen deswegen μ > 1 und damit sind die Eigenwerte derselbstadjungierten Matrix B−1 − 1 alle positiv, d. h. B−1 − 1 > 0.

�Bemerkungen 4.139

1) In Erweiterung von Bemerkungen 4.134, 8) gilt: Seien A ∈ K(m,n), B ∈ K(m,m), B > 0.Dann:

A†BA ≥ 0 .

Ist Kern A = {0} bzw. gleichwertig Rang(A) = n (d. h. der Spaltenrang voll), dann giltsogar

A†BA > 0

(man beachte dabei (4.97)). Die erzeugte Energienorm ist sodann bei B = 1

‖x‖A†A = ‖Ax‖ für x ∈ Kn .

2) Ist A ∈ K(n,n) eine orthogonale Projektion, d. h. A ist selbstadjungiert und idempotent(A2 = A), dann ist A ≥ 0.Dies kann auch darüber eingesehen werden, dass A die Eigenwerte 0 und 1 hat (siehe Beispiel 4.36) oderüber die Fehlerorthogonalität (siehe Hauptsatz 1.102, 3)):

〈Ax − x . Ax〉 = 0⇒ 〈Ax . x〉 = 〈Ax . Ax〉 ≥ 0 .

�14 Alexander Michailowitsch Ljapunov ∗6. Juni 1857 in Jaroslawl †3. November 1918 in Odessa

Page 156: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

538 4 Eigenwerte und Normalformen von Matrizen

Bei der Charakterisierung der orthogonalen Projektion (siehe Hauptsatz 1.102 und 1.102I,S. 349) trat ein LGS mit der Gramschen Matrix

A :=(⟨u j . ui

⟩)i, j∈ K(n,n) (4.108)

auf, wobei u1, . . . , un ∈ V und (V, 〈 . 〉) ein euklidischer/unitärer Raum ist.

Satz 4.140: Positiv definit =Gramsche Matrix

1) Jede Gramsche Matrix (nach (4.108)) ist positiv semidefinit. Sind {u1, . . . , un}linear unabhängig, dann ist sie auch positiv definit.

2) Sei A ∈ K(n,n), A > 0, dann ist A für ui := ei die Gramsche Matrix bezüglich desfolgenden inneren Produktes auf Kn:

〈x . y〉A := 〈Ax . y〉 für x, y ∈ Kn ,

des Energie-Skalarproduktes zu A.

Beweis: Zu 1):

〈Ax . x〉 =n∑

i, j=1

ai, jx jxi =

n∑i, j=1

⟨u j . ui

⟩x jxi =

⟨ n∑j=1

x ju j .n∑

i=1

xiui

= 〈w .w〉 ≥ 0 für w :=n∑

i=1

xiui

und w � 0 ⇔ (xi)i � 0 ⇔ x � 0, falls {u1, . . . , un} linear unabhängig ist. (Das ist geradeder Beweis von 2c > 0 aus Bemerkungen 1.104, 1)).Zu 2): ⟨

e j . ei

⟩A=

⟨Ae j . ei

⟩= ai, j .

Bemerkung 4.141 Sei A die in (1.80) bestimmte Gramsche Matrix bei der Orthogonal-projektion von V := C([a, b],R) auf U := S 1(Δ) bezüglich der L2-Norm ‖ . ‖L2 nach (1.61),

S 1(Δ) = span( f0, . . . , fn−1)

mit den Hutfunktionen nach (1.37), dann gilt

‖α‖2A = 〈α .α〉A = αtAα = ‖ f ‖2L2

für f :=∑n−1

i=0 αi fi und α = (α0, . . . , αn−1)t ∈ Rn.‖ . ‖L2 erzeugt mithin auf dem Koeffizientenraum Rn eine gewichtete Norm ‖ . ‖A, wobei A

Page 157: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 539

gerade die Gramsche Matrix ist.Dies gilt für beliebige Grundräume V , endlichdimensionale U und von einem innerenProdukt erzeugte Normen. �Wir kehren nochmals zur LR-Zerlegung einer Matrix zurück. Im Allgemeinen hat eineinvertierbare Matrix keine LR-Zerlegung, d. h. (Zeilen-)Permutationen sind beim Gauss-Verfahren nötig. Der Fall A = LR wird durch das in (2.155) formulierte Kriterium cha-rakterisiert, das in der Regel schwer zu überprüfen ist. Für A > 0 folgt es aber sofort:

Satz 4.142

Sei A ∈ K(n,n), A = A†, A > 0 und sei Ar :=

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝a1,1 . . . a1,r...

...ar,1 . . . ar,r

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ ∈ K(r,r), dann:

1) det(Ai) > 0 für i = 1, . . . , n, d. h. A hat eine LR-Zerlegung.

2) A hat eine eindeutige Zerlegung der Form

A = LL†

mit einer (nicht normierten) unteren Dreiecksmatrix L mit positiven Diagonaleinträ-gen. Diese heißt Cholesky15-Zerlegung.

Beweis: Zu 1): Aus der Hauptachsentransformation A = U D U−1 folgt für eine positiveMatrix A

det(A) = det(U) det(D) det(U−1) = det(D) =n∏

i=1

λi > 0 . (4.109)

Auch ist Ai selbstadjungiert und positiv für alle i = 1, . . . , n.Um dies einzusehen, betrachte man im inneren Produkt die Vektoren

y := (x1, . . . , xr, 0, . . . , 0)t ∈ Kn .

Aus (4.109) angewendet auf Ai folgt die Behauptung.Zu 2): Die LR-Zerlegung A = LR mit normiertem L lässt sich auch schreiben als

A = L D R , (4.110)

wobei D = diag(ai) mit den Pivotelementen ai und die obere Dreiecksmatrix R normiertist.Auch die Darstellung (4.110) ist eindeutig nach Aufgabe 2.21 (siehe auch Lemma 2.90).

15 André-Louis Cholesky ∗15. Oktober 1875 in Montguyon †31. August 1918 in Nordfrankreich

Page 158: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

540 4 Eigenwerte und Normalformen von Matrizen

Da A = A†, folgt

A = A† = R†D†L†

und daher wegen der Eindeutigkeit R = L† und D = D†, d. h. ai ∈ R. Somit haben wir

A = L D L† .

Also ist auch D = L†AL und damit nach Bemerkung 4.134, 8) auch D positiv definit, d. h.

ai > 0, so dass die Diagonaleinträge durch ai = a12i a

12i „gleichmäßig“ auf die obere und

untere Dreiecksmatrix verteilt werden können.Mit D

12 := diag(a

12i ) definiert

L := L D12

eine Cholesky-Zerlegung von A.Für die Eindeutigkeit betrachte man zwei Cholesky-Zerlegungen L†1L1 = L†2L2, die Dia-gonaleinträge von Li seien mit a(i)

k (> 0) bezeichnet. Dann gilt auch L−†2 L†1 = L2L−11 , wobei

die linke Matrix eine obere, die rechte eine untere Dreiecksmatrix ist und die Diagonalein-träge (a(2)

k )−1a(1)k bzw. a(2)

k (a(1)k )−1 sind. Damit müssen sie gleich sein, d. h. L1 = L2. �

Die eigentliche Aussage von Satz 4.142, 2) liegt bei K = R.Für K = C können die Voraussetzungen an A abgeschwächt werden.

Beispiel 4.143 Sei A ∈ K(2,2)

A =(a bb c

)∈ K(2,2) ,

a, c ∈ R, d. h. A sei selbstadjungiert.

A > 0⇔ a = det(a) > 0 ,

ac − |b| = det(A) > 0 .(4.111)

Bei „⇐“ beachte man für die Eigenwerte λ1, λ2 ∈ R von A (nach Bemerkungen 4.31, 1)): λ1λ2 = det(A) >0 und c ≥ 0 wegen ac > b2 ≥ 0 und so λ1 + λ2 = sp(A) = a + c > 0, womit auch λ1 > 0, λ2 > 0 folgt.

4.7.2 Quadratische Optimierung

Die Minimierungsaufgabe der orthogonalen Projektion auf den Unterraum U wird im Be-weis von Hauptsatz 1.102 (in seiner „Koordinatenfassung“ nach Bemerkungen 1.104, 1))bzw. 1.102I (S. 349) umgeformt in

Page 159: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 541

Minimiere f : Kr → R (r = Dimension von U)

f (α) :=12〈Aα .α〉 − Re 〈α . β〉

und damit gezeigt, dass diese Minimierungsaufgabe äquivalent ist mit

Aα = β .

Inspektion des Beweises zeigt, dass hierbei nur die Positivsemidefinitheit der GramschenMatrix A eingegangen ist.

Also:

Satz 4.144: LGS = quadratische Minimierung

Sei A ∈ K(n,n), A = A†, A ≥ 0, b ∈ Kn.Dann sind äquivalent:

(i) x ∈ Kn löst das LGS Ax = b.

(ii) x ∈ Kn löst das Minimierungsproblem

Minimiere f : Kn → R, wobei

f (x) :=12〈Ax . x〉 − Re 〈x . b〉 . (4.112)

Ist A > 0, dann sind beide Probleme eindeutig lösbar.

Beweis: Siehe Bemerkungen 1.104, 1) und den Beweis von Hauptsatz 1.102 und Haupt-satz 1.102I (S. 349) für die Erweiterung auf K = C. �

Bemerkungen 4.145

1) Im Allgemeinen ist ein (Natur-)Vorgang stationär (zeitunabhängig), weil sich ein(Energie-)Minimum eingestellt hat. Satz 4.144 zeigt, dass ein LGS mit positiv defini-ter Matrix zu erwarten ist. Bei einem (schwingenden) mechanischen System entspricht(4.112) der Minimierung der potentiellen Energie, das LGS heißt dann Prinzip der virtu-ellen Arbeit.

*2) Im Beweis von Hauptsatz 1.102 (K = R) nach Bemerkungen 1.104, 1) wird diemehrdimensionale Analysis vermieden. Mit der dortigen Notation könnte aber auch fol-gendermaßen argumentiert werden:

g : R→ R minimal in t = 0⇒⟨Aα − β .γ⟩ = b = g′(0) = 0 .

Wegen

Page 160: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

542 4 Eigenwerte und Normalformen von Matrizen

ddt

f (α + tγ)∣∣∣t=0 =

⟨Aα − β .γ⟩ ,

also speziell für γ = ei, gilt für die partiellen Ableitungen von f :

∂ f∂αi

(α) = (Aα − β)i = 0, i = 1, . . . , r

und somit für den Gradienten von f

∇ f (α) = Aα − β = 0 .

Dabei gingen keine Bedingungen an A ∈ K(n,n) ein. Übertragen auch auf Satz 4.144 be-deutet das:

a) f (nach (4.112)) ist differenzierbar und

∇ f (x) = A x − b für alle x ∈ Kn ,

d. h. das Residuum im LGS.

b) Es sind äquivalent:

(i) Ax = b,

(ii) ∇ f (x) = 0,

(iii) f ist minimal in x.

Dabei gilt „ f ist minimal in x ⇒ ∇ f (x) = 0“ allgemein, die Rückrichtung folgt aus derspeziellen („quadratischen“ mit A > 0) Form von f .

3) Sei A > 0. Das LGS Ax = b kann also auch über das Minimierungsproblem (4.112) ge-löst werden (durch Abstiegsverfahren wie das Gradientenverfahren (siehe Abschnitt 8.2.3)oder besser das Verfahren der konjugierten Gradienten (CG-Verfahren (Algorithmus 6)).

4) Die Ausgleichsrechnung bezüglich ‖ . ‖ = ‖ . ‖2 fügt sich wie folgt ein:Sei A ∈ K(m,n), b ∈ Kn, dann ist A†A ≥ 0 nach Bemerkungen 4.139, 1), sodann sindäquivalent:

(i) x ∈ Kn löst das LGS A†Ax = A†b (Normalgleichungen),

(ii) Minimiere f (x) = 12

⟨A†Ax . x

⟩− Re

⟨x . A†b

⟩= 1

2‖Ax − b‖2 − 12‖b‖2.

5) Betrachten wir ein Ausgleichsproblem bezüglich einer allgemeinen, von einem innerenProdukt auf Kn erzeugten Norm, d. h. nach Bemerkungen 4.134, 4) bezüglich ‖ . ‖C für einC ∈ K(m,m),C > 0:

Minimiere ‖Ax − b‖2C auf x ∈ Kn für ein A ∈ K(m,n), b ∈ Km. (4.113)

Dann gilt

Page 161: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 543

‖Ax − b‖2C = ‖C12 Ax −C

12 b‖2 , (4.114)

wobei C12 ∈ K(m,m), C

12 > 0, die Wurzel von C ist nach Satz 4.135, 3).

Mit (4.113) liegt also ein Ausgleichsproblem bezüglich ‖ . ‖2 vor für A = C12 A und b :=

C12 b.

Es gilt somit:a) (4.113) hat eine Lösung x ∈ Kn mit eindeutigem Ax, d. h. insbesondere ein-

deutigem Residuum ‖Ax − b‖C .

b) Die Lösung ist eindeutig, wenn A vollen Spaltenrang hat.

c) Die Lösung ist charakterisiert durch das LGS

A†CAx = A†Cb , (4.115)

die Normalgleichungen .

6) Andererseits lässt sich auch jedes quadratische Optimierungsproblem nach (4.112) fürA > 0 als Ausgleichsproblem auffassen:Bezeichnet A

12 die Wurzel von A, dann ist

Ax = b⇔ A12 A

12 x = A

12 A−

12 b

und damit nach 4) und (4.115):Das Minimierungsproblem (4.112) ist äquivalent mit dem Ausgleichsproblem

‖A 12 x − A−

12 b‖2 = ‖Ax − b‖2A−1 → min .

*7) Man betrachte in Verallgemeinerung von Definition 2.76 eine allgemeine Pseudoin-verse zu den Normen ‖ . ‖C bzw. ‖ . ‖E , wobei E ∈ K(n,n), E > 0, C ∈ K(m,m), C > 0. D. h.sei A ∈ K(m,n), b ∈ Km:

Unter den Lösungen des Ausgleichsproblems

Minimiere ‖Ax − b‖2C auf x ∈ Kn

wähle die Normminimale x bezüglich ‖ . ‖E und setze

x := A+C,E b ,

dann ist x wohldefiniert und

Page 162: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

544 4 Eigenwerte und Normalformen von Matrizen

A+C,E = E−12 (C

12 AE−

12 )+C

12 . (4.116)

Unter Beachtung von (4.114) und analog ‖x‖E = ‖E 12 x‖ wird für y := E

12 x die bezüglich der euklidischen

Norm normminimale Lösung von

Minimiere ‖C 12 AE−

12 y −C

12 b‖2

gesucht, also

y = (C12 AE−

12 )+C

12 b

und damit (4.116). Hat A vollen Spaltenrang, folglich auch C12 AE−

12 , so reduziert sich (4.116) auf

A+C,E = (A†CA)−1A†C

(unabhängig von E), d. h. auf (4.115).

�Im Folgenden sollen quadratische Optimierungsprobleme, d. h. Minimierungsproblemeder Form (4.112) und Erweiterungen daraus weiter verfolgt werden. Es sei im Folgen-den A als positiv vorausgesetzt, so dass (4.112) eindeutig lösbar ist. In Hauptsatz 1.102(Hauptsatz 1.102I, S. 349) entstand (4.112) als äquivalente Formulierung zu einer ortho-gonalen Projektion. Andererseits lässt sich jede quadratische Minimierung als orthogonaleProjektion auffassen in der vom Energieskalarprodukt zu A erzeugten Norm ‖ . ‖A.

Satz 4.146

Sei A ∈ K(n,n), A = A†, A > 0, b ∈ Kn.Sei x := A−1b, dann gilt:

f (x) =12〈Ax . x〉 − Re 〈x . b〉 = 1

2‖x − x‖2A −

12

⟨b . x

⟩.

Beweis:

12‖x − x‖2A =

12

⟨Ax − b . x − x

⟩=

12

(〈Ax . x〉 − 〈b . x〉 − ⟨x . Ax

⟩+

⟨b . x

⟩)=

12〈Ax . x〉 − Re 〈x . b〉 + 1

2⟨b . x

⟩,

siehe auch Bemerkungen 4.145, 6). �

Bemerkungen 4.147

1) Da der konstante Anteil

Page 163: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 545

−12

⟨b . x

⟩ (= −1

2〈b . b〉A−1 = −1

2⟨x . x

⟩A

)keinen Einfluss auf die Minimalstelle von f hat, ist also, wie aus Satz 4.144 bekannt, xMinimalstelle von f auf Kn.

2) Näherungen für die Lösung des LGS Ax = b können somit dadurch bestimmt werden,dass statt (4.112) gelöst wird:

Minimiere f (x) für alle x ∈ W (4.117)

für einen affinen Unterraum W vonKn. Da (4.117) nach Satz 4.146 die orthogonale Projek-tion von x auf W bezüglich ‖ . ‖A darstellt, existiert die Minimalstelle nach Hauptsatz 1.102eindeutig. Das Verfahren der konjugierten Gradienten benutzt für U eine aufsteigende Fol-ge von Krylov-Unterräumen: Siehe Numerische Mathematik bzw. Optimierung. �Im Folgenden sollen solche quadratischen Optimierungsprobleme nach (4.117) behandeltwerden, wobei nach Korollar 1.55 und 1.83 W äquivalent durch ein Gleichungssystemrepräsentiert wird, aufgrund dessen:

Minimiere f (x) =12〈Ax . x〉 − Re 〈x . b〉

unter der Nebenbedingung

B†x = d .

(4.118)

Dabei ist B ∈ K(n,m), d ∈ Km und typischerweise m < n. Man spricht bei (4.118) auch voneinem quadratischen Minimierungsproblem mit linearen Gleichungsnebenbedingungen.Auch hier ergibt sich eine äquivalente Formulierung mit Hilfe eines LGS:

Satz 4.148: Optimalitätsbedingung

Sei A ∈ K(n,n), A = A†, A > 0, b ∈ Kn, B ∈ K(n,m), d ∈ Km. Das LGS B†x = d seilösbar. Sei x ∈ Kn. Dann sind äquivalent:

(i) x ∈ Kn löst (4.118).

(ii) Es gibt ein y ∈ Km, einen Lagrange-Multiplikator, so dass gilt:

Ax + By = b ,B†x = d .

(4.119)

Die Lösungen x bzw. (x, y) existieren, x ist immer eindeutig, y ist eindeutig, wennB vollen Spaltenrang hat.

Page 164: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

546 4 Eigenwerte und Normalformen von Matrizen

Beweis: Sei U := Kern B†, sei x ∈ Kn eine spezielle Lösung von B†x = d, dann ist dieEinschränkungsmenge in (4.118) der affine Unterraum

W := x + U ,

so dass nach Satz 4.146 das Minimierungspoblem (4.118) äquivalent lautet:

Minimiere f (x) = ‖x − x‖A für x ∈ W . (4.120)

Dabei ist x := A−1b. Nach Hauptsatz 1.102I, 1) (S. 349) ist die eindeutig existierendeMinimialstelle x von (4.120) bzw. (4.118) charakterisiert durch⟨

x − x . u⟩

A = 0 für u ∈ U⇔ ⟨

Ax − b . u⟩= 0 für u ∈ U

⇔ Ax − b ∈ U⊥ = (Kern B†)⊥ = Bild B⇔ Es existiert y ∈ Km mit Ax − b = B(−y) .

Das Urbild y ist eindeutig, genau dann, wenn B injektiv ist, d. h. vollen Spaltenrang hat.�

Bemerkungen 4.149

1) Der Beweis von Satz 4.148 zeigt:Wird die Einschränkung nicht implizit wie in (4.119), sondern explizit durch

x ∈ x + U ,

wobei U ⊂ Kn ein linearer Unterraum ist, aufgenommen, dann gilt die Äquivalenz:

(i) x ∈ Kn löst (4.118).

(ii) 〈Ax − b . y〉 = 0 für alle y ∈ U, x ∈ x + U.

2) Sei A ∈ K(n,n), A = A† beliebig. Nach Hauptsatz 4.58 gibt es A-invariante UnterräumeUi, i = 1, 2, 3, wobei U1 eine ONB aus Eigenvektoren zu positiven Eigenwerten, U2 eineONB aus Eigenvektoren zu negativen Eigenwerten hat, U3 = Kern A und die Ui sindpaarweise orthogonal zueinander. Sei f (x) := 1

2 〈Ax . x〉 − Re 〈x . b〉. Dann gilt für x =∑3i=1 xi, xi ∈ Ui:

a) Ax = b⇒i) f1(x1) := f (x1 + x2 + x3) hat ein Minimum in x1.

ii) f2(x2) := f (x1 + x2 + x3) hat ein Maximum in x2.

b) Ist U3 = {0}, dann folgt die Rückrichtung in a). Man spricht daher von x = (x1, x2) alseinem Sattelpunkt.Das kann man folgendermaßen einsehen:

Ax1 − b = −A(x2 + x3) ∈ U⊥1

und auch

Page 165: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 547

Ax1 − b := Ax1 − (b − Ax2 − Ax3) = 0 , (4.121)

daher minimiert x1 f auf U1 nach 1) und damit auch f1, denn es gilt für einen Unterraum U und a ∈ Kn

f (a + u) =12〈Au . u〉 − Re 〈u . (b − Aa)〉 + c

und c = 12 〈Aa . a〉−Re 〈a . b〉. Für die Anwendung von 1) muss A > 0 gelten, was aber durch Modifikation

der Eigenwerte auf U2, U3 erreicht werden kann, ohne Ax1 = b zu verändern.Analog zeigt man ii) unter Beachtung, dass Φ2 := − A|U2 positiv definit ist, d. h. a) gilt. Bei b) folgt alsonach 1) unter Beachtung von (4.121)

Ax1 − b = −Ax2 − Ax3 ∈ U⊥1 ,

Ax2 − b = −Ax1 − Ax3 ∈ U⊥2 ,

also Ax − b ∈ U⊥1 ∩ U⊥2 = {0}.

3) Die hinreichende Bedingung für die eindeutige Lösbarkeit von (4.119) aus Satz 4.148kann verschärft werden zu:

a) A ist positiv definit auf Kern B†,

b) Rang(B) = m.Das kann man wie folgt einsehen: Sei

L :=(

A BB† 0

)∈ R(m+n,m+n) .

„(a),(b)⇒ L ist invertierbar“:

Sei L(xy

)= 0, d. h. Ax + By = 0, B†x = 0 und so insbesondere 〈Ax . x〉 +

⟨y . B†x

⟩= 0 und x ∈ Kern B†.

Daraus folgt x = 0 nach a) und nach b) auch y = 0.

Das LGS (4.119) in(xy

)ist gestaffelt. Im Allgemeinen ist zwar y nicht eliminierbar, wohl

aber x, so dass ein (nicht eindeutig lösbares) LGS nur für den Lagrange-Multiplikatorentsteht.

Satz 4.150: Dualitätssatz

Unter den Voraussetzungen von Satz 4.148 sind die dortigen Aussagen auch äquiva-lent mit:

(iii) y ∈ Km ist Lösung von

B†A−1By = −d + B†A−1b (4.122)

und x ∈ Kn ist dann die eindeutige Lösung von

Ax = b − By .

Page 166: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

548 4 Eigenwerte und Normalformen von Matrizen

(iv) y ∈ Kn ist Lösung des Maximierungsproblems

Maximiere F∗(y) := −12

⟨B†A−1By . y

⟩+ Re

⟨y . B†A−1b − d

⟩− 1

2

⟨b . A−1b

⟩.

(4.123)

x ∈ Kn ist dann die eindeutige Lösung von

Ax = b − By . (4.124)

(4.123) heißt auch das zu (4.118) duale Problem.

Beweis: (ii)⇔(iii): Dies folgt sofort durch Auflösung der ersten Gleichung von (4.119)nach x und Einsetzen in die Zweite bzw. bei der Rückrichtung durch Elimination von Byin der ersten Gleichung von (4.122).(iii)⇔(iv): Da B†A−1B ≥ 0, kann nach Satz 4.144 die erste Gleichung von (4.122) äqui-valent als Minimierungsproblem mit dem Funktional −F∗(y) − 1

2

⟨b . A−1b

⟩geschrieben

werden, was mit dem Maximierungsproblem (4.123) äquivalent ist. �

Man beachte, dass das duale Problem keine Nebenbedingungen mehr beinhaltet. Ab hierbeschränken wir uns auf K = R. Die etwas unhandliche Gestalt von F∗ lässt sich unterBenutzung der primalen Variable x nach (4.124) umschreiben. Dazu sei

L : Rn ×Rm → R definiert durch

(x, y) �→ 12〈Ax . x〉 − 〈x . b〉 +

⟨y . Btx − d

⟩,

(4.125)

das Lagrange-Funktional.

L entsteht demnach aus F, indem die Gleichungsnebenbedingung mit (dem Multiplikator)y „angekoppelt“ wird.

Sind sodann x, y so, dass Btx = d, dann gilt offensichtlich

L(x, y) = F(x) .

Etwas mehr elementarer Umformungen bedarf es, das Folgende einzusehen:Sind x, y so, dass Ax + By = b, dann gilt

L(x, y) = F∗(y) . (4.126)

Da x ∈ Rn, y ∈ Rm, die (i) bis (iv) aus Satz 4.148 bzw. Satz 4.150 erfüllen, beide Bedin-gungen realisieren, gilt also

Page 167: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 549

min{F(x) : x ∈ Rn, Btx = d

}= F(x)

= L(x, y) = F∗(y) = max {F∗(y) : y ∈ Rm} .(4.127)

Darüber hinaus gilt:

Satz 4.151: Sattelpunkt des Lagrange-Funktionals

Unter den Voraussetzungen von Satz 4.148 gilt für die dort und in Satz 4.150 cha-rakterisierten x ∈ Rn, y ∈ Rm:

maxy∈Rm

minx∈Rn

L(x, y) = L(x, y) = minx∈Rn

maxy∈Rm

L(x, y) .

Beweis: Sei für beliebiges, festes y ∈ Rm

F(x) = L(x, y) .

Nach Satz 4.144 hat F ein eindeutiges Minimum x = xy und dieses ist charakterisiertdurch

Ax = b − By ,

daher nach (4.126)

minx∈Rn

L(x, y) = L(x, y) = F∗(y) und so

maxy∈Rm

minx∈Rn

L(x, y) = F∗(y) .

Andererseits ist für festes x ∈ Rn

maxy∈Rm

L(x, y) =

⎧⎪⎪⎨⎪⎪⎩ ∞ , falls Btx � c12 〈Ax . x〉 − Re 〈x . b〉 , falls Btx = c

und somit

minx∈Rn

maxy∈Rm

L(x, y) = F(x) .

Mit (4.127) folgt die Behauptung. �

Mathematische Modellierung 5 Die erzielten Ergebnisse lassen sich direkt auf Beispiel 2 (elektrischesNetzwerk) und Beispiel 3 (Massenkette) anwenden und ergeben äquivalente Formulierungen, die einedirekte physikalisch-technische Interpretation haben (siehe auch Eck, Garcke und Knabner 2011, S.62 f.). In beiden Fällen entsteht ein LGS vom Typ (4.119) (man beachte, dass die Bezeichnungen x und ygetauscht sind). Beispiel 2 führt mit (MM.51) auf (4.119), mit c = 0, das somit äquivalent ist zu (4.118),d. h.

Page 168: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

550 4 Eigenwerte und Normalformen von Matrizen

Minimiere12〈Ay . y〉 − 〈y . b〉

unter Bty = 0 .

(MM.83)

Dabei sind y die Ströme (in den Kanten des Netzwerks). Es wird demzufolge die Dissipation elektrischerEnergie bei angelegter Spannung unter der Nebenbedingung der Ladungserhaltung minimiert. Analogführt Beispiel 3 mit (MM.40) auf (4.119) mit b = 0 und c = f , was also äquivalent ist zu

Minimiere12〈Ay . y〉

unter Bty = f .(MM.84)

Hier wird die gespeicherte Energie minimiert unter der Nebenbedingung der vorgegebenen Knotenkräfte.Die knotenbezogenen Variablen x der Potentiale bzw. der Verschiebungen spielen die Rolle von Lagran-ge-Multiplikatoren in diesen variationellen Formulierungen (MM.83) bzw. (MM.84).

Die primale Form mit eliminiertem Lagrange-Multiplikator (4.122) ist schon in (MM.68) bzw.(MM.41) aufgetreten, d. h.

BtA−1Bx = BtA−1 b

bzw.

BtA−1Bx = f ,

wobei jeweils C = A−1 eine Diagonalmatrix mit positiven Diagonalelementen ist.Dabei ist der erste Fall nach (4.115) äquivalent zu

Minimiere ‖Bx − b‖C .

Für den zweiten gilt eine analoge Interpretation nur für f = BtC f für ein f ∈ Rn. In beiden Fällen gilt dieallgemeine Äquivalenz zum dualen Problem (4.123) für die Lagrange-Multiplikatoren.

Wichtig ist, auf den prinzipiellen physikalischen Unterschied zwischen den beiden, in ihren mathema-tischen Strukturen sehr ähnlichen Beispielen hinzuweisen:

Beispiel 2 ist ein stationäres Problem für einen dynamischen, d. h. zeitabhängigen Prozess: Es wirdständig Ladung bewegt, der entstehende Stromfluss ist aber zeitlich konstant. Dazu muss ständig die Ener-gie dissipiert werden, die von außen zugeführt wird.

Beispiel 3 beschreibt einen statischen Prozess. Gesucht wird ein Minimum einer Energie, im Lösungs-zustand findet keine Bewegung statt. �

4.7.3 Extremalcharakterisierung von Eigenwerten

Auch Eigenwerte bei normalen Matrizen (und Singulärwerte allgemein) können als Extre-ma quadratischer Funktionale charakterisiert werden.

Sei A ∈ K(n,n) selbstadjungiert, so dass A nach Hauptsatz 4.58 eine ONB aus Eigenvek-toren besitzt: A = UDU† , wobei D = diag(λi) ∈ R(n,n), U = (u(1), . . . , u(n)) orthogonalbzw. unitär, und u(i) Eigenvektor zu λi ist. Wir betrachten wie schon in Abschnitt 4.5 dieRayleigh-Quotienten (4.82)

f (x) := 〈Ax . x〉 /‖x‖22

Page 169: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 551

und untersuchen dazu das Maximierungsproblem

Maximiere f (x) für x ∈ U, x � 0 , (4.128)

wobei U ein linearer Unterraum von Kn ist. Nach Bemerkungen 4.134, 1) ist (4.128)wohldefiniert. Es gilt

maxx∈Ux�0

f (x) = maxx∈U‖x‖22=1

〈Ax . x〉 , (4.129)

da f (x) =⟨Ax . x

⟩für x := x/‖x‖2, so dass bei (4.128) tatsächlich ein quadratisches

Funktional (für eine i. Allg. nicht positiv definite Matrix −A) minimiert wird, aber unterder nichtlinearen (quadratischen) Nebenbedingung

‖x‖22 = 1 .

O. B. d. A. seien die Eigenwerte absteigend geordnet:

λ1 ≥ λ2 . . . ≥ λn . (4.130)

Es ergibt sich unmittelbar, dass

maxx∈Kn , x�0

f (x) = λ1 , (4.131)

d. h. der größte Eigenwert maximiert die Rayleigh-Quotienten.Es ist nämlich:

〈Ax . x〉 =⟨UDU†x . x

⟩= 〈Dy . y〉

für y := U†x, also

〈Ax . x〉 =n∑

i=1

λi|yi|2 ≤ λ1‖y‖22

und wegen ‖x‖2 = ‖y‖2 damit

f (x) ≤ λ1 für alle x ∈ Kn .

Für x = u(1) wird andererseits der Wert λ1 angenommen. In Verallgemeinerung gilt:

Satz 4.152: Minimax-Theorem

Sei (V, 〈 . 〉) ein n-dimensionaler, euklidischer bzw. unitärer Raum, Φ ∈ HomK(V, V)selbstadjungiert und die Eigenwerte seien nach (4.130) absteigend angeordnet.Dann gilt

Page 170: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

552 4 Eigenwerte und Normalformen von Matrizen

λ j = minU Unterraum vonV, dim U=n− j+1

maxu∈Uu�0

f (u) ,

wobei

f (u) := 〈Φu . u〉 /‖u‖2

und ‖ . ‖ die von 〈 . 〉 erzeugte Norm bezeichnet.

Beweis: Für j = 1 entspricht dies (4.131), da dann nur der Unterraum U = V mit dim U =n existiert.

Wir zeigen vorerst nur eine abgeschwächte Version, bei der max durch sup ersetzt wird(siehe Anhang Definiton A.24).

Allgemein sei j ∈ {1, . . . , n}, U ein Unterraum mit dim U = n − j + 1. Wir zeigen: Esgibt ein u ∈ U, u � 0, so dass

f (u) ≥ λ j

und damit

supu∈Uu�0

f (u) ≥ λ j (4.132)

und daraus folgt

infU

dim U=n− j+1

supu∈Uu�0

f (u) ≥ λ j .

u1, . . . , un sei eine ONB von V , so dass ui Eigenvektor zu λi ist. Sei

Un := {0}, Ui := span(ui+1, . . . , un) für i = 1, . . . , n − 1 ,

dann gilt wegen dim Ui = n − i und damit dim U⊥i = i

U⊥j ∩U � {0} ,denn sonst hätte die direkte Summe U⊥j +U die Dimension j+ (n− j+1) > n. Sei nunmehru ∈ U ∩ U⊥j , u � 0 und damit in der Eigenvektorbasisdarstellung

u =n∑

k=1

αkuk mit αk = 〈u . uk〉 = 0 für k = j + 1, . . . , n .

Mit (1.89) erhält man

f (u) = 〈Φu . u〉 /‖u‖2 =j∑

k=1

λkα2k/‖(αk)k‖22 ≥ λ j .

Page 171: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.7 Positiv definite Matrizen und quadratische Optimierung 553

Sei andererseits U := span(u j, . . . , un), dann ist dim U = n − j + 1 und für u ∈ U, u � 0

gilt:

u =n∑

k= j

αkuk , f (u) =n∑

k= j

λkα2k/‖(αk)‖22 ≤ λ j

und damit zusammen mit (4.132)

maxu∈Uu�0

f (u) = λ j

und so die Behauptung. �

Bemerkungen 4.153

1) Tatsächlich gilt wegen (4.129)

supu∈Uu�0

f (u) = maxu∈Uu�0

f (u) ,

d. h. das Supremum wird immer angenommen. Der Beweis kann erst mit den Kenntnissenaus Kapitel 7 erbracht werden.

2) Betrachtet man V = Kn, aber mit 〈x . y〉 := 〈Mx . y〉 mit einem M ∈ K(n,n), M > 0,dann charakterisiert Satz 4.152 die Eigenwerte des verallgemeinerten Eigenwertproblems(4.107).

3) Analog gilt

minu∈V f (u) = λn ,

min f (u)v∈span(ui+1,...,un)⊥

= λi für i = n − 1, . . . , 1

und die Minima werden an den Eigenvektoren ui der ONB angenommen.Diese Minimierungsprobleme können auch genutzt werden, die Existenz von reellen Ei-genwerten und einer zugehörigen ONB aus Eigenvektoren zu zeigen, was aber Methodenaus Kapitel 7 braucht. In dieser Sichtweise sind die λi Lagrange-Multiplikatoren zurInkorporation der Nebenbedingung ‖x‖22 = 1 nach (4.129).

4) Sei A ∈ K(m,n) für m, n ∈ N, sei A = VΣU† eine normierte SVD, dann gilt

σ j = minUnterraum von Kn

dim U=n− j+1

maxx∈Ux�0

‖Ax‖2/‖x‖2 .

Das kann man folgendermaßen einsehen: Die Überlegungen zu Hauptsatz 4.127 zeigen insbesondere,dass σ2

j genau die Eigenwerte der hermiteschen Matrix A†A sind. Anwendung von Satz 4.152 (für daseuklidische SKP) und

Page 172: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

554 4 Eigenwerte und Normalformen von Matrizen

f (x) =⟨A†Ax . x

⟩/ 〈x . x〉

= ‖Ax‖22/‖x‖22mit abschließendem Wurzelziehen ergibt die Behauptung.

5) Analog zu 4) gilt die modifizierte Form von 3) für Singulärwerte. Dies gibt die Mög-lichkeit eines Beweises von Hauptsatz 4.127 mit Mitteln der Analysis. �

Was Sie in diesem Abschnitt gelernt haben sollten:

Begriffe:

• Positiv (semi)definite Abbildungen und Matrizen: A ≥ 0, A > 0• Energieskalarprodukt, -norm• Duales Problem• Lagrange-Funktional• Cholesky-Zerlegung

Zusammenhänge:

• A > 0⇔ alle Eigenwerte positiv (Satz 4.135)• A positiv semidefinit⇔ A Gramsche Matrix (Satz 4.140)• A ≥ 0 : Ax = b⇔ x löst quadratisches Minimierungsproblem

12〈Ax . x〉 − Re 〈x . b〉 → min

(Satz 4.144)• Quadratische Minimierung = Projektion in Energienorm (Satz 4.146)• Quadratische Minimierung bei Gleichungsnebenbedingungen = LGS mit La-

grange-Multiplikator (Satz 4.148)• Minimax-Theorem (Satz 4.152)• A > 0⇔ Hauptminoren positiv (Satz 4.142, Aufgabe 4.43)

Aufgaben

Aufgabe 4.39 Sei A ∈ K(n,n) selbstadjungiert. Zeigen Sie unter Verwendung von (4.131):Es gibt ein λ ∈ R, so dass

A + λ1 positiv definit

ist.

Page 173: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

Aufgaben 555

Aufgabe 4.40 Sei A ∈ K(n,n) selbstadjungiert, A > 0 und orthogonal bzw. unitär. ZeigenSie, dass dann notwendigerweise A = 1 gilt.

Aufgabe 4.41 Unter den Voraussetzungen von Satz 4.152 gilt

λ j = maxU Unterraum

von V, dim U= j

minu∈Uu�0

f (u) .

Aufgabe 4.42 Formulieren und beweisen Sie Minimums- und Maximums-Minimumspro-bleme zur Beschreibung von Singulärwerten analog zu Bemerkungen 4.153, 3) und Auf-gabe 4.41.

Aufgabe 4.43 (T) Für A ∈ K(n,n) gelte A = A† und det(Ar) > 0 für alle 1 ≤ r ≤ n, wobeidie Hauptminoren Ar von A wie in Satz 4.142 definiert sind. Zeigen Sie mit vollständigerInduktion und unter Verwendung der Cholesky-Zerlegung, dass A positiv definit ist.

Aufgabe 4.44 (T) Für b ∈ Rm definiere man xb als Lösung des Problems

Axb = b und ‖xb‖ minimal,

wobei A ∈ R(m,n), m < n, Rang(A) = m. Bestimmen Sie mit Hilfe von Lagrange-Multiplikatoren eine explizite Darstellung für die Pseudoinverse A+ von A, für die A+b =xb für alle b ∈ Rm gilt.

Aufgabe 4.45 (K) Für das Funktional

f : R3 → R, f (x1, x2, x3) =52

x21 +

12

x22 +

12

x23 − x1 x3 − x1 + x2 − 2x3

werde das (primale) Minimierungsproblem

Minimiere f (x1, x2, x3)unter der Nebenbedingung

x1 + x2 + x3 = 1

betrachtet.

a) Zeigen Sie, dass dieses Problem eine eindeutige Minimalstelle x = (x1, x2, x3)besitzt.

b) Ermitteln Sie die Minimalstelle x unter Verwendung von Lagrange-Multiplikatorenund bestimmen Sie den Minimalwert.

c) Formulieren Sie das zugehörige duale Problem und zeigen Sie, dass dieses densel-ben Minimalwert besitzt wie das primale Problem.

Page 174: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

556 4 Eigenwerte und Normalformen von Matrizen

4.8 Ausblick: Das Ausgleichsproblem und die QR-Zerlegung

Betrachten wir nochmal das Schmidtsche Orthonormalisierungsverfahren für linear un-abhängige a(1), . . . , a(n) ∈ Kn nach Theorem 1.112, d. h. für ein invertierbares A =(a(1), . . . , a(n)

)∈ K(n,n). Das Verfahren erzeugt eine ONB q(1), . . . , q(n) ∈ Kn und zwar

so, dass

q( j) =

j∑i=1

ri, ja(i) und ri,i � 0 für i = 1, . . . , n ,

da span(q(1), . . . , q( j)

)= span

(a(1), . . . , a( j)

)für alle j = 1, . . . , n. Somit gilt für

Q :=(q(1), . . . , q(n)

)∈ K(n,n)

r( j) :=(ri, j

)i∈ Kn, R =

(r(1), . . . , r(n)

)∈ K(n,n) :

q( j) = Ar( j), also Q = AR ,

R ist eine invertierbare obere Dreiecksmatrix, Q ist unitär.

Damit hat man mit R := R−1, dass auch eine obere Dreiecksmatrix ist.

A = QR . (4.133)

Eine solche Darstellung (4.133) mit unitärem Q und oberer Dreiecksmatrix R heißtQR-Zerlegung von A.

Sie existiert mithin immer und ist mindestens so wichtig wie die nur eingeschränkt exis-tierende LR-Zerlegung. Die Berechnung über die Schmidtsche Orthonormalisierung istaber i. Allg. nicht empfehlenswert, da diese zu sehr rundungsfehleranfällig (numerisch in-stabil) ist. Bessere Alternativen sind Verfahren, die analog zum Gauss–Verfahren sukzes-sive die Spalten von A unter der Diagonalen bereinigen, dies aber mit orthogonalen Trans-formationen. In Frage kommen dafür Spiegelungen (Householder–Transformationen)oder Drehungen (Givens–Rotation, vgl. (2.23)) (siehe Numerische Mathematik ). Dafürmuss weder die Invertierbarkeit von A noch die quadratische Gestalt vorausgesetzt werden.

Auf diese Weise kann auch für eine allgemeine Matrix A ∈ K(m,n) eine QR-Zerlegungin folgendem Sinn gefunden werden:

Page 175: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.8 Ausblick: Das Ausgleichsproblem und die QR-Zerlegung 557

A = QR ,

dabei ist Q ∈ K(m,m) orthogonal und R ∈ K(m,n) obere Dreiecksmatrix.Im Fall m ≥ n haben wir für die QR-Zerlegung A = QR ein Q =

(q(1), . . . , q(m)

)und R =

(R′

0

), wobei R′ ∈ K(n,n) eine obere Dreicksmatrix ist, so dass auch die

reduzierte Form gilt:

A = Q′R′ ,

wobei Q′ =(q(1), . . . , q(n)

)∈ K(m,n) die Gleichung

Q†Q = 1

erfüllt.

(i. Allg. ist aber nicht Q Q† = 1, dies folgt nur für n = m) Die Spalten von Q sind alsoorthonormal. Es gilt weiterhin (siehe Bem. 2.57, 2)): ‖Qx‖ = ‖x‖ für x ∈ Kn.

Ist andererseits A = QR eine reduzierte QR-Zerlegung, dann kann Q mit m−n Elemen-ten aus Km zu einer ONB von Km ergänzt werden:

Q := (Q, Q) ∈ K(m,m)

und R mit Nullzeilen zu

R :=(

R0

)∈ K(m,n) ,

so dass

A = Q R .

Für den Fall, dass A vollen Spaltenrang hat, kann man sich von der Existenz einer QR-Zerlegung folgendermaßen überzeugen:

Man betrachte die Anwendung des Gauss-Verfahrens auf die Normalgleichungen

A†A x = A†b , (4.134)

in einer Variante, die eine Cholesky-Zerlegung (Satz 4.142) erzeugt, d. h.

A†A = L L†

mit unterer Dreiecksmatrix L. Sei

R := L†, Q := AL−† ,

Page 176: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

558 4 Eigenwerte und Normalformen von Matrizen

dann ist offensichtlich

A = QR . (4.135)

Es gilt:R ∈ K(n,n) ist obere Dreiecksmatrix.Q ∈ K(m,n) erfüllt Q†Q = 1, da

Q†Q = L−1A†A L−† = L−1L L†L−† = 1 .

Liegt eine QR-Zerlegung eines invertierbaren A ∈ K(n,n) vor, so kann das LGS Ax = bfolgendermaßen gelöst werden:

Ax = b⇔ QRx = b⇔ Rx = Q†b.

Dabei ist notwendig R invertierbar wegen R = Q†A, so dass das letzte LGS eindeutigmittels Rückwärtssubstitution gelöst werden kann.

Seien A ∈ K(m,n), m ≥ n, Rang(A) = n, b ∈ Kn und wir betrachten das (eindeutiglösbare) Ausgleichsproblem:

Minimiere ‖Ax − b‖ ,wobei ‖ . ‖ die euklidische Norm bezeichnet.

Die allgemeinste Lösung wird durch die Singulärwertzerlegung A = U†Σ V gegeben, dadann

x = V†Σ+U b . (4.136)

Diese ist aber am Aufwändigsten zu berechnen. Die Normalgleichungen (4.134) sindscheinbar am Attraktivsten, da A†A positiv definit ist. In Abschnitt 8.1.2 werden wir abersehen, dass die Fehlersensitivität von (4.134) gegenüber (4.136) verdoppelt ist, so dassandere Verfahren vom Aufwand einer LR-Zerlegung wünschenswert sind.

Sei nun A ∈ K(m,n) beliebig mit einer QR-Zerlegung A = QR.Für das Ausgleichsproblem zu A und b ∈ Kn folgt:

‖Ax − b‖2 = ‖QRx − b‖2 = ‖Rx − Q†b‖2. (4.137)

Vorerst sei m ≥ n. Sei Q†b =(y′

y′′

)mit y′ ∈ Kn, y′′ ∈ Km−n. R hat die Gestalt

R =(

R′

0

),

wobei R′ ∈ K(n,n) eine obere Dreiecksmatrix ist. Also kann die Gleichungskette in (4.137)fortgesetzt werden mit

Page 177: [Springer-Lehrbuch] Lineare Algebra || Eigenwerte und Normalformen von Matrizen

4.8 Ausblick: Das Ausgleichsproblem und die QR-Zerlegung 559

= ‖R′x − y′‖2 + ‖y′′‖2,was also für x ∈ Kn zu minimieren ist. Die Gesamtheit der Lösungen sind also gerade dieLösungen des LGS

R′x = y′ (4.138)

Dies entspricht (mit i. Allg. verschiedener Matrix R !) der Teilaufgabe 2b) bei der LR-Zerlegung (S. 254). Als unvermeidbarer Fehler ergibt sich ‖y′′‖.

Das LGS ist (exakt) lösbar genau dann, wenn y′′ = 0. Das Ausgleichsproblem ist ein-deutig lösbar genau dann, wenn R′ invertierbar ist.

Ist n > m, so sei x =(

x′

x′′

)mit x′ ∈ Km, x′′ ∈ Kn−m, y′ := Q†b und es ist

R = (R′, 0) ,

wobei R′ ∈ K(m,m) eine obere Dreiecksmatrix ist. Also:

‖Ax − b‖2 = ‖R′x′ − Q†b‖2

und damit ist die Gesamtheit der Lösungen x =(x′t, x′′t

)t, wobei die x′ die Lösungenvon (4.138) sind (für y′ = Q†b). Das LGS ist also (exakt) lösbar genau dann, wenn R′invertierbar ist. Die Lösungen sind aber immer mehrdeutig.

Diese Vorgehensweise ist sehr ähnlich zum Vorliegen einer SVD A = U†ΣV , wobeisich Q und U† entsprechen. Da anstelle von ΣV aber die obere Dreiecksmatrix R vorliegt,ist noch das LGS (4.138) zu lösen und im nichteindeutigen Fall ist die normminimaleLösung, d. h. A+b nicht so direkt zu bestimmen wie bei Vorliegen einer SVD. Andererseitsist die Berechnung einer SVD wesentlich aufwändiger als die einer QR-Zerlegung.

Alternativ kann man von der Form (4.135) einer QR-Zerlegung ausgehen und setzen:

P := QQ† ∈ K(m,m) .

P ist dann eine orthogonale Projektion (siehe Satz 2.64).Genauer ist Px =

∑mi=1

⟨x . q(i)

⟩q(i) für die Spalten q(1), . . . , q(m) von Q, so dass P auf

Bild Q projiziert. Da Bild A ⊂ Bild Q gilt, folgt nach Pythagoras:

‖Ax − b‖2 = ‖Ax − Pb − (1 − P)b‖2 = ‖Ax − Pb‖2 + ‖(1 − P)b‖2

und

‖Ax − Pb‖2 = ‖Q Rx − Q Q†b‖2 = ‖Rx − Q†b‖2 ,

so dass wieder (4.138) für die Lösung des Ausgleichsproblems gilt.


Recommended