Charakteranimation durch Motion Capture mittels Microsoft Kinect (Seminararbeit)

Gymnasium Weilheim Abiturjahrgang 2015

S E M I N A R A R B E I T

Rahmenthema des Wissenschaftspropädeutischen Seminars:

Programmierung eines Abenteuerspiels

Leitfach: Informatik

Thema der Arbeit:

Charakteranimation durch Motion Capture

Verfasser/in:

Finn Süberkrüb

Kursleiter/in:

Abgabetermin: 4. November 2014

Bewertung Punkte Punkte

schriftliche Arbeit3 - x 3 Abschlusspräsentation2 x 1

Summe: Gesamtleistung nach § 61 (7) GSO = Summe : 2 (gerundet)

Datum und Unterschrift der Kursleiterin bzw. des Kursleiters


2

Inhaltsangabe

1. Einleitung 4

2. Der Kinect Sensor 5

2.1 Technische Daten 5

2.2 Array-Mikrofone 5

2.3 Farbkamera 5

2.4 Beschleunigungssensor 5

2.5 Tiefensensor 6

2.6 Chip (PS1080) 6

3. Dreidimensionale Erfassung der Kinect 6

3.1 Messvorgang 6

3.2 Alternativen 7

4. RAW Daten Analyse 8

4.1 Verbindung 9

4.2 Kanten Analyse 9

• Tiefendaten 9

• Der Canny-Algorithmus 9

• Vorprozessierung 9

• Kantenerkennung 10

4.3 Erkennungsmuster 10

4.4 Distance Transform Pyramid 11

• Auflösungspyramide 11

• Entfernungsbilder 11

• Übereinstimmung 11

4.5 NI mate 12


3

5. 3D Charakter 12

5.1 Vorbereitung 12

5.2 Das Mesch 13

• Boxmodeling 13

• Polygon Modeling 13

• 3D Scanner 13

• Modell Generatoren 13

5.3 Rigging 14

5.4 Skinning 14

5.5 Kinect Schnittstelle 14

6. Animation 15

6.1 Vorbereitung 15

6.2 Aufnahme 16

6.3 Nachbearbeitung 16

7. Import in die jMonkeyEngine 17

8. Fazit 17

9. Literaturverzeichnis 19

Bildnachweis 20


2

1. Einleitung

Ein Spiel zu entwickeln heißt, eine Vielzahl verschiedener Aufgaben zu bewältigen.

Von der Spielidee bis zum Endgegner ist es ein langer Weg. Zum einen wird eine

Geschichte aufgebaut und es werden Welten gestaltet. Zum anderen muss das Spiel

noch eine gewisse Logik besitzen. Ganz selbstverständliche Dinge, dass ein Stein

auf den Boden fällt oder ein Mensch gehen kann, müssen dem Programm wie einem

Kind erklärt werden.

Die folgende Seminararbeit beschreibt die Animation von Charakteren mit Hilfe des

Kinect Sensors von Microsoft, welche anschließend in die jMonkeyEngine

eingebunden werden.

Da eine realistische Animation von Bewegungen mindestens genau so viel Zeit in

Anspruch nimmt, wie das eigentliche Gestalten der Figur, habe ich mich mit

Möglichkeiten beschäftigt, diese Arbeit zu beschleunigen. Motion Capturing zur

Animation von 3D Charakteren ist keine Neuheit. In großen Animationsfilmen wird

diese Technik schon sehr viel eingesetzt. Jedoch sind die dort verwendeten Systeme

wegen der Kosten und der benötigten Rechenleistung nur für professionelle

Anwendungen geeignet. Vor einigen Jahren hat Microsoft eine Spielekonsole mit

dem Kinect Sensor zur dreidimensionalen Erfassung des Spielers auf den Markt

gebracht. Viele Hacker haben Kinect für neue Anwendungen erschlossen. Sie kann

inzwischen auch zur Animation am Computer genutzt werden.

Im Folgenden gehe ich auf Kinect und die darin eingesetzten Sensoren, die

dreidimensionale Erfassung, Bildanalyse, die Steuerung und Animation von Objekten

in Blender und den anschließenden Einsatz in der jMonkeyEngine ein.


3

2. Der Kinect Sensor

Microsoft Kinect ist ein Sensor der

ursprünglich zur Steuerung der

Spielekonsole Xbox 360 entwickelt

wurde. Microsoft hat den Sensor

zusammen mit der Firma PrimeSense, einem Entwicklungsunternehmen für drei-

dimensionale Erkennungssysteme entwickelt.

2.1 Technische Daten

Kinect beinhaltet ein Mikrofon Array, eine Farbkamera, einen 3-Achsen

Beschleunigungs- und einen Tiefensensor.

2.2 Array-Mikrofone

Kinect ist mit vier Mikrofonen ausgestattet, die im Sensor verteilt sind. Durch

Laufzeitdifferenzen der Töne vom Sprecher zu den Mikrofonen kann ermittelt

werden, aus welcher Richtung der Ton kommt.

2.3 Farbkamera

In der integrierten Farbkamera arbeitet ein Bayer-Sensor mit einer reellen Auflösung

von 640x480 Pixeln mit 30 fps ([1], Seite 38). Theoretisch wäre eine Auflösung bis zu

1280x1024 Pixel mit 12 fps möglich. Die meisten vorhandenen Treiber für den Kinect

Sensor liefern aber nur die geringere Auflösung. Die mit der Kamera erfassten

Farbbilder können später genutzt werden, um die entstandenen 3D Objekte mit

Texturen zu versehen.

2.4 3-Achsen Beschleunigungssensor - (Gyrosensor)

Im Fuß der Kinect befindet sich ein Servomotor, der die Sensorleiste bei Bedarf um

ca. 27° vertikal schwenken kann. [10, Seite 14] Dadurch wird das Sichtfeld der

Kameras zusätzlich erweitert. Der 3-Achsen Beschleunigungssensor wird genutzt,

um die aktuelle Neigung des Sensors zu ermitteln. Dazu wird aber nur eine Achse

ausgewertet.


4

2.5 Tiefensensor

Der Tiefensensor besteht aus einem Infrarot-Projektor

und einer Infrarotkamera. Als Infrarot-Projektor wird

ein 60 mW starker IR-Laser (Wellenlänge 830 nm) [2]

genutzt. Durch ein diffraktives optisches Element

(Brechungsgitter), das vor dem Laser sitzt, wird ein

definiertes Muster erzeugt. [3] Als Kamera wird ein

Monochromer CMOS Sensor mit vorgesetztem

Bandpass-Filter in der Wellenlänge des Lasers

genutzt. Die Kamera kann einen Sichtwinkel von 57° horizontal und 43° vertikal

abdecken. Nutzbare Daten liefert sie für eine Entfernung zwischen 0,8 m und 3,5 m.

Sie ist in einer Entfernung von 2 Metern in der Tiefe auf 10 mm horizontal so wie

vertikal auf 3 mm genau.

2.6 Chip (PS1080)

Der im Sensor verbaute Chip berechnet die Tiefe für jeden sichtbaren Laserpunkt

und kombiniert sie mit dem RGB Signal. Als Datenstrom liefert der Chip direkt ein

Farbbild mit Tiefeninformation an den Rechner. Der Chip verarbeitet die Daten mit

30fps.

3. Dreidimensionale Erfassung der Kinect

3.1 Messvorgang

Das im Zusammenwirken

von Laser und

Brechungsgitter gebildete

Muster auf einer geraden

Projektionsfläche ist

bekannt. Da es sich um

keine Punkte mit

gleichmäßigem Abstand,

sondern um ein unregelmäßiges Punktemuster handelt, ist es möglich, die

Punktemuster mit der Infrarotkamera der Kinect

aufgenommen.


5

ursprüngliche Punktpositionen aufgrund des Zusammenhanges im Muster zu

ermitteln. Somit ist man nicht auf die Definition und Identifikation von fixen

Referenzpunkten angewiesen. Sobald sich nun ein Objekt zwischen Hintergrund und

Kinect befindet, verändert sich die Position der Punkte, da sie auf dem Objekt

abgebildet werden. Der Abstand zwischen Sender und Empfänger in der Kinect

sowie die alten und neuen Positionen der Lichtpunkte sind bekannt. Somit kann

durch Triangulation die Tiefe von jedem Punkt berechnet werden.

Der Sensor ist sehr empfindlich gegen Fremdlicht. Um für das menschliche Auge

ungefährlich zu sein, darf jeder einzelne Laserpunkt die Laserschutzklasse 1M mit

einer Leistung von 25 µW nicht übersteigen. Somit sind die Punkte bei Sonnenlicht

für den Sensor kaum noch zu erkennen.

Ein weiteres Problem besteht im Abstand

zwischen Projektor und Kamera. Durch diesen

Abstand gibt es Bereiche hinter den Objekten,

die nicht von dem Laser, aber von der Kamera

erreicht werden. Die Kamera hat in diesen

Bereichen also keine Punkte, über die sie die

Tiefe berechnen könnte. Diese Schatten

erzeugen häufig Fehler, die später in der

Bildanalyse korrigiert werden müssen.

Auch durch eine vollständige Reflexion der Punkte können Fehler entstehen. Dabei

kann ein Punkt, der zum Beispiel auf einen Spiegel trifft, komplett verschwinden oder

an eine andere Stelle wandern.

3.2 Alternativen

Da die Firma PrimeSense ein Patent auf das Verfahren der Tiefen variierenden

Lichtfelder zur dreidimensionalen Erfassung hat, nutzen nur wenige Sensoren diese

Technik.

Jedoch gibt es noch weitere unabhängige Motion Capturing Verfahren.

Eine Möglichkeit sind Sensoranzüge. Dabei werden alle relevanten Punkte des

Menschen mit Bewegungssensoren und Lagesensoren ausgestattet. Dies ist jedoch

mit einem hohen Arbeitsaufwand verbunden und die Aufnahmemöglichkeiten sind

sehr beschränkt. [4, Seite 34]


6

In der Industrie haben sich als Alternative inzwischen optische Lösungen

durchgesetzt. Ein Raum wird mit mehreren Kameras ausgestattet. Jede Kamera hat

einen anderen Winkel zu dem aufzunehmenden Objekt. Die Positionen und

Neigungen der Kameras sind bekannt und werden während der Aufnahme auch

nicht verändert. Nun werden bestimmte Punkte an dem aufzunehmenden Objekt

markiert. Bei der Erkennung von Menschen werden dazu meistens weiße Kugeln

benutzt, die auf einem schwarzen Anzug befestigt sind. Damit kann mit Hilfe von

zwei Kameras, welche das Objekt aus verschiedenen Positionen aufnehmen, die

Kugelposition im dreidimensionalen Raum mittels Triangulation berechnet werden.

Die Positionsbestimmung kann durch weitere Kameras exakter werden. Das

Verfahren wird inzwischen bei vielen professionellen Animationsfilmen eingesetzt.

Dort muss dann nicht jede Bewegung einzeln animiert werden, denn die

Bewegungen des Schauspielers werden einfach auf den zu animierenden Charakter

übertragen. Es ist dennoch sehr viel manuelle Nachbearbeitung notwendig, wenn

beispielsweise ein Mensch für die Animation nichtmenschlicher Objekte genutzt wird.

Damit ein ausgewachsener Mensch einen Hasen steuern kann, bedarf es

komplizierter Umrechnungsverfahren, um realistische Bewegungen zu erzeugen.

[4, Seite 18]

4. RAW Daten Analyse

Die RAW Daten Analyse ist die zentrale Umwandlung der erfassten Daten in die

Positionsdaten der aufgenommenen Person. Ziel ist es, die Position von festgelegten

Körperstellen im dreidimensionalen Raum zu bestimmen. Im ersten Schritt werden

dazu die Kanten im Bild analysiert. Im zweiten Schritt werden bekannte Vorlagen mit

dem Kantenbild abgeglichen, bis die Umrisse des Menschen gefunden wurden. Nun

ist die Position und die Haltung der Person bekannt. Die wichtigen Körperstellen

wurden zuvor auf den Vorlagen markiert und liegen nun auf den entsprechenden

Stellen des Originalbildes. Im letzten Schritt wird die Position und die Tiefe der

Markierungen berechnet. Somit ermittelt man, wo die gesuchte Körperstelle im Raum

liegt.

Dabei wird jedes einzelne Bild, das von der Kinect kommt, analysiert. Der PS1080

Chip, der in der Kinect genutzt wird, liefert einen Stream mit 30fps. Um anschließend


7

auch 30 neue Positionsinformationen pro Sekunde zu erhalten, muss dem Prozess

genug Rechenleistung zur Verfügung stehen.

4.1 Verbindung

Kinect wird per USB an den Computer angeschlossen. Der Standard-Treiber

ermöglicht es Entwicklern jedoch nur über die „Kinect vor Windows SDK“ auf die

Funktionen des Sensors zuzugreifen [10, Seite 30]. Ein passender Open-Source-

Treiber von PrimeSense kann problemlos nachinstalliert werden. Der Treiber enthält

auch direkt die sogenannte Open NI API, über deren Schnittstellen der Zugriff auf die

Daten des Audio-, Video- und Tiefensensors der Kinect erleichtert wird. [6]

4.2 Kanten Analyse

Tiefendaten

Die Daten des Tiefensensors werden als Array mit 307.200

Werten übergeben. Die Tiefenangaben sind Werte

zwischen 0 bis 2047. Diese Werte werden in ein

Graustufenbild umgewandelt und repräsentieren abhängig

von der Tiefe einen Helligkeitswert zwischen 0 und 255.

Da fehlende Werte keine gültige Tiefe besitzen, müssen

diese zuvor auf 0 gesetzt werden.

Der Canny-Algorithmus

Nun beginnen wir mit dem Canny-Algorithmus, oder auch Canny Edge Detector

genannt, die Kanten der Objekte zu analysieren. Dieser Algorithmus wurde 1986 von

John Canny entwickelt und ist heute in der digitalen Bildanalyse weit verbreitet. [7]

Datenvorverarbeitung

Um die Daten für den Canny-Algorithmus brauchbar zu machen, benötigen wir das

Graustufenbild, das aus den Tiefendaten erzeugt wurde. Um zu verhindern, dass

Kanten an Stellen erkannt werden, an denen lediglich ein Bildrauschen vorliegt,

wenden wir einen Gaußschen Weichzeichner auf das Bild an. Wie der Name schon

sagt, beruht dieser Weichzeichner auf der Gauß-Funktion. Dabei werden die

umliegenden Pixel eines Pixels betrachtet und der Wert des in der Mitte liegenden

Pixels in Abhängigkeit davon angepasst. Dabei muss bei der Wahl der

Tiefenbild mit der Kinect aufgenommen.


8

Rechenparameter darauf geachtet werden, dass nur das Bildrauschen entfernt wird

und keine relevanten Details. [8]

Kanten-Erkennung

Nun wird für jedes Pixel die Kantenrichtung und die

Kantenstärke berechnet. Die Kantenrichtung wird auf 45°

genau berechnet, da jedes Pixel nur 8 angrenzende Pixel

besitzt. Wenn nun alle Kanten markiert sind, werden nur

die stärksten Pixel gesucht und der Rest gelöscht, um alle

Kanten auf die Breite von einem Pixel zu reduzieren (Non-

maximum Suppression). [7]

Zum Abschluss wird durch manuell oder automatisch bestimmte Schwellenwerte

festgelegt, wie detailreich das entstandene Kantenbild sein soll. Dementsprechend

werden schwächere Kanten gelöscht und nur die stärksten Kanten werden auf dem

Bild angezeigt.

4.3 Erkennungsmuster

Nun brauchen wir eine Vorlage von einem Menschen, der

erkannt werden soll. Da ein Mensch jedoch viele Haltungen

einnehmen kann und somit auch viele verschiedene Muster

benötigt werden, um einen Menschen in allen Haltungen

erkennen zu können, reduzieren wir die Suche erst einmal

auf den Kopf. Der Kopf eines Menschen ist von der Form her immer ähnlich. Eine

Kantenzeichnung, die als Vorlage genutzt wird, wird aber immer noch nicht genau so

aussehen wie der Kopf in unserer Kantenzeichnung. Außerdem ist der Kopf eventuell

gedreht oder hat eine andere Größe als die Vorlage.

Deshalb wird zusätzlich ein Verfahren genutzt, dass 1988 von Gunilla Borgefors

entwickelt wurde. [9]

4.4 Distance Transform Pyramid

Tiefenbild nach der Kanten Erkennung

Vorlage mit Punkten zum Tracking

mehrere Layer mit unterschiedlicher

Auflösung übereinander


9

Mit diesem Verfahren ist es möglich, Übereinstimmungen zwischen einer Vorlage

und einem Bild, unabhängig von der Skalierung zu finden. In unserem Beispiel

nutzen wir den vereinfachten Fall, dass wir den Menschen von vorne sehen und

somit nur eine Schablone brauchen.

Auflösungspyramide

Das Kantenbild wird als Grundlage, beziehungsweise als erster Layer genutzt. Nun

wird ein zweites Bild mit geringerer Auflösung erstellt. Dabei werden immer vier Pixel

des unteren Bildes genommen und zusammengefasst. Wenn eins der vier Pixel im

unteren Bild eine Kante war, wird das neue Pixel auch eine Kante. So werden

mehrere Layer übereinander gelegt.

Entfernungsbilder

Nun wird für jeden Pixel eines Layers berechnet, wie weit dieser

von der nächsten Kante entfernt ist. Ist ein Pixel eine Kante,

bekommt dieser die Entfernung null. Dies wird für alle Layer

gemacht.

Übereinstimmung

Auf dem obersten Layer bewegen wir nun die Vorlage über das gesamte Bild und

berechnen jedes Mal die Übereinstimmung. Dabei orientieren wir uns nicht an der

Kante. Wir vergleichen die Entfernungen der Pixel auf dem Kantenbild, die unter der

Kante von der Vorlage liegen. Dort, wo die Entfernungen am ähnlichsten sind, haben

wir eine Übereinstimmung von Vorlage und Original. Nun skalieren wir die Vorlage

an der Stelle so weit, dass sie mit dem Muster auf dem aktuellen Layer

übereinstimmt. Diesen Vorgang wiederholen wir für alle

Layer und haben zum Schluss die Position des Kopfes.

Ausgehend von der Kopfposition kann jetzt der restliche

Körper lokalisiert werden. Um bestimmte Punkte zu

tracken, legen wir uns diese Punkte direkt auf unsere

Vorlagen. Sind die Vorlagen an das aktuelle Kantenbild

angepasst, wissen wir auch, wo der Punkt sich befindet,

den wir tracken wollen. Über die Tiefenangabe und die Position im Bild wissen wir,

Tiefenbild mit überlagerter Kantenvorlage


10

wo sich dieses Körperteil, zum Beispiel die Gelenke, im dreidimensionalen Raum

befindet.

Dies ist eine Möglichkeit, die RAW Daten der Kinect zu analysieren und festgelegte

Körperstellen im dreidimensionalen Raum zu lokalisieren.

4.5 NI mate

Das Programm NI (Natural Interaction) mate von Delicode kann diesen

Analyseprozess automatisieren. Basierend auf Open NI analysiert es in Echtzeit

Motion Capture Daten von Sensoren wie der Kinect und gibt sie anschließend über

Protokolle wie z.B. OSC (Open Sound Control) weiter.

5. 3D Charakter Das Erstellen eines dreidimensionalen Charakters für unsere Zwecke kann in vier

Schritte gliedert werden. Die Vorbereitung, das Erstellen des Mesches, die Textur

und das Rigging. Anschließend braucht das Modell noch eine Schnittstelle zu den

Kinect Daten, um den Charakter steuern zu können.

5.1 Vorbereitung

Da das Erstellen eines dreidimensionalen Objekts um eine Dimension komplexer ist,

als das einfache Zeichnen einer Person auf ein Papier, empfiehlt es sich, im

Zweidimensionalen zu beginnen. Wenn feststeht, wie das Modell später aussehen

soll, fängt man mit Zeichnungen oder auch Fotografien aus verschiedenen

Perspektiven an. Diese Vorlagen werden später als Grundlagen für das Modellieren

genutzt. Um die Performance des endgültigen Spieles nicht mit unnötig vielen

Polygonen zu belasten, sollte man schon bei der Vorbereitung darauf achten, nur

das Nötigste zu zeichnen. Unsere zweidimensionalen Vorlagen können wir nun

einfach neben uns legen oder direkt in Blender einbinden. Handelt es sich um eine

Ansicht, die parallel zu einer der Achsen ist, gibt es in Blender die Möglichkeit,

Hintergrundbilder einzubinden. Diese Bilder werden immer dann angezeigt, wenn die

Sicht ebenfalls parallel zu der entsprechenden Achse liegt.

5.2 Das Mesch


11

Zum fertigen Mesch führen wieder zahlreiche unterschiedliche Wege.

Boxmodeling

Bei dieser Methode wird ein einfacher Grundkörper als

Ausgangsform genutzt. Meistens ein Würfel. Durch

verschiedene Operationen wird dieser Körper so weit verändert,

bis das gewünschte Modell entsteht. Diese Methode hat den

Vorteil, auch ohne genaue Planung starten zu können, da das

Modell einfach aus dem Grundkörper entsteht und man sehr

schnell Ergebnisse sieht. [5]

Polygon Modeling

Beim Polygon Modeling wird jedes Polygon einzeln aufgebaut. Für diese Variante

empfiehlt sich eine Vorlage, weil man die einzelnen Punkte genau nach der Vorlage

setzen kann. Um so genauer und detailreicher man Muskeln, Falten und andere

Körperteile nachbaut, desto realistischer wirkt das Objekt im Nachhinein. Dies geht

jedoch schnell zur Lasten der Performance. Daher empfiehlt es sich, gerade für

unsere Anwendung eher an Details zu sparen und diese danach über die Textur

einzuarbeiten. [5]

3D Scanner

Wohl eine der schnellsten und detailreichste Varianten, ein dreidimensionales Abbild

von einem reellen Objekt zu erstellen, ist das 3D Scanning. Diese Technik wäre auch

mit der Kinect möglich. Dabei wird ein Objekt von einem 3D Scanner von allen

Perspektiven aus abgetastet und anschließend automatisch ein Modell erstellt. Diese

Technik liefert allerdings eine große Anzahl an Polygonen und ist daher für unsere

Anwendung nicht zu empfehlen.

Modell Generatoren

Inzwischen wurden auch einige Programme entwickelt, die nach eigenen

Vorstellungen fertige Modelle generieren. Open Source Projekte wie MaceHumen

liefern schnelle und gute Ergebnisse. Für unsere Anwendung sind aber auch diese

Objekte immer noch zu detailreich.

Mesch mit Textur


12

Auf genauere Modellingverfahren und nützliche Funktionen gehe ich hier nicht weiter

ein.

5.3 Rigging

Wenn nur eine Pose gebraucht wird, könnte das Mesch so

genutzt werden wie es ist. Da die Charaktere sich aber im

Spiel bewegen müssen und jMonkey nur Knochen-

Animationen unterstützt, benötigt das Mesch noch ein Skelett.

Das Erstellen eines Skeletts nennt man Rigging. Dazu setzt

man in das Mesch sogenannte Bones, um die Animation zu

erleichtern. Dabei kann man sich an einem menschlichen

Skelett orientieren. Für den Import in jMonkey ist es wichtig,

dass das Rig einen Root Bone besitzt, der mittig am Boden

des Mesches sitzt. An diesem Knochen laufen alle anderen Knochen zusammen.

Somit kann die Position des gesamten Objektes mit dem einen Knochen gesteuert

werden.

5.4 Skinning

Beim Skinning wird das Skelett mit dem Mesch verknüpft. Dazu kann man entweder

dem Skelett das Mesch unterordnen nutzt einen Skelettmodifikator nutzen. Auf beide

Systeme kann man durch Vertex Groups oder die Weight Painting Funktion von

Blender Einfluss nehmen.

5.5 Kinect Schnittstelle

Um die Positionsdaten der Kinect in Blender darzustellen, empfehlen sich Emptys.

Emptys sind keine Geometrien. Es sind lediglich Objekte mit Positions- und

Rotationsinformationen. Emptys werden nicht gerendert und können auch nicht

bearbeitet werden.

Nun benennen wir ein Empty genau so wie einen Punkt aus

dem Motion Capturing. NI mate sendet die Positionsdaten

und den Namen des zugehörigen Punktes über OSC an den

Client. Der Client ist in unserem Fall ein Blender Plugin, das

die Positionsdaten nun auf das gleichnamige Empty

überträgt. Visualisierung von

Emptys

Skelett / Rig


13

Starten wir das System, können wir über Kinect schon die Emptys in Blender

bewegen.

Nun muss der Charakter noch die Positionen von unseren

Emptys übernehmen. Dazu nutzen wir Bone Constraints.

Die Position des Körpers können wir komplett von einem

der zentralen Emptys übernehmen. Dazu lassen wir die

Position eines zentralen Emptys auf einen Knochen

kopieren, der eine ähnliche Position im Körper hat und

die anderen Knochen beeinflussen kann. Bei allen

anderen Emptys sollte man nicht die gesamte Position

kopieren, da es sonst zu Problemen kommt, wenn die menschlichen Proportionen

nicht mit den Proportionen des Charakters übereinstimmen. Sinvoller ist es, den

Knochen nur in die Richtung des Emptys zu führen. Die Funktion in Blender findet

sich unter den Bone Constrains und heißt „Track To“. Sobald alle notwendigen

Emptys mit dem Charakter verbunden sind, kann das gesamte System gestartet

werden und der Charakter lässt sich über Kinect in Blender bewegen.

6. Animation Sobald das Live Motion Capturing funktioniert, können wir mit der eigentlichen

Animation beginnen.

6.1 Vorbereitung

Das System sollte in einem Raum installiert werden, in dem der Sensor die besten

Ergebnisse erzielen kann. Das heißt, möglichst wenig Umgebungslicht und vor allem

kein Infrarotlicht. Außerdem sollte genug Platz vorhanden sein. Auch Gegenstände,

die Ähnlichkeiten von menschlichen Mustern aufweisen und stark reflektierende,

bzw. extrem absorbierende Flächen können stören.

Auch die Kleidung spielt eine wichtige Rolle bei der Aufnahme. Weite Kleidung oder

Röcke sind zu vermeiden, da der Computer sonst Schwierigkeiten bekommt, die

genauen Positionen von Gelenken oder Körperteilen zu bestimmen.

Skelett mit Verknüpfung zu den Emptys


14

Bevor man die Aufnahme beginnt, sollte noch festgelegt werden, was für

Bewegungen aufgenommen werden sollen, um diese anschließend möglichst klar

auszuführen.

6.2 Aufnahme

Für die Aufnahme gibt es zwei verschiedene Wege in Blender. Entweder Schritt für

Schritt oder in einem kontinuierlichen Verfahren alles auf einmal.

Der erste Weg ist, eine Pose einzunehmen und diese Körperhaltung zu speichern.

Anschließend kann man die Pose etwas verändern und die Körperhaltung erneut

speichern. Diese Methode ist sehr zeitaufwändig. Wenn es sich jedoch um eine

Bewegung handelt, die ein Mensch nicht ohne weiteres ausführen kann, empfiehlt

sich diese Methode. Dabei werden nur die wichtigsten Daten gespeichert. Durch die

geringere Datenmenge lässt sich anschließend die Animation leichter bearbeiten. Für

die deutlich schnellere zweite Methode nutzt man die Auto Keyframing Funktion von

Blender. Dabei setzt Blender die Keyframes bei Bewegungen von Objekten oder

Knochen automatisch. Diese Methode speichert meistens sehr viele Keyframes. Es

ist möglich, Bewegungen in Echtzeit aufzunehmen, mit dem Nachteil eines höheren

Bearbeitungsaufwandes bei Anpassungen.

6.3 Nachbearbeitung

Die entstandenen Keyframes könnte man zwar direkt so lassen. Jedoch empfiehlt es

sich, die Daten noch nachzubearbeiten, da Aufnahmefehler vorkommen können.

Dazu können entweder einzelne Keyframes geöffnet und Posen geändert oder mit

dem Graph Editor von Blender Fehler gelöscht oder Bewegungen korrigiert werden.

Sollen mehrere Animationen erstellt werden, speichert man diese zuerst

hintereinander in die Timeline. Nun definiert man den Start- und End-Frame einer

Animation und wandelt sie anschließend über die Bake Action Funktion in Blender in

eine Action um.

7. Import in die jMonkeyEngine Sind nun alle gewünschten Animationen aufgenommen und bearbeitet, können die

fertigen Blender Dateien ohne Umwege in jMonkey importiert werden. Dazu muss


15

man jedoch die Anforderungen von jMonkey an solche Dateien sehr genau

beachten.

Nach dem Import werden die Dateien automatisch in .j3o Files konvertiert. Diese

Dateien können im jMonkey integrierten Scene Composer geöffnet und bearbeitet

werden. Auch die Animationen lassen sich dort abspielen.

Um unseren Charakter nun in das Spiel zu integrieren, bedarf es noch etwas

Programmcode.

Die jMonkeyEngine besitzt ein eigenes Entity System, zu dem wir unseren Charakter

hinzufügen. Außerdem erstellen wir eine Klasse zu dem Entity, über die unter

anderem die Figur als Form zum Spiel hinzugefügt wird und die Animationen

gestartet und gestoppt werden.

8. Fazit Zur herkömmlichen Animationsmethode bieten Motion-Capturing-Verfahren viele

neue Möglichkeiten. Jedoch bringen sie auch ihre Schwierigkeiten mit sich. So sollte

man sich einige Fragen stellen, bevor man beschließt, eine Animation per Motion-

Capture-Verfahren aufzunehmen.

Ist die Technik genau genug, um die erwünschten Bewegungen zu erfassen? Nicht

nur die Auflösung kann zu Problemen führen, auch die Verarbeitungsgeschwindigkeit

spielt eine große Rolle. Soll z.B. eine Kampfszene etwas langsamer wiedergeben

werden, um sie dramatischer zu gestalten, braucht man deutlich mehr als 30fps, um

anschließend noch ein flüssiges Bild zu haben.

Kann man die Animation eventuell über einen anderen Weg einfacher realisieren?

Gerade wenn es darum geht, unrealistische Lebewesen zu steuern, muss genau

überlegt werden, wie man die Bewegung des Menschen auf die zu animierende

Figur überträgt.

Welches System ist das Sinnvollste? Kinect reicht sicherlich nur für einen

Hobbyanimator, aber auch bei professionellen Systemen gibt es viele Unterschiede.

Und, und, und, ...

Ob sich Kinect für unser jMonkey Spiel lohnt?

Ja! Denn solange wir das Spiel entwickeln, um dabei etwas zu lernen, lohnt es sich.

Würden wir das Spiel für kommerzielle Zwecke entwickeln, wäre es sicherlich


16

einfacher, auf die Genauigkeit der Animationen zu verzichten und sie einfach per

Hand zu erstellen.


17

9. Literaturverzeichnis

[1] Buch

− Titel: Beginning Kinect Programming with the Microsoft Kinect SDK − Autor: Jarrett Webb und James Ashley − Erscheinungsdatum: 6. März 2012 − Verlag: Apress

[2] Webseite

− URL: http://wiki.zimt.uni-siegen.de/fertigungsautomatisierung/index.php/Einsatzmöglichkeiten_einer_3D-Kamera_in_der_Produktionstechnik_am_Beispiel_der_Kinect-Kamera

− aufgerufen am: 24.8.2014

[3] Webseite − URL: http://ntuzhchen.blogspot.de/2010/12/how-kinect-works-prime-

sense.html − aufgerufen am: 24.8.2014

[4] Buch

− Titel: Understanding Motion Capture for Computer Animation − Autor: Alberto Menache − Auflage: Second Edition − Erscheinungsdatum: 24. Januar 2011 − Verlag: Morgan Kaufmann

[5] Diplomarbeit

− Titel: Realismus bei der 3D-Charaktermodellierung des Menschen − Autor: Denis Schröder − URL: https://www.informatik.hu-

berlin.de/forschung/gebiete/viscom/thesis/final/Diplomarbeit_Schroeder_201212.pdf


[6] Webseite − URL: http://www.heise.de/newsticker/meldung/Offizielle-Open-Source-Treiber-

fuer-Kinect-1152510.html − aufgerufen am: 27.8.2014


18

[7] Paper

− Titel: A Computational Approach to Edge Detection − Autor: John Canny − Erscheinungsdatum: 6. November 1986 (aktuell: 27.Januar 2009) − Verlag: IEEE − URL:

http://www.cim.mcgill.ca/~image529/TA529/Image529_99/assignments/edge_detection/references/canny-pami.pdf

[8] Masterarbeit

− Titel: Human detection and extraction using kinect depth images − Autor: Sundar Narayan Krishnamurthy − URL:

http://nccastaff.bournemouth.ac.uk/jmacey/MastersProjects/MSc11/Sundar/Human_Detection_and_Extraction_using_Kinect_Depth_Images_Thesis.pdf


[9] Paper − Titel: Hierarchical chamfer matching: a parametric edge matching algorithm − Autor: Gunilla Borgefors − Erscheinungsdatum: 6. November 1988 (aktuell: 6.August 2002) − Verlag: IEEE − URL: http://www.cs.berkeley.edu/~malik/cs294/borgefors88.pdf

[10] Buch

− Titel: Kinect for Windows SDK Programming Guide − Autor: Abhijit Jana − Erscheinungsdatum: 26. Dezember 2012 − Verlag: Packt Publishing

Bildnachweis Alle Bilder, Grafiken und Tabellen von Finn Süberkrüb. Die Abbildungen unterliegen ausschließlich dem Urheberrecht von Finn Süberkrüb.

Date post:	20-Mar-2017
Category:	Engineering
Upload:	rpex
View:	819 times
Download:	0 times

Charakteranimation durch Motion Capture mittels Microsoft Kinect (Seminararbeit)

Engineering