TV Technik

burosch home tvtechnik

Der Weg zur naturgetreuen Bildwiedergabe und die physiologischen Hintergründe

Die räumliche Bildwiedergabe (3D / Stereo Vision / Stereopsis)

 

3 Abb01

Beispiel für ein Stereobildpaar; Ansicht des linken und rechten Auges; am Galeriebrüstungsansatz ist die unterschiedliche Perspektive gut zu erkennen. 

Einführung

Dem Traum der Menschen von einer naturgetreuen Übertragung und Wiedergabe  von Szenen und Ereignissen in die eigenen vier Wände kommen heutige Fernsehgeräte mit neuester Signalverarbeitung und Displaytechnologie schon sehr nahe. Der flache Bildschirm an der Wand ist Realität geworden. Die großformatige, detailgetreue Wiedergabe, angepasst an die Physiologie des menschlichen Gesichtssinnes durch 16:9 und HDTV ermöglicht eine bisher nicht gekannte Einbezogenheit in das Geschehen auf dem Bildschirm (Telepräsenz). Nun fehlt den hochauflösenden Bildern nur noch die dritte Dimension der realen Welt d.h. die räumliche Darstellung.

In vielen Abhandlungen und Artikeln über das räumliche Sehen wird von einem naiven Verständnis dieses physiologischen Prozesses ausgegangen. Man bietet den Augen einen linken und rechten Bildauszug an und schon entsteht ein räumlicher Bildeindruck. Dies wird der Komplexität des Systems Auge-Gehirn in keiner Weise gerecht. Deswegen möchte ich den Versuch unternehmen zunächst die physiologischen Grundlagen etwas abzuklären.

Physiologische Hintergründe / System Auge-Gehirn

Ein horizontaler Querschnitt durch das menschliche Auge ist in Abb. 2 zu sehen.

 

3 Abb02

Abb. 2: Horizontaler Schnitt durch das rechte menschliche Auge.

 

Das menschliche Auge ist annähernd kugelförmig mit einem Durchmesser von ca. 24 mm. Die Hornhaut (Cornea) hat einen Durchmesser von ungefähr 12 mm und einen Kurvenradius von ca. 8 mm. Es wird oft angenommen, dass die Linse dazu dient, die einfallenden Lichtstrahlen zu bündeln und das Bild auf der Netzhaut (Retina) zu erzeugen. Der Ort an dem beim menschlichen Auge die Lichtstrahlen am stärksten gebrochen werden ist aber die Vorderseite der Cornea. Dies ist darin begründet, dass die Brechkraft einer Linse grundsätzlich von dem Unterschied zwischen den Brechungskoeffizienten des umgebenden Mediums und dem des Linsenmaterials bestimmt wird. Der Brechungskoeffizient der Luft ist niedrig, während der des Kammerwassers hinter der Cornea annähernd so hoch wie der Brechungskoeffizient der Linse des Auges ist. Dadurch hat die Cornea mit ca. 42 Dioptrien ungefähr 70% der Brechungskraft des gesamten Auges. Die Linse besitzt einen Durchmesser von ca. 9 mm und ist ungefähr 4 mm dick. Die Brechkraft der Linse kann durch den Ziliarmuskel um ca. 10 Dioptrien verändert werden und sorgt durch Verstellung (Akkommodation) dafür, dass das Netzhautbild bei entfernten und nahen Objekten scharf gestellt werden kann.  Damit hat das Gesamtsystem Cornea-Linse eine Brechkraft die von ca. 60 bis zu 70 Dioptrien variiert werden kann. Als visuelle Achse (Mittelpunktstrahl) wird die Verbindungslinie zwischen einem Punkt eines fixierten Gegenstandes  und dem Zentrum der Sehgrube (Fovea centralis) bezeichnet. Als optische Achse wird der am besten passende Strahl durch die vier brechenden Oberflächen des Auges bezeichnet. Die optische Achse schneidet die Retina ca. 1,5 mm seitlich entfernt von der Sehgrube und ca. 0,5 mm über der Sehgrube. Sie bildet somit mit der visuellen Achse einen Winkel von ca. 5°. Beide Achsen müssen gemäß den optischen Gesetzen durch den resultierenden Knotenpunkt /Nodalpunkt (nodal point) des optischen Systems Auge gehen. Dieser liegt beim nicht akkommodierten Auge ca. 17 mm vor der Retina und durch ihn gehen alle Strahlen die eine eins zu eins Abbildung der Punkte des Sehfelds auf der Netzhaut reproduzieren. Die Iris (Regenbogenhaut) in Verbindung mit den Irismuskeln kontrolliert die Linsenöffnung des Auges (Apertur, Pupillengröße). Oft wird angenommen, dass die Veränderung der Pupillengröße dem Auge erlaubt, ein breites Spektrum von Lichtintensitäten auszunutzen. Da sich ihre Fläche aber nur in einem Verhältnis von 16:1 verändert, kann dies nicht ihre Hauptaufgabe sein, da das Auge einen Helligkeitsbereich von mehr als 1.000.000 : 1 zu nutzen imstande ist. Offensichtlich kontrahiert die Pupille, um die Lichtstrahlen auf den zentralen und optisch effektivsten Teil der Linse zu beschränken und damit Linsenfehler zu minimieren. Die maximale Öffnung wird nur dann eingestellt wenn maximale Empfindlichkeit benötigt wird. Jedes Auge wird von sechs Muskeln bewegt wie in Abb. 3 dargestellt.

 

3 Abb03

Abb. 3: Augenmuskeln des linken menschlichen Auges.

(Eigene Zeichnung nach Cogan 1956 Neurology of the ocular muscles, Charles C. Thomas, Publisher, Springfield, Illinois; in Howard I.P. 2002 Seeing in Depth)

Dies ist erforderlich, da der Mensch nur in der Sehgrube ein hohes Auflösungsvermögen der Netzhaut besitzt und dadurch die Augen bewegt werden müssen um auszuwählen was scharf gesehen werden soll. Wird ein Objekt betrachtet, so konvergieren beide Augen sodass die Abbildung unabhängig von der Entfernung des Objektes auf der Sehgrube zentriert wird. Die Augenmuskeln schwenken dabei die Augäpfel um den Rotationsmittelpunkt jeweils in Richtung der Nase hin (nasal). Wie wir noch sehen werden wird dieser Konvergenzwinkel auch als einer von vielen Parametern zur Ermittlung des Raumeindruckes vom Gehirn genutzt.

Bildsensor Netzhaut (Retina) - Außenstelle des Gehirns

Die Struktur der Netzhaut ist in Abb. 4 aufgezeigt.

3 Abb04

Abb. 4: Die Struktur der Netzhaut.

 

Diese Struktur wurde zuerst von Ramón y Cajal ermittelt und in einer Serie von Abhandlungen zwischen 1888 und 1933 beschrieben. Die Netzhaut ist eine mehrlagige Membran mit einer Fläche von ungefähr 1000 mm². Sie weist in der Sehgrube eine Dicke von etwa 250 µm auf, die in der Peripherie auf ca. 100 µm abnimmt. Die Fotorezeptoren sind dicht gepackt in der äußeren Schicht, also der Schicht die am weitesten von der Lichtquelle entfernt ist. Das bedeutet, dass das Licht vor dem Erreichen der Rezeptoren durch die Blutgefäße und das feine Netzwerk der Nervenfasern, einschließlich dreier Schichten von Zellkörpern und einer Menge Stützgewebe, dringen muss. Es gibt zwei Arten von Fotorezeptoren. Die Stäbchen haben eine sehr hohe Lichtempfindlichkeit, breite spektrale Abstimmung und sind ausschließlich in der Peripherie, also außerhalb der Sehgrube, verteilt. Sie werden für die Wahrnehmung der Schwarz/Weiß-Helligkeitsempfindung genutzt. Die Zapfen, die für die Farbwahrnehmung genutzt werden, haben eine niedrigere Lichtempfindlichkeit und eine hohe Dichte in der Sehgrube, die in der peripheren Netzhaut abnimmt. Es gibt drei Typen von Zapfen mit jeweils verschiedener spektraler Empfindlichkeit: S-Zapfen mit einer maximalen Empfindlichkeit bei ungefähr 450 nm Lichtwellenlänge (blau). M-Zapfen mit einer Spitzenempfindlichkeit von ca. 535 nm (grün). L-Zapfen mit einem Maximum bei 565 nm (gelb/rot). 5 bis 10% der Zapfen sind S-Zapfen. M- und L-Zapfen sind etwa gleich häufig verteilt.

In dieser Struktur liegt auch die Basis, die unsere technischen Fernsehsysteme bei der Redundanz-Datenreduktion benutzen, bei der keine sichtbaren Verluste entstehen. So kann z.B. die Digitalisierung der Farbinformation mit einer geringeren Datenrate erfolgen als der für die Helligkeitswerte erforderliche Wert. Der normale Bereich der Lichtempfindlichkeit des menschlichen Auges erstreckt sich über drei logarithmische Einheiten von 0,0000007 cd/m² bis 0,0004 cd/m². Die Helligkeit von äußeren Stimuli variiert um ca. 10 logarithmische Einheiten (log). Spezielle Mechanismen kompensieren den begrenzten dynamischen Bereich des Auges. Um einen Vergleich der örtlichen Auflösung (Wiedergabe von Details) des menschlichen Auges mit technischen Bildwiedergabesystemen ziehen zu können sind die folgenden Werte des menschlichen Auges wichtig.

Die Retina des erwachsenen Menschen hat zwischen 4 und 6 Millionen Zapfen mit einer Spitzendichte von 100 000 bis 320 000 pro mm² in der Sehgrube. Diese nimmt in der Peripherie stark ab auf z.B. 6000 pro mm² bei 10° Exzentrität. Die Fovea ist eine Grube von ungefähr 1,5 mm Durchmesser, die ein regelmäßiges hexagonales Mosaik von Zapfen im Abstand von 2 bis 3 µm enthält. Die zentrale Sehgrube (Fovea centralis) hat einen Durchmesser von ca. 0,27 mm, was einem Öffnungswinkel (subtend) von ca. 1° entspricht, und enthält ca. 6000 Zapfen. Die menschliche Retina hat mehr als 100 Millionen Stäbchen, die in der Fovea nicht vorhanden sind. Die Fotorezeptoren der Netzhaut bilden 70% der Rezeptoren des menschlichen Körpers.

Wenn wir den Vergleich zu unserem modernen hochauflösenden Fernsehen ziehen (HDTV) dann besitzt das Display ca. 2 Millionen Bildpunkte, die jeweils aus einem roten, grünen und blauen Subpixel bestehen. D.h. insgesamt sind nur ca. 6 Millionen Bildpunkte vorhanden, die gleichmäßig über die gesamte Displayfläche verteilt sind. Beim menschlichen Auge sorgen dagegen die 100 Millionen Stäbchen, die insbesondere sehr empfindlich auf bewegte Objekte reagieren, dafür dass die Objekte denen unsere jeweilige Aufmerksamkeit gilt, durch die entsprechenden Augenbewegungen scharf auf der Fovea mit höchster Auflösung abgebildet werden können. Die Natur hat das, was wir heute in der Fernsehtechnik mit Telepräsenz bezeichnen schon in idealer Weise realisiert.

Man hat die Retina als eine Art Ausstülpung des Gehirns beschrieben. Entwicklungsgeschichtlich spezialisierte sich also ein Teil der Gehirnoberfläche, wurde nach außen verlagert und lichtempfindlich. Die Retina hat bei diesem Prozess typische Gehirnzellen beibehalten, die zwischen den Lichtrezeptoren und den Sehnervenfasern, also in den vorderen Schichten der Netzhaut liegen, und die elektrische Aktivität der Rezeptoren stark modifizieren. D.h. ein Teil der Wahrnehmungssignalverarbeitung findet bereits im Auge statt. Damit wird dieses auch funktional ein Bestandteil des Gehirns. Diese Vorverarbeitung führt die über 100 Millionen Rezeptorsignale auf ca. 1 Million Sehnervenfasern zusammen. Dadurch kann sich die Dicke des Sehnervs stark verringern, was Augenbewegungen erst ermöglicht.        

Bilddatenübertragung (Chiasma opticum , primäre Sehrinde)

Das für das Sehen verantwortliche neuronale System beginnt, wie oben gezeigt, schon mit der unglaublich komplexen Struktur der Netzhäute. Jede Netzhaut ist senkrecht in zwei funktionale Hälften geteilt. Die Sehnervenfasern der inneren (nasalen) Hälfte wechseln am Sehnervenkreuz (Chiasma opticum) auf die andere Seite um zur gegenseitigen Hirnhemisphäre zu ziehen (Abb. 5).

 

3 Abb05

Abb. 5: System Auge/Gehirn von oben gesehen. Schema der Sehbahnen, das die linken und rechten Gesichtsfeldhälften mit den retinalen Bildern und der teilweisen Kreuzung im Sehnervenkreuz zeigt.

 

Die Fasern der äußeren Netzhauthälfte gelangen zur gleichseitigen Hemisphäre. Am jeweiligen seitlichen Kniehöcker, quasi einer Relaisstation, sind die Sehnerven dann an die jeweilige Hemisphäre angeschlossen. Interessanterweise empfangen die Kniehöcker mehr „absteigende“ Bahnen von höheren Zentren des Gehirns als aufsteigende Bahnen von den Augen. Dies ist die anatomische Basis dafür, dass höhere Zentren des Gehirns die von den Netzhäuten kommenden Signale beeinflussen oder erweitern und damit die Netzhautbilder deuten.

Bildsignalverarbeitung im Gehirn (visuelle Merkmale in spezialisierten Modulen)

 Zu einer der wichtigsten Entdeckungen bezüglich der visuellen Signalverarbeitung im Gehirn gehört die der beiden amerikanischen Physiologen David Hubel und Torsten Wiesel. Sie registrierten bei der Katze die Aktivität einzelner Zellen der Sehrinde, während den Katzenaugen einfache visuelle Formen, meist Lichtbalken, angeboten wurden. Dies geschah mittels eines Diaprojektors, der diese Muster auf einen Schirm vor der Katze projizierte. Hubel und Wiesel stellten fest, dass einige kortikale Zellen der ersten Verarbeitungsstufe nur dann aktiv waren (feuerten), wenn ein Balken in einem ganz bestimmten Winkel angeboten wurde (Abb. 6).

 

3 Abb06

Abb. 6: Hubels und Wiesels Ableitungen von einzelnen Zellen im visuellen Cortex der Katze.

 

Bei anderen Winkeln blieb diese Zelle stumm. Die zur Aktivierung erforderliche Neigung des Balkens wechselte von Zelle zu Zelle. Weiterhin stellten Sie fest, dass manche Zellen sich nur durch Bewegung aktivieren ließen oder nur durch Bewegung in eine bestimmte Richtung. Der Professor für Neuropsychologie Richard L. Gregory schreibt: „Es wird immer deutlicher, dass das Gehirn visuelle Merkmale in spezialisierten „Modulen“ verarbeitet, wobei es unterschiedliche neuronale Kanäle für Form, Bewegung, Tiefenwahrnehmung, Farbe usw. gibt. Allmählich kristallisiert sich die Organisation der Sehrinde heraus, wenn auch noch immer unklar ist, wie sie mit dem Sehen komplexer Objektformen verknüpft ist. Vielleicht werden wir das visuelle Gehirn erst dann vollständig verstehen, wenn es uns gelingt, eine Maschine zu entwerfen und zu konstruieren, die über ein komplexes Sehvermögen verfügt.“     

Disparationsneuronen 

Die Tiefenwahrnehmung ist im Prinzip abhängig von Ungleichheiten (Disparität) der beiden Abbildungen auf den beiden Netzhäuten, die durch den 50 bis 70 mm betragenden Augenabstand entstehen. Sie kann auch als eine Täuschung betrachtet werden, weil es auf der Retina nur ein zweidimensionales Bild gibt. Dieses wird aber so interpretiert als ob es aus einem dreidimensionalen Objekt resultieren würde. Mit dem Entstehen dieser Täuschung befasst sich die psychologische und physiologische Forschung der visuellen Wahrnehmung.

Raymòn y Cajal hatte schon 1911 die Theorie entwickelt, dass Eingangssignale von korrespondierenden Bereichen der beiden Netzhäute in den von ihm mit „isodynamic cells“ bezeichneten neuronalen Zellen zusammengeführt würden und damit die Basis für das binokulare Sehen gebildet würde. Diese Idee wurde von David Hubel und Torsten Wiesel (1959; 1962) experimentell verifiziert. Sie berichteten dass Paare von Sehnervenbahnen der Katze in „binokularen“ Zellen in dem Teil der Hirnrinde, der visuelle Signale verarbeitet (visueller Cortex), zusammenlaufen. Und dass die rezeptiven Felder jeder „binokularen“ Zelle korrespondierende Positionen in den beiden Augen besitzen. Wenn eine „binokulare“ Zelle identische rezeptive Felder hätte werden, die in jedem Auge identisch positioniert wären, würde diese optimal auf Netzhautbilder (Stimuli) mit null Disparität reagieren und keine Tiefeninformation könnte am Ausgang der Zelle gewonnen werden. Das war schon ein Argument das der Physiologe, Physiker und Psychologe Hermann von Helmholtz gegen die Idee von konvergenten visuellen Eingangssignalen angeführt hatte. Helmholtz neigte zu der Auffassung, dass die räumliche Wahrnehmung ein erlernter Prozess sei und sich in den „höheren“ Verarbeitungsschichten des Gehirns abspielen würde.

Der Psychologe Ian P. Howard schreibt dazu in „Seeing in Depth“: „Das Problem würde gelöst werden können wenn es Zellen gäbe, die speziell darauf abgestimmt wären, auf ähnliche Bilder in leicht unterschiedlichen Positionen der beiden Retinae, zu reagieren. Unterschiedliche Zellen die optimal auf differente Disparitäten abgestimmt sind. Einfach wie diese Idee klingt wurde diese bis 1965 nicht vorgeschlagen. Wahrscheinlich weil die Idee einer auf spezifische Stimuli-Eigenschaften reagierenden kortikalen Zelle nicht „en vogue“ war, bis 1959 Hubel und Wiesel kortikale Zellen entdeckten, die abgestimmt waren auf Ausrichtung und Bewegung zu reagieren. Hubel und Wiesel gelang es nicht Zellen zu finden, die sensitiv auf Disparitäten reagierten.

Jack Pettigrew lieferte den ersten Beweis von Disparitäts-Detektoren in einer frühen Stufe der visuellen Signalverarbeitung. Er machte diese Arbeit im Rahmen seiner „undergraduate thesis“, die er 1965 an der Universität von Sydney geschrieben hat.“ In vielen weiteren Arbeiten wurde diese Theorie der „Disparationsneuronen“ inzwischen bestätigt.“ Marr und Poggio haben 1979 basierend auf diesen neuronalen Fakten ein erstes nachrichtentechnisches Signalverarbeitungsmodell (A Computational Theory of Human Stereo Vision) entwickelt. Inwieweit solche Modelle die tatsächlichen Mechanismen der höheren Hirnprozesse abbilden, konnte aufgrund deren ungeheuren Komplexität bisher noch nicht gezeigt werden.

Sehen in der Tiefe (Disparation, Konvergenz, monokulare Informationen)

Nachdem wir mit den Disperationsneuronen quasi die unterste Ebene des Tiefensehens kennengelernt haben wollen wir uns auf der Ebene der Wahrnehmungspsychologie mit dem Sehen in der Tiefe beschäftigen.

 

Das menschliche horizontale Blickfeld ist in Abb. 7 dargestellt.

3 Abb07

Abb. 7: Das binokulare Gesichtsfeld des Menschen.

 

Das monokulare Gesichtsfeld des statischen Auges beträgt ungefähr 95° in Richtung der Schläfe (temporal) und ungefähr 56° in Richtung der Nase. Das gesamte Gesichtsfeld ist der volle Winkel der ausgehend von einem Punkt in der Mitte zwischen beiden Augen alle Punkte im Raum einschließt, die entweder einem Auge oder beiden Augen sichtbar sind. Beim Menschen beträgt dieses horizontale Gesichtsfeld (lateral) bei feststehenden Augen ca. 190° und erreicht 290° wenn die Augen seitlich bewegt werden können. Das binokulare Gesichtsfeld ist der Teil des gesamten Gesichtsfeldes innerhalb dessen ein Objekt liegen muss um für beide Augen sichtbar zu sein (bei fester Augenposition). Das binokulare Gesichtsfeld ist von den monokularen Sektoren des linken und rechten Auges flankiert. Jeder monokulare Sektor erstreckt sich ungefähr 37° seitlich (lateral) vom Schläfenring bis zur Grenze des binokularen Sektors. Die rechte und linke Grenze des binokularen Sehens wird durch die Nase geformt. Für binokulares Sehen ergibt sich daraus ein Winkel von ca. 112°, wenn die Augen symmetrisch konvergieren.

Betrachten wir zunächst die geometrische Basis. Weil die beiden Augen horizontal um den Augenabstand voneinander getrennt sind, sehen diese dieselbe visuelle Szene von zwei unterschiedlichen Ausgangspunkten. Wenn wir einen speziellen Punkt im Raum, wie z.B. den schwarzen Punkt auf dem Pfeil in Abb. 8A fixieren, sorgen wir dafür dass das Abbild dieses Punktes in die Sehgrube (Fovea) des linken und des rechten Auges fällt, also in die Region der Netzhaut mit der höchsten Auflösung.

 

3 Abb08a

Abb. 8A: Die Geometrie der Stereopsis.

 

Horizontaler Schnitt durch das rechte (AR) und linke Auge (AL) von oben gesehen. Auf dem Horopter liegende Punkte produzieren Abbildungen auf korrespondierenden Punkten der beiden Netzhäute. Als Horopter wird die kreisförmige horizontale Linie bezeichnet auf der alle Punkte liegen, die bei gegebener Augenstellung mit beiden Augen nur einfach gesehen werden.

 

 

3 Abb08b

Die Geometrie der Stereopsis.

 

Horizontaler Schnitt durch das rechte (AR) und linke Augen (AL) von oben gesehen. Punkte auf dem Pfeil, die nicht auf dem Horopter liegen, mit verschiedenen Abständen vom Beobachter produzieren Abbildungen mit verschiedenen Abständen von der Fovea auf den zwei Netzhäuten. Diese Differenz wird binokulare Disparität genannt und ist die Basis für die allgemein bekannteste Art der Tiefenwahrnehmung.

Dazu schwenken die Augenmuskeln die Augen in den jeweils entsprechenden Winkel (Konvergenz) und der Muskel der Augenlinse sorgt durch Akkommodation (Veränderung der Brennweite) für eine scharfe Abbildung. Dieser Akt definiert die horizontale Fixierungskurve. Wenn wir auf diesem schwarzen Punkt des Pfeiles starten und uns eine bestimmte Distanz auf dem grauen Kreis bewegen werden sich die Projektionen des neuen Punktes in den beiden Augen um die exakt gleiche Distanz auf den beiden Netzhäuten bewegen. Diese Projektionspunkte auf den beiden Retinae werden als „korrespondierende Punkte“ bezeichnet. Der „geometrische Horopter“ ist die Zusammenfassung all der Punkte eines Bildes, die auf „korrespondierende Punkte“ auf den Retinae projizieren. Für einen Beobachter dieser Punkte erscheint es so als ob alle diese Punkte ungefähr in derselben Tiefe wie der Fixierungspunkt liegen würden. Die Menge aller Punkte die exakt in derselben Tiefe erscheinen wird als „empirischer Horopter“ bezeichnet und ist etwas flacher als der kreisförmige „geometrische Horopter“. Für prinzipielle Überlegungen kann zur Vereinfachung mit dem „geometrischen Horopter“ gearbeitet werden.

Betrachten wir nun Teile des Objektes die entweder vor oder hinter dem „Geometrischen Horopter“ liegen, wie zum Beispiel Spitze und Schwanz des Pfeils in Abb. 8B. Diese Objektpunkte werden nicht auf „korrespondierende Punkte“ der Retinae projizieren, weil die Distanz von f nach h auf der rechten Netzhaut nicht gleich der Distanz von f‘ nach h‘ auf der linken Netzhaut ist. Diese Differenz der Netzhaut-Kreisbögen (hf-h’f‘) wird als „binokulare Disparität“ bezeichnet und meist als Bogenmaß oder Winkel angegeben. Die Projektionslinien für Punkte auf der Netzhaut für nahe Objekte kreuzen sich vor dem Horopter und produzieren was man als „gekreuzte Disparitäten“ bezeichnet und umgekehrt produzieren weit entfernte Objekte, wie z.B. der Schwanz des Pfeils in Abb. 8B, „nicht gekreuzte Disparitäten“.

Wenn die retinalen Disparitäten, die ein Objekt produziert, in einen begrenzten Bereich fallen (ungefähr 0,5° in der Nähe der Fovea, etwas mehr bei einer größeren Exzentrizität), wird es als ein einzelnes verschmolzenes Objekt mit Tiefe erscheinen. Außerhalb dieses Bereiches, der als „Panums“ Verschmelzungsbereich bekannt ist, wird das Objekt doppelt erscheinen. Dem Beobachter wird dann jedes der beiden retinalen Bilder bewusst, was dann als „Doppeltsehen“ bezeichnet wird. Trotzdem kann das visuelle System sinnvolle Tiefeninformationen bis zu binokularen Disparitäten von einigen Grad extrahieren, in Abhängigkeit von der Größe des Objektes.

Es ist zu bemerken, die obige Diskussion vorausgesetzt, dass man wissen muss wie zur Abbildung eines Objektes im rechten Auge die passende Abbildung des gleichen Objektes im linken Auge gefunden wird. Dies stellt ein schwieriges Problem dar und ist im Bereich der Bilddatenverarbeitung als „Correspondence Problem“ bekannt. Dieses Problem ist äußerst schwierig, wenn man versucht die einzelnen korrespondierenden Punkte (pixel) auf den zwei retinalen Bildern zu finden (weil es eine große Zahl von Übereinstimmungen gibt). Diese Problemstellung wird leichter handhabbar wenn man lokale Felder von Punkten, z.B. kurze Liniensegmente zum Finden der Übereinstimmungen heranzieht. Zusätzlich ist es wahrscheinlich dass Bildeigenschaften höherer Ordnung, wie z.B. die globale Form eines Objektes, dazu benutzt werden die lokalen Objektübereinstimmungen zu erhärten.

Es gibt noch eine andere Art von Stereopsis bekannt als „da Vinci Stereopsis“ (benannt nach Leonardo da Vinci, der diese zuerst beschrieben hat), die die Benutzung von nicht gepaarten Bereichen der Abbilder in den beiden Retinae der beiden Augen beinhaltet. Dies kommt bei der Überdeckung von Objekten vor. Prinzipiell deswegen, weil das Auge nicht um Objekte herum sehen kann. Ein Objekt in der Form eines Quadrats im Vordergrund wird einen vertikalen Streifen des Hintergrundes auf der linken Seite verursachen der nur durch das linke Auge (AL) gesehen werden kann. Auf der rechten Seite wird dieses quadratische Objekt einen Streifen verursachen, der nur mit dem rechten Auge (AR) gesehen werden kann (Abb.9). Diese Art von Stereopsis ist ebenfalls für die Tiefenwahrnehmung nützlich, speziell zur Definition der Verdeckung. Wir wollen hier aber nicht näher auf die „da Vinci Stereopsis“ eingehen.

 

 

3 Abb09a

Abb. 9: Die Basis der „da Vinci Stereopsis“

 

Horizontaler Schnitt durch das rechte (AR) und linke Auge (AL) von oben gesehen. Ein im Vordergrund vorhandenes Objekt hat zur Folge, dass Bereiche im Hintergrund jeweils nur von einem Auge gesehen werden können.

Räumliche Auflösung des binokularen Sehens (Stereopsis)

Weil die elementaren Daten mit denen das Gehirn arbeiten muss die binokularen Disparitäten sind, wird die kleinste Tiefendifferenz die unterschieden werden kann durch die kleinste retinale Disparität die aufgelöst werden kann bestimmt. Bei menschlichen Beobachtern, erreicht diese Differenz 5 Bogensekunden (entsprechend 0,0014°), wenn das beobachtete Objekt auf der Fovea abgebildet wird. Dies ist eine wahrlich bemerkenswerte Präzision, wenn man bedenkt dass der Abstand zwischen den Zapfen auf der Fovea in der Größenordnung von 30 Bogensekunden liegt.

Die binokulare Disparität, die sich bei einer gegebenen Tiefendifferenz ergibt, variiert mit dem inversen Quadrat der Distanz zum Objekt. Das bedeutet, dass bei nahen Objekten äußerst kleine Tiefendifferenzen unterschieden werden können. Das können bis zu 25 µm sein, was ungefähr der Dicke eines feinen menschlichen Haares entspricht. Auch bei relativ großen Objektentfernungen kann das binokulare Sehen eine Rolle spielen, vorausgesetzt die Tiefe des Objektes ist groß genug. Für eine Entfernung von 100 m z.B. beträgt die minimale auflösbare Tiefe ungefähr 4 m (Ponce 2008) 

Andere Parameter für Tiefenwahrnehmung (monokulare Parameter)

Einem signifikanten Anteil der menschlichen Population (ungefähr 5 bis 10%) fehlt die stereoskopische (binokulare) Tiefenwahrnehmung. Man müsste annehmen, dass diese Personen bezüglich ihrer Sehfähigkeit stark behindert wären. Dies ist aber nicht der Fall. Einige von ihnen haben in Berufen Karriere gemacht für deren Ausübung man eine gute räumliche Einschätzung annehmen muss, wie z.B. Chirurgie, Zahnmedizin und professionelles Skifahren. Der Grund dafür ist wahrscheinlich dass es eine Anzahl von anderen Methoden zur Erhaltung von Tiefeninformation gibt. Eine der nützlichsten Verfahren ist durch Kopfbewegungen quasi mehrere Ansichten über die Zeit zu erhalten und damit eine „Bewegungs-Parallaxe“ zu produzieren. Wenn man seinen Kopf in dieser Art bewegt werden Objekte, die sich näher als der Fixierungspunkt befinden, als sich in die Gegenrichtung der Kopfdrehung bewegend wahrgenommen. Objekte, die weiter als der Fixierungspunkt entfernt sind, werden als sich mit der Kopfbewegung bewegend wahrgenommen. Die Geschwindigkeit der wahrgenommenen Bewegung indiziert die Größe der Tiefendifferenz. Im Vergleichstest bei ähnlichen Bedingungen kann die Tiefenwahrnehmung gewonnen aus der „Bewegungs-Parallaxe“ fast so gute Ergebnisse liefern wie die Stereopsis also das binokulare Sehen.

Zusätzlich zur „Bewegungs-Parallaxe“ gibt es noch eine Reihe von Bildparametern, die einen Hinweis auf Tiefe geben. Dies sind auch die Indikatoren die Künstler benutzen um Tiefe auf einer flachen Leinwand vorzutäuschen (Eccles 1990):

  1. Die Position eines Objektes im Bild. Je entfernter ein Objekt ist, desto höher wird es im Bild angesetzt.
  2. Perspektivische Darstellung.
  3. Abgestufte Maserung, die mit der Entfernung feiner wird.
  4. Schatten, die die relative Stellung im Raum anzeigen.
  5. Überdeckungen und Überschneidungen beweisen unzweifelhaft, wie die Objekte relativ zueinander stehen.
  6. Der Freilichteffekt: Verschwommene und mehr blaue Einfärbung entfernter Objekte.

Keiner dieser Hinweise kann die feine Tiefenwahrnehmung des binokularen Sehens erreichen, aber sie liefern einen Gesamteindruck der dreidimensionalen Struktur der Umgebung. Kombiniert mit der „Bewegung-Parallaxe“ erreichen diese monokularen Parameter aber nahezu die Tiefenwahrnehmung des binokularen Tiefensehens. Ein einfaches Experiment kann uns die feine Tiefenwahrnehmung des monokularen Sehens im wahrsten Sinne vor Augen führen: Wenn man ein Auge schließt oder abdeckt fällt ja die binokulare Information aus. Der räumliche Eindruck verschwindet aber nicht. Es wird nur der kleinere Blickwinkel empfunden und vielleicht ein etwas nicht so prägnanter Tiefeneindruck.

Bevor wir uns im nächsten Abschnitt den technischen Umsetzungen und Verfahren des 3D-Sehens zuwenden sei zum Abschluss des Teiles „Physiologische Hintergründe“ Ian P. Howard (2002) zitiert: „Wir haben ein wachsendes Repertoire von psychophysischen, physiologischen und computergestützten Techniken. Es gibt eine schnell wachsende Anzahl von Psychologen, Physiologen, Anatomen, Biochemikern, Physikern, Ingenieuren und Informatikern die alle Aspekte des „Sehens“ erforschen. Kein anderer Wissenschaftsbereich umfasst eine größere Vielfalt von Spezialisierungen. Mit all unseren Fortschritten im Verstehen des Sehvorganges, bleibt doch das schiere Erstaunen bestehen, wenn wir ein Stereogramm beobachten. In unseren Versuchen das visuelle Bewusstsein zu verstehen beziehen wir uns auf neuronale Netzwerke, synchrone 

Oszillationen, Zellgruppen (cell assemblies), Impulsfolgen und Quantenphysik, aber wir tappen nur im Dunkeln. Das erstaunliche Geheimnis unserer bewussten Wahrnehmung einer dreidimensionalen Welt, der wir begegnen wenn immer wir unsere Augen öffnen und die uns fortwährend fasziniert und verblüfft, erinnert uns an die wundervolle Maschinerie die jeder von uns in seinem Kopf trägt. Diese Maschinerie brauchte einige Milliarden Jahre um sich zu entwickeln aber in jedem von uns nur ungefähr ein Jahr um heranzuwachsen.“

Wie wir gesehen haben stehen wir bei der Physiologie des Sehens trotz der heute schon vorliegenden Erkenntnisse noch immer vor einem ungeheuren Problem, dessen Lösung, wenn dies prinzipiell überhaupt möglich ist, noch viele Jahre in Anspruch nehmen wird. Vor diesem komplexen Hintergrund werden auch bei technischen Umsetzungen, die den Menschen zur Information, Bildung oder Unterhaltung dreidimensionale Abbilder der realen Welt liefern, noch viele Probleme gelöst werden müssen um damit dann eine möglichst naturgetreue 3D-Wiedergabe erreichen zu können. 

Die Erfindung der Perspektive

Schon immer haben die Menschen versucht auf Zeichnungen und Gemälden die Wirklichkeit so real wie möglich abzubilden also auch auf einer ebenen Fläche Tiefe zu erreichen. Schon im alten Griechenland soll diese Technik bekannt gewesen sein. Es wird jedenfalls berichtet, dass dort ein Maler durch ein Bühnenbild das er für ein Schauspiel des Dichters Aischylos angefertigt hatte, durch eine neue Maltechnik so große Wirklichkeitsnähe erreichte, dass er damit das Publikum in großes Entzücken versetzt haben soll. Doch handwerkliche Kunst galt in der griechischen Polis nicht viel. Dieses Wissen geriet jedenfalls wieder in Vergessenheit. Bis ins Mittelalter wirkten alle Gemälde flach. Tiefe wurde nur durch Verkleinerung von Objekten im Hintergrund und Überdeckung angedeutet. Im Florenz des 15. Jahrhunderts erfolgte dann, wahrscheinlich angeregt durch die entstehende Kartographie, die Wieder- oder Neuentdeckung der Perspektive. Mittels der gedachten Sehlinien, die alle auf den Fluchtpunkt zulaufen und dort konvergieren konnte nun der Eindruck von Tiefe erreicht werden. Und so kam es, dass „La Dolce Prospettiva“ in der Renaissance fast alle Maler, Architekten, Gelehrte und reiche Dilettanten in ihren Bann schlug. Als Beispiel sei ein Maler der Frührenaissance angeführt, Paolo Uccello (1397-1475), den das Thema der Perspektive gefangengenommen hatte und der sich immer wieder intensiv mit der Raumdarstellung – der Darstellung der dritten Dimension auf zweidimensionaler Fläche - auseinander gesetzt hatte (Abb. 10).

 

 

3 Abb10

Abb. 10: Paolo Uccello (1397-1475) „Die Flut“ (Visipix.com)

Wheatstones Stereoskop

Es ist erstaunlich wie lange es gedauert hat bis eine Vorrichtung erfunden wurde, mit der das stereoskopische Sehen, basierend auf den leicht unterschiedlichen Bildern, die durch den Augenabstand entstehen, mit künstlichen Bildern nachgebildet und untersucht werden konnte. Die Erfindung eines solchen Gerätes muss Sir Charles Wheatstone zugeschrieben werden. Ende 1832 hatte er zwei solcher Geräte, Wheatstone nannte sie „Stereoscopes“, bei Optikern in London anfertigen lassen. Eines davon war ein Spiegelstereoskop, das andere ein Prismenstereoskop. In Abb. 11 ist die Prinzipskizze des Spiegelstereoskops nach einer Zeichnung von Wheatstone wiedergegeben.

 

3 Abb11

Abb. 11: Wheatstones Stereoskop.

             

Es war ein einfaches Instrument welches dem linken und rechten Auge mittels zweier im rechten Winkel angebrachter Spiegel (A in Abb. 11) zwei getrennte 3D-Stereopaarzeichnungen mit entsprechender Disparation (E‘ und E in Abb. 11) angeboten werden konnten, die in die Bildhalter (D‘ und D in Abb. 11) eingespannt wurden. Das Wesentliche jedes Stereoskops ist, dass es erlaubt die Bildvorlagen für jedes Auge getrennt zu kontrollieren. Der Experimentator kann dadurch binokulare Variablen isolieren und die entsprechenden Effekte untersuchen. Wheatstone konnte mit diesem neuen Instrument erstmals die Beziehung zwischen binokularer Disparität und Tiefenwahrnehmung aufzeigen. Louis Daguerre perfektionierte um die Jahre 1837 bis 1839 das Verfahren auf Metallplatten Abbildungen der Umwelt festzuhalten (Daguerreotypien). Fox Talbot stellte 1840 das Prinzip vor, wie mit Hilfe von transparenten Negativen beliebig viele Positive hergestellt werden konnten. Diese Technik war aber zunächst bezüglich der Bildqualität der Daguerreotypie unterlegen, die aber ihrerseits immer nur die Herstellung eines Originals erlaubte.

Diese Entwicklungen führten dazu, dass Wheatstone 1841 zwei Photographen Richard Beard und Henry Collen beauftragen konnte ihm bei der Erstellung der ersten Stereophotographie zu helfen. Diese war eine Porträtaufnahme von Charles Babbage, dem Erfinder der ersten programmierbaren mechanischen Rechenmaschine. Diese ersten Stereophotographien wurden aufgenommen indem eine einfache Kamera um den Augenabstand verschoben wurde. Der Photograph A. Quinet baute 1853 in Paris die erste binokulare Stereokamera, die er Quinétoskope nannte.

Sir David Brewster brachte das von ihm entwickelte Prismenstereoskop nach Paris und interessierte den Optiker Jules Duboscq, der eine größere Anzahl davon baute. Dazu lieferte er einen Satz von Stereodaguerreotypien. Dieses Stereoskop wurde auf der Weltausstellung 1851 in London gezeigt. Eines davon erhielt Queen Victoria, die großes Interesse an dem Gerät zeigte. Innerhalb von 3 Monaten wurden nahezu 250 000 Prismenstereoskope in London und Paris verkauft. Der erste Markterfolg eines 3D-Wiedergabegerätes war geboren. Mit der Einführung von illustrierten Magazinen erlosch das breite Interesse an stereoskopischen Photographien.

Stereoskopische Bewegtbildwiedergabe

Nach vielen Vorarbeiten durch Wissenschaftler und Ingenieure haben wohl Louis Le Prince und William Dickson, der im Thomas Edison Labor arbeitete, die ersten praktisch umsetzbaren und noch heute verwendeten Prinzipien der Aufnahme und Wiedergabe von bewegten Bildern basierend auf Mechanik und Photochemie entwickelt. In dieser Stufe glaubte aber Edison nicht an die Zukunftsfähigkeit von Kinoprojektoren, die große Bilder für viele Zuschauer auf eine Projektionswand werfen könnten. 

So kam es dass die Gebrüder Louis und Auguste Lumiére den ersten funktionsfähigen Kinoprojektor vorstellen konnten. Diese benutzten einen Zelluloidfilm von Eastman. Das erste Lichtspieltheater wurde im Dezember 1895 in Paris eröffnet. 1903 zeigten die Gebrüder Lumiére in Frankreich den offiziell ersten Stereofilm von ein paar Sekunden Dauer. Er hatte den Titel „L’arrivée du train“. Er wurde offenbar auf zwei 35 mm Filmstreifen aufgenommen und dann auf einen Filmstreifen in anaglyphischer Zwei-Farbtechnik kopiert. Dies wird aber von manchen Experten, die der Meinung sind, dass zwei Projektoren mit entsprechenden Farbfiltern benutzt wurden, bezweifelt.

1915 brachte die Famous Players Film Company (die spätere Paramount Picture Company) drei kurze anaglyphische Stereofilme heraus, die der amerikanische Filmpionier Edwin Porter produziert hatte. Harry K. Fairall produzierte den ersten kommerziell erfolgreichen Stereofilm „The Power of Love“, der im Ambassador Hotel Theatre in Los Angeles im September 1922 gezeigt wurde. Alle diese Filme benutzten Anaglyphentechnik, d.h. ähnlich wie beim Stereoskop wurde hier mit Farbfilterbrillen dafür gesorgt, dass das linke Auge nur die Aufnahme der linken Kamera, und das rechte Auge nur die Aufnahme der rechten Kamera sehen konnte. Die beiden Filmprojektoren für den Links- und Rechtsauszug waren mit den korrespondierenden Farbfiltern versehen. Die Anaglyphentechnik erlaubt natürlich aufgrund ihres Prinzips keine Farbaufnahmen.

Edwin Land demonstrierte 1935 einen Stereofilm in Farbe unter Benutzung des Prinzips der Polarisierung von Licht zur Separierung der Links-/Rechtsbilder. Dieser Prozess war in den 30iger Jahren bei Zeiss-Ikon in Deutschland entwickelt worden (Howard 2002). Raymond und Nigel Spottiswoode produzierten für das British Film Institute den ersten 3D-Film ganz in Farbwiedergabe und mit synchronisiertem Stereoton. Dieser wurde 1951 zur Eröffnung der South Bank Exhibition in London gezeigt. Dies kann als der Start des 3D-Booms von 1953 und 1954 angesehen werden. 

Übersicht der 3D-Verfahren

Im Verlauf der Film- und Fernsehentwicklungsgeschichte sind viele technische 3D-Verfahren entwickelt worden. In Abb.12 sehen Sie eine Zusammenstellung der Verfahren, die in der Fernsehtechnik zur 3D-Bewegtbildwiedergabe benutzt wurden oder heute angewandt werden. Die heute eingesetzten Verfahren sind rot markiert. Grob kann man eine Einteilung in Verfahren die zur Betrachtung eine Brille erfordern und in Techniken die ohne Brille auskommen vornehmen.

 

3 Abb12

Abb. 12: Technische Verfahren zur 3D-Bewegtbildwiedergabe.

 

Verfahren mit Brille: Anaglyphentechnik

Die Gebrüder Louise und Auguste Lumiére, die schon den ersten funktionsfähigen Kinoprojektor entwickelt hatten, zeigten 1903 in Frankreich den offiziell ersten Stereofilm von ein paar Sekunden Dauer. Er hatte den Titel „L’arrivée du train“. Martin Scorsese hat in seinem neuen 3D-Film „Hugo Cabret“ dieses Filmdokument eingebaut, allerdings nicht in 3D. Die Gebrüder Lumiére benutzten die Anaglyphentechnik, die schon für die Stereophotographie entwickelt worden war. Dabei wird mit Farbfilterbrillen (rot/grün oder rot/cyan) dafür gesorgt, dass das linke Auge nur die Aufnahme der linken Kamera, und das rechte Auge nur die Aufnahme der rechten Kamera sehen kann. Es werden entweder zwei Filmprojektoren für den Links- und Rechtsauszug mit dem jeweils korrespondierenden Farbfiltern eingesetzt oder ein Projektor, der dann einen Filmstreifen projiziert auf den rechte und linke Bilder in den entsprechenden Farben (rot/grün oder rot/cyan) kopiert wurden. Mit der Einführung des Farbfernsehens war die Anaglyphentechnik auch im Heimbereich möglich. Die ARD zeigte z.B. 1982 eine Reihe von 3D-Bildsendungen in ihren 3. Programmen. Da diese Technik vom Prinzip her an und für sich nur für Schwarzweißwiedergabe gut geeignet ist und nur eine sehr schlechte Farbwiedergabe liefern kann, spielt sie heute auch keine Rolle mehr. Natürlich muss sie benutzt werden, wenn Schätze aus den Anfängen des 3D-Films betrachtet werden sollen.

Psychooptische Effekte (Pulfrich Effekt)

Den Pulfrich Effekt hat man für das Fernsehen kultiviert, da er im Gegensatz zur Anaglyphentechnik die gewohnte PAL Farbbildqualität ermöglichte, auch nur eine sehr preiswerte Brille benötigt und beim Betrachten ohne Brille ein normales Bild zeigt. Bezüglich der für den Effekt erforderlichen Bewegung ist es nicht relevant ob sich das Objekt oder die aufnehmende Kamera bewegt. So baute z.B. der Privatsender RTL Anfang der 1990er Jahre in seine „Tutti Frutti“ Reihe jeweils Szenen ein, bei denen die weiblichen Darstellerinnen auf einer Drehbühne agierten. Da das Verfahren aber nur bei bewegtem Objekt oder bewegter Kamera Tiefeninformation liefert ist es als professionelles Verfahren für 3D-TV-Geräte nicht geeignet.

Shutterbrillen (LCD-Lichtventil)

Seit Anfang der 80er Jahre des letzten Jahrhunderts sind Liquid Crystal Shutters schnell genug um als Lichtventil für die 3D-Film- und 3D-Video-Technik eingesetzt werden zu können. Bei diesem Verfahren werden sequentiell hintereinander das Bild für das linke- und das rechte Auge gezeigt (siehe Abb.13).

 

3 Abb13

Abb.13: Das Shutterbrillenverfahren. Die Brille lässt für das linke und das rechte Auge nur das zugehörige Kamerabild passieren.

 

Die Shutterbrille wird mit einem drahtlosen Synchronsignal angesteuert und die eingebaute Steuerelektronik sorgt dafür, dass dann jeweils das richtige Auge freie Sicht bekommt. Im Fall des Einsatzes im Kino sind die teuren Brillen, die zusätzlich eine Batterie oder einen Akku enthalten, von großem Nachteil. Es kann im Kino aber eine normale Projektionsleinwand verwendet werden, da nicht mit polarisiertem Licht gearbeitet wird. Sodass sich z.B. der Einsatz in kleinen Programmkinos oder im semiprofessionellem Bereich bei entsprechend kleinen Zuschauerzahlen anbietet.

Im Fall von 3D-Fernsehgeräten setzen z. Z. sehr viele Hersteller auf aktive LCD-Shutterbrillen. Es ist heute das einzige Verfahren mit TV-Geräten im deutschen Markt das die volle HDTV-Auflösung (1920 x 1080 Pixel) auch im 3D-Betrieb wiedergeben kann. Die höheren Brillenkosten sind bei der kleinen Anzahl, die im Heimbereich erforderlich sind, nicht so relevant. Die Umschaltung der Shutterbrille zwischen Links- und Rechtsvorlage muss aber mit mindestens 50 bis 60 Hz erfolgen um Flimmern zu vermeiden. Das bedeutet das Display muss dann mit mindestens 100 bis 120 Hz angesteuert werden. Da aus Gründen der optimalen Bewegungswiedergabe LC-Displays schon mit 100 oder 200 Hz bzw. 120/240 Hz betrieben werden stellt diese Forderung kein Problem dar. Um bei Verwendung von LCD’s keine Probleme mit Doppelkonturen durch Übersprechen der  Bilder in das jeweils abgedunkelte Auge zu bekommen (Ghosting siehe 4.), setzen viele Gerätehersteller, die LC-Displays einsetzen, auf 200 Hz Technik. Damit ergibt sich genügend zeitlicher Spielraum um sicherzustellen, dass während die Shutterbrille geöffnet ist nur das jeweilig richtige Bild das entsprechende Auge erreicht.

Zusammen mit einem 3D-Blu-ray-Player, der über eine HDMI-Verbindung (Version 1.4) an das 3D-TV-Gerät angeschlossen ist und im sogenannten „Frame-Packing-Format“ jeweils aufeinander folgend ein linkes- und ein rechtes Bild bei voller HDTV-Auflösung (1920x1080) mit jeweils 24 Bildern pro Sekunde überträgt, erreichen heutige 3D-TV- Geräte mit Shutterbrille die zur Zeit bestmögliche 3D-Wiedergabequalität im Heimbereich.

Polarisationsfilter

In der 3D-Kinofilm Historie war erst mit Hilfe von Polarisationsfiltern die farbige 3D-Film Wiedergabe möglich. Das Bild für das linke und rechte Auge wird dabei von je einem Projektor, denen Polarisationsfilter mit unterschiedlicher Polarisationsebene (horizontal, vertikal) vorgesetzt sind, auf die Leinwand projiziert. Es gibt auch ein Verfahren, bei dem nur ein Projektor benutzt wird, der hintereinander das linke und das rechte Bild projiziert. Vorgeschaltet ist dann ein Polarisationsfilter, das zwischen den beiden Polarisationsebenen schnell umschaltet. Der Zuschauer trägt eine Brille mit einem horizontalen und einem vertikalen Polarisationsfilter, sodass jedes Auge nur ein Bild sieht. Die Leinwand muss allerdings eine „Silberleinwand“ (aluminierte Oberfläche) sein, da andere Leinwandmaterialien bei Reflektion mit polarisiertem Licht die Schwingungsebene nicht beibehalten. Senkrecht aufeinander stehende (gekreuzte) Polarisationsfilter haben aber immer noch eine Luminanz-Durchlässigkeit von ca. 10 bis 15%, sodass geringes Übersprechen der linken Bildvorlage in das rechte Auge und umgekehrt erfolgt. Bei Neigung des Kopfes werden die Polarisationsachsen der Brillenfilter gedreht sodass dadurch ebenfalls Übersprechen entsteht. Um dies zu vermeiden werden heute bei der 3D-Kinoprojektion zirkular polarisierte Filter benutzt. Die Wirkungsweise ist wie oben beschrieben, aber nun ist die Schwingungsebene des Lichts zirkular (rechts- und linksdrehend). Größter Vorteil des Polarisationsverfahrens sind die kostengünstigen passiven Brillen. Für Vorführungen in großen Kinosälen mit vielen Zuschauern ist dies die ideale Lösung.

Im Fall des 3D-Heimfernsehgerätes könnte man sich, wie in einer Variante der Kinoprojektion, auch ein großes geschaltetes Polarisationsfilter vor dem Display (LCD oder Plasma) vorstellen. Das linke und das rechte Bild könnte dann sequentiell hintereinander dargestellt und das Filter entsprechend umgeschaltet werden. Der Zuschauer trägt dann wie im Fall des Kinos eine einfache passive Polarisationsbrille. Leider sind aber großflächige, schnell schaltbare und kostengünstige Polarisationsfilter die vor dem flachen Bildschirm angebracht werden könnten nicht verfügbar. Deswegen wurde die Idee einer zeilensequentiellen Links-Rechts-Bildwiedergabe aufgegriffen. Es wird ein Polarisationsfilter auf das Flachdisplay aufgebracht, das von Zeile zu Zeile die Polarisationsrichtung wechselt. Das Filter braucht nicht schaltbar zu sein. Die Videosignalverarbeitung (Scaler) im 3D-TV-Gerät muss dann dafür sorgen, dass jeweils abwechselnd eine Zeile des linken und dann des rechten Bildes dargestellt wird. Wie im Kino trägt dann der Zuschauer eine passive Polarisationsbrille. Das Prinzip ist in Abb.14 anhand von nur elf Zeilen vereinfacht dargestellt. Der große Nachteil ist aber, dass die Auflösung in vertikaler Richtung halbiert wird. Beim hochauflösenden Fernsehen (HDTV) ergeben sich dann 1080 Zeilen / 2 = 540 Zeilen. Das ist die vertikale Auflösung des bisher üblichen Pal-Fernsehens.

Trotz dieses Nachteils gibt es Hersteller, die dieses Prinzip in ihren 3D-TV-Geräten einsetzen um preiswerte und leicht zu tragende Brillen anbieten zu können. Um diesen Nachteil der reduzierten Vertikalauflösung zu umgehen hat nun die Firma LG anlässlich der Consumer Electronic Show in Las Vegas Geräte vorgestellt, die ein 4k Display besitzen. Das bedeutet statt der üblichen HDTV Auflösung von 1920 x 1080 Pixeln (ca. 2 Megapixel) hat dieses Display die vierfache Pixelzahl von 3840 x 2160 Pixel (ca. 8 Megapixel). Bei 3D Betrieb mit der zeilenweise wechselnden Polarisation halbiert sich die Auflösung in der Vertikalen. Es bleiben aber 2160 / 2 also 1080 Zeilen übrig, d.h., die volle HDTV Auflösung bleibt erhalten.

 

3 Abb14

Abb. 14: Das Prinzip des Polfilterverfahrens stark vereinfacht anhand von nur 11 Fernsehzeilen.

 

Verfahren ohne Brille: Autostereoskopische Verfahren 

3 Abb15

Abb. 15: Prinzipdarstellung des brillenlosen Verfahrens für 2 Ansichten (Links und Rechts).

             

Ein Grundprinzip dazu wurde schon 1912 vom Schweizer Augenarzt Walter R. Hess als „Lentikular-Folien-Stereogramm“ patentiert. Bei einer Anwendung dieser Technik auf 3D-TV-Geräte wird eine Linsenrasterfolie (Fresnellinsenfilterfolie) direkt auf dem Flachdisplay (LCD oder Plasma) aufgebracht. Die Ansteuerung des Displays erfolgt dann so, dass vertikale Streifen des linken und rechten Bildes aufeinander folgen (was allerdings die örtliche Auflösung in der horizontalen Richtung halbiert). Der Abstand zwischen den Augen sorgt dafür, dass jedes Auge das richtige Bild bekommt. Praktisch ergibt sich aber ein sehr kleiner Bereich (kleiner Sweet Spot) in dem das Bild korrekt stereoskopisch gesehen werden kann. Deswegen wurden Systeme entwickelt, die mit einer Kamera die Augen des Betrachters erfassen und Distanz und Augenabstand ermitteln und danach die Linsenrasterplatte mechanisch verschieben. Oder wie im Falle eines Notebooks den die Firma Sony auf der Funkaustellung 2011 zeigte  bei dem die Links-Rechts Pixelmuster auf dem Notebookdisplay mit der Kamerainformation nachgesteuert werden um so den 3D Eindruck bei Kopfbewegungen beibehalten zu können. Diese Systeme sind für ein im Heimbereich verwendbares 3D-TV-Gerät nicht brauchbar. Deswegen wurde ein Verfahren entwickelt, das mehrere Ansichten benutzt und damit den Winkelbereich aus dem 3D gesehen werden kann entsprechend vergrößert (großer Sweet Spot).

 

3 Abb16

Abb. 16: Prinzipdarstellung des brillenlosen Verfahrens für 5 Ansichten (Links und Rechts).

              

In heutigen Realisationen werden acht, neun oder sogar 15 Ansichten eingesetzt. Würde man dies nach dem Prinzip der ausschließlich vertikal orientierten Linsenrasterfolie machen, würde sich die horizontale Auflösung (Anzahl der Bildpunkte) bei neun Ansichten um den Faktor neun erniedrigen, was zu einer sehr bescheidenen Bildqualität führen würde. Deswegen werden z.B. bei neun Ansichten diese in einem Muster in der Horizontalen und in der Vertikalen verteilt. Die Linsenrasterfolie muss natürlich entsprechend angepasst werden. Mit dieser Anordnung kann man dann einen in horizontaler und vertikaler Richtung ausgewogenen Auflösungsverlust um den Faktor dreierreichen. Dies bedeutet aber nach wie vor bei einem HDTV-Bild mit 1920 x 1080 Bildpunkten eine Reduzierung auf 640 x 360 Bildpunkte (Pixel) und ist damit sogar etwas schlechter als Standard PAL Qualität. Um damit hochauflösendes Fernsehen (HDTV) in 3D realisieren zu können muss man Flachdisplays mit mehrfacher HDTV-Auflösung einsetzen. Es gibt zwar schon LC-Displays mit mehrfacher HDTV-Auflösung, die aber aufgrund der hohen Kosten bisher nur für sehr spezielle Anwendungen (z.B. Medizintechnik) eingesetzt werden konnten.

Zur Funkausstellung 2011 hat die Firma Toshiba ihre ersten brillenlosen 3D-TV-Geräte vorgestellt. Diese Geräte benutzen ein Display mit der vierfachen HDTV Pixelzahl (3840 x 2160 Pixel also ca. 8 Megapixel) und basieren auf 9 Ansichten. Trotz des Panels mit der vierfachen HDTV Auflösung ergibt sich bei 9 Ansichten nur mehr eine Auflösung von ca. 0,9 Megapixeln also weniger als die Hälfte der HDTV Pixelzahl. D.h., um bei 3D-Betrieb nicht in der Bildschärfe (Auflösung) abzufallen müsste das verwendete Display mindestens die 9 fache HDTV Auflösung besitzen. Dass die Flachdisplayhersteller an solchen Panels arbeiten konnte man ebenfalls auf der Funkausstellung 2011 sehen. Sharp zeigte einen Vorgeschmack eines zukünftigen Super-Hi-Vision Systems mit 16-facher HDTV Auflösung. Abschließend kann jedoch festgestellt werden dass dieses autostereoskopische Verfahren (basierend auf n-Ansichten) heute die einzige brillenlose 3D-Technik für den Heimbereich darstellt, die das Potential zur breiteren Umsetzung in der näheren Zukunft besitzt.

Der Vollständigkeit halber soll darauf hingewiesen werden, dass es noch ein zweites autostereoskopisches Verfahren basierend auf dem Parallaxen-Stereogramm gibt. Die Applikation dieser Technik auf Flachdisplays (LCD, Plasma) führt aber zu einer starken Reduktion der Bildhelligkeit, die durch die Abschattung der für dieses Prinzip notwendigen Barriere (z.B. Schlitzblende) hervorgerufen wird. Deswegen wird dieses Prinzip bei 3D-TV-Geräten nicht eingesetzt. Es kommt aber bei kleinen Displays für kleine “handheld“ Geräte im Spiele- und Mobilfunkgerätebereich zur Anwendung. In Abb. 17 sind die Vor- und Nachteile der in der 3D-Fernsehgerätetechnik angewandten Verfahren zusammengefasst.

 

3 Abb17

Abb. 17: Vor- und Nachteile der in der 3D-Fernsehtechnik angewandten Verfahren

 

Holographische Verfahren

Abschließend noch ein Blick in die fernere Zukunft. In der Science Fiction Literatur und in Filmen dieses Genre ist die brillenlose räumliche Bildübertragung nicht mehr wegzudenken. Die Basis dafür ist die Holographie die Dennis Gabor1947 erfunden hat. Dafür erhielt er 1971 den Nobelpreis für Physik. Oft wird die Holographie als 3D Fotografie beschrieben, was aber eine völlig falsche Auffassung ist. Bei der Holographie wird ein abzubildendes Objekt mit einer kohärenten Lichtquelle (Laser) bestrahlt. Die vom Objekt gestreute Strahlung fällt auf das Aufnahmemedium (z.B. eine fotografische Platte). Ein Teil der Strahlung der kohärenten Lichtquelle wird abgezweigt und als sogenannter Referenzstrahl mit der gestreuten Strahlung des Objektes auf dem Aufnahmemedium zur Interferenz gebracht. Das resultierende „Lichtfeld“ ist ein anscheinend zufälliges Muster mit verschiedenen Intensitäten, das mit Hologramm bezeichnet wird. Es kann gezeigt werden, dass wenn das Hologramm mit dem originalen Referenzstrahl der kohärenten Lichtquelle bestrahlt wird ein Lichtfeld entsteht, das dem Lichtfeld entspricht welches durch die Streuung beim Bestrahlen des Objektes mit der kohärenten Lichtquelle entstanden war. Wenn nun jemand in das Hologramm schaut kann er das Objekt sehen obwohl dieses nicht mehr vorhanden ist. Wenn sich der Betrachter bewegt scheint er das Objekt aus einem anderen Blickwinkel zu sehen. Wenn der Betrachter seine beiden Augen benutzt erhält er die gleiche Tiefeninformation die er beim Ansehen des originalen Objekts erhalten würde.

Basierend auf Digitaltechnik und einer Methode der „Spatial Light Modulation“ wird nun daran gearbeitet eine auf der Holographie beruhende Aufnahme und Wiedergabe von bewegten Bildern zu realisieren. Dabei wird die Streustrahlung des Objekts mit dem Referenzstrahl statt auf der fotografischen Platte auf einem hochauflösenden Bildsensor (z.B. CCD oder CMOS) zur Interferenz gebracht. Dieses vom Bildsensor digitalisierte Interferenzmuster kann nun abgespeichert, übertragen und mittels eines „Spatial Light Modulators“ wieder hergestellt werden. Dabei moduliert der „Spatial Light Modulator“ (SLM) die Amplitude oder Phase des auftreffenden kohärenten Lichtstrahls einschließlich des räumlichen Musters. Bedingung für die Realisierung dieser „digitalen“ Holographie ist aber die Verfügbarkeit von hochauflösenden „Spatial Light Modulators“ (SLMs) und Bildsensoren (CCDs oder CMOS) mit ausreichendem „Spatial Bandwith Product“ (SBWP). Weiterhin müssten dabei sehr große Datenmengen verarbeitet und gespeichert werden, denn ein typisches Hologramm von 100 mm x 100 mm Größe hat ein SBWP von Giga Samples (Lucente 1994).

Wahrscheinlich wird es aber kaum möglich sein Weitwinkelaufnahmen in natürlicher Umgebung zu machen, da diese ja durch eine enorm starke kohärente Lichtquelle beleuchtet werden müsste um ein gestreutes Lichtfeld dieser Szene zu erhalten. Unsere Umwelt als Hologramm ins Kino oder eigene Heim zu holen wird wohl noch längere Zeit ein Traum bleiben.

Bei der computergenerierten Holographie (computer generated holography) wird auf der Basis eines mathematischen Modells eines Objektes, dessen Interferenzmuster berechnet. Diese „digitalen“ Daten des Interferenzmuster werden dann, wie oben erwähnt, einem „Spatial Light Modulator“ zugeführt, der mittels des Referenzstrahls das Objekt als Hologramm entstehen lässt. Nicht zu verwechseln ist das holographische Verfahren mit computergenerierten dreidimensionalen Laserprojektionen basierend auf mathematischen Modellen. Damit können einzelne Objekte synthetisch generiert werden. Man kann dieses Verfahren dann z.B. zur brillenlosen 3D-Darstellung von technischen Objekten in der Entwicklungs- und Designphase verwenden. Dies hat aber mit einer 1:1 Abbildung der natürlichen „Wirklichkeit“ nichts zu tun.

3D-Kino und 3D-Fernsehen

Das Hauptproblem ist, dass beim Betrachten von natürlichen Vorlagen eine Änderung der Akkommodation (Scharfstellung der Augen durch Verändern der Linsenbrennweite) von einer Veränderung der Konvergenz (Veränderung des Konvergenzwinkels der beiden Augen durch die Augenmuskeln) begleitet ist. Wenn wir eine virtuelle 3D-Szene auf einer Kinoleinwand oder auf einem Fernsehschirm betrachten, so liegt der Schärfepunkt fest auf der Projektionsebene. Die Einstellung des Konvergenzwinkels wird aber durch die Aufnahme und Projektion vorgegeben (siehe Abb. 18).

 

3 Abb18

Abb. 18: 3D-Projektion auf eine ebene Fläche.

             

Dieser Konflikt zwischen Konvergenz und Akkommodation belastet das Konvergenzsystem, was in seltenen Fällen zu Augenüberanstrengung und Übelkeit führen kann. Dies wurde zumindest von Benutzern von 3D-Virtual-Reality-Systemen berichtet (Howard 2002). Um Risiken und Bedenken sicher auszuschließen sind hier sicherlich noch weitere wissenschaftliche Forschungsarbeiten durchzuführen.

Um diesen Konflikt an einem Beispiel selber zu erfahren können Sie ein kleines Experiment machen. Die Abb.1 dieses Technik-Essays ist ein Stereobildpaar, d.h. das linke Bild stellt die Perspektive des linken Auges und das rechte Bild die Perspektive des rechten Auges dar. Zunächst müssen Sie die Darstellung dieses Bildes auf dem Bildschirm so einstellen, dass sich zwischen den einander entsprechenden Bildteilen ein etwas kleinerer Abstand als Ihr Augenabstand ergibt. Mit 50 mm sollten sich gute Resultate ergeben. Am einfachsten zu messen ist z.B. der Abstand von der Nasenspitze des rechten Bildes zur Nasenspitze des linken Bildes. Wenn Sie die entsprechende Seite ausgedruckt haben erhalten Sie schon den passenden Abstand. Nehmen Sie nun einen sehr nahen Leseabstand ein also eine Entfernung bei der Sie gerade noch scharf sehen können. (Tipp für Brillenträger mit Kurzsichtigkeit: Am besten die Brille abnehmen.) Nun versuchen Sie mittels Ihrer Augenmuskeln die beiden Bilder zu verschmelzen. Wenn es Ihnen gelingt werden Sie drei Bilder sehen. In der Mitte entsteht das dreidimensionale Bild. Rechts und Links jeweils zweidimensionale flache Bilder. Um die Abbildung dreidimensional zu sehen mussten Sie den Schärfepunkt auf der Bildschirm- oder Papierebene halten und die Augenmuskeln mussten die Augen fasst parallel stellen also eine Stellung des Konvergenzsystems, die sonst nur bei der Betrachtung von weiter entfernt liegenden Objekten eingenommen wird. Wenn es Ihnen nicht gelingt ein dreidimensionales Bild zu sehen heißt das nicht, dass Sie im Kino oder mit einem 3D-TV nicht räumlich sehen können, da bei den in der Praxis eingesetzten Aufnahmetechniken Schärfe- und Konvergenzpunkt nie so verschieden sind wie bei unserem kleinen Experiment.  

Um eine Überanstrengung des Konvergenzsystems des Zuschauers durch Überzüchtung der Tiefenwirkung zu vermeiden sollte, bei der Aufnahme auf Vergrößerung des Links-Rechts-Kameraabstandes über den Augenabstand hinaus unbedingt verzichtet werden. Auch sollte ein Wechsel des Konvergenzwinkels bei der Aufnahme äußerst moderat gehandhabt werden.

Da heute fast ausschließlich Verfahren mit Brillen im kommerziellen Einsatz sind, sollte auch bei der Konstruktion der Brillen Augenmerk darauf verwandt werden, dass bei Brillenträgern, die ja dann zwei Brillen übereinander tragen müssen bei dieser Stapelung möglichst keine Spiegelungen und optische Fehler auftreten. Generell bedeutet die Benutzung von Polarisations- oder Shutterbrillen eine Reduzierung der Helligkeit. Dies ist im Kino nicht so bedeutend, da der Kinosaal ja abgedunkelt ist. Im Fall von 3D-Fernsehgeräten sollte man darauf achten, dass das Gerät eine ausreichend große Helligkeitsreserve besitzt damit 3D-Fernsehen bei vollem Tageslicht möglich ist. 

3D-Fernsehen und der Puppenstubeneffekt

Die örtliche Grenzauflösung des menschlichen Auges, die sich aus der Dichte der Zapfen in der Sehgrube (Fovea) ergibt, variiert sicherlich individuell etwas und beträgt ca. 1 bis 2 Bogenminuten. Nehmen wir eine mittlere Auflösung von 1,5 Bogenminuten an, so entsprechen diese 0,025°. Mit diesem Wert, der Zeilenzahl des Fernsehsystems und der Bildschirmdiagonale des benutzten TV-Gerätes lässt sich mittels elementaren Winkelfunktionen der optimale Betrachtungsabstand ermitteln. Die Zeilenstruktur oder Pixelstruktur bei Flatpanels ist dabei quasi an der Schwelle der Sichtbarkeit und stört damit nicht. Somit erhält man die beste mögliche Telepräsenz, d.h., die Bildgröße füllt das Blickfeld des Betrachters möglichst weit aus. Nehmen wir ein TV-Gerät mit 1,07 m (42 Zoll) Bildschirmdiagonale an so ergibt sich für Standardfernsehen (SDTV) ein Betrachtungsabstand von etwa 2,60 m (Näherungswert etwa 5 fache Bildhöhe). Beim hochauflösenden Fernsehen, nur dies kommt für 3D-TV in Betracht, ergibt sich ein optimaler Betrachtungsabstand von ca. 1,30 m (Näherungswert 2,5 fache Bildhöhe). Für Überschlagsrechnungen kann bei Fernsehgeräten im 16:9 Format (Standard bei HDTV tauglichen Geräten) für die Bildhöhe die Hälfte der Diagonale angenommen werden. Wie unschwer zu erkennen ist wird in der häuslichen Wohnlandschaft ein Betrachtungsabstand von 2,5 facher Bildhöhe (oder 1,25 facher Bildschirmdiagonale) beim Betrachten von hochauflösenden Fernsehen nicht eingehalten. Dies führt beim Ansehen von 3D-Filmen zum sogenannten „Puppenstubeneffekt“. D.h., bei Weitwinkelaufnahmen sind die betrachteten Objekte so klein dass man diese nicht für real hält. Bezüglich Telepräsenz, also der Einbezogenheit in das Geschehen der filmischen Vorlage, ist das 3D-Kino mit seinen riesigen Leinwänden natürlich überlegen. Im Heimbereich sollte man deshalb ein Gerät mit einer zum Betrachtungsabstand passenden Diagonale wählen oder gar einen 3D-HDTV-Projektor mit entsprechend großem Projektionsschirm. 

3D-Fernsehgeräte und das Übersprechen der Kanäle Links und Rechts (Ghosting)

Wie schon erwähnt kommen bei 3D-Fernsehgeräten, die sich heute in der Serienproduktion befinden, zum großen Teil aktive LCD-Shutterbrillen zum Einsatz. Dabei muss die Öffnungszeit der Brille genau an die Darstellungszeit der jeweiligen linken oder rechten Bildvorlage auf dem Bildschirm des Fernsehgerätes angepasst werden. Wenn dies nicht optimal justiert ist, bekommt das linke und rechte Auge ein abgeschwächtes Bild des jeweils für das andere Auge bestimmten Bildes. Dies lässt dann die Disparation der beiden Bilder sichtbar werden, d.h., man sieht Doppelkonturen.

3D-Fernsehgeräte die 3D aus normalen 2D-Vorlagen berechnen

Es ist im Grunde eine Vorgehensweise, die immer wieder bei der Einführung von neuen Standards probiert wurde. Bei der Einführung der Audio-Stereophonie wurde versucht Monosignale in (Pseudo)-Stereosignale umzuwandeln. Bei der Einführung des hochauflösenden Fernsehens wurde behauptet, man könne aus einem Standard TV-Signal höherauflösende Komponenten berechnen. Und nun bei der Einführung von 3D-TV wird wieder versucht für ebene 2D-Aufnahmen Tiefeninformation zu berechnen. Gemeinsam ist all diesen Versuchen, dass sie prinzipiell nicht funktionieren können. Informationen, die bei der Aufnahme nicht erfasst wurden, lassen sich mit keiner Technik der Welt wieder hinzufügen. Im Fall von 3D-TV wird versucht mit Objekterkennungs-Algorithmen einzelne Gegenstände und Personen aus dem ebenen Bild zu erfassen und diesen dann eine künstliche Tiefe zuzuweisen. Dies führt bei der Realisation in Consumer 3D-TV-Geräten aufgrund der „Echtzeitbedingung“ und der sehr beschränkten Rechenleistung zu einem sogenannten Scherenschnitt-Phänomen (Cardboard cut-out Phenomenon). D.h., Objekte wirken wie ausgeschnitten und eben vor dem Hintergrund platziert. Mit einer natürlichen Tiefenwiedergabe hat dies nichts zu tun.

Nicht verwechseln darf man das oben beschriebene Verfahren mit dem Vorgehen bei Computergraphiken. In den Studios werden Trick- und Animationsfilme rein synthetisch oder durch Abnahme aus Modellen auf mathematischer Basis erstellt. In diesen mathematischen Abbildungen ist auch Tiefeninformation eingebaut. Diese Trick- und Animationsfilme können aber nicht den Anspruch erheben, dass sie die uns umgebende reale Welt möglichst naturgetreu und ohne Verfälschung wiedergeben. 

3D-Testbilder und Testsequenzen

“Beauty lies in the eye of the beholder” heißt es bei Shakespeare. Wenn Sie den Kauf eines 3D-Fernsehgerätes in Erwägung ziehen, sollten Sie nur Ihren eigenen Augen trauen. D.h., Sie sollten mit einer entsprechenden Bildvorlage die Sie kennen und die Sie jederzeit wieder benutzen können einen Bildvergleich zwischen den angebotenen Geräten bei Ihrem Händler machen. Dazu gibt es Experten, die 3D-Test-Blu-rays oder Testbilder zum Download für diesen Zweck anbieten (BUROSCH Audio-Video-Technik https://www.burosch.de).

Ausblick

 

3 Abb19

Abb. 19: Quo vadis 3-D?  Mit Brille oder ohne?  Hype oder nicht?

 

Wenn man die Versuche zur Etablierung von 3D-Filmen der Filmindustrie betrachtet, so fallen Spitzen in den 50iger Jahren, in den 80iger Jahren des letzten Jahrhunderts und jetzt von 2009 bis heute auf. Man kann daraus unschwer zwei Fakten entnehmen. Die Spitzen sind jeweils im Generationenabstand zu beobachten, d.h., eine jeweils neue Generation lernt diese Technik zum ersten Mal im Kino kennen. Und zweitens folgten diese Versuche jeweils auf zurückgehende Besucherzahlen im Kino durch neue Medien im Heimbereich. In den 50igern durch den Siegeszug des Fernsehens in den USA. In den 80igern die flächendeckende Verbreitung von Farbfernsehgeräten mit großen Röhrenbildschirmen und einer Vielzahl von empfangbaren Programmen (Private Fernsehanbieter) und Ende des ersten Jahrzehnts im neuen Jahrtausend die Etablierung von großen Flachbildschirmen und hochauflösendem Fernsehen (HDTV) in den Wohnzimmern.

Auch die Inhalte des jeweiligen 3D-Filmangebotes darf man meines Erachtens nicht außer Betracht lassen. In den 50igern wendete sich das 3D-Filmangebot mit Horror- und Science-Fiction-Filmen wie z.B. Jack Arnolds „It came from Outer Space“ vorwiegend an Erwachsene. In den 80igern wurde es zeitgemäß mit Exploitation-Filmen und viel Erotik probiert (z.B. Emmanuelle 4 in 1984). Und der neueste Versuch sind meistens computergenerierte Trick- und Actionfilme für das heute überwiegend junge Kinopublikum. Was sich aber geändert hat, dass nun auch namhafte Regisseure die 3D-Film-Technik als künstlerisches Ausdrucksmittel benutzen.

Was ich meine möchte ich an drei Beispielen aufzeigen. Da ist erstens die wundervolle Hommage des Regisseurs Wim Wenders an Pina Bausch. Wer die Porträtaufnahmen der Kompaniemitglieder sieht, während diese ihre Erinnerungen an Pina erzählen, muss zugeben dass 3D ein notwendiges künstlerisches Ausdrucksmittel darstellt. Zweitens Werner Herzogs „Die Höhle der vergessenen Träume“. Nur 3D-Technik kann die bis zu 35000 Jahre alten Felszeichnungen der Chauvethöhle so wiedergeben, wie sie die Steinzeitkünstler gedacht haben. Sie haben nämlich Erhebungen und Vertiefungen der Felswände benutzt um ihre Tierzeichnungen plastisch wirken zu lassen. Und drittens Martin Scorseses neuestes Meisterwerk „Hugo Cabret“. Ohne 3D-Technik würden all die mechanischen Uhren und Automaten im wahrsten Sinne des Wortes flach wirken.     

Damit ist die Chance riesengroß dass sich die 3D-Technik diesmal fest etablieren und neben dem Eventcharakter von Blockbuster 3D Filmen sich ein breiteres Publikum mit anspruchsvolleren Sujets erschließen kann.

Im deutschen Heimbereich wird wohl zunächst die 3D-Blu-ray die wichtigste Programmquelle für das 3D-fähige Flachbildfernsehgerät bleiben sieht man vom Nischenmarkt der Eigenaufnahmen mit Consumer 3D-Kameras und 3D-Camcordern ab, denn die öffentlich rechtlichen sowie privaten Sender haben mit der Einführung von HDTV riesige Investitionen zu tragen. Deshalb wird wohl mittelfristig nicht im großen Umfang in die Anschaffung von 3D-Kameras sowie 3D-Studio-Infrastruktur investiert werden können. Zumal die z.Z. für die Fernsehübertragung benutzten Verfahren aus Gründen der Bandbreitenökonomie sowie der Rückwärtskompatibilität zu im Markt befindlichen SAT-Receivern z.B. im side-by-side Mode arbeiten, was die Reduzierung der horizontalen Auflösung auf die Hälfte zur Folge hat (statt 1920 Bildpunkte nur mehr 960 Bildpunkte pro Fernsehzeile). Dies ist dann nur geringfügig mehr als die Standard TV-Auflösung (DVD 720 Bildpunkte) und damit kontraproduktiv zur Einführung von HDTV. Weiterhin sind Kanäle, in denen 3D im side-by-side Mode übertragen wird nicht rückwärtskompatibel, d.h. TV-Geräte die keine 3D-Funktion besitzen, würden nebeneinander das gestauchte linke und rechte Bild zeigen. Deswegen wird sich längerfristig auch bei der 3D-Fernsehübertragung der bei Blu-ray eingeführte MPEG-4MVC Standard durchsetzen und in SAT-Receivern sowie Kabel-TV-Receivern eingebaut werden.

Weiterhin bleibt die Frage ob größere Teile der Konsumenten bereit sind beim Fernsehabend eine Brille zu tragen. Denn nur die Verwendung einer Shutterbrille bzw. einer Polfilterbrille in Verbindung mit 4k-Panel gewährleistet eine 3D-Wiedergabe mit voller HDTV-Auflösung. Die heute verfügbaren Geräte mit brillenlosen Verfahren (autostereoskopisch) erreichen keine HDTV-Auflösung und lassen auch bezüglich Tiefenwirkung noch zu wünschen übrig.

Andererseits bedeutet die Verwendung einer Brille nicht, dass bei Einführung zukünftiger hochwertiger brillenloser 3D-TV-Geräte das gesamte jetzige System infrage gestellt wird. Der heutige Standard MPEG-4 MVC (Multiview-Video-Coding-Format), bei dem unterschiedliche Bilder für das linke und rechte Auge aufgezeichnet, auf der Blu-ray gespeichert und über den Player via HDMI ausgegeben werden, wird auch in Zukunft Bestand haben – allein die Darstellung des Bildes auf dem Display wird sich wandeln und die Brillen könnten nach und nach verschwinden. Vorrausetzung ist aber, dass die Kosten für superhochauflösende Displays entsprechend reduziert werden können und damit de Aufbau von erschwinglichen brillenlosen 3D-TV-Geräten ermöglicht wird. Der heutige innovative Käufer von 3D-Blu-ray Filmen braucht also nicht zu befürchten, dass er seine Scheiben bei neuen 3D-Displayverfahren nicht mehr verwenden kann.

 Literaturverzeichnis

 Eccles, J.C.         Die Psyche des Menschen. Das Gehirn-Geist-Problem in neurologischer Sicht. Serie Piper, München, 1990

 Gregory, R.L.      Auge und Gehirn Psychologie des Sehens. Rowohlt Taschenbuch Verlag, Hamburg, 2001

 Hayes, R.M.        3D-Movies. A History and Filmography of Stereoscopic Cinema McFarland & Co. Inc., Jefferson U.S., 1989         

 Holliman, N.       3D Display Systems. Department of Computer Science University of Durham, Durham 2005

 Howard, I.P.       Seeing in Depth. Volume I Basic Mechanisms. University of Toronto Press, Toronto, 2002

 Howard, I.P.       Seeing in Depth. Volume II Depth Perception. University of Toronto Press, Toronto, 2002

 Lucente, M.        Doctoral Thesis Dissertation, MIT Dept. of Electrical Engineering and Computer Science, Sept. 1994

 Ma, Y. (et al.)      An Invitation to 3-D Vision. From Images to Geometric Models. Springer Science, New York, 2004

 Pöppel,E. (Ed.)    Neuronal Mechanisms in Visual Restitution. Human Neurobiology, Vol. 1, 1982

 Pöppel,E.            Lust und Schmerz. Über den Ursprung der Welt im Gehirn. Wilhelm Goldmann Verlag, München, 1995

 Ponce, R.(et al.)  Stereopsis. Current Biology. Volume 18 No 18, 2008       

 Zeki S.               Inner Vision. An Exploration of Art and the Brain. Oxford University Press, Oxford, 1999

 

Copyright: Dipl.-Ing. (FH) Konrad L. Maul, Certified Counsellor

 

 


Impressum     Sitemap     Home

Off Canvas Menü