Auseinandersetzung mit Form, Farbe und Ordnungsprinzipien, um Zusammenhänge in größeren Datenmengen sichtbar zu machen. Das Ergebnis ist ein programmierter, klickbarer Prototyp.
Thema: Datenvisualisierung
Die Daten werden ohne Zuhilfenahme von bildhaften Elementen (Piktogramme, Fotografien, …) interaktiv dargestellt. Alphanumerische Zeichen (Text, Zahlen) sollen so sparsam wie möglich verwendet werden. Umso wichtiger wird es, gezielt Farbe, Form und Position einzusetzen, um
Mengen sichtbar zu machen,
Kategorien zu kodieren,
Gruppen zu bilden,
Zeitabläufe nachverfolgbar zu machen,
…
Die Darstellung von Daten zwingt schon an sich zu einer parametrischen Denkweise. D.h. die grafischen Elemente müssen flexibel gedacht werden, so dass sie unterschiedliche Zahlenwerte und Bedeutungen annehmen können. Das Denken in Varianten ist also essenziell. Zudem erlauben unterschiedliche Gesamtdarstellungen neue Einblicke in die Zusammenhänge innerhalb der Daten. Durch Interaktion können weitere Zusammenhänge vom Nutzer entdeckt werden.
Ziel des Kurses war die Visualisierung eines selbstgewählten Datensatzes unter Verwendung von Form, Farbe und Animation. Die technische Umsetzung erfolgte mithilfe von Javascript, HTML & CSS.
Datensatz
Der ursprüngliche Datensatz der gesamten Internet Movie Database umfasst in der Summe 3,9 Gigabyte.
Mit über 7,5 Millionen Einträgen zu über Filmproduktionen (Filme, Serien, Kurzfilme) und Informationen zu über 11,2 Millionen Film- und Fernsehschaffenden ist sie die größte Filmdatenbank der Welt. Die Herausforderung diesen Datensatz sinnvoll und aussagekräftig zu reduzieren reizte mich.
Themenfindung
Nun befand ich mich auf der Suche nach interessanten Korrelationen innerhalb des Datensatzes. Zunächst schaute ich auf die Genderverteilung in den internen Berufen Hollywoods, da diese notorisch unausgeglichen vergeben werden. Dabei stellte sich heraus, dass der Männeranteil unter den in Amerika arbeitenden Regisseuren bei über 78% liegt. Auch wenn diese Beobachtung durchaus aussagekräftig war, konnte ich keine interessante Weise finden, diesen reduzierten Datensatz kreativ zu visualisieren. Also arbeitete ich weiter direkt im Code und suchte nach möglichen Visualisierungsmethoden. Schlussendlich entschied ich mich dazu, eine explorative Ansicht der 1000 “besten” Filmproduktionen zu erstellen.
Filtering
Für die Verkleinerung des Datensatzes benutzte ich SQL, da sie für große Datenmengen sehr geeignet ist und über eine sehr simple Syntax verfügt.
Zunächst musste ich mir die Frage stellen, anhand welcher Parameter gemessen werden kann, wie gut bzw. schlecht ein Film bewertet ist? Alleine auf die durchschnittliche Bewertung jeder Filmproduktion zu schauen würde das Ergebnis verfälschen, da viele Einträge im Datensatz eine perfekte 10* Bewertung besitzen – dafür aber nur sehr wenig Reviews. Daher musste sowohl die Anzahl der eingetragenen Bewertungen, als auch die gesamte durchschnittliche Bewertung beim Ranking in Betracht gezogen werden. Des Weiteren musste ich einen geeigneten Schwellwert für die Mindestanzahl an Bewertungen festlegen, um oben genanntes Problem zu bekämpfen.
Daraus konnte ich eine geeignete SQL-Anfrage formulieren, um den korrekten Output zu erlangen:
Der reduzierte Datensatz hatte nun folgende Parameter:
tconst (Identifikationsnummer des Eintrags)
titleType
primaryTitle
originalTitle
isAdult
startYear
endYear
runtimeMinutes
genres (fast alle Einträge sind mehreren Genres zugehörig)
averageRating
numVotes
Entwurf
Nun konnte ich mit diesem reduzierten Datensatz einige schnelle Entwürfe mit einem Visualisierungstool
generieren.
Dennoch merkte ich schnell, dass die direkte Auseinandersetzung mit Stift und Papier zu deutlich kreativeren Lösungen führte:
Einträge als Punkte in einer Spirale nach außen zeichnen, die Anzahl der Reviews pro Eintrag bestimmt dabei die Fläche des Punkts – das Rating die Position des Punkts (je weiter außen, desto niedriger im Ranking).
Diese Ansicht war dem Datensatz aber nicht gerecht, da man keine Übersicht über die Genreverteilung hatte. Daraufhin entwickelte ich folgenden Entwurf.
Hier wird jedem Genre einen bestimmten Winkelbereich und Farbe im Kreis zugeordnet. Um maximale Unterscheidbarkeit zu garantieren, entschied ich mich für ein sehr breites Farbspektrum. Außerdem sind die Genres sinngemäß den Farben zugeordnet: