Case Study 20
Sie sind Mitarbeiter im Kraftfahrtbundesamt und sind für die Beantwortung von Anfragen des Bundestags zuständig. In der Politik wird zurzeit über Diesel-Fahrverbote diskutiert, um geforderte Grenzwerte von Stickoxiden in der Umgebungsluft einzuhalten. Es soll herausgefunden werden, wie viele Fahrzeughalter von einem radikalen Verbot für alle Dieselfahrzeuge betroffen wären. Dafür stehen Ihnen Daten von zwei großen, fiktiven Automobilherstellern zur Verfügung. Im Kraftfahrtbundesamt sind zudem alle Zulassungsorte der Fahrzeuge hinterlegt. Mithilfe dieser Daten sollen Sie eine Übersicht über die Art der Antriebsmotoren in ganz Deutschland erstellen. Um der laufenden Diskussion in der Politik gerecht zu werden, sollen Sie Ihre Analyse interaktiv gestalten. Um der laufenden Diskussion in der Politik gerecht zu werden, sollen Sie Ihre Analyse interaktiv gestalten. Entwickeln Sie dafür eine Applikation, bei der das Datum und die Orte der geplanten Fahrverbote eingegeben werden können, um so in Zukunft beliebige Analysen automatisiert durchführen zu können.
Informationen zu den Aufgaben und Datensätzen:
Sämtliche Informationen, darunter wann ein Fahrzeug in welchem Werk produziert wurde und ob ein Fahrzeug fehlerhaft ist, können Sie den Produktionsdaten des Konzerns entnehmen. Ein Fahrzeug gilt immer dann als ausgefallen, wenn ein verbautes Einzelteil, eine verbaute Komponente oder das gesamte Fahrzeug als fehlerhaft markiert ist. Diese Logik gilt entsprechend auch für Komponenten, die fehlerhafte Einzelteile enthalten.
Sie erhalten Zugang zur konzerneigenen Datenbank und müssen selbst entscheiden, welche Daten Sie für Ihre Analyse benötigen. Des Weiteren ließ Ihnen das Kraftfahrtbundesamt (KBA) Zulassungsdaten und Geodaten zukommen, welche auch auf der Datenbank gespeichert sind. Im Folgenden sind die Kategorien der Datensätze aufgezählt:
• Einzelteil
• Komponente
• Fahrzeuge
• Geodaten
• Zulassungen
• Logistikverzüge
Es wird empfohlen, sich vor der Analyse den Aufbau der jeweiligen Tabellen genau anzuschauen.
Für alle Instanzen der Zulieferkette, d. h. für Einzelteile, Komponenten und Fahrzeuge stehen Ihnen Produktionsdaten mit Informationen zu ID-Nummer, Hersteller, Herstellungswerk, Produktionsdatum und Fehlereinträgen zur Verfügung. Die ID-Nummern setzen sich aus Teilebezeichnung, Hersteller, Werk und fortlaufender Nummer zusammen. Beispiel: 1-201-2011-3, Bauteil T1, produziert von Hersteller “201” im Werk “2011”, 3. Bauteil aus dieser Serie.
Für Komponenten und Fahrzeuge stehen Ihnen außerdem Stücklisten zur Verfügung, die durch die Namenskonvention Bestandteile_Name_Abkürzung deklariert sind. Sie beinhalten Informationen über alle jeweils verbauten Teile bzw. Komponenten.
Hinweise zum Vorgehen für Ihre Case Study:
Das grundsätzliche Ziel ist die Entwicklung einer Applikation zur Analyse Ihrer Problemstellung. Dabei sollte es möglich sein, gewisse Einstellungen interaktiv zu manipulieren, die bei der Analyse automatisch berücksichtigt werden. Zur Ergebnisauswertung ist es wichtig, dass Sie Ihr Vorgehen mit einer R Markdown Datei dokumentieren.
1. Importieren Sie relevante Datensätze aus dem bereitgestellten tubcloud-Ordner. Listen sie zunächst in der Dokumentation auf, welche Dateien sie importieren.
2. Bereiten Sie die für Ihre Aufgabe relevanten Daten nach den Prinzipien von tidy data auf und fügen Sie diese in einem einzigen Datensatz zusammen.
3. Entwickeln Sie eine Shiny-App welche folgende Kriterien erfüllt:
◦ Alle verwendeten Packages müssen auf der aktuellen R-Version lauffähig sein.
◦ Die Applikation muss ohne weitere Anpassungen aus dem Abgabeordner gestartet werden können. Es bietet sich an, dies vor Abgabe zu testen. Die Applikation soll sich nur auf einen einzelnen, von Ihnen erstellten Datensatz beziehen.
◦ Das Layout der Applikation soll auf die Zielgruppe angepasst sein und der Unternehmensfarbe entsprechen. Die Farbe ihres Unternehmens ist TUB-Rot. Des Weiteren soll ein Logo in das Layout integriert werden. Es kann ein eigenes Logo erstellt werden, oder das Logo vom Fachgebiet Qualitätswissenschaft verwendet werden. Passen Sie die Schriftart ihrer Applikation nach Ihren wünschen an. Eine Anpassung ist obligatorisch.
4. Visualisieren Sie folgendes in der Applikation
a. Eine Kartendarstellung für Deutschland, die durch Marker die Anzahl der zugelassenen Fahrzeuge in allen Zulassungsorten darstellt. Durch Überfahren oder Anklicken eines Markers soll die Anzahl der Fahrzeuge graphisch in die Motorisierungen Benzin und Diesel aufgeteilt werden. Binden Sie in Ihre Applikation die Möglichkeit der Datums- und Ortseingabe eines Diesel-Fahrverbots ein. Durch die Datumseingabe sollen alle Daten der Marker zensiert werden, d.h. nur Fahrzeuge, die vor dem Verbotsdatum zugelassen wurden, sollen in der Analyse betrachtet werden.
b. Eine zusätzliche Graphik, die die Anzahl der betroffenen Kunden gruppiert nach den ersten zwei Ziffern der Postleitzahl darstellt. Die Ortseingabe des Diesel-Fahrverbots bestimmt die jeweiligen Gruppen betroffener Kunden. Achten Sie auch hier darauf, dass nur Fahrzeuge bzw. Kunden vor dem Verbotsdatum ausgewertet werden. (Hinweis: Sie können vereinfacht davon ausgehen, dass alle zugelassenen Fahrzeuge noch gefahren werden, d.h. es gibt keine Fahrzeugausfälle.)
c. Ihren zugrundeliegenden Datensatz als Tabelle, damit Sie Visualisiertes auch beweisen können. Denken Sie auch hier daran, nur die notwendigen Attribute anzuzeigen.
5. Dokumentieren Sie die Ergebnisse Ihrer Analyse in einer R Markdown Datei. Beschreiben Sie Ihren Datenanalyseprozess schrittweise und diskutieren Sie das Ergebnis anhand aussagekräftiger Graphiken aus Ihrer entwickelten App. Das Beschreiben Ihres Vorgehens dient der Nachvollziehbarkeit Ihrer Lösungsschritte. Falls es Probleme mit Ihrem R-Code gibt, kann durch die Dokumentation ein grundsätzlich richtiges Vorgehen anerkannt werden. Kommentieren Sie deshalb Ihren Code sorgfältig und beachten Sie den tidyverse Style-Guide. Erstellen Sie ein Inhaltsverzeichnis, welches im html-File eingeblendet wird und anklickbar ist. Folgende Gliederungspunkte sollen im Inhaltsverzeichnis mindestens aufgeführt werden:
◦ Importieren der Daten
◦ Datenaufbereitung
◦ Erstellen des finalen Datensatzes
◦ Auswertung
◦ Ergebnis
6. Im Abgabeordner sollen folgende Dateien zu finden sein, XX ist mit der Gruppennummer zu ersetzen:
◦ Final_Data_Group_XX
◦ General_Tasks_Group_XX.rmd
◦ General_Tasks_Group_XX.html
◦ Case_Study_Group_XX.rmd
◦ Case_Study_Group_XX.html
◦ Case_study_App_XX.r
Allgemeine Aufgaben
Neben der Case Study gibt es noch weitere zu bearbeitende allgemeine Aufgaben. Denken Sie auch hier an die Dokumentation Ihres Codes, damit Ihre Lösungen auch nachvollzogen werden können und ggf. Punkte für unvollständige Lösungen gegeben werden können.
1. Logistik spielt in der Produktentwicklung der Automobilindustrie eine immer größer werdende Rolle. So müssen vom Lieferanten produzierte Teile zunächst zum OEM geliefert werden, bevor sie eingebaut werden können. Was auf den ersten Blick logisch erscheint, sollte für eine professionelle Organisation unbedingt näher analysiert werden. Erstellen Sie deshalb eine Verteilung für den Logistikverzug von Komponente „K7“. Nutzen Sie hierfür das Produktionsdatum aus dem Datensatz “Komponente_K7.csv” und das Wareneingangsdatum aus “Logistikverzug_K7.csv”. Sie können davon ausgehen, dass der Hersteller das Teil am Produktionstag in den Warenausgang übergibt. Erstellen Sie für die Modellbildung in R einen neuen Datensatz “Logistikverzug”, der die benötigten Informationen aus beiden Datensätzen enthält Erstellen Sie für die Modellbildung in R einen neuen Datensatz “Logistikverzug”, der die benötigten Informationen aus beiden Datensätzen enthält.
a. Wie ist der Logistikverzug verteilt? Begründen Sie Ihre Auswahl und stellen Sie Ihre Vorgehensweise kurz dar.
b. Wie viel Zeit vergeht mindestens/höchstens zwischen Warenausgang und Wareneingang?
c. Bestimmen Sie den Mittelwert des Logistikverzugs.
d. Stellen Sie die Verteilung in geeigneter Weise dar.
2. Warum ist es sinnvoll, die Ihnen bereitgestellten Daten in separaten Dateien abzulegen und nicht alles in einer riesigen Tabelle abzuspeichern? Wie nennt sich das zugrunde liegende Datenbankkonzept? Wie nennt sich das zugrunde liegende Datenbankkonzept?
3. Wie viele der Komponenten K7 landeten in Fahrzeugen, die in Köln zugelassen wurden?
4. Welche Datentypen haben die Attribute der Zulassungstabelle „Zulassungen_aller_Fahrzeuge“?
5. Sie wollen Ihre Applikation veröffentlichen. Warum ist es gerade dann sinnvoll die Datensätze auf der Datenbank eines Servers abzulegen? Warum können Sie die Datensätze nicht auf Ihrem persönlichen Computer ablegen? Nennen Sie eine einfache Möglichkeit Ihre Applikation ihrem Kundenkreis zugänglich zu machen?
6. Am 11.08.2010 hat es einen Unfall mit Fahrerflucht gegeben. Von dem Kennzeichen des Unfallwagens fehlt jede Spur. Die Polizei bittet Sie um Hilfe, da Sie für das Kraftfahrtbundesamt arbeiten und fragt, wo das Fahrzeug mit der Karosseriebauteilnummer „K4-112-1121-23“ zugelassen wurde.