IDA Case Study
你是虚构的汽车制造商 “OEM1 “的员工。
介绍:
近期,各家TÜV机构关于乘用车法定尾气检测不规范的报道越来越多。根据初步调查,使用特殊软件版本的发动机控制单元会出现CO排放量增加的情况。联邦汽车运输局已经向该公司管理层通报了这些违规行为。他们正代表管理层调查此案,并已向受影响的发动机制造商索取2008-2016年生产的发动机的零部件清单。2009年4月31日至2014年11月31日期间,所有受影响的控制单元 “T2 “均安装在装有汽油发动机的车辆上,由控制单元制造商 “202 “在 “2022 “工厂生产。根据厂家 “201 “的信息,受影响的还有生产编号为 “2-2011-1250 “至 “2-2011-19500 “的机组。查明所有受影响的车辆的品牌和登记的城市。
“T2 “控制单元安装在所有 “OEM1 “品牌发动机上。这些发动机可由客户选择作为 “11型 “或 “12型 “车辆类型的设备特征。您应该确定受影响的车辆,并从现有数据中分离出在车辆上安装受影响部件的零部件、组件和汽车制造商。
所有的信息,包括车辆是在哪个工厂生产的,车辆是否有缺陷,都可以在集团的生产数据中找到。如果安装的单个零件、安装的部件或整车被标记为缺陷,则车辆始终被认为是缺陷。这种逻辑也相应地适用于含有单个部件缺陷的部件。
你可以进入该集团自己的数据库,必须自己决定需要哪些数据进行分析。此外,联邦汽车运输局(KBA)还向您发送了登记数据和地理数据,这些数据也储存在数据库中。数据记录的类别如下:
• 单个部件
• 组成部分
• 车辆
• 地理数据
• 审批
• 后勤延误
建议在开始分析之前,先仔细观察一下各表的结构。
对于供应链的所有情况,即单个零件、部件和车辆,都有包含ID号、制造商、制造厂、生产日期和缺陷条目等信息的生产数据。ID号由零件名称、制造商、工厂和顺序号组成。例:1-201-2011-3,部件T1,制造商 “201 “在 “2011 “工厂生产,该系列的第3个部件。
对于零部件和车辆,也有零部件清单可供选择,这些清单由命名惯例Components_Name_Abbreviation声明。它们包含了每种情况下安装的所有部件或组件的信息。
基本目标是开发一个应用程序来分析你的问题。应该可以交互式地操作某些设置,这些设置在分析过程中会被自动考虑在内。为了评估结果,重要的是你要用R Markdown文件来记录你的方法。
1.从提供的tubcloud文件夹中导入相关数据集。首先,在文档中列出你要导入的文件
2.利用整齐数据的原则准备与你的任务相关的数据,并将它们合并成一个数据集。
3.开发一款符合以下标准的闪亮应用。
* 所有使用的软件包必须在当前版本的R上可以执行。
* 该应用程序必须能够从交付文件夹启动,而无需进一步调整。在提交之前,最好先测试一下。该应用程序应该只引用您创建的单一数据集。
*应用程序的布局应适应目标群体,并与公司的颜色相一致。贵公司的颜色是 “深蓝”。此外,在版面设计中应融入标志。你可以自己制作标志,也可以使用质量科学部的标志。根据自己的意愿调整应用的字体。适应是必须的。
在应用程序中可视化以下内容
a. 显示各社区受影响车辆在一段时间内的登记历史的图表。此外,使用热图显示来直观地显示受损区域。在地图显示中加入弹出窗口,包括受影响和未受影响车辆的信息。
b. 互动式条形图,将每个生产月受影响的车辆数量与未受影响的车辆数量进行对比。用户应能自由选择所考虑的时期。
c. 车主应能通过车辆识别码查询(如通过搜索栏)其车辆是否受到影响。
d. 进一步实施.csv格式的数据集下载选项。在那里,应该可以下载一套数据,以便为每个受影响的车辆类型规划更新行动。
e. 你的底层数据集作为一个表,这样你就可以证明你所可视化的东西。同样,记得只显示必要的属性。
在R Markdown文件中记录你的分析结果。逐步描述你的数据分析过程,并使用你开发的应用程序中的有意义的图表讨论结果。描述你的过程将帮助你理解你的解决方案步骤。如果你的R代码有任何问题,可以用文档来确认一个根本正确的方法。因此,请仔细注释你的代码,并遵循整洁的风格指南。创建一个目录,显示在html文件中,并可点击。在结果章节中整合你的应用的有意义的截图。
目录中至少应列出以下要点:
* 输入数据
* 数据准备
* 创建最终数据集
* 评价
*结果
## ##一般任务
除了案例研究,还有其他一般作业要做。再次,记得把你的代码记录下来,这样你的解题思路也能被理解,必要时可以给不完整的解题思路加分。
物流在汽车行业的产品开发中扮演着越来越重要的角色。例如,供应商生产的零件必须先交付给OEM,然后才能安装。对于一个专业的组织来说,乍一看似乎很合理,但一定要进行更详细的分析。因此,为 “K7 “组件的物流延迟创建一个配送。为此,使用数据记录 “Component_K7.csv “中的生产日期和 “Logistics delay_K7.csv “中的收货日期。采摘需要一个工作日。你可以假设制造商在生产当天将零件转为货物问题。为了在R中建模,创建一个新的记录 “物流延迟”,其中包含两个记录中的所需信息。
a. 物流延迟如何分配?说明你选择的理由,并简述你的做法。
b. 发货与收货之间的最短/最长时间是多少?
c. 确定物流延迟的平均值。
d. 用Plotly适当地绘制分布图。
2.为什么把提供给你的数据分别存放在不同的文件中,而不是把所有的数据都存放在一个巨大的表格中?底层数据库概念的名称是什么?
3. 有多少K7组件最终出现在Talheim b. Heilbronn登记的车辆中?
4.登记表 “Zulassungen_aller_Fehzeuge “的属性有哪些数据类型?在Markdown中创建一个表格。
5 你想发布你的应用程序。为什么将数据集存储在服务器的数据库上是合理的?为什么不能将记录存储在个人电脑上?有什么简单的方法可以让你的应用程序提供给你的客户?
6、2010年8月11日,发生了一起肇事逃逸事故。肇事车的车牌没有任何痕迹。警方请你帮忙,因为你在联邦汽车运输局工作,询问车身零件号为 “K7-114-1142-31 “的车辆在哪里注册。
Sie sind Mitarbeiter des fiktiven Fahrzeugherstellers “OEM1”.
In letzter Zeit häufen sich Meldungen von verschiedenen TÜV-Organisationen über Unregelmäßigkeiten im Rahmen der gesetzlichen Abgasuntersuchung von PKWs. Nach einer ersten Untersuchung kommt es in Motorsteuergeräten, die eine spezielle Softwareversion nutzen, zu einem erhöhten Ausstoß von CO. Das Kraftfahrtbundesamt hat die Unternehmensführung bereits über diese Unregelmäßigkeiten informiert. Sie untersuchen im Auftrag des Managements diesen Fall und haben bereits bei den betroffenen Motorenherstellern die Stücklisten der Motoren aus den Produktionsjahren 2008-2016 angefragt. Alle betroffenen Steuergeräte “T2” wurden in Fahrzeugen mit Otto-Motoren verbaut und vom Steuergerätehersteller “202” im Werk “2022” im Zeitraum vom 31.04.2009 bis zum 31.11.2014 produziert. Ebenfalls betroffen sind nach Informationen des Herstellers “201” Geräte mit den Produktionsnummern “2-201-2011-1250” bis “2-201-2011-19500”. Identifizieren Sie alle betroffenen Fahrzeuge Ihrer Marke und die Gemeinde, in der sie zugelassen wurden.
Die Steuergeräte “T2” sind in allen Motoren der Marke “OEM1” verbaut. Diese Motoren können vom Kunden als Ausstattungsmerkmal der Fahrzeugtypen “Typ11” oder “Typ12” gewählt werden. Sie sollten betroffene Fahrzeuge identifizieren und Teile-, Komponenten- und Automobil-Hersteller, die betroffene Komponenten in ihren Fahrzeugen verbaut haben, aus den vorliegenden Daten isolieren.
Sämtliche Informationen, darunter wann ein Fahrzeug in welchem Werk produziert wurde und ob ein Fahrzeug fehlerhaft ist, können Sie den Produktionsdaten des Konzerns entnehmen. Ein Fahrzeug gilt immer dann als ausgefallen, wenn ein verbautes Einzelteil, eine verbaute Komponente oder das gesamte Fahrzeug als fehlerhaft markiert ist. Diese Logik gilt entsprechend auch für Komponenten, die fehlerhafte Einzelteile enthalten.
Sie erhalten Zugang zur konzerneigenen Datenbank und müssen selbst entscheiden, welche Daten Sie für Ihre Analyse benötigen. Des Weiteren ließ Ihnen das Kraftfahrtbundesamt (KBA) Zulassungsdaten und Geodaten zukommen, welche auch auf der Datenbank gespeichert sind. Im Folgenden sind die Kategorien der Datensätze aufgezählt:
Es wird empfohlen, sich vor der Analyse den Aufbau der jeweiligen Tabellen genau anzuschauen.
Für alle Instanzen der Zulieferkette, d. h. für Einzelteile, Komponenten und Fahrzeuge stehen Ihnen Produktionsdaten mit Informationen zu ID-Nummer, Hersteller, Herstellungswerk, Produktionsdatum und Fehlereinträgen zur Verfügung. Die ID-Nummern setzen sich aus Teilebezeichnung, Hersteller, Werk und fortlaufender Nummer zusammen. Beispiel: 1-201-2011-3, Bauteil T1, produziert von Hersteller “201” im Werk “2011”, 3. Bauteil aus dieser Serie.
Für Komponenten und Fahrzeuge stehen Ihnen außerdem Stücklisten zur Verfügung, die durch die Namenskonvention Bestandteile_Name_Abkürzung deklariert sind. Sie beinhalten Informationen über alle jeweils verbauten Teile bzw. Komponenten.
Das grundsätzliche Ziel ist die Entwicklung einer Applikation zur Analyse Ihrer Problemstellung. Dabei sollte es möglich sein, gewisse Einstellungen interaktiv zu manipulieren, die bei der Analyse automatisch berücksichtigt werden. Zur Ergebnisauswertung ist es wichtig, dass Sie Ihr Vorgehen mit einer R Markdown Datei dokumentieren.
1. Importieren Sie relevante Datensätze aus dem bereitgestellten tubcloud-Ordner. Listen sie zunächst in der Dokumentation auf, welche Dateien sie importieren.
2. Bereiten Sie die für Ihre Aufgabe relevanten Daten nach den Prinzipien von tidy data auf und fügen Sie diese in einem einzigen Datensatz zusammen.
3. Entwickeln Sie eine Shiny-App welche folgende Kriterien erfüllt:
* Alle verwendeten Packages müssen auf der aktuellen R-Version lauffähig sein.
* Die Applikation muss ohne weitere Anpassungen aus dem Abgabeordner gestartet werden können. Es bietet sich an, dies vor Abgabe zu testen. Die Applikation soll sich nur auf einen einzelnen, von Ihnen erstellten Datensatz beziehen.
*Das Layout der Applikation soll auf die Zielgruppe angepasst sein und der Unternehmensfarbe entsprechen. Die Farbe ihres Unternehmens ist “Deep Blue”. Des Weiteren soll ein Logo in das Layout integriert werden. Es kann ein eigenes Logo erstellt werden, oder das Logo vom Fachgebiet Qualitätswissenschaft verwendet werden. Passen Sie die Schriftart ihrer Applikation nach Ihren Wünschen an. Eine Anpassung ist obligatorisch.
4. Visualisieren Sie folgendes in der Applikation
a. Einen Graphen, der den zeitlichen Zulassungsverlauf der betroffenen Fahrzeuge in den Gemeinden darstellt. Verwenden Sie zusätzlich eine Heatmapdarstellung zur Visualisierung von Schadensschwerpunkten. Integrieren Sie Popups in die Kartendarstellung, die Informationen zu den betroffenen und nicht betroffenen Fahrzeugen enthalten.
b. Ein interaktives Balkendiagramm, dass die Zahlen der betroffenen Fahrzeuge je Produktionsmonat mit den nicht betroffenen gegenüberstellt. Der Nutzer soll dabei den Betrachtungszeitraum frei wählen können.
c. Den Fahrzeughaltern soll es möglich sein, (bspw. über ein Suchfeld) anhand der Fahrzeug-ID zu überprüfen, ob ihr Auto betroffen ist.
d. Implementieren Sie weiter eine Downloadoption für einen Datensatz im .csv-Format. Dort soll jeweils ein Download eines Datenansatzes für die zuplanende Updateaktion für jeden betroffenen Fahrzeugtyp möglich sein.
e. Ihren zugrundeliegenden Datensatz als Tabelle, damit Sie Visualisiertes auch beweisen können. Denken Sie auch hier daran, nur die notwendigen Attribute anzuzeigen.
5. Dokumentieren Sie die Ergebnisse Ihrer Analyse in einer R Markdown Datei. Beschreiben Sie Ihren Datenanalyseprozess schrittweise und diskutieren Sie das Ergebnis anhand aussagekräftiger Graphiken aus Ihrer entwickelten App. Das Beschreiben Ihres Vorgehens dient der Nachvollziehbarkeit Ihrer Lösungsschritte. Falls es Probleme mit Ihrem R-Code gibt, kann durch die Dokumentation ein grundsätzlich richtiges Vorgehen anerkannt werden. Kommentieren Sie deshalb Ihren Code sorgfältig und beachten Sie den tidyverse Style-Guide. Erstellen Sie ein Inhaltsverzeichnis, welches im html-File eingeblendet wird und anklickbar ist. Integrieren Sie im Ergebniskapitel aussagekräftige Screenshots ihrer App.
Folgende Gliederungspunkte sollen im Inhaltsverzeichnis mindestens aufgeführt werden:
* Importieren der Daten
* Datenaufbereitung
* Erstellen des finalen Datensatzes
* Auswertung
* Ergebnis
6. Im Abgabeordner sollen folgende Dateien und Ordner zu finden sein, XX ist mit der Gruppennummer zu ersetzen:
* Finaler_Datensatz_Gruppe_XX
* Allgemeine_Aufgaben_Gruppe_XX.rmd
* Allgemeine_Aufgaben_Gruppe_XX.html
* Case_Study_Gruppe_XX.rmd
* Case_Study_Gruppe_XX.html
* Case_Study_App_XX.r
* Zusätzliche_Dateien
* Data
* Case_Study_Gruppe_XX.Rproj
## Allgemeine Aufgaben
Neben der Case Study gibt es noch weitere zu bearbeitende allgemeine Aufgaben. Denken Sie auch hier an die Dokumentation Ihres Codes, damit Ihre Lösungen auch nachvollzogen werden können und ggf. Punkte für unvollständige Lösungen gegeben werden können.
1. Logistik spielt in der Produktentwicklung der Automobilindustrie eine immer größer werdende Rolle. So müssen vom Lieferanten produzierte Teile zunächst zum OEM geliefert werden, bevor sie eingebaut werden können. Was auf den ersten Blick logisch erscheint, sollte für eine professionelle Organisation unbedingt näher analysiert werden. Erstellen Sie deshalb eine Verteilung für den Logistikverzug von Komponente „K7“. Nutzen Sie hierfür das Produktionsdatum aus dem Datensatz “Komponente_K7.csv” und das Wareneingangsdatum aus “Logistikverzug_K7.csv”. Für die Kommissionierung wird ein Werktag benötig. Sie können davon ausgehen, dass der Hersteller das Teil am Produktionstag in den Warenausgang übergibt. Erstellen Sie für die Modellbildung in R einen neuen Datensatz “Logistikverzug”, der die benötigten Informationen aus beiden Datensätzen enthält.
a. Wie ist der Logistikverzug verteilt? Begründen Sie Ihre Auswahl und stellen Sie Ihre Vorgehensweise kurz dar.
b. Wie viel Zeit vergeht mindestens/höchstens zwischen Warenausgang und Wareneingang?
c. Bestimmen Sie den Mittelwert des Logistikverzugs.
d. Stellen Sie die Verteilung in geeigneter Weise mit Plotly dar.
2. Warum ist es sinnvoll, die Ihnen bereitgestellten Daten in separaten Dateien abzulegen und nicht alles in einer riesigen Tabelle abzuspeichern? Wie nennt sich das zugrunde liegende Datenbankkonzept?
3. Wie viele der Komponenten K7 landeten in Fahrzeugen, die in Talheim b. Heilbronn zugelassen wurden?
4. Welche Datentypen haben die Attribute der Zulassungstabelle „Zulassungen_aller_Fahrzeuge“? Erstellen Sie dazu eine Tabelle in Markdown.
5. Sie wollen Ihre Applikation veröffentlichen. Warum ist es gerade dann sinnvoll die Datensätze auf der Datenbank eines Servers abzulegen? Warum können Sie die Datensätze nicht auf Ihrem persönlichen Computer ablegen? Nennen Sie eine einfache Möglichkeit Ihre Applikation ihrem Kundenkreis zugänglich zu machen?
6. Am 11.08.2010 hat es einen Unfall mit Fahrerflucht gegeben. Von dem Kennzeichen des Unfallwagens fehlt jede Spur. Die Polizei bittet Sie um Hilfe, da Sie für das Kraftfahrtbundesamt arbeiten und fragt, wo das Fahrzeug mit der Karosseriebauteilnummer „K7-114-1142-31“ zugelassen wurde.