UNIVERSITY * OF * CARDIFF MAT012 *学分*风险*计分作业2019/20这构成了本模块的评估(100%)。此评估分为两个部分。部分* A包含三个基于简短论文的问题,占最终标记的50%。部分* B包含四个任务,以使用给定的数据集和计数来建立分数卡。您可以使用Excel,SAS,R或Python的50%的最终标记来帮助记分卡。制备。您必须回答所有问题。必须于3月20日(星期五)下午3点*通过学习中心提交资料。指导将很快按照如何执行此操作。您将需要提交一个文件。包含对所有问题的答案;任何电子表格分析,工作或编码所必需的!可以在该文件的附件中显示。只有提交的文件会被标记。 PART * A 1.认真检查在开发信用风险评分时需要考虑的内容。模型。 [20分] 2.在理论上说明如何进行生存分析的Cox比例风险模型。用于构建分数卡。对Fox的相对受欢迎度进行评论模型与记分卡构造中的逻辑回归。 [15分] 3.在信用风险中提供有关马氏模型使用情况的简要文献综述。进行建模,并特别关注那些在信用风险评分中使用的模型。 [15个标记] PART * B分析的基础数据集是在授课期间的实验室会议中使用的。已以名为“德语”的电子表格以及描述了每个属性的数据字典“德语数据字典”一起上传。您会回想起由数据集组成的包含1000个申请人的数据,以及随后说明的变量从信用角度看是好是坏。 1.将数据集分成两个子集,如下所示:子集1:具有持续时间的申请人<= 12个月子集2:申请人的持续时间在哪里? >必要时清理12个月的子集。 [5分] 2.对于每个子集,建立一个训练集和一个验证集。您有什么原则来决定这些; b。为什么需要训练和验证集? C。在锻炼过程中遇到任何问题。 [5分] 3.对于每个训练设置,选择四个适合构建的变量。记分卡,每次训练都必须设置变量(i)至少一个连续的变量(ii)至少有一个绝对类别变量,且变量多于两个类别,因此您可以查看是否可以合并类别。解释变量选择背后的合理性(使用支持的统计数据,例如chi> square)。您应该选择满意的变量来满足上述要求。准则!解释遇到的问题以及您选择的解决方案折衷选择变量。 [10个标记] 4.使用从以上粗分类中获得的二进制变量。练习以为每个训练集构建两个记分卡(因此,为那些具有持续时间的申请人提供两个记分卡,<= 12个月;另外两个为那些具有持续时间的记分卡。 > 12个月),一个使用线性回归,一个使用逻辑回归。请注意%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%以上的限定者的限定人物对于这些%变量,以每个%回归计算。 [15分] 5.使用适用于每个的验证设置,为所有计分卡导出ROC曲线。详细显示了如何计算敏感性和特异性。每项的基尼系数和KS值请解释并评论您的结果。 [15!分]