1.Exercise 1 Frequent Itemsets
在本练习中,您必须阅读第6.4节至6.4.3.1。
• 实现6.4.12中给出的简单随机算法。
• 在6.4.33中实现Savasere,Omiecinski和Navathe(SON al-gorithm)的算法。
• 比较数据集T10I4D100K,T40I10D100K,chess, connect, mushroom, pumsb, pumsb star的两种算法,并提供http://fimi.ua.ac.be/data/并报告结果。
• 在简单的随机算法中测试不同的样本大小,例如1,2,5,10%并比较您的结果(包括SON算法产生的结果)。您的方法应该在运行时方面尽可能高效 记忆要求。报告您在实施过程中可能遇到的挑战以及运行实验。
2. Exercise 2 Clustering
1.对一维点集1,4,4,16,25,36,49,64,81执行层次聚类。
假设聚类由它们的质心(平均值)表示,并且在步骤中合并具有最接近质心的聚类。(Exercise7.2.1)
2.实现K-means算法并在提供的Iris数据集上进行实验。
a)要求您通过绘制输入数据的前2个维数以及收敛质心来绘制K均值结果。
b)提供一些关于如何在K-means中选择K值的讨论。对于Iris数据,仅使用前4个维度进行此练习。 换句话说,丢弃标签信息。
Exercise 3 Advertising
考虑例8.7。 假设有三个广告商A,B和C. 有三个查询x,y和z。 每位广告客户的预算为2。
Advertiser A only bids on x, B bids on x and y, and C bids on x, y, andz. Note that on the query sequence xxyyzz, the optimal offine algorithm would yield are venue of 6, since all queries can be assigned.
1.显示greedy algorithm将分配6个查询xxyyzz中的至少4个。
2.找到另一个查询序列,使得greedy algorithm可以将最少离线算法所分配的查询的一半分配给该序列。