需求:
数学方法的代码实现,测量误差模型的逆卷积核估计方法实现。根据参考资料中的方法,完 成方法的代码,并根据所给的例子做出结果图
关键词:
测量误差,逆卷积核估计
所需语言:
Python 或 R 都可,最好是 Python 需达到的效果: 代码运行成功,并有模拟实例的图像结果 时间要求:
2020 年 1 月 6 号 20:00 之前
参考资料(1):
考虑模型
𝑊=𝑋+𝑈 𝑖𝑖𝑖
{W }𝑛 是 i.i.d.的可观测样本,𝑋是不可观测变量, 𝑈是测量误差,独立于𝑋 ,同时假设变量 𝑖 𝑖=1 𝑖
𝑈的密度函数为𝑓 (∙)。简单来说,可以看到的样本是 W,但样本被 U 污染,最终的目的是利 𝑈
用W和𝑈求𝑋的分布函数的估计。下面是估计的数学方法: 令K(∙)表示核函数,h表示窗宽。并令𝑓 (∙)、𝑓 (∙)和𝑓 (∙)分别表示变量W、X 和误差变
𝑊𝑋𝑈
量 U 的概率密度函数. 由于W = X + U, 可知 W 的密度函数𝑓 (∙)是密度函数𝑓 (∙)和𝑓 (∙)的 𝑊𝑋𝑈
卷积,即表示为
𝑓 (𝑤)=∫∞ 𝑓(𝑥)𝑓(𝑤−𝑥)𝑑𝑥. 𝑊 −∞𝑋𝑈
令𝜙𝑊(𝑡)表示 W 的特征函数(傅里叶变换),𝜙𝑋(𝑡)表示 X 的特征函数和𝜙𝑈(𝑡)表示 U 的特 征函数,可以得到变量 X 的特征函数为
𝜙𝑋(𝑡) = 𝜙𝑊(𝑡). 𝜙𝑈(𝑡)
由 Fourier 逆变换可知
𝑓 (𝑥) = ∫ exp(−𝑖𝑡𝑥)𝜙 (𝑡)𝑑𝑡 = ∫ exp(−𝑖𝑡𝑥) 𝑑𝑡.
1∞ 1∞ 𝜙𝑊(𝑡)
𝑋 2𝜋 𝑋 2𝜋 𝜙(𝑡) −∞ −∞ 𝑈
以上是数学理论基础,说明在𝑓 (∙)和𝑓 (∙)已知的假设下,X 的概率密度𝑓 (𝑥)可求,但 𝑊𝑈𝑋
实际上𝑓 (∙)未知,只有W的样本,故下面是讲解如何根据估计的𝑓 (∙)得到上述𝑓(𝑥). 𝑊𝑊𝑋
由假设条件可知,U的密度函数𝑓 (∙)已知,而W的密度函数𝑓 (∙)未知,所以要想获得 𝑈𝑊
X的密度函数,首先需要估计W的密度函数𝑓 (∙),由于𝑊,⋯,𝑊是可观测变量,因此可利 𝑊1𝑛
用核方法得到𝑓 (∙)的估计如下 𝑊
进一步,计算可得𝑓 (𝑥)的逆卷积核密度估计为 𝑋
̂
𝑓 (𝜔)=
1𝑛𝑊−𝜔 𝑖
𝑊
∑𝐾( ). 𝑛h h
̂
∞̂
1 𝜙𝑊(𝑡)
𝑖=1
𝑓 (𝑥) = 𝑋
= 1 ∫ exp(−𝑖𝑡𝑥)𝜙𝐾(𝑡h)𝜙𝑛(𝑡)𝑑𝑡, 2𝜋 −∞ 𝜙𝑈(𝑡)
∫ exp(−𝑖𝑡𝑥) 𝑑𝑡 2𝜋 −∞ 𝜙𝑈(𝑡)
∞̂
(2.4)
̂
其中𝜙𝐾(∙)表示核函数K(∙)的 Fourier 变换,𝜙𝑛(𝑡)表示经验特征函数,定义为
1𝑛
计形式
其中
1𝑛𝑊−𝑥
̂
𝜙 (𝑡)= ∑exp(𝑖𝑡𝑊).
𝑛𝑛𝑖 𝑖=1
为了简单,我们将式(2.4)定义的𝑓 (𝑥)的逆卷积核密度估计重新写成下面简单的核估 𝑋
𝑖 𝑋 𝑛h 𝑛 h
1 ∞ 𝐾𝑛(𝑥)=2𝜋∫ exp(−𝑖𝑡𝑥)
−∞
𝑤
̂ 𝑓(𝑥)=
∑𝐾 ( 𝑖=1
),
𝜙𝐾(𝑡)
𝑡 𝑑𝑡.
𝜙𝑈 (h)
最终要求
(2.5)
(2.6)
̂
简而言之,就是利用核估计方法计算𝑓 (𝑥),但核函数是一个复杂的逆卷积核函数。(2.5)和
𝑋
(2.6)是(2.4)简化的形式,可以直接利用(2.4)计算,
̂̂ 𝐹(𝑤)= ∫ 𝑓(𝑥)𝑑𝑥
𝑋𝑋 −∞
在实际中,测量误差的密度函数𝑓 (∙)是未知的,可以利用重复测量的方法解决这个问题(可 𝑈
参考资料(2)),且核函数的窗宽可利用 CV 方法得到最优 h。
实例: {𝑋 }𝑝 是 i.i.d.的 p 维样本,每一维都服从均值方差不同的正态分布,测量误差𝑈 的
𝑗 𝑗=1 𝑖
密度函数为𝑓 (𝑢) = (√2/3)−1exp(−3√2|𝑢|),u 来自区间[0,1]上的均匀分布。利用上述方法 𝑈
̂
得到𝐹 (𝑤),其中窗宽h用CV得到,𝑓 (∙)利用重复测量得到。
𝑋𝑈
如何检验是否满足要求:
随机取 3 维𝑋 (例如𝑋 , 𝑋 , 𝑋 ),分别作三幅图,每幅图中包括:真实 X 分布曲线(实线表 𝑗 259
合曲线。
̂̂ 示),断线表示逆卷积𝑓 (𝑥)得到的拟合曲线,点断线表示忽略测量误差,用𝑓 (𝜔)得到的拟
𝑋𝑊