我有一份面板数据,有些年份上的数据有两行或多行记录 (例如,本例中 2007 年的数据)。棘手的是,这两行数据存在差异,且无法判断哪一个记录是正确的。此时,比较稳妥的选择是:将这两汉数据都舍弃,使用相邻年度 (2006 和 2008 年) 的均值作为 2007 年的观察值 (插值)。

先删除重复的观察值 (2007 年的数据)

继而使用 tsfill 填充年份,让数据变成平行面板;

使用 duplicates tag 命令标记重复的观察值,并使用 gen() 选项产生新变量用以记录标记情况;

删除重复的观察值 (其实,这两步可以合为一步);

支持回看,所有课程可以随时购买观看。