missing data problems
在impute missing value之前,你要先確認你知道你的missing value的涵義。
例如軍事支出(%gdp)為missing,這不能用imputation來處理。
ccode |
year |
region |
40 |
1933 |
3 |
40 |
1934 |
. |
40 |
1935 |
. |
40 |
1936 |
3 |
有些狀況下,同一個國家的region都是相同的數字,但是你在merge的時候,出現她在一些年份有填入數字,但其他年份並未有數字的狀況。這時候就可以用下面的code 來處理這個missing data問題。
bysort ccode ( region ): replace region =
region[_n-1] if missing( region)
ccode | year | telephone |
40 | 1983 | . |
40 | 1984 | . |
40 | 1985 | 0.1 |
40 | 1986 | 0.14 |
由於Cuba 並未report1985之前的電話登記人數,我假定這些都為0。由於不同國家開始公開這一變數的時間點不一致,所以需要考量到這一點。
另外,Cuba在2002-2003並沒有資料,但是有2001和2004的資料,這地方,我計畫用linear intepolation來處理。所以我的資料有兩種missing value的形式。為了確保我不會把2002, 2003改成0,我用了下面的code
bysort ccode (telephone): replace telephone = 0 if missing(telephone)& telephone[_n-1]==.|telephone[_n-1]==0& telephone[_n+1]==. |telephone[_n+1]==0
sort ccode year
bysort ccode: ipolate telephone year, generate (ftelephone2)
Comments
Post a Comment