missing data problems

在impute missing value之前,你要先確認你知道你的missing value的涵義。

例如軍事支出(%gdp)為missing,這不能用imputation來處理。

 

ccode

year

region

40

1933

3

40

1934

.

40

1935

.

40

1936

3

有些狀況下,同一個國家的region都是相同的數字,但是你在merge的時候,出現她在一些年份有填入數字,但其他年份並未有數字的狀況。這時候就可以用下面的code 來處理這個missing data問題。

bysort ccode ( region ): replace region = region[_n-1] if missing( region)


ccode

year

telephone

40

1983

.

40

1984

.

40

1985

0.1

40

1986

0.14


由於Cuba 並未report1985之前的電話登記人數,我假定這些都為0。由於不同國家開始公開這一變數的時間點不一致,所以需要考量到這一點。

另外,Cuba在2002-2003並沒有資料,但是有2001和2004的資料,這地方,我計畫用linear intepolation來處理。所以我的資料有兩種missing value的形式。為了確保我不會把2002, 2003改成0,我用了下面的code

bysort ccode (telephone): replace telephone = 0 if missing(telephone)& telephone[_n-1]==.|telephone[_n-1]==0& telephone[_n+1]==. |telephone[_n+1]==0

sort ccode year

bysort ccode: ipolate telephone year, generate (ftelephone2)




Comments

Popular Posts