自動產生codebook

 

很多時候,碩博士生的工作是在一個清理資料、分析資料的迴圈中。我們把原始資料改成我們研究所需要的,看看到底符不符合我們的假設。若是不符合的話,那是統計模型問題?或是是理論問題呢?首要的是,我們得先確認我們的資料清理與處理的過程是合理的,沒有人工失誤的。

清理資料包括重新歸類資料、合併不需要的類別、刪除掉不需要的變數、從其他資料庫添加所需要的變數等等。

由於研究的最終目的是溝通,把我們的研究產出說給他人聽。因此,當你更改了許多資料時,你需要解釋清楚為什麼你在資料處理上的決定,例如,為什麼把這個個案歸類到這個類別,而非其他類別? 當然,大部分的狀況下,觀眾對於這些小的決定並沒有興趣去了解。但現在學術期刊都開始要求附上replication file,讓其他研究者可以複製你的研究過程。也因此,清楚的說明你對於資料做了哪些處理,就變得相當重要。例如,你從自由之家獲得民主的資料,但是你另外做了些轉換,所以你的資料中的 民主程度並不是真的自由之家的code法。也因此一個有詳細說明的codebook就非常重要。

你的codebook至少需要包含下列幾項資訊:

1)      變數名稱

2)      變數的資料來源:資料庫的哪一個變數

3)      變數的類別: 類別、ratio(%)、連續、虛擬(dummy variable, 只有0, 1)變數

4)      變數的最大值與最小值、meanstandard deviation: 介紹一下這個變數的分布狀況

5)      分析單位: 你的資料是以人為單位,還是國家-年,還是省份-?

 

你可以自己建立一個文件檔案,或是把你的statadta file上傳到這個網址來產生你的codebook

這個網站還有提供各個變數的missing的狀況,很適合用來評估你的資料品質與結構。

https://opencpu.psych.bio.uni-goettingen.de/ocpu/library/codebook/www/

 

codebook的重要性請見 

Arslan RC. How to Automatically Document Data With the codebook Package to Facilitate Data Reuse. Advances in Methods and Practices in Psychological Science. June 2019:169-187. doi:10.1177/2515245919838783

Comments

Popular Posts