引言
在學校任教的老師,每年也製作了很多份試卷,但都不需要用拉希模型(Rasch
model)來計算學生的成績,為甚麼現在卻興起了一股學習拉希模型的熱潮呢?它對教學和測評有甚麼用處?
在學校裡,當學年結束的時候,每科也有一場考試,成績達到60分便算合格,但每年的合格水平是否一致呢?即今年60分的水平是否等於去年60分的水平呢?老師們都知道每年的水平通常不是絕對一致的,但在他們的控制下,可以把水平調校至與去年的水平相若。用甚麼方法呢?在擬題方面,在評卷方面,也可以加以控制,另一方面,又要視乎今年學生的平時表現,看看有沒有需要把合格率調高或調低。
公開考試也有年與年之間的合格水平是否一致的問題。在現今的測評技術來說,最佳的應付辦法是引用拉希模型(Rasch
model),並加入一些研究測驗的數據來求出合格分數。
拉希模型是由一位丹麥數學家喬治.拉希(Georg Rasch, 1901-1980)在1960年所發明,這模型其實是一條數學公式,在心理測量學(psychometrics)上受到廣泛的應用,本文稍後將詳述,這亦是本文的主旨。該公式只適用於滿分為1分的題目,對於滿分為2分或以上的題目,則無所施其技。幸好,在1978及1982年,學者David
Andrich及Geoffrey Masters分別把拉希模型擴展至適用於滿分為任何分數的題目,從此拉希模型的應用便廣泛得多了。
看來拉希模型的引入可以用來計算合格分數使現年的合格水平相等於去年的合格水平,這對公開考試是非常重要的。對一所學校來說,這麼嚴格的計算,可算是有用,但若要花費很多人力物力才能達致,那就不必了。
拉希模型的運作
簡單來說,拉希模型是這樣運作的:它能為考試機構或學校的題目庫的題目計算其難度值。每題的難度值用一個數字來表達,數值大者表示難,小者表示易。計算難度值可用預試方式小規模地進行,用數百個學生來預試及在有條理的安排下進行便可。如有保密的需要,預試的步驟可在事後才補做。
當題目庫的題目有了難度值後,凡是用這些題目製作成的試卷,其考生的成績便可作等值比較。換句話說,如果2007年及2008年的試卷皆出自同一題目庫,即每題皆經拉希模型計算其難度值,那麼兩年的考生成績便可作等值比較。
既然拉希模型現時已受到考試機構的廣泛應用,老師們亦應與時並進,對該模型作多些了解。但有關拉希模型的文章慣用很多深奧的數學公式,令一般讀者難以明白,本文則以淺顯的數學方法剖析拉希模型,務求一般讀者也看得懂。
拉希的理論
1960年,丹麥數學家喬治.拉希在一本書上發表了一條公式,這條公式是他一向應用來計算一個學生能成功答對一條題目的概率(此題目的滿分為1分),並以
p 表示這概率。他認為 p 可由學生的能力值(B)和題目的難度值(D)計算出來。假設
(i) 學生的能力值為 B
(ii) 題目的難度值為 D
B 及 D 皆為正數
這公式就是我們現在所說的拉希模型(Rasch model),我們可以看出
p 的取值範圍為 0 到 1。
例 1 如果學生的能力值 B 為 8,題目的難度值 D 為 2,則
也就是說,他有 80% 的機會答對這條題目。
例 2 如果學生的能力值 B 為 8,他試圖回答一條難度值為 8 的題目,則他答對這題目的概率 p
為
也就是說,他有 50% 的機會答對這條題目。
在測驗中應用拉希模型
設有一個測驗(記為測驗 1)由 5 條題目所組成,每題皆為 1 分題目,其難度值分別為
1,2,4,8,30。一位能力值為 8 的學生試圖回答該等題目,對於每一條題目,用表列出他能答對的概率(見表 1)。這些概率的總和為
3.07,這表示該學生在考試中的預期得分是 3 分。從另一角度來看,在考試中得到 3 分的學生,我們可以合理地推斷他們的能力值約為
8。
題目 |
能力B |
難度D |
計算過程 |
答對概率p |
1 |
8 |
1 |
p = 8 / (8 + 1) |
0.89 |
2 |
8 |
2 |
p = 8 / (8 + 2) |
0.80 |
3 |
8 |
4 |
p = 8 / (8 + 4) |
0.67 |
4 |
8 |
8 |
p = 8 / (8 + 8) |
0.50 |
5 |
8 |
30 |
p = 8 / (8 + 30) |
0.21 |
總和 = Σp(預期得分) |
3.07 |
表 1 每行顯示怎樣計算能力值 B 為 8 的學生的答對概率 |
各種不同能力值的學生的預期得分亦可計算出來,並記錄在表中(見表 2),更將表
2 的資料作圖解分析(見圖 1)。從圖 1 可以看出,B 值越小預期得分就越低,B 值越大預期得分就越高。因為圖
1 的曲線把測驗分數轉換為能力值,所以該曲線稱為標刻曲線(calibration curve)。
能力值
B |
0.2 |
0.5 |
1 |
2 |
4 |
8 |
16 |
30 |
50 |
預期得分
Σp |
0.34 |
0.72 |
1.18 |
1.76 |
2.42 |
3.07 |
3.64 |
4.08 |
4.36 |
表 2 顯示在測驗 1 中,學生能力值 B 和預期得分(Σp)的關係 |
|
圖 1 測驗 1 和測驗 2 的標刻曲線 |
兩個測驗的分數比較
假如另有 5 條題目,它們組成測驗 2,又設此兩份測驗卷皆考核相同的學科(例如:數學科的分數加減),但測驗
2 題目的難度值皆比測驗 1 的大。假設測驗 2 中 5條題目的難度值分別為 4,8,16,32,120(各是測驗 1 難度值的
4 倍)。
這兩個測驗,皆考核學生的分數加減能力。我們自然會問,「在測驗 2 中得多少分才相當於在測驗 1 中得 4 分,3 分,2 分,1
分?」即使是一個非常有經驗的老師看過這 10 條題目後,也很難回答這個問題。這問題就是要求對這兩個測驗的分數進行等值比較。要準確地回答這個問題,我們需要在測驗
1 的圖像中再繪上測驗 2 的圖像,這步驟與作測驗 1 標刻曲線的步驟完全相同,故不作詳細描述。通過分析和比較這兩個圖像,我們便可以把這兩個測驗的分數進行等值比較。
從圖 1,可以看到測驗 1 中的 4 分與 x 軸上的能力值 26.6 對應。這個能力值在測驗 2 中對應的分數是
2.9 分。因此,測驗 1 中的 4 分相當於測驗 2 中的 2.9 分。用同樣方法,我們可以得到測驗 1 和測驗2中代表相同學業成就的分數對,現把各分數對列出如下。
四個分對數 |
測驗 1 |
測驗 2 |
4 分 |
2.9 分 |
3 分 |
1.7 分 |
2 分 |
0.9 分 |
1 分 |
0.3 分 |
圖 2 是兩個測驗的等值曲線。因為兩個測驗的難度不同,所以曲線偏離了45度對角線(identity
line)。
|
圖 2 兩個測驗的等值曲線 |
回顧拉希模型的計算可做些甚麼
現在我們略知一些拉希模型的運作,它能為我們做些甚麼?
(a) |
當一個已知能力值的學生試圖回答一條已知難度值的題目時,我們可以計算出他答對該題目的概率。 |
(b) |
如果測驗中所有題目的難度值都是已知的(比如,題目都來自已受拉希模型計算的試題庫),對已知能力值的學生,我們可以計算出他的預期得分。亦可以由其得分,估計其能力值。 |
(c) |
標刻曲線不僅可以用來把能力值轉換成測驗分數,而且可以把測驗分數轉換成能力值。 |
(d) |
如果有兩個測驗,皆由同一個試題庫中的題目所組成,這兩測驗的標刻曲線可以在同一個圖中繪出來,使得我們可以把各測驗的分數轉換成能力值,繼而比較何者具較高的水平。 |
(e) |
若我們要比較在測驗 1 中得到 3 分的學生
A 和在測驗 2 中得到 2 分的學生 B 的學業成就時,我們先將他們的測驗分數轉換成能力值,再在能力量軸上比較他們。在這例子裡,學生
A 的學業成就值是 7.5,而學生B的學業成就值是 10.5(需小心觀察圖 1,才可獲得這些數據),所以學生 B 比較優秀。 |
總結
從以上測驗 1 與 2 的例子,我們可以知道,這兩個測驗各具不同的題目,且可能在不同的時間執行。但是因題目的難度值皆出自同一個題目庫,各測驗的分數仍可互相比較(在
x 軸比較),所以如果測驗 1 的某一個分數已定為合格分數,我們可以在測驗 2 找到一個相應的分數作為合格分數。
(下期待續)
參考文件 |
1. |
Andrich, D. (1978). A rating formulation for ordered response
categories. Psychometrika, 43, 561-573. |
2. |
Masters, G.N. A Rasch model for partial credit scoring.
Psychometrika, 47, 149-174. |
3. |
Rasch G. Probabilistic Models for Some Intelligence and
Attainment Tests. Copenhagen: Danmarks Paedogogiske Institut,
1960 (Chicago: University of Chicago Press, 1980). |
4. |
Willmott, A. and Fowles, D. The Objective Interpretation
of Test Performance: The Rasch Model Applied.
Atlantic Highlands, N.J.: NFER Publishing Co. Ltd., 1974. |
|