現代教育研究社有限公司

學與教資源中心
L & T Resources

現代教育通訊
MERS Bulletin

現代教育通訊 86期

前期教訊：

第86期《現代教育通訊》

本期教訊目錄

學業成績測評的新趨勢　　　　　　　　　　　　　　
—— 引用拉希模型（四）

◎

陳衍輝博士
前考評局評核顧問

引言

　　用拉希模型來建構的題目庫通常可用下列兩句名言來形容它的運作：

　　（1）在測量學生方面：

　　若用題目庫的題目（設用 30 條 1 分題目）組成一份試卷來考學生，不論試卷是由深奧的題目或淺易的題目所組成，考生在程度尺上所獲得的位置將不受影響。

　　（2）在測量題目方面：

　　題目難度指數的訂定，亦不受應考學生能力強或弱的影響。

　　換句話說，用一組能力較強或一組能力較弱的學生來做預試，以求取題目的難度指數，兩者的結果都是相同的或只有些微的差別。（當然，我們需要利用學生在回答每題的成功或失敗來訂定題目的難度指數，我們不能採用與目標程度相距太遠的學生來施測，因為這樣會導致所得的「可用」數據太少而構成浪費 ; 在理論上，我們是可以證明，題目難度指數的訂定（calibration of items），是不受應考學生能力的強弱所影響的。）

討論第（1）句名言

　　要理解第（1）句名言，讀者須經過下列兩個步驟：

步驟（A）：讀者先要了解拉希模型題目庫的慣常運作。

步驟（B）：讀者須參看兩份試卷的結構（一難，一易）去理解考生的預期得分。

步驟（A）

拉希模型題目庫的慣常運作，採取以下三個階段：

第一階段：每條題目經 200 或更多學生測試後已獲編配一個難度指數（舉例：一條題目的難度指數δ1 = 2）那麼這條題目在程度尺上便有它的固定位置和「題目特徵曲線」（英文名稱為 ICC — item characteristic curve，見圖一的 f1（x））。當 x 逐漸增大時，f1（x）由近於０的位置逐漸提升至近於１的位置。這是因為它的高度代表能力為 x 的學生能答對題目難度為δ1 的概率。在這個例子中，我們還假設有第二條和第三條題目，它們的難度指數分別是δ2 = 1和δ3 = 0，其「題目特徵曲線」繪於圖二，見 f2（x）， f3（x）。

第二階段：數條題目可組成一份試卷（在圖二的例子，三條題目組成一份試卷），在這試卷中，考生可獲得 0 分，1 分，2 分或 3 分（滿分）。在這階段，我們讓考生回答試卷，看看各人獲得多少分。

第三階段：按各考生所得的分數，找尋他們在程度尺上的位置。考生所得到的分數，除０分和滿分外，可循「試卷特徵曲線」，轉換成程度尺上的積分。在圖二中，這「試卷特徵曲線」為F（x） = f1（x）+ f2（x）+ f3（x）（「試卷特徵曲線」的英文名稱為 TCC — test characteristic curve）。若考生考獲 2 分，他在程度尺上的位置是 1.8 （見圖二）; 若考生考獲 1 分，他在程度尺上的位置是 0.2。

步驟（B）

讀者了解拉希模型題目庫的慣常運作後，可以進入步驟（B）。

假設，有兩份試卷，分別由 30 條 1 分題目構成，卷一較易，而卷二較難。

在卷一中，

有 10 題的難度指數是 2（δ= 2），

有 10 題的難度指數是 1（δ= 1），

有 10 題的難度指數是 0（δ= 0）（見圖三）。

一個能力指數是 3.6 的考生在這試卷應獲得多少分呢？

在那 10 條δ= 2 的題目中，每條他有 80%*機會答對，應獲 8 分。

在那 10 條δ= 1 的題目中，每條他有 90% 機會答對，應獲 9 分。

在那 10 條δ= 0 的題目中，每條他有 97% 機會答對，應獲 10 分，合共 27 分。所以「試卷特徵曲線」會把 27 分的成績轉化成在程度尺上 3.6 的位置。

* 準確至一位有效數字。詳細計算為

p =

36.6

36.6+7.4

= 83%

80%

　　現在讓我們看看試卷二的結構和運作。

在卷二中，

有 10 題的難度指數是 6（δ = 6），

有 10 題的難度指數是 5（δ =5），

有 10 題的難度指數是 4（δ = 4）（見圖四）。

一個能力指數是 3.6 的考生在這試卷應獲得多少分呢？

在那 10 條δ = 6 的題目中，每條他有 10% 機會答對，應獲 1 分。

在那 10 條δ = 5 的題目中，每條他有 20% 機會答對，應獲 2 分。

在那 10 條δ = 4 的題目中，每條他有 40%* 機會答對，應獲 4 分，合共 7 分。所以「試卷特徵曲線」會把 7 分的成績轉化成在程度尺上 3.6 的位置，和試卷一的結果一樣。

* 準確至一位有效數字。詳細計算為

p =

36.6

36.6+54.6

= 40%

分析

　　因此，我們說：用拉希模型來測量考生，測量的結果不端賴於所採用的題目，只要題目具有準確的難度指數，測量的結果便會準確。

　　那麼，上述的現象和分析可給我們甚麼教導和啟示呢？

　　其實，測量的目的，就是在程度尺上為考生找尋適當的位置，而這位置的確立應該和試卷的深淺無關，用拉希模型處理的測驗，確能做到這點。還有，安排測驗的機構（如學校或考試機構等）亦應在程度尺上說明達標水平的位置，好讓考生把自己的位置和達標水平比較。

　　圖五舉出一個理想的樣版測驗報告，它具有宏觀概念。這報告不單只列出達標水平，而且把全港學生在程度尺上的成績分佈也繪了出來，好讓考生知道自己在全港的位置，了解自己的學習成果。

討論第（2）句名言

　　驟眼看來，第（2）句名言，似乎難以成立，為甚麼題目的「難度值」不受應考學生能力的強或弱所影響？如果應考學生的能力是強的，答題的成功率便會高；相反，如果應考學生的能力是弱的，答題的成功率便會低。

　　原來拉希模型所得出的「難度值」之所以不受應考學生能力的影響是因為該模型對應考的學生採納與否，是有選擇的權利的，而且，「難度值」並不是學生的答對率。希望讀者還記得，在第二篇文稿（見84期），筆者指出，拉希模型在分析過程的第一步，便是剔除所有考獲滿分的學生，和剔除所有考獲 0 分的學生。所以，如果應考學生的能力若為太高，在分析過程中，很多獲滿分的學生將被剔除；相反，如果應考學生的能力若為太低，很多獲得 0 分的學生將被放棄。如果剩下來的人數太少，主辦機構便須以適當能力的學生來補充。

　　現在讓我們探究一個計算「難度值」的方法，好使讀者容易理解為甚麼「難度值」不受應考學生能力的影響。

　　假設，有 n 條一分題目，組成一張試卷，並向一班學生施測。這些題目的「難度值」依次是 D1，D2，...，Dn。第一題是舊題目，它的「難度值」D1 經已計算好並儲存於題目庫中。而第二題至第 n 題是新題目，它們的「難度值」的計算，有待今次測驗的結果。

公式

　　首先，我們談談 D2 的計算，D2 的計算有賴下列的公式：

公式
D1 : D2 = n2 : n1，其中
n1 是答對第一題而答錯第二題的學生人數
n2 是答對第二題而答錯第一題的學生人數

　　以下是這公式的證明：

　　設有一學生，其「能力值」為 B，根據拉希模型的公式，

　　該生答對第一題和第二題的概率依次為 p1 及 p2，其中

p1 =

B + D1

……………（F1）

p2 =

B + D2

……………（F2）

　　其答錯第一題和第二題的概率依次為 q1 及 q2，其中

q1 =

B + D1

……………（F3）

q2 =

B + D2

……………（F4）

　　答對第一題而答錯第二題的概率則為

p1q2 =

B + D1

B + D2

……………（F1）X（F4）

　　答對第二題而答錯第一題的概率則為

p2q1 =

B + D2

B + D1

……………（F2）X（F3）

　　因此

　　p1 q2：p2 q1

B + D1

B + D2

B + D1

……………（F5）

　　= D2：D1 ……………（F6）

而

p1q2=

，其中 N 為所有應考的學生人數，

又

p2q1=

　　所以 n1：n2 = D2：D1

　　即 D1：D2 = n2：n1（證明完畢）

　　既然 D1 為已知數，n1 及 n2 又能從測試中找出來，那麼 D2 便可計出。如事者，因為 D1：D3 = n3：n1，D3 及其他 Di 亦可計算出來。

實例

　　下表寫出 8 名參加測試的學生在第一題和第二題的得分，若 D1 = 3.2，試就此 8 名學生，求 D2 之值。

答案：

D2=D1 x

=3.2 x

=9.6

　　當然，為求取題目的「難度值」不應只用 8 名學生來測試，而應用幾百名學生，這不過是一個簡單的例子以說明題目「難度值」的計算是不受應考學生能力所影響的。

討論

　　上述的方法，可以由第一題的「難度值」和測試的結果，計算出第二題至第 n 題的「難度值」。第一題既有已計算好的「難度值」而又加入新題目的行列，被稱為這次測驗和題目庫的「公共題目」（common item or equating item），負責以題目庫的已有尺度來釐定新題目的「難度值」。為使計算準確，通常採用的「公共題目」，不只一題，而是數題。*

　　這只用一條「公共題目」，旨在引用簡單方法，特顯拉希模型在分析時，對數據使用的選擇性，使讀者明白，題目「難度值」的計算，不受應考學生能力強弱的影響。

結論

　　拉希模型的運作是首先建立題目的「難度值」（或「難度指數」），然後用題目來量度學生的「能力值」（或「能力指數」）。鑒於以上兩句名言，題目是擁有其固定的「難度值」，只是等待我們去把它發掘和計算出來。學生在測驗的時候，亦有他們的「能力值」，而「能力值」的測計是不受題目深淺所影響的。看來，拉希模型真是一個十分值得研究的課題。

　　（全篇完）

* 當有數題「公共題目」的時候，上述的方法仍然是正確的計算方法，因為它是從拉希模型的定義出發，經正確的數學演算而得出公式 D1：D2 = n2：n1。但是，引用不同的「公共題目」會產生不同的「難度值」（現稱初步「難度值」）。在正常情況下，這些初步「難度值」的值都是很接近的，通常，我們取其平均數作為最終的「難度值」。

本期教訊目錄