在體育、醫(yī)學(xué)、生物學(xué)等領(lǐng)域中,廣泛使用骨齡來(lái)評(píng)價(jià)兒童少年的發(fā)育程度。因此,檢驗(yàn)骨齡評(píng)價(jià)的可靠性,不僅對(duì)評(píng)價(jià)方法的方法學(xué)有深入的了解,更重要的是能夠?qū)驱g評(píng)價(jià)結(jié)果做出正確的估價(jià),提高應(yīng)用實(shí)踐的工作質(zhì)量,增強(qiáng)不同評(píng)價(jià)者之間評(píng)價(jià)結(jié)果的可比性。
和任何科學(xué)實(shí)驗(yàn)方法一樣,骨齡評(píng)價(jià)方法也存在有系統(tǒng)誤差和隨機(jī)誤差。G-P圖譜法和TW計(jì)分法是國(guó)際上應(yīng)用非常廣泛的骨齡評(píng)價(jià)方法。人們?cè)陂L(zhǎng)期的臨床應(yīng)用過(guò)程中,也對(duì)這兩種方法的可靠性進(jìn)行了廣泛的研究[1, 2]。Tanner et al.根據(jù)可靠性研究結(jié)果,對(duì)TW1方法進(jìn)行了修改,去掉了一些評(píng)價(jià)困難的手腕骨發(fā)育等級(jí),并分別建立了RUS骨(橈尺骨、掌指骨)和腕骨的評(píng)價(jià)標(biāo)準(zhǔn),提高了TW方法的讀片可靠性[3]。
在中國(guó)兒童生長(zhǎng)發(fā)育加速長(zhǎng)期趨勢(shì)的背景環(huán)境下,我們參照TW3方法修訂了中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn),并根據(jù)體育領(lǐng)域的需求,提出一種新的RUS-CHN評(píng)價(jià)方法。因?yàn)?/span>TW2-RUS方法的可靠性已經(jīng)有較多地研究,所以本文主要檢驗(yàn)《中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn)—中華05》的RUS-CHN以及TW3-C腕骨成熟度評(píng)價(jià)的可靠性。
1.材料與方法
1.1 檢驗(yàn)樣本
使用75名正常兒童(骨齡在3歲-18歲)左手腕后前位X線片進(jìn)行讀片可靠性檢驗(yàn)。因?yàn)橥蠊前l(fā)育成熟較早,所以在排除腕骨發(fā)育成熟的兒童后,腕骨的讀片可靠性檢驗(yàn)的兒童(骨齡3歲-13.5歲)樣本為46名。
1.2 骨齡評(píng)價(jià)者
共有11名(其中1名為修訂標(biāo)準(zhǔn)的讀片員)評(píng)價(jià)者參加可靠性檢驗(yàn),根據(jù)下述條件將評(píng)價(jià)者分為三類:
有經(jīng)驗(yàn)者:從事骨齡評(píng)價(jià)工作在5年以上,曾經(jīng)參加原《中國(guó)人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)1次以上,平均每年讀片數(shù)量在1000例以上者。
較有經(jīng)驗(yàn)者:從事骨齡評(píng)價(jià)工作在3年以上,曾經(jīng)參加CHN法培訓(xùn)或有自學(xué)經(jīng)歷,平均每年讀片數(shù)量在1000例以下者;
無(wú)經(jīng)驗(yàn)者:無(wú)骨齡評(píng)價(jià)經(jīng)歷者;或使用G-P方法讀片者;或雖然參加過(guò)原《中國(guó)人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)或自學(xué),但日常讀片數(shù)量較少者。
根據(jù)參加研究的評(píng)價(jià)者的基本情況,2名評(píng)價(jià)者(1,2號(hào))為有經(jīng)驗(yàn)者,2名評(píng)價(jià)者(3、4號(hào))為較有經(jīng)驗(yàn)者,6名(5、6、7、8、9、10號(hào))評(píng)價(jià)者為無(wú)經(jīng)驗(yàn)者;0號(hào)評(píng)價(jià)者為制訂標(biāo)準(zhǔn)的讀片員。
1.3 讀片檢驗(yàn)過(guò)程
所有評(píng)價(jià)者集中培訓(xùn)3天,由制訂《中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》的讀片員講解RUS-CHN法和TW3-C腕骨發(fā)育等級(jí)的定義,然后各評(píng)價(jià)者根據(jù)骨發(fā)育等級(jí)文字描述與圖示進(jìn)行學(xué)習(xí),使用統(tǒng)一的觀片燈練習(xí)讀片(每人的讀片數(shù)量約200張左右),并交流和討論。第四天,在無(wú)兒童年齡、性別資料的情況下,11名評(píng)價(jià)者(P0-P10)使用RUS-CHN法以隨機(jī)順序獨(dú)自閱讀75名正常兒童的X線片,其中7名評(píng)價(jià)者(0、1、2、4、5、6、8號(hào))同時(shí)評(píng)價(jià)TW3-C腕骨發(fā)育等級(jí)。
20天后,通過(guò)郵寄資料,各評(píng)價(jià)者(7號(hào)評(píng)價(jià)者因故未重復(fù)評(píng)價(jià))使用相同的評(píng)價(jià)方法,在一天時(shí)間內(nèi)獨(dú)自重復(fù)閱讀同一組兒童的手腕部X線片。
1.4 可靠性檢驗(yàn)方法
1.4.1 手腕骨發(fā)育等級(jí)的重復(fù)性:計(jì)算每名評(píng)價(jià)者本人重復(fù)讀片、以及與標(biāo)準(zhǔn)制訂讀片員之間的手腕各骨發(fā)育等級(jí)相同例數(shù)的百分?jǐn)?shù)。
1.4.2 重復(fù)讀片的系統(tǒng)誤差和隨機(jī)誤差:以重復(fù)讀片的骨齡平均數(shù)差值,比較評(píng)價(jià)者內(nèi)和評(píng)價(jià)者間骨齡評(píng)價(jià)的系統(tǒng)誤差;以重復(fù)讀片的骨齡差值計(jì)算一次讀片骨齡差值的標(biāo)準(zhǔn)差和95%的置信區(qū)間,比較評(píng)價(jià)者內(nèi)和評(píng)價(jià)者之間骨齡評(píng)價(jià)的隨機(jī)誤差。計(jì)算公式如下:
±t0.05 ×
其中d為重復(fù)讀片的骨齡差值;n為X線片數(shù)量;t0.05為顯著性為0.05水平時(shí)的t值。
根據(jù)以往文獻(xiàn)對(duì)TW2方法的檢驗(yàn)結(jié)果,我們?nèi) ?.60歲作為單一讀數(shù)的95%置信區(qū)間是否適宜的分界值。
2.4.3 統(tǒng)計(jì)分析:使用SPSS11.0應(yīng)用軟件統(tǒng)計(jì)分析。采用多個(gè)相關(guān)樣本非參數(shù)檢驗(yàn),檢驗(yàn)評(píng)價(jià)者間各骨等級(jí)相同例數(shù)百分?jǐn)?shù)的組間差異顯著性,如差異顯著,則以兩相關(guān)樣本非參數(shù)檢驗(yàn)來(lái)檢驗(yàn)兩兩評(píng)價(jià)者之間的差異顯著性;使用配對(duì)t檢驗(yàn),檢驗(yàn)評(píng)價(jià)者本人重復(fù)讀片骨齡平均數(shù)的差異顯著性;以多變量方差分析檢驗(yàn)評(píng)價(jià)者與標(biāo)準(zhǔn)制訂者之間骨齡讀數(shù)的組間差異顯著性,如果方差分析存在顯著性,則以配對(duì)樣本t檢驗(yàn)來(lái)進(jìn)一步檢驗(yàn)各評(píng)價(jià)者與標(biāo)準(zhǔn)制定者平均數(shù)間的差異顯著性。
2、結(jié)果
2.1 評(píng)價(jià)者內(nèi)的可靠性
各評(píng)價(jià)者使用RUS-CHN法重復(fù)讀片,等級(jí)相同例數(shù)百分?jǐn)?shù)的平均數(shù)在63.4%-82.2%之間,表1。根據(jù)表1和表2,可將評(píng)價(jià)者分為三類:一類是有經(jīng)驗(yàn)者(1、2號(hào))、較有經(jīng)驗(yàn)者(3、4號(hào))和部分無(wú)經(jīng)驗(yàn)者(5、10號(hào)),等級(jí)相同的重復(fù)率相似,在78.0%-82.2%,相互之間的差異大都無(wú)統(tǒng)計(jì)學(xué)顯著性;二類是一名無(wú)經(jīng)驗(yàn)者,等級(jí)相同的例數(shù)為74%,與6號(hào)和8號(hào)之間的差異顯著;三類是兩名無(wú)經(jīng)驗(yàn)者(6、8號(hào)),等級(jí)相同的例數(shù)在63.4%-67.6%,與上述評(píng)價(jià)者的差異均有統(tǒng)計(jì)學(xué)的顯著性,而二者之間差異無(wú)顯著性。重復(fù)讀片不一致的等級(jí)主要出現(xiàn)在相鄰等級(jí)上,相差2個(gè)等級(jí)的例數(shù)很少,相差2個(gè)等級(jí)例數(shù)的百分?jǐn)?shù)的平均數(shù)在1.3%-2.9%。
各評(píng)價(jià)者重復(fù)讀片,骨齡平均數(shù)差值的絕對(duì)值在0.01歲- 0.24歲之間。雖然2號(hào)、3號(hào)重復(fù)讀片的骨齡平均數(shù)差異有統(tǒng)計(jì)學(xué)的顯著性,但是骨齡平均數(shù)差值的絕對(duì)值很小,僅8號(hào)評(píng)價(jià)者的系統(tǒng)誤差較大。各評(píng)價(jià)者重復(fù)讀片,單一讀數(shù)的95%置信區(qū)間在±0.40歲-±0.76歲,除了6號(hào)、8號(hào)、9號(hào)評(píng)價(jià)者以外,大部分評(píng)價(jià)者本人重復(fù)讀片的隨機(jī)誤差在±0.6歲以下的適當(dāng)范圍之內(nèi)(表1)。
7名評(píng)價(jià)者參加了TW3-C腕骨評(píng)價(jià)的可靠性檢驗(yàn)。由表3和表4可見(jiàn),有經(jīng)驗(yàn)者(1、2號(hào))的重復(fù)性較高,82.1%-83.2%,與其它評(píng)價(jià)者的差異顯著;較有經(jīng)驗(yàn)者(4號(hào))和無(wú)經(jīng)驗(yàn)者(5、6、8號(hào))的讀片重復(fù)性在65.6%-74.4%,相互之間的差異無(wú)顯著性。多數(shù)評(píng)價(jià)者相差2個(gè)等級(jí)的例數(shù)減少,少數(shù)評(píng)價(jià)者(6、8號(hào))相差2個(gè)等級(jí)的例數(shù)增加。僅2名無(wú)經(jīng)驗(yàn)者(5號(hào)、8號(hào))重復(fù)評(píng)價(jià)的腕骨骨齡平均數(shù)有顯著性差異,分別有評(píng)價(jià)偏低和偏高的系統(tǒng)誤差。各評(píng)價(jià)者單一讀數(shù)的95%置信區(qū)間為±0.32歲-±0.71歲,有5名評(píng)價(jià)者的隨機(jī)誤差在±0.60歲以下,2名無(wú)經(jīng)驗(yàn)者在±0.60歲以上,分別為±0.68和±0.72。
2.2 評(píng)價(jià)者間的可靠性
由表5可見(jiàn),各評(píng)價(jià)者與制訂標(biāo)準(zhǔn)讀片員之間,RUS-CHN法骨等級(jí)相同例數(shù)百分?jǐn)?shù)的平均數(shù)在61.3%-77.3%,評(píng)價(jià)者間的等級(jí)重復(fù)性均低于其評(píng)價(jià)者內(nèi)的重復(fù)性。根據(jù)表5和表6,也可以將評(píng)價(jià)者間的重復(fù)性分為3類:一類是有經(jīng)驗(yàn)者(1、2號(hào))、較有經(jīng)驗(yàn)者(3、4號(hào))和1名無(wú)經(jīng)驗(yàn)者(5號(hào)),其評(píng)價(jià)者間的重復(fù)性在75%左右(73%-77%),相互之間的差異無(wú)顯著性,而與其余評(píng)價(jià)者之間的差異大都有顯著性;二類是無(wú)經(jīng)驗(yàn)者(9、10號(hào)),評(píng)價(jià)者間的重復(fù)性在70%左右(69%-70%),二者之間的差異無(wú)顯著性,但與第三類無(wú)經(jīng)驗(yàn)者(6、7、8號(hào))之間的差異大都有差異顯著性;三類是部分無(wú)經(jīng)驗(yàn)者(6、7、8號(hào)),評(píng)價(jià)者間的重復(fù)性在65%左右(61%-66%),相互之間大都無(wú)差異顯著性。
各評(píng)價(jià)者與制訂標(biāo)準(zhǔn)讀片員間的骨齡平均數(shù)差值的絕對(duì)值在0.10歲- 0.25歲,僅5、7號(hào)評(píng)價(jià)者骨齡均數(shù)差異有顯著性,其系統(tǒng)誤差分別為-0.15歲和-0.25歲,表5;各評(píng)價(jià)者間的隨機(jī)誤差(單一讀數(shù)的95%置信區(qū)間)為±0.42歲—±0.96歲。評(píng)價(jià)者間等級(jí)重復(fù)性在75%左右的5名評(píng)價(jià)者(有經(jīng)驗(yàn)者1、2號(hào)、較有經(jīng)驗(yàn)者3、4號(hào)以及無(wú)經(jīng)驗(yàn)者5號(hào)) 隨機(jī)誤差在±0.60歲以下(±0.41—±0.58);評(píng)價(jià)者間等級(jí)重復(fù)性在61%-70%的評(píng)價(jià)者(無(wú)經(jīng)驗(yàn)者)的隨機(jī)誤差大于±0.60歲(±0.64-±0.96)。
評(píng)價(jià)者間腕骨等級(jí)的重復(fù)率在77.4%-88.0%,普遍高于RUS-CHN方法。根據(jù)表7和表8,也同樣可將評(píng)價(jià)者間的重復(fù)性分為3類:一類是有經(jīng)驗(yàn)者(1、2號(hào))和1名較有經(jīng)驗(yàn)者(4號(hào)),評(píng)價(jià)者間等級(jí)相同例數(shù)的平均數(shù)在86%-88%,三者之間的差異無(wú)顯著性,但與其它評(píng)價(jià)者大都差異顯著;二類是等級(jí)相同例數(shù)的平均數(shù)在82%-84%的無(wú)經(jīng)驗(yàn)者(5號(hào)、6號(hào));三類是一名無(wú)經(jīng)驗(yàn)者(8號(hào)),等級(jí)相同例數(shù)的平均數(shù)在77%,與其它評(píng)價(jià)者的差異均顯著。
5號(hào)和8號(hào)評(píng)價(jià)者的骨齡均數(shù)與制訂標(biāo)準(zhǔn)讀片員之間的差異達(dá)到顯著性水平,分別有高評(píng)和低評(píng)的系統(tǒng)誤差。4名評(píng)價(jià)者(有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者以及1名無(wú)經(jīng)驗(yàn)者)的隨機(jī)誤差在±0.60歲以下,2名無(wú)經(jīng)驗(yàn)者在±0.60歲以上。
3 討論
骨齡能夠評(píng)價(jià)正常和異常的生理發(fā)育,應(yīng)用范圍廣泛,因此骨齡評(píng)價(jià)的可靠性受到了研究者和應(yīng)用者的關(guān)注。國(guó)際間某些有經(jīng)驗(yàn)者[ 4, 5, 6, 7]TW2-RUS法的評(píng)價(jià)者內(nèi)和評(píng)價(jià)者間的等級(jí)重復(fù)性分別為82.7%- 91.4%和74.4%-80.5%;TW2腕骨評(píng)價(jià)者內(nèi)和評(píng)價(jià)者間的等級(jí)重復(fù)性分別為80.6%-92.3%和74.1%-88.0%;TW2-RUS方法的評(píng)價(jià)者內(nèi)和評(píng)價(jià)者間的隨機(jī)誤差分別為±0.42歲-±0.50歲和±0.58歲±0.76歲;TW2-腕骨評(píng)價(jià)者內(nèi)和評(píng)價(jià)者間的隨機(jī)誤差分別為±0.48歲-±0.72歲和±0.82歲-±0.84歲。與這些研究結(jié)果相比,本研究中的有經(jīng)驗(yàn)者接近或達(dá)到了國(guó)際間的骨齡評(píng)價(jià)可靠性水平,但是大部分無(wú)經(jīng)驗(yàn)者經(jīng)過(guò)一次讀片訓(xùn)練后的讀片可靠性仍然較低。
骨發(fā)育等級(jí)是根據(jù)順序出現(xiàn)的成熟度指征將骨發(fā)育的連續(xù)過(guò)程所劃分出的若干階段,在每個(gè)階段中,雖然骨的發(fā)育在繼續(xù),但是在骨齡評(píng)價(jià)中骨的發(fā)育等級(jí)不變。因此,一個(gè)成熟度指征未出現(xiàn)與出現(xiàn)的這個(gè)階段(等級(jí)的交界處)的評(píng)價(jià)較為困難,這可能是影響重復(fù)性的主要因素之一。RUS-CHN法所評(píng)價(jià)的骨的塊數(shù)和TW3-RUS相同,但是評(píng)價(jià)等級(jí)的數(shù)量由103個(gè)增加到了150個(gè)。在同樣的骨發(fā)育過(guò)程中等級(jí)數(shù)量增加就增加了“等級(jí)交界處”,因而增加了骨發(fā)育等級(jí)不一致的例數(shù)。但是,雖然RUS-CHN法增加了骨發(fā)育等級(jí),可能降低等級(jí)重復(fù)性的同時(shí),也減小了不同骨等級(jí)的得分差,因而也減小了等級(jí)讀數(shù)不同對(duì)骨齡數(shù)值的影響,也就降低了RUS-CHN骨齡評(píng)價(jià)的隨機(jī)誤差,因而大部分評(píng)價(jià)者一次讀片骨齡的95%置信區(qū)間達(dá)到了國(guó)際間TW2-RUS方法的可靠性水平。
計(jì)分法分別評(píng)價(jià)每塊骨的發(fā)育等級(jí),當(dāng)一塊骨等級(jí)評(píng)價(jià)不一致時(shí),得分誤差對(duì)于骨齡數(shù)值的影響較小,但如果評(píng)價(jià)者有普遍高評(píng)或低評(píng)的傾向時(shí),將隨著骨等級(jí)不一致的骨塊數(shù)的增加而加大骨齡評(píng)價(jià)的系統(tǒng)誤差。例如,本文的5號(hào)和8號(hào)評(píng)價(jià)者,腕骨評(píng)價(jià)者內(nèi)等級(jí)重復(fù)率有低評(píng)和高評(píng)的傾向,而在評(píng)價(jià)者間的腕骨可靠性檢驗(yàn)中,和標(biāo)準(zhǔn)制定讀片員之間的等級(jí)重復(fù)率又分別有高評(píng)和低評(píng)的傾向,都出現(xiàn)了顯著的系統(tǒng)誤差。另外,不同骨的權(quán)重差異,或在不同年齡段出現(xiàn)的等級(jí)不一致,對(duì)于骨齡評(píng)價(jià)的系統(tǒng)誤差和隨機(jī)誤差的影響是不同的。所以,在檢驗(yàn)中僅等級(jí)重復(fù)率不能完全說(shuō)明骨齡評(píng)價(jià)的可靠性。在應(yīng)用實(shí)踐和研究工作中,過(guò)大的系統(tǒng)誤差和隨機(jī)誤差有可能掩蓋了事實(shí)真相而得出錯(cuò)誤的結(jié)論。因此,在定期的可靠性檢驗(yàn)中,不僅要檢驗(yàn)評(píng)價(jià)者內(nèi)和評(píng)價(jià)者間的重復(fù)性,還應(yīng)當(dāng)計(jì)算檢驗(yàn)系統(tǒng)誤差和隨機(jī)誤差。
在骨齡的應(yīng)用越來(lái)越廣泛的情況下,無(wú)論使用哪種方法,定期進(jìn)行可靠性檢驗(yàn)是很有必要的。可靠性檢驗(yàn)不僅可以發(fā)現(xiàn)骨等級(jí)評(píng)價(jià)重復(fù)性較低的骨,通過(guò)進(jìn)一步的學(xué)習(xí)與訓(xùn)練提高重復(fù)性,還可以對(duì)骨齡評(píng)價(jià)結(jié)果的系統(tǒng)誤差和隨機(jī)誤差得出正確的估價(jià)。評(píng)價(jià)者間的可靠性檢驗(yàn)對(duì)于保持不同使用者、不同單位、不同系統(tǒng)骨齡評(píng)價(jià)工作的一致性和可比性,提高應(yīng)用工作質(zhì)量有重要的作用。
相關(guān)文章推薦
《中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn)—中華05》-TW3-C RUS、TW3-C腕骨和RUS-CHN方法
參考文獻(xiàn)
[1] Acheson R. M., Joan H. Vicinus and Gillian B. Fowler Studies in the reliability of Assessing Skeletal Maturity from X-ray. Part II. The Bone-Specific Approach. Hum Biol,1964,36:211-228.
[2] Acheson R. M., Joan H. Vicinus and Gillian B. Fowler Studies in the reliability of Assessing Skeletal Maturity from X-ray. Part III. Greulich-Pyle Atals and Tanner-Whitehouse Method Contrasted. Hum Biol,1966,38:205-218,.
[3] Tanner J. M. and R. H. Whitehouse et al. Assessment of Skeletal Maturity and Prediction of Adult Height (TW2 method).London: Academic Press, 1983.
[4] Wenzel A. and B. Melsen Replicability of assessing radiographs by the Tanner and Whitehouse-2 method. Hum Biol,1982,54(3):575-581.
[5] Bull R. K, P. D. Edwards, P. M. Kemp et al. Bone age assessment: a large scale comparison of the Greulich and Pyle, and Tanner and Whitehouse (TW2) methods. Arch Dis Child, 1999, 81:172-173.
[6] Beunen G. and N. Cameron The reproducibility of TW2 skeletal age assessments by a self-taught assessor. Ann Hum Biol, 1980,7(2): 155-162.
[7] Medicus,H.,A.M.Gron and C.F.A.Moorees Reproducilibity of rating stages of osseous development. Am J Phys Anthropol,1976,35:359-372.