Mõõtmine otsuse teooria

link: http://echo.edres.org:8080/mdt/

Välja töötatud Wald (1947), esimene kohaldada mõõtmine poolt Cronbach ja Gleser (1957), ja nüüd laialdaselt tehnika -, põllumajandus-ja computing, otsuse teooria annab lihtsa analüüsi mudel kategooriline andmeid. See on kõige suhtes kohaldatava mõõte, kui eesmärgiks on klassifitseerida examinees ühte kahest kategooriast, nt läbimise/mitteläbimise või master/non-master.

Alates piloot-testimine, üks hinnangud

  1. Osa magistri-ja mitte masters elanikkonnast, ja
  2. Tingimisi tõenäosuste kohta examinees iga meisterlikkust riigi reageeri õigesti, et iga element.

Pärast katset manustatakse, üks saab arvutada (põhineb examinee vastuseid ja piloot andmed):

  1. Tõenäosus examinee vastuse mustrit meistrid ja mitte-meistrid
  2. Tõenäosus, et examinee on kapten ja tõenäosus, et examinee on mitte-master.

See õppematerjal annab ülevaate mõõtmine otsuse teooria. Peamised mõisted on esitatud ja illustreeritud kasutades binaarne klassifikatsioon (pass/ei) katse ja proov, kolme-punkti test. Interaktiivne õppematerjal võimaldab teil muuta pilootprojekti tulemuste, examinee vastuse mustrit ja kulude struktuur. Erinevate eeskirjade liigitamise on examinee on siis esitatakse koos selle aluseks olevad arvutused. Kiire link interaktiivne tööriist, mis on ülaosas lehekülge. Exceli tööriist – võimaldab erinevad tõenäosused, punkt vastuseid ja kulude struktuuri, et aidata teil paremini mõista mudel.

Vaja

Klassikalise mõõtmise teooria ja item response theory on mures peamiselt auaste tellimine examinees kogu võime jätkamisele. Need mudelid on mures, näiteks eristades examinees vähemalt 90th 92nd protsentiilid. Kuid üks on sageli huvitatud liigitamise examinees vastavusse üks kindel arv diskreetne kategooriad, nagu läbimise/mitteläbimise või valda/basic/alla-rahuldav. See on lihtsam ja tulemus lihtsam mõõtmise mudel peaks piisama. Mõõtmine Otsuse Teooria on üks selline lihtsam vahend.

Mõõtmine otsuse teooria nõuab ainult ühe olulise eelduse, et esemed on sõltumatu. Seega, testitud domeen ei ole vaja unidimensional, examinee võime ei pea olema normaalselt jaotatud, ja üks ei pea olema mures sobib andmete teoreetiline mudel, nagu item response theory (broneeringuga piletite) või kõige varjatud klassi mudelid. Mudel on atraktiivne kui marsruutimine mehhanism intelligent tutoring süsteemid, lõpp-unit uuringud, adaptiivne testimine, ning võimaldab kiiresti saada klassifikatsioon proportsioonid kohta muid kontrolle. Väga vähe piloot-test examinees on vaja, ja on väga vähe punkte, klassifitseerimise täpsus võib ületada item response theory. Kuna need atraktiivsed omadused, see on üllatav, et mudel ei äratanud laiemat tähelepanu piires mõõtmine ühenduse.

Isoleeritud elementide otsuse teooria on ilmunud hooti mõõtmisel kirjandus. Peamised artiklid meisterlikkust testimine kirjanduse 1970. aastatel töötas otsuse teooria (Hambleton ja Novick, 1973; Huynh, 1976; van der Linden ja Mellenbergh, 1977) ja tuleks uuesti läbi vaadata, pidades silmas tänase mõõtmise probleeme. Lewis ja Sheehan (1990) jt, mida kasutatakse otsuse teooria, et adaptively üksuste valimiseks. Kingsbury ja Weiss (1983), Reckase (1983) ja Spray ja Reckase (1996) on kasutanud otsuse teooria, et määrata kindlaks, millal lõpetada testimine. Kõige uurimistööd kuupäev on taotlenud otsuse teooria, et testlets või katse patareid või lisana item response theory ja konkreetne varjatud klassi mudelid. Tähelepanuväärne artiklid Macready ja Dayton (1992), Vos (1997), ja Welch ja Frick (1993) illustreerivad vähem levinud element-tasemel kohaldamise otsuse teooria uurida selle juhendaja.

Teooria

Ülevaade ja märke

Eesmärgiks on kujundada üksikute eksamineeritavate meisterlikkuse seisund (klassifikatsioon), mis põhineb eksamineeritava objekti vastustel, a priori elemendi informatsioonil ja populatsioonide a priori arvutusproportsioonidel . Seega on mudelil neli komponenti: 1) eksamineeritavate võimalike meisterlikkuse seisundit, 2) kalibreeritud esemeid, 3) indiviidi reageerimismustrit ja 4) otsustajaid, kes võivad eksamineeritult moodustada.

Seal on K võimalikke meisterlikkustingimusi, mis võtavad väärtused m k . Pass / faili testimise korral on kaks võimalust ja K = 2. Üks üldjuhul teab, a priori , ligikaudsed proportsioonid kõigi uuritavate elanike kohta igas meisterlikkuse riigis.

Teine komponent on esemete komplekt, mille iga võimaliku vaatluse tõenäosus (tavaliselt õige või vale), kui iga meisterlikkuse riik on teada ka a priori ,

Kolmanda komponendi moodustavad vastused N-punktide kogumile. Iga element peetakse diskreetne juhuslik muutuja stohhastiliselt seotud meisterlikkust riikide ja realiseeritud vaadeldud väärtuste z N, . Iga eksamineeritava on vastuseks vektori z , koosseisus z 1 , z 2 , … z N . Käesolevas artiklis käsitletakse ainult dikotiomulisi punkte.

Viimane komponent on otsustusruum. Andmeid võib koostada mis tahes arvul D otsustel. Tavaliselt tahab ükskõik milline meisterlikkuse riik ära arvata ja D = K otsuseid saab. Kohanduva või järjestikuse testimisega lisatakse otsus katsetuste jätkamise kohta, seega saavutatakse D = K + 1 otsused. Iga otsust nimetatakse d k .

Katsetamine algab iga K-kategooria uuritavate osakaalu kohta uuritavate osakaaluga ja iga kategooriaga uuritavate osakaal, kes reageerivad õigesti. Elanikkonna proportsioone saab määrata mitmesugustel viisidel, sealhulgas eelnevast katsest, olemasolevate skooride ümberkujundamisest, olemasolevatest liigitustest ja otsustest. Informatsiooni puudumisel võib eeldada, et on võrdväärsed. Korrektselt reageerivaid proportsioone saab tuletada väikesest katseprojektist, milles osalevad eksamikutest, kes on juba klassifitseeritud või olemasolevate andmete ümberkujundamisel. Kui need eelvarude komplektid on kättesaadavad, manustatakse neid esemeid, täheldatakse vastuseid (z 1 , z 2 , … z N ) ja seejärel klassifitseerimise otsust d k, tehakse vastavalt nendele vastustele.

Katseproovist saadud proportsioone käsitletakse tõenäosustena ja kasutatakse järgmisi märkusi:

  • Priors
  • p (m k ) – juhuslikult valitud uuritava tõenäosusega, kellel on meisterlikkuse olek m k
  • p (z n | m k ) – vastuse tõenäosus z n, arvestades k-nda meisterlikkuse olekut
  • Vaatlused
  • z – isiku vastusvektor z 1 , z 2 , …, z N, kus z 0 (0,1)

Eksperdi meisterlikkuse seisund moodustatakse eelistuste ja tähelepanekute abil. By Bayes’i teoreem

 home.h1 (1)

Postiline tõenäosus P (m k | z ), et uuritav on meisterlikus olekus m k, kuna tema vastusvektor on võrdne normaliseeriva konstandi ( c ) tootega, antud m k vastuseks antud reageeringu vektori tõenäosusega ja eelneva klassifikatsiooniga tõenäosus. Iga uuritava isiku jaoks on olemas K tõenäosused, üks iga meisterlikkuse seisundi kohta. Normatiivne konstant (1),

 home.h2

tagab, et tagumiste tõenäosuste summa on 1,0.

Eeldades kohalikku sõltumatust;

 home.h3 (2)

See tähendab, et reageeringu vektori tõenäosus võrdub eseme vastuste tingimuslike tõenäosustega. Selles õpetuses on iga vastus kas parem (1) või vale (0) ja P (z 1= 0 | m k ) = 1 – P (z 1 = 1 | m k ).

Järgnevalt käsitletakse otsusteooria kolm peamist mõtet:

  1. otsustusreeglid – alternatiivsed protseduurid eksamike klassifitseerimiseks nende reageerimise mudelitel,
  2. järjestikune testimine – alternatiivsed protseduurid elementide adaptiivseks valimiseks, lähtudes üksikisikute reageerimise mudelist ja
  3. järjestikused otsused – alternatiivsed menetlused katse jätkamiseks.

Näidis illustreeritakse siin kahe võimaliku meisterlikkuse oleku m 1 ja m 2 ning kahe võimaliku otsusega d 1 ja d 2, mis on vastavad m 1 ja m 2 jaoks õiged otsused . Näidetes kasutatakse kolme elemendi testi koos tabelis 1 näidatud kirje statistikaga. Veelgi enam, pilootkatsete põhjal on eelnevad klassifikatsiooni tõenäosused P (m 1 ) = 0,2 ja P (m 2 ) = 1-P (m 1 ) = 0,8. Näiteks on uuritava vastuse vektor [1,1,0].

Tabel 1: õige vastuse tingimuslikud tõenäosused, P (z i = 1 | m k )
Punkt 1 Punkt 2 Punkt 3
Meistrid (m 1 ) .6 .8 .6
Mitte-meistrid (m 2 ) .3 .6 .5

Otsuseeskirjad

Ülesande eesmärk on teha parim ettekujutus eksamineeritava klassifikatsiooni (kapten, mitte-kapten) kohta, mis põhineb tabelis 1 esitatud andmetel ja uuritava vastuse vektoril. Alates (2), vektori tõenäosused z = [1,1,0], kui eksamineeritav on kapten, on .6 * .8 * .4 = .19 ja .09, kui ta ei ole kapten. See tähendab, et P ( z | m1) = .19 ja P ( z | m 2 ) =. 09. Normaliseeritud, P ( z | m1) = .68 ja P ( z | m 2 ) = .32.

Otsuse tegemiseks on piisav statistika tõenäosuse suhe

 home.h4

mis näiteks on L ( z ) = .09 / .19 = .47. See on piisav statistika, sest kõiki otsuste reegleid saab vaadata kui testi, mis võrdleb L ( z ) kriteeriumi väärtusega 8 .

 home.h5 (3)

Väärtus 8 peegeldab valitud lähenemisviise ja otsuseid eri liiki klassifitseerimisvigade suhtelise tähtsuse kohta.

Maksimaalse tõenäosusega otsusekriteerium

See on kõige lihtsam otsustusviis ja see põhineb ainult vastusvektorite tingimuslikel tõenäosustel, mis on antud iga meisterlikkuse kohta, st P ( z | m 1 ) ja P ( z | m 2 ). Kontseptsioon on valida vastusvektori kõige tõenäolisem põhjus põhjustav meisterlikkuse olukord ja seda saab väljendada järgmiselt:

Võttes arvesse vastuste kogumit z , langetage otsus d k, kui kõige tõenäolisem on see, et m k genereeriks z .

Selle kriteeriumi alusel võiks klassifitseerida eksamineerijat kaptenina – kõige tõenäolisem klassifikatsioon, kuna P ( z | m1) =. 68> P ( z | m 2 ) =. 32.

See kriteerium ignoreerib eelnevat teavet elanike meistrid ja mitte-meistrid. Samaväärselt eeldatakse, et elanikkonna eelistus on võrdne. Näiteks on vähesed uuritavad isikud meistrid, P (m k ) = .20. Võttes arvesse, et vastusektori vektorite tingimuslikud tõenäosused on suhteliselt tihedad, ei pruugi see klassifitseerimiseeskiri põhjustada head otsust.

Veaotsuse kriteeriumi minimaalne tõenäosus

Binaarotsuse puhul on võimalikud kahte liiki vigu – otsustada d 1, kui m 2 on tõene või otsustada d 2, kui m 1 on tõene. Kui üks arvab, et null-hüpoteesina on m 1 , siis statistilise teooria mõttes on isiku otsustamise tõenäosus kapten, d 1, kui tõepoolest on see isik mittespetsialist m 2 , on tuntud olulisuse tase, “ ja P (d 2 | m 2 ) on katse võimsus $ . Kui mõlemat tüüpi vead on võrdselt kulukad, võib ta soovida maksimeerida täpsust või minimeerida vea täielikku tõenäosust Pe. Seda kriteeriumi võib märkida järgmiselt:

Võttes arvesse elemendi vastuseid z , valige otsusepiirkonnad, mis viivad viga täieliku tõenäosusega miinimumini.

Seda kriteeriumi nimetatakse mõnikord ideaalseks vaatleja kriteeriumiks . Binaarne juhul Pe = P (d 2 | m 1 ) + P (d 1 | m 2 ) ja Tõepärasuhte testi (3) töötab koos

home.h6

Näitega 8 = .25 ja otsus on d 2 – mitte-kapten.

Maksimaalne a posteriori (MAP) otsusekriteerium

Maksimaalse tõenäosusega otsuste kriteeriumi abil kasutati ainult reageerimise vektori tõenäosust. Vigade kriteeriumi minimaalse tõenäosusega kasutati ka eelnevaid salastamisvõimalusi P (m 1 ) ja P (m 2 ). MAP on teine lähenemisviis, mis kasutab olemasolevat teavet:

Võttes arvesse vastuste kogumit z , otsustage d k, kui m k on kõige tõenäolisem meisterlikkuse olek.

Teisisõnu,

home.h7

Kuna võrrandist (2) on P (m k | z ) = c P ( z | m k ) P (m k ), on MAP võrdne veaotsuse kriteeriumi minimaalse tõenäosusega.

Bayesi riskikriteerium

Otsusteooria raamistiku oluline eelis on see, et analüüsi saab lisada otsustuskulud. Selle kriteeriumi kohaselt määratakse kulud igale õigele ja valele otsusele ning seejärel minimeeritakse keskmised kogukulud. Näiteks võivad valed negatiivid olla kaks korda halvad kui valepositiivsed. Kui c ij on d iotsustamise kulu, kui m j on tõene, siis eeldatav või keskmine maksumus B on

B = (c 11 P (d 1 | m 1 ) + c 21 P (d 2 | m 1 )) P (m 1 ) + (c 12 P (d 1 | m 2 ) + c 22 P (d 2 | m 2 )) P (m 2 )

ja kriteeriumi võib märkida kui

Võttes arvesse artiklite vastuseid z ja iga otsusega seonduvaid kulusid, valige soovitud kogukulude minimeerimiseks d k .

Kahe meisterlikkuse korral saab eeldatavat kogukulusid minimeerida, kasutades tõenäosuse suhte testi (2) koos

 home.h8 (4)

Seda nimetatakse ka miinimumkaotuse kriteeriumi ja optimaalse otsuse kriteeriumi järgi . Kui kulud c 11 = c 22 = 0 ja c 12 = c 21 = 1, siis B on identne Pe ja see lähenemine on identne vea minimaalse tõenäosusega ja MAP-iga . Kui c 11 = c 22 = 0 ja c 21 = 2, c 12 = 1 ja näidise andmed, 8 = .50 ja otsus d 2 – mitte kapten.

Kohanemiskontroll

Selle asemel, et teha indiviidile klassifitseerimise otsus pärast fikseeritud arvu objektide haldamist, on võimalik järjestikku valida objekte, et maksimeerida teavet, ajakohastada hinnangulise meisterlikkuse riikliku klassifikatsiooni tõenäosust ja seejärel hinnata, kas testimise lõpetamiseks on piisavalt teavet. Mõõtmisel seda sageli nimetatakse adaptiivseks või kohandatud katsetamiseks. Statistika-st nimetatakse seda järjestikuseks testimiseks.

Igal sammul käsitletakse tagumise klassifikatsiooni tõenäosust p (m k | z ) kui ajakohastatud eelnevaid tõenäosusi p (m k ) ja kasutatakse järgmiste esemete identifitseerimiseks. Otsuste teooria järjestikuste katsetuste illustreerimiseks arvestage uuesti olukorraga, mille puhul on olemas kaks võimalikku meisterlikkuse olekut m 1 ja m 2 ning kasutage tabelis 1 olevat statistikat. Oletame, et eksamineerijale vastatakse esimese elemendi õigesti ja ülesandeks on valida, millist järgmised kaks eseme järgmist.

Pärast esimese elemendi korrektset reageerimist on kapteni praegune uuendatud tõenäosus olla .6 * .2 / (.6 * .2 + .3 * .8) = .33 ja tõenäosus olla mitte kapteniks. 66 valemiga (1).

Praegune õige vastamise tõenäosus on

 home.h9 (5)

Rakendades (5) on punktis 2 õige reageerimise tõenäosus P (z 2 = 1) = .8 * .33 + .6 * .66 = .66 ja punkti 3 korral P (z 3 = 1) = .53. Järgnevalt on toodud mõned lähenemised, et tuvastada, millist neist kahest punktist hiljem hallata.

Minimaalne oodatav kulu

See lähenemisviis määratleb optimaalse kirje, mida tuleb edaspidi kasutada objektiks koos madalaima eeldatava kuluga. Võrrand (4) näeb ette otsusekulu, mis sõltub klassifitseerimise tõenäosusest. Kui c 11 = c 22 = 0 siis

B = c 21 P (d 2 | m 1 ) P (m 1 ) + c 12 P (d 1 | m 2 ) P (m 2 ) (6)

Binaarotsuse puhul on vale otsuse tegemise tõenäosus üks miinus õige otsuse tegemise tõenäosus ja õige otsuse tegemise tõenäosus on määratluse järgi (1) toodud tagumised tõenäosused. Seega, kui c 12 = c 21 = 1, on praegune Bayesi maksumus B = 1 * (1-.33) *. 33 + 1 * (1-.66) * 66 = .44.

Minimaalsed oodatavad kulud on tihti seotud järjestikuste testidega ning neid on rakendatud mõõtmisprobleemidele, mille on läbi viinud Lewis ja Sheehan (1980), Macready ja Dayton (1992), Vos (1997) ja teised.

Iga objekti eeldatavate kulude arvutamiseks saab kasutada järgmisi samme.

  1. Oletame hetkeks, et eksamineeritav reageerib õigesti. Arvutage tagumised tõenäosused, kasutades (1) ja siis kulusid, kasutades (6).
  2. Oletame, et eksamik reageerib valesti. Arvutage tagumised tõenäosused, kasutades (1) ja siis kulusid, kasutades (6).
  3. Korrutage kulu etapist 1 tõenäosusega, et objekt vastab õigele vastusele
  4. Korrutage kulu etapist 2 tõenäosusega, et objekt vastab õigele vastusele
  5. Lisage punktides 3 ja 4 toodud väärtused.

Seega eeldatav kulu on iga vastuse maksumuse summa, mis on kaalutud sellise vastuse tõenäosusega. Kui eksamineeritav reageerib korrektselt punkti 2 nõuetele, siis on kapteni esialgne tõenäosus olla (.8 * .33) / (.8 * .33 + .6 * .66) = .40 ja sellega seotud kulud on 1 * (1-.40) * .40 + 1 * (1-.60) * .60 = .48. Kui eksamineeritav vastus on ebaõigesti, siis on kapteni tagumine tõenäosus (.2 * .33) / (.2 * .33 + .4 * .66) = .20 ja sellega seotud kulud on 1 * (1 -20) * .20 + 1 * (1-.80) * .80 = .32. Kuna õige vastuse tõenäosus (5) on .66, on punkti 2 eeldatav maksumus 0,66 * .48 + (1-.66) * .32 = .42.

Üksuse 3 kulu on 0,47, kui vastus on õige, ja .41, kui see on vale. Seega on punkti 3 oodatav kulu 0,53 * .47 + (1 -53) * 41 = .44. Kuna punktis 2 on madalaim eeldatav maksumus, manustatakse seda järgmisena.

Teabe kogumine

See kogu essee on seotud eelneva objekti ja uuritava levitamise informatsiooni kasutamisega dekodeerimisvastaste vektorite puhul, et teha parim ettekujutus eksamineeritavate meisterlikkuse seisundist. Siin saab kasutada üldiselt kasutatavat teabeteooria mõõdet (vt Cover and Thomas, 1991), Shannoni (1948) entroopiat.

 home.h10 (5)

kus p k on klassi k kuuluv S-osakaal. Entroopiat saab vaadelda levitamise ühtsuse mõõtjana ja maksimaalse väärtuse korral, kui p k = 1 / K kõigi k puhul. Eesmärgiks on saada P (m k ) tippjooksu ja seejärel valida objekt, millel on suurim eeldatav entroopia vähenemine, st

H (S 0 ) -H (S i ) (6)

kus H (S 0 ) on praeguse entroopia ja H (S i ) on eeldatav entroopia pärast punkti I manustamist , st klassifitseerimise tõenäosuste kaalutud tingimusliku entroopia summa, mis vastab õigele ja valele vastusele

 home.h11 (7)

Seda saab arvutada järgmiste sammude abil:

  1. Arvutage normaliseeritud tagurpidi liigitamise tõenäosused, mis tulenevad korrektsest ja vale vastusest elemendile I, kasutades (1).
  2. Arvutage tingimuslik entroopia (sõltuvalt õigest vastusest ja tingimusel, et vastus on vale), kasutades (5).
  3. Kaaluge tingimusteta entroopiaid nende tõenäosuste alusel (7).

Tabelis 2 on näidised koos arvutustega.

Tabel 2: oodatavate klassifikatsioonide entroopiate arvutamine punktide 2 ja 3 puhul.
Vastus

(z i )

Varasemad klassifitseerimise tõenäosused Tingimuslik entroopia P (zi) H (Si)
Punkt 2 Õige P (m1) = 40 .97 .66 .89
P (m 2 ) = .60
Vale P (m 1 ) = .20 .72 .33
P (m 2 ) = .80
Punkt 3 Õige P (m 1 ) = 38 .96 .53 .92
P (m 2 ) = 62
Vale P (m 1 ) = 29 .87 .47
P (m 2 ) = 71

Pärast esimese objekti manustamist, P (m 1 ) = .33, P (m 2 ) = .66 ja H (S) = .91. Punkt 2 annab suurima eeldatava entroopia kasu ja seda tuleks manustada järgmisena.

Selle lähenemisviisi variant on suhteline entroopia, mida nimetatakse ka Kullback-Leibleri (1951) teabemeetmeks ja teabevahetuseks . Chang ja Ying (1996), Eggen (1999), Lin ja Spray (2000) hindasid KL-i informatsiooni soodsalt kui adaptiivse testimise strateegiat.

Lugeja peab teadma, et eeldatav entroopia pärast punkti 3 manustamist oleks suurem kui H (S) ja põhjustaks teabe kadu. See tähendab, et klassifitseerimise tõenäosus väheneb tipptasemel, kui punkti 3 manustatakse. Selle tulemusena ei tohiks seda artiklit pidada järgmise kirje kandidaadiks. Võib juhtuda, et tahate lõpetada üksuste haldamise, kui üheskoos pole ühtegi eset, mis eeldatavasti toovad teieni kasu.

Järjestikused otsused

Käesolevas artiklis käsitletakse protseduure klassifitseerimise otsuse tegemiseks ja järjestikuste manustatavate järgmiste punktide valimise menetlusi. Selles jaotises kirjeldatakse protseduure otsustamaks, kui tal on piisavalt teavet, et klassifitseerida arvatavasti ohtu. Seda saab määrata iga vastuse järel.

Võimalik, et kõige lihtsam reegel on Neyman-Pearsoni otsuste kriteeriumid – jätka katset, kuni vale negatiivse tõenäosuse P (d 2 | m 1 ) tõenäosus on väiksem kui eelvalitud väärtus. “ Oletame, et “ = .05. Pärast esimest elementi on mitte-kapteni esinemise tõenäosus P (m 1 | z ) = .66. Kui eksamineeritav on tunnistatud mitte-kapteniks, siis praegune tõenäosus, et see on vale negatiiv, on (1-.33). Kuna see on rohkem kui “ , on otsus jätkata katseid.

Variant Neyman-Pearson on fikseeritud veamäär kriteerium – luua kahest summast, “ 1 ja “ 2 ning jätkata testimist kuni P (d 2 | m 1 ) < “ 1 ja P (d 1 | m 2 ) < “ 2 . Teine variant on kulude läve kriteeriumid. Selle lähenemisviisi kohaselt määratakse kulud igale õigele ja valele otsusele ning teise vaatluse tegemise otsusele. Testimine jätkub, kuni kulude lävi on saavutatud. Selle lähenemisviisi variant on kulude struktuuri muutmine, kuna hallatavate esemete arv suureneb.

Waldsi (1947) järjestikune tõenäosuse suhte test (SPRT, hääldatud spurt) on ilmselt kõige tuntum järjestikune otsustusreegel. K-kategooria SPRT võib kokku võtta järgmiselt:

home.h12

home.h13

home.h14

kus P (m j ) on normaliseeritud tagumine tõenäosus, “ on vastuvõetav veamäär ja $ on soovitud võimsus. Kui tingimus ei vasta k k-i kategooriale, siis jätkatakse katsetamist. on märkimisväärne ja muljetavaldav kirjanduste kogu, mis näitab, et SPRT on IRT-põhiste arvuti adaptiivsete testide lõpetamise reeglina väga tõhus (vt Reckase, 1983; Spray and Reckase, 1994, 1996; Lewis and Sheehan, 1990; Sheehan and Lewis, 1992). .

Arutelud

Sissejuhatuses väidavad Cronbach ja Gleser (1957), et testimise peamine eesmärk on saavutada kvalitatiivsed klassifitseerimisotsused. Tänased otsused on tihti binaarsed, näiteks kas keegi palgata, kas inimene on omandanud teatud oskuste kogumi, olenemata sellest, kas edendada isikut. Riigihinnangutes on sageli mitut riiki hõlmavad seisundid, nt õpilasprotsenti, kes täidavad põhi-, eriala või kõrgtasemel. Käesolevas artiklis esitatud lihtne mõõtmismudel on kohaldatav nendele ja muudele olukordadele, kus üks on huvitatud kategoorilisest teabest.

Mudelil on väga lihtne raamistik – see algab eksamikohustuste tingimuslikest tõenäosustest igas meisterlikkuse riigis, mis reageerib igale üksusele õigesti. Neid tõenäosusi saab saada väga väikesest pilootproovist. Uuringud näitasid, et ühe uuritava üksuse minimaalne lahtri suurus on mõistlik kalibreerimisvalimi suurus. Sellise väikese valimi suurusega kalibreeritud testide täpsus on äärmiselt lähedane katsetulemuste täpsusele, mis on kalibreeritud sadade katsealuste kaupa raku kohta.

Isiku vastuste mustreid hinnatakse nende tingimusjuhtumite alusel. Üks arvutab iga meisterlikkuse taseme jaoks antud vastusvektori tõenäosuse. Bayesi teoreemi kasutades saab tingimuslikud tõenäosused muuta a posteriori tõenäosusteks, mis esindavad iga meisterlikkuse oleku tõenäosust. Esitati alternatiivsed otsuste eeskirjad.

Selles artiklis uuriti kahte võimalust, kuidas kohandada või järjest kasutada näiteid kasutades mudelit. Traditsiooniline otsuste teooria järjestikune testimise lähenemine, minimaalne maksumus ja uus lähenemisviis, informatsiooni saamine, mis põhineb entroopiumil ja pärineb teooria teooriast.

Uuringud on näidanud, et süsteemi kalibreerimiseks on vaja väga vähe katseprojekte (Rudner, ajakirjanduses). Üks või kaks uuritavat rakkude kohta üksuse kohta toovad katset, mis on sama täpne kui kalibreeritud sadade pilootprojekti katsetega iga rakuki kohta. Tulemused olid kogu objektide kogumite ja katse pikkuste vahel järjepidevad. Piloodi olulised andmed on iga meisterlikkuse tasemega uuritavate osakaal, mis vastab õigesti. Üks ei vaja tõeliselt juhuslikult valitud uuritavate esialgset tõenäosust igas meisterlikkuse olekus. Eeldatavasti suurendavad ühtsed eelistused vajalike esemete arvu ja ei mõjuta täpselt valitud nõuete täitmise peatamise eeskirju.

See on ilmselt lihtne, kuid võimas ja laialdaselt kasutatav mudel. Eeliseid see mudel on palju Naftüridiini mudel

  • annab täpse meisterlikkuse riikliku klassifikatsiooni, 
  • võib lisada väikese koguse 
  • on lihtne rakendada 
  • nõuab väikest eelanalüüsi 
  • on kohaldatav kriteeriumi viidatud testide suhtes, 
  • saab kasutada diagnostilises testis, 
  • saab kohandada, et saada klassifikatsioone mitmel oskusel, 
  • võib kasutada järjestikuseid testimise ja järjestikuse otsustamise reegli ja 
  • peaks mitte-statistikutele olema lihtne seletada.

Autor on lootust, et see uuring katab uuringute ja rakenduslike mõõtmiskogukondade kujutlusvõime. Autor võib ette kujutada mudeli laialdasemat kasutamist intelligentsete juhendamissüsteemide suunamismehhanismina. Objekte saab piloteerida mõne arvuga eksamikohtadega, et oluliselt parandada üksuse eksami sooritamist. Sertifitseerimiskatsed võidakse luua spetsialiseerunud ametikohtadele, kus on piiratud hulk praktikreid, mida saab kasutada elemendi kalibreerimiseks. Õpetajatele võiks ette valmistada lühikesed testid, mis aitaksid teha esialgse paigutuse ja edutamise otsuseid. Üks väike kogus üksikuid esemeid, näiteks State-NAEP, võib olla teise katsega, ütleme riigi hinnang, et anda mõistlik piirkondadevaheline teave.

Uurimisküsimused on palju. Kuidas laiendada mudelit mitmekordsetele, mitte dikotoomilistele üksustele reageerimise kategooriatele? Kuidas saab avastada kõrvalekaldeid? Kui tõhusad on alternatiivsed adaptiivne testimine ja järjestikused otsustusreeglid? Kas mudelit saab efektiivselt laiendada 30 või enama kategooria juurde ja anda eksamikule järjekorranumber? Kuidas saaksime hästi ära kasutada asjaolu, et andmed on järjestikused? Kuidas saab katsetamisel uurida entroopia mõistet? Kas on olemas uued objektide analüüsimise protseduurid, mis võivad parandada mõõtmisotsuse teoreetilisi katseid? Kuidas saab mudelit kõige paremini rakendada mitmesuguste oskuste hindamisel viidatud testide kriteeriumidele? igaüks mõne arvukusega objekte? Miks on minimaalsed kulutused ja info nii sarnased? Kuidas saab erinevaid kulustruktuure tõhusalt kasutada? Kuidas saab ühes katses asuvaid esemeid teisega kasutada? Kuidas neid samme võrdsustada? Autor uurib praegu mudeli rakendatavust esseede arvutiseerimiseks. Selles uurimuses käsitletakse suure pilohe esseefunktsioone kui meelelahutussätteid kui esemeid ja terviklikke skoori.

Märge

See juhendaja töötati välja Rahvusliku Hariduse Raamatukogu, USA Haridusministeeriumi, auhinna xxx ja USA Haridusministeeriumi üliõpilaste saavutuste, õppekavade ja hindamise riikliku instituudi, rahastaja R305T010130 vahenditega. Selles artiklis väljendatud seisukohad ja arvamused on autorite poolt ja need ei pruugi kajastada rahastamisagentuuri seisukohti.

Viited

Allen, Nancy L., James E. Carlson ja Christine A. Zelenak (2000). NAEP 1996 tehniline aruanne . Washington, DC: haridusalase statistika riiklik keskus. Saadaval Internetis: http://nces.ed.gov/nationsreportcard/pubs/main1996/1999452.asp

Baker, F. (2001). Artikli reageerimise teooria põhitõed . Teine väljaanne. College Park: MD: ERIC teabekeskus hindamise ja hindamise kohta.

Birnbaum, A. (1968). Mõned varjatud tunnused. FM Lord & MR Novickis (Eds.), Vaimsete testide statistilised teooriad . Reading, MA: Addison-Wesley.

Chang, H.-H. ja Ying, Z. (1996). Ülemaailmne teabevahetus arvutipõhise adaptiivse testimise jaoks. Rakenduslik psühholoogiline mõõtmine , 20, 213-229.

Colorado State Department of Education (2000). Colorado õpilaste hindamise programm (CSAP), tehniline aruanne, 5. klassi matemaatika. Saadaval Internetis: http://www.cde.state.co.us/cdeassess/download/pdf/as_csaptech5math99.pdf

Cover, TM ja JA Thomas, infoteooria elemendid. New York: Wiley, 1991.

Cronbach, LJ ja Gleser, GC (1957). Psühholoogilised testid ja personaliotsused .. Urbana: Illinoisi Ülikool Press

Eggen, TJHM (1999). Osade valik adaptiivse testimisega järjestikuse tõenäosuse suhte testiga. Rakenduslik psühholoogiline mõõtmine , 23 (3), 249-61.

Ferguson, RL (1969). Individuaalselt ette nähtud juhendamise arvutipõhise hargnenud testi väljatöötamine, rakendamine ja hindamine. Doktoriväitekiri. Pittsburghi ülikool, Pittsburgh, PA.

Hambleton, R. ja Novick, M (1973). Kriitiliste viidetega testide teooria ja meetodi integreerimine. Educational Measurement Journal , 10, 159-170.

Huyhn, H. (1976). Meisterlikkuse skooride statistilised kaalutlused. Psychometrika ., 41, 65-79.

Kingsbury, GG, & Weiss, DJ (1983). IRT-põhise adaptiivse meisterlikkuse testimise ja järjestikuse meisterlikkuse katsemenetluse võrdlus. DJ Weiss (Ed.), Uued horisontid testimiseks: varjatud tunnuste katse teooria ja arvutite adaptiivne testimine (lk 257-283). New York: Academic Press.

Kullback, S. & Leibler, RA (1951). Teavet ja piisavust. Matemaatilise statistika aastakirjad, 22 , 79-86.

Lewis, C. ja Sheehan, K. (1990). Bayesi otsusteooria kasutamine arvutipõhise meisterlikkuse testi koostamiseks. Rakenduslik psühholoogiline mõõtmine , 14 (2), 367-86.

Lin, Chuan-Ju; Spray, Judith (2000). Element-selektsioonikriteeriumide mõju klassifitseerimise katsetamisele järjestikuse tõenäosuse suhte testiga. ACTi uurimisaruannete seeria.

Macready, G. ja Dayton CM (1977). Probabilitiliste mudelite kasutamine meisterlikkuse hindamisel. Haridusstatistika väljaanne. 2 (2), 99-120.

Macready, G. ja Dayton CM (1992). Varjatud klassi mudelite rakendamine adaptiivse testimise käigus. Psychometrika , 57 (1), 71-88.

Mislevy, RJ, & Gitomer, DH (1996). Tõenäosuspõhise järelduse roll intelligentses juhendamissüsteemis. Kasutajate vahendatud ja kasutaja kohandatud suhtlemine, 5, 253-282.

Reckase, MD (1983). Kohandatud katsetamise abil otsuste tegemise kord. DJ Weiss (Ed.), Uued horisontid testimiseks: varjatud tunnuste katse teooria ja arvutite adaptiivne testimine (lk 237-255). New York: Academic Press.

Shannon, CE (1948). Matemaatiline kommunikatsiooniteooria, Bell System Technical Journal, 27, 379-423 ja 623-656, juuli ja oktoober. Saadaval Internetis: http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html

Sheehan, Kathleen ja Lewis, Charles (1992). Elektrooniline meisterlikkuse testimine mittekvivalentsete testplokkidega. Rakendatud psühholoogiline mõõtmine , v16 n1 p65-76 märts 1992

Spray, Judith A. ja Reckase, Mark D. (1996). SPRT ja järjestikuste baasi protseduuride võrdlus eksaminaatide klassifitseerimisel kahte kategooriasse, kasutades arvutipõhist testi. Hariduse ja käitumise statistika väljaanne , 21 (4), 405-14.

Spray, Judith A. ja Reckase, Mark D. (1994). Testimisüksuste valimine arvutite adaptiivse testiga otsuste tegemiseks. Hariduse mõõtmise riikliku nõukogu aastakoosolekul esitatud raamat (New Orleans, LA, 5.-7. Aprillil 1994).

van der Linden, WJ ja Mellenbergh, GJ (1978). Otsuse teoreetilise vaatepunkti testide koefitsiendid. Rakenduslik psühholoogiline mõõtmine, 2, 119-134.

van der Linden, WJ ja Vos, HJ (1966) Kompenseeriv lähenemisviis optimaalsele valikule meisterlikkuse skooridega. Psychometrika , 61 (1), 155-72.

Vos, Hans J. (1999). Baiessi otsustusteooria taotlused järjestikuse meisterlikkuse testimiseks. Hariduse ja käitumise statistika väljaanne , 24 (3), 271-92.

Wald, A. (1947). Järjestikune analüüs . New York: Wiley.

Welch, RE & Frick, T. (1993). Arvuti adaptiivne testimine juhendamisseadetes. Educational Technology Research & Development, 41 (3), 47-62.

Wood, R. (1976). Kohanemisjärgne testimine: Bayesi menetlus võimete tõhusaks mõõtmiseks. Programmeeritud õppe- ja haridustehnoloogia , 13, 2, 36-48.