Tegur Analüüs

link: http://www3.psych.cornell.edu/Darlington/factor.htm

Richard B. Darlington

Tegur analüüs hõlmab nii koostisosa analüüs ja ühine tegur analüüs. Rohkem kui muid statistilisi meetodeid, tegur analüüs on kannatanud segadust seoses selle väga eesmärgil. See mõjutab minu esitlus kahel viisil. Esiteks, ma pühendada pikk jaotises kirjeldatakse, mida tegur analüüs ei enne uurida osades kuidas ta seda teeb. Teiseks, olen otsustanud pöörata tavaline järjestuses. Osa analüüs on lihtsam ja kõige aruteludes, esitada see esimene. Siiski ma usun, et ühine tegur analüüs on lähedasemaks, et lahendada probleeme, enamik teadlasi tegelikult tahavad lahendada. Seega õppimisele analüüsi esimene võib tegelikult häirida arusaam, millised need probleemid on. Seetõttu koostisosa analüüs on kasutusele alles üsna hilja käesolevas peatükis.

Mida tegur analüüs saab ja ei saa seda teha

Ma oletan, et te olete hinded mitmeid muutujaid– kuskil 3 mitusada muutujad, kuid enamasti jääb 10 ja 100 vahele. Tegelikult on teil vaja ainult korrelatsioon või covariance matrix -ei ole tegelik tulemus. Eesmärk tegur analüüs on avastada lihtsad mustrid muster suhted hulka muutujaid. Eelkõige soovitakse, et avastada, kas täheldatud muutujad võivad olla selgitas suures osas või täielikult poolest palju väiksem arv muutujaid nimetatakse tegureid.

Mõned näited tegur-analüüsi probleemid

1. Tegur analüüs oli leiutatud ligi 100 aastat tagasi psühholoog Charles Spearman, kes püstitati hüpotees, et tohutus testid vaimsete võimete–meetmed matemaatilisi oskusi, sõnavara, muud verbaalsed oskused, kunstilise oskusi, loogilise mõtlemise võime, jne.-võiks kõik olla selgitas üks aluseks „tegur“ üldist intelligentsust, et ta kutsus g. Ta püstitati hüpotees, et kui g oli võimalik mõõta ja sa võid valida alarühma inimesed, kellel on sama skoor g, et alarühma soovite leida mingit seost seas kõik testid vaimsete võimete. Teisisõnu, ta püstitati hüpotees, et g oli ainus tegur, mis on ühised kõik need meetmed.

See oli huvitav idee, kuid see osutus valeks. Täna Kolleegiumi Juhatuse testimise teenus toimib süsteem, mis põhineb ideel, et seal on vähemalt kolm olulised tegurid vaimse võimekuse–verbaalse, matemaatilise ja loogilise võimeid–ja kõige psühholoogid nõus, et paljud muud tegurid võivad olla määratletud kui hästi.

2. Mõtisklege autonoomse närvisüsteemi aktiivsuse erinevaid mõõtmeid – südame löögisagedust, vererõhku jms. Psühholoogid on tahtnud teada, kas kõik need meetmed liiguvad üles ja alla, välja arvatud juhuslikud kõikumised – „aktiveerimise“ hüpotees . Või kas autonoomsete meetmete rühmitused liiguvad üles ja alla koos teiste rühmadega? Või kas kõik meetmed on suures osas sõltumatud? Minu avaldamata analüüs näitas, et ühel andmekogumisel lisati igal juhul andmed aktiveerimise hüpoteesi üsna hästi.

3. Oletame, et paljud looma liigid (rotid, hiired, linnud, konnad jms) on välja töötatud, et toit ilmub kindlas kohas, kui selle koha saabub müra – igasugune müra. Seejärel võiksite öelda, kas nad suudavad tuvastada teatud heli, nähes, kas need suunduvad heli ilmumisel selles suunas. Siis, kui te õppisite paljusid helisid ja paljusid liike, võiksite teada, kui palju erinevaid nägemisteravuse tüüpe on liigid erinevad. Üheks hüpoteesiks on see, et need erinevad ainult kolmel dimensioonil – võime tuvastada kõrgsageduslikke helisid, võime tuvastada madalama sagedusega helisid ja võime tuvastada vahepealseid helisid. Teisest küljest võivad liigid kuulmisvõimaluste poolest erinevad rohkem kui ainult need kolm mõõdet. Näiteks,

4. Oletame, et iga 500 inimest, kes kõik tutvustavad erinevaid autosid, hindab iga 20 küsimuse autode mudelit: „Kui palju soovite sellist autot omada?“ Me võime kasulikult küsida, kui palju mõõtmeid on reitingud erinevad. Ühtse teguri teooria eeldaks, et inimesed annavad kõige kõrgemate hinnangute kõige kallimatele mudelitele. Kaheteguri teooria eeldaks, et mõned inimesed on kõige rohkem huvitatud spordi mudelite, teised on kõige luksuslikumad mudelid. Kolme- ja neljateguri teooriad võivad lisada ohutust ja töökindlust. Või autode asemel võite valida, kuidas uurida toiteid, poliitilisi poliitikaid, poliitilisi kandidaate või palju teisi objekte.

5. Rubenstein (1986) uuris uudishimulikkuse olemust, analüüsides noorukirukide üliõpilaste kokkuleppeid, milles oli palju väljavõtteid nagu „Mulle meeldib välja selgitada, kuidas masin töötab“ või „Mulle meeldib uut tüüpi toitu proovida “ Teguranalüüsiga määrati kindlaks seitse tegurit: kolm probleemide lahendamist, õppimist ja lugemist; kolm mõõtetulemust loodusteaduses, kunstis ja muusikas ning üldiselt uued kogemused; ja üks näitab suhteliselt madalat rahapakkumist.

Eesmärk: Põhjuste mõistmine

Sõltumatute ja sõltuvate muutujate seose uurimiseks kasutatakse paljusid statistilisi meetodeid. Tegurite analüüs on erinev; seda kasutatakse suhteliste mudelite uurimiseks paljude sõltuvate muutujate seas eesmärgiga avastada midagi nende mõjutatavate sõltumatute muutujate olemust, kuigi neid sõltumatuid muutujaid ei mõõdeta otseselt. Seega on faktoranalüüsi abil saadud vastused tingimata hüpoteetilised ja esialgsed, kui on tõsi, kui sõltumatud muutujad otseselt vaadatakse. Välja järeldatud sõltumatud muutujad nimetatakse teguriteks . Tüüpiline faktorianalüüs viitab vastustele neljale põhiküsimusele:

  1. Kui palju erinevaid tegureid on vaja nende muutujate seoste struktuuri selgitamiseks?
  2. Milline on nende tegurite olemus?
  3. Kui hästi, siis hüpoteetilised tegurid selgitavad täheldatud andmeid?
  4. Kui palju iga puhtalt juhusliku või unikaalse variandi puhul on iga vaadeldud muutuja?

Kirjeldan neid küsimusi hiljem.

Faktoranalüüsi absoluutne versus heuristiline kasutamine

Heuristiline on mõtlemine teema, mis on mugav, isegi kui ei ole absoluutselt tõsi. Me kasutame heuristilist meedet, kui räägime päikesest, mis tõuseb ja seatakse nii, nagu oleks päike maa peal, kuigi me teame, et see pole nii. „Heuristiline“ on nii nimisõna kui omadussõna; Heuristiline kasutamine on mõelda heuristilistes tingimustes.

Eelnevaid näiteid saab illustreerida kasuliku eristamise – faktoranalüüsi absoluutse ja heuristilise kasutamise vahel. Spearmani g intelligentsuse teooriat ja autonoomse funktsiooni aktiveerimise teooriat võib vaadelda kui absoluutseid teooriaid, mis on või eeldati, et anda täielikku kirjeldust muutujate suhete struktuuri kohta. Teisest küljest ei öelnud Rubenstein kunagi, et tema seitsme olulise uudishimu tegurite nimekiri pakkus täieliku uudishimu kirjeldust. Need tegurid pigem tunduvad olevat kõige olulisemad seitse tegurit – parim viis andmete kogumiseks. Faktoranalüüs võib viidata kas absoluutsele või heuristilistele mudelitele; Erinevus seisneb selles, kuidas väljundit tõlgendate.

Kas faktorianalüüsi eesmärk on?

Heuristika mõiste on kasulik tegurianalüüsi vara mõistmiseks, mis segab paljusid inimesi. Mitmed teadlased võivad rakendada faktoranalüüse sarnaste või isegi identsete meetmete kogumite jaoks ja võib tuua välja 3 tegurit, teine aga 6-ga ja veel 10-ga. Selline kokkuleppe puudumine on pigem diskrimineerinud faktoranalüüside kasutamist. Kuid kui kolm reisi kirjanikku kirjutasid Ameerika Ühendriikidesse reisijuhid ja üks riik jagunes 3 piirkonda, teine 6-ni ja teine 10-ni, kas me ütleksime, et nad on üksteisega vastuolus? Muidugi mitte; mitmesugused kirjanikud kasutavad lihtsalt teema korraldamise mugavaid viise, kuid ei väida, et see on ainus õige viis seda teha. Erinevate järelduste tegurid teevad analüütikuid üksteise vastu vaid siis, kui nad kõik nõuavad absoluutseid teooriaid, mitte heuristika. Mida väiksemad tegurid seda teooriat lihtsustavad? seda rohkem fakte, seda paremini teooria sobib andmetega. Erinevad töötajad võivad valida sobivuse tasakaalustamiseks lihtsuse.

Sarnane tasakaalustusprobleem tekib dispersiooni taandarengul ja analüüsimisel, kuid üldiselt ei takista see, et erinevad töötajad saavutaksid peaaegu või täpselt samad järeldused. Lõppude lõpuks, kui kaks töötajat rakendavad samade andmetega dispersiooni analüüsi ja mõlemad töötajad loobuvad tingimustest, mis ei ole märkimisväärsed .05 tasemel, siis mõlemad annavad täpselt samad tagajärjed. Kuid faktoranalüüsi olukord on väga erinev. Allpool selgitatud põhjustel ei ole komponentanalüüsis mingit tähtsust testi, mis kontrollib hüpoteesi tegurite arvu osas, kuna seda hüpoteesi on tavaliselt mõelnud. Ühises teguranalüüsis on selline test, kuid selle kasulikkust piirab asjaolu, et see annab sageli rohkem tegureid, kui seda saab rahuldavalt tõlgendada.

Sarnane probleem tekib faktorite laadi kindlakstegemisel. Kaks töötajat võivad igaüks identifitseerida 6 tegurit, kuid kaks tegurit võivad erineda – võib-olla oluliselt. Reisikirjanike analoogia on siin ka kasulik; kaks kirjanikku võiksid mõlemad USA jagada 6 piirkonda, kuid määratlevad piirkonnad väga erinevalt.

Teine geograafiline analoogia võib olla faktoranalüüsiga rohkem paralleelne, kuna see hõlmab arvutiprogramme, mille eesmärk on maksimeerida mõningaid kvantifitseeritavaid eesmärke. Mõnikord kasutatakse arvutiprogramme, et jagada riiki kongressi piirkondades, mis on geograafiliselt kontribeeritavad, rahvastikus peaaegu võrdsed ja võibolla homogeensed etnilise päritolu mõõtmetel või muudel teguritel. Kaks erinevat linnaosade loomise programme võivad anda väga erinevaid vastuseid, kuigi mõlemad vastused on mõistlikud. See analoogia on mõnes mõttes liiga hea; me usume, et faktoranalüüside programmid ei anna tavaliselt vastuseid üksteisest erinevalt, nagu seda teevad linnaosade loomise programmid.

Faktoranalüüs versus klasterdamine ja mitmemõõtmeline skaleerimine

Teine väljakutse faktorianalüüsile on tulnud konkureerivate tehnikate, näiteks klastrite analüüsi ja mitmemõõtmelise skaleerimise kasutamisest. Kuigi faktoranalüüsi kasutatakse tavaliselt korrelatsioonimaatriksi suhtes, saab neid muid meetodeid rakendada mis tahes sarnasuse mõõtmete maatriksile, näiteks nägude sarnasuse hinnangutele. Kuid erinevalt faktorianalüüsist ei saa need meetodid toime tulla korrelatsioonimaterjalide teatud unikaalsete omadustega, näiteks muutujate peegeldustega. Näiteks kui te peegeldate või teisendate introversiooni mõõdikute suuna suunda nii, et rekordid tähendavad introversiooni asemel „extroversiooni“, siis muudate kõik selle muutuja korrelatsioonid märke: -36 muutub +36, +42 muutub -42 ja nii edasi. Sellised peegeldused muudaksid täielikult klastrianalüüsi väljundit või mitmemõõtmelist skaleerimist, samas kui faktorianalüüs tunnustaks nende peegeldusi; peegeldused muudaksid kõigi peegelduvate muutujate „tegurikoormuste“ märke, kuid ei muuks tegureanalüüsi väljundis midagi muud.

Teiste faktorite analüüsi teine eelis nende muude meetodite puhul on see, et teguranalüüs võib tuvastada korrelatsioonide teatud omadusi. Näiteks, kui muutujad A ja B korreleerivad .7 muutujatega C ja omavahel korreleeruvad .49, võib teguranalüüs tunduda, et A ja B korreleerivad nulli, kui C hoitakse konstantsena, kuna .7 2 = .49. Mitmemõõtmelise skaleerimise ja klastrite analüüs ei suuda selliseid suhteid ära tunda, kuna korrelatsioone käsitletakse pigem üldiste „sarnasuse mõõtmena“ kui korrelatsioonina.

Me ei ütle, et neid teisi meetodeid ei tohiks kunagi kohaldada korrelatsioonimaatriksite suhtes; mõnikord annavad nad teguranalüüsile mittevajalikud mõtted. Kuid nad pole kindlasti tegeliku analüüsi vananenud. Järgmine lõik puudutab seda punkti.

Faktorid „Erinevad“ muutujad versus tegurid „aluseks“ muutujad

Kui keegi räägib juhuslikult, et näitajate komplekt peegeldab „ainult ühte tegurit“, on nende arvates mitmeid asju, mis ei pruugi faktoranalüüsiga midagi olla. Kui me räägime rohkem sõnasõnalisi avaldusi, selgub, et fraas „üks tegur, mis neid tegureid eristab „, võib tähendada mitut erinevat asja, millest ükski ei vasta faktoranalüütilisele järeldusele, et “ need muutujad on vaid üks tegur „.

Mõiste „eristamine“ üheks võimalikuks tähenduseks on see, et muutujate kogum kõik korreleerub üksteisega kõrgelt, kuid erineb nende vahendite poolest. Üsna sarnane tähendus võib tekkida teistsugusel juhul. Mõtle mitu testi A, B, C, D, mis testivad samu üldiselt kavandatud vaimseid võimeid, kuid mis suurenevad raskustes loetletud järjekorras. Siis võivad testide seas kõige kõrgemad korrelatsioonid olla selle loendi kõrval asuvate elementide vahel (r AB , r BC ja r CD ), samas kui madalaim korrelatsioon on loendi teistel otstel olevate kirjete vahel (r AD) Keegi, kes seda elementi jälgis kirjete seoste vahel, võib öelda, et testid on „võimalik paigutada lihtsasse järjekorda“ või „erineda ainult ühe teguriga“, kuid selline järeldus ei puuduta midagi tegurit. Katsetuste kogum ei sisalda ainult üht ühist tegurit.

Kolmas selline juhtum võib tekkida, kui muutuja A mõjutab B-d, mis mõjutab C-d, mis mõjutab D-d, ja need on ainsad tagajärjed, mis seovad need muutujad. Kord on kõrgeimad korrelatsioonid r AB , r BC ja r CD, samas kui madalaim korrelatsioon oleks r AD . Keegi võib kasutada korrelatsioonide struktuuri kirjeldamiseks just selliseid lauseid, mis on just tsiteeritud; jällegi ei ole see seotud tegurianalüüsiga.

Neljas juhtum on teatud juhtudel kõigi eelmiste juhtumite puhul täiuslik Guttmani skaala. Dikotoomsete esemete komplekt sobib Guttmani skaalal, kui objekte saab korraldada nii, et negatiivne vastus mis tahes elemendile toob negatiivse vastuse kõigile järgnevatele elementidele, samas kui ükskõik millise üksuse positiivne vastus viitab positiivsele vastusele kõikidele eelmistele elementidele. Üksiku näite puhul vaadake teemasid

  • Kas olete kõrgem kui 5 jalga 2 tolli kõrgusel?
  • Kas olete kõrgem kui 5 jalga 4 tolli kõrgused?
  • Kas olete kõrgem kui 5 jalga 6 tolli?
  • Jne.

Selleks, et olla järjepidev, peab inimene, kes vastus mõnele neist elementidest negatiivselt, vastama kõikidele hilisematele elementidele, ja positiivne vastus tähendab, et kõik eelmised vastused peavad olema positiivsed. Mittriviaalse näite puhul võite kaaluda järgmisi küsimustiku punkte:

  • Kas meie rahvas peaks vähendama tariifseid tõkkeid rahvaga B?
  • Kas meie kaks keskpanka annaksid ühisraha?
  • Kas meie armeed muutuvad üheks?
  • Kas me peaksime rahvaga B sulanduma, saades üheks rahvaks?

Kui selgub, et need esemed moodustasid täiusliku Guttmani skaala, oleks lihtsam kirjeldada rahva hoiakuid rahvuse B kohta, kui see poleks. Kui mõni komplekt moodustab Guttmani skaala, ei tähenda see huvitavat, et faktorianalüüs avastaks ühe ühtse teguri. Guttman skaalal tähendab, et üks tegur eristab kogum esemeid (nt „favorableness poole koostöös riigi B“), mitte et üks tegur aluseks nende tingimustega.

Korraldusmaatriksi mitmemõõtmelise skaleerimise rakendamine võib leida kõik need lihtsad muutujate erinevused. Seega teeb mitmemõõtmeline skaleerimine kindlaks tegurid, mis eristavad muutujaid, samal ajal kui faktorianalüüs otsib tegureid, mis on muutujate aluseks . Mõõdistamine võib mõnikord leida lihtsust, kui tegurianalüüs ei leita ühtegi, ja tegurianalüüs võib leida lihtsust, kui skaalat ei leita.

Auslik ajalugu

Kui statistilise meetodi puhul võib olla piinlik ajalugu, on see tegur analüüsi meetod. Umbes 1950. aastast mõjutasid teguranalüüsi mainet mõne üleastumusega partisanide ülerõhk. Tagantjärele oli kolm asja valesti, kui mõned inimesed mõtlesid sellel ajal faktoranalüüsile. Esiteks, mõned inimesed tundus, et näha tegur analüüsi statistiline meetod mittestatistiline meetod. Teiseks mõtlesid nad absoluutarvudes sellistesse probleemidesse, mille jaoks heuristilise lähenemise oleks olnud sobivam. Kolmandaks mõtlesid nad pigem üleliigsete muutujate kogumite („me tahame mõista kogu inimese isiksust“ asemel „soovime mõista uudishimu olemust“). Seega püüdsid nad kolmel erineval viisil faktoranalüüsi venitada kaugemale kui see oli võimalik. Viimastel aastakümnetel näib, et teguranalüüs on leidnud õige koha kui meetodite perekond, mis on kasulik teatud piiratud eesmärkidel.

Põhimõisted ja põhimõtted

Lihtne näide

Faktoranalüüs algab tavaliselt korrelatsioonimaatriksiga, mida tähistan R. Nüüd on kunstlik 5 x 5 korrelatsioonimaatriks, mida nimetan R55-ga.

     1.00 .72.63 .54.45
      .72 1.00 .56 .48 .40
      .63 .56 1,00 .42 .35
      54,48 .42 1,00 .30
      .45 .40 .35, 30, 1.00

Kujutage ette, et need on korrelatsioonid 5 näitaja vahel, mis mõõdavad vaimseid omadusi. Matrix R55 vastab täpselt ühtse ühisteguri g hüpoteesile, mille korrelatsioon 5 täheldatud muutujatega on vastavalt 9, 8, 7, 6 ja .5. Et näha, miks arvestage valemit osaliseks korrelatsiooniks kahe muutuja a ja b vahel, mis eraldab kolmanda muutuja g :

ab.g = (r ab – r ag r bg ) / sqrt [(1 r ag 2 ) (1 r bg 2 )]

See valem näitab, et r ab.g = 0 siis ja ainult siis, kui r ab = r ag r bg . Vajalik vara, mille korral muutuja toimib üldise tegurina g, on see, et mis tahes kahe täheldatava muutuja vaheline korrelatsioon, mis ulatub läbi g , on null. Seega, kui korrelatsioonimaatriksit saab seletada üldise teguriga g , on tõsi, et täheldatud muutujate seosed g-ga on omavahel korrelatsioonid , nii et nende kahe korrelatsiooni mõlema toote väärtus võrdub kahe täheldatava muutuja vahelise korrelatsiooniga . Kuid maatriksil R55 on täpselt see omadus. See tähendab, et kõik diagonaalsed sisendid r jkon järjekorranumbrite j ja k ridade toode .9 .8 .7 .6 .5. Näiteks on rea 1 ja veeru 3 kirje 0,9 x .7 või .63. Seega maatriks R55 vastab täpselt ühe ühtse teguri hüpoteesile.

Kui me leidsime selle mustri tõelise korrelatsioonimaatriksi, mida täpselt oleksime näidanud? Esiteks on teguri olemasolu pigem järeldatud kui täheldatud . Me kindlasti ei oleks tõestanud, et nende viie muutuja kohta saadud tulemusi mõjutab ainult üks ühine tegur. Kuid see on kõige lihtsam või kõige ennustlikum hüpotees, mis sobib täheldatud korrelatsioonide struktuuriga.

Teiseks, meil oleks hinnang faktori korrelatsioonis kõigi vaadeldud muutujatega, nii et võime öelda midagi faktori olemusest, vähemalt selle poolest, kuidas see väga korreleerub või mitte. Selles näites on need väärtused .9 .8 .7 .6. 5 need hinnangulised korrelatsioonid.

Kolmandaks, me ei suutnud tegurit mõõta selle poolest, et iga isiku täpne skoor teguritest saadi. Kuid me saame, kui soovime kasutada mitmekordse regressiooni meetodeid, et hinnata iga teguri skoori koefitsienti nende skooride põhjal vaadeldud muutujate kohta.

Matrix R55 on peaaegu lihtsaim võimalik näide ühisest tegurianalüüsist, sest täheldatud korrelatsioonid on täiesti kooskõlas lihtsama võimaliku tegur-analüütilise hüpoteesiga – ühe ühtse teguri hüpoteesiga. Mõned muud korrelatsioonimaatriksid ei pruugi sobida ühe ühtse teguri hüpoteesiga, vaid võivad sobida kahe või kolme või nelja ühtse teguri hüpoteesiga. Mida väiksemad tegurid seda hüpoteesi lihtsustavad. Kuna lihtsa hüpoteesi puhul on üldiselt loogiline teaduslik prioriteet keerukamate hüpoteeside suhtes, siis eeldatakse, et vähem tegureid hõlmavad hüpoteesid on eelistatavad kui need, mis hõlmavad rohkem tegureid. See tähendab, et te nõustute vähemalt esialgse lihtsama hüpoteesiga (st, mis hõlmab kõige vähem tegureid), mida täheldatud korrelatsioonide komplekt ei ole selgelt vastuolus. Nagu paljud kirjanikud, las ma vőtan m tähistab ühiste tegurite hüpoteesi.

Ilma sügavuti matemaatika ei saa öelda, et tegurianalüüs püüab iga muutujat väljendada ühiste ja unikaalsete osade summa järgi . Kõikide muutujate ühised osad on oma olemuselt täiesti seletatavad ühiste teguritega ja unikaalsed osad on ideaalis täiesti omavahel korrelatsioonita. Andmebaasi sobivust sellele tingimusele saab hinnata analüüsi järgi, mida tavaliselt nimetatakse „järelejäänud korrelatsioonimaatriksiks“.

Selle maatriksi nimi on mõnevõrra eksitav, kuna maatriksis olevad sissekanded ei ole tavaliselt korrelatsioonid. Kui teil on mingit kahtlust mõne osalise väljatrüki kohta, vaadake maatriksi diagonaalsed sissekanded, näiteks esimese muutuja enda „korrelatsioon“, teine iseendaga jne. Kui need diagonaalid pole kõik täpselt 1, siis trükitav maatriks ei ole korrelatsioonimaatriks. Kuid see võib tavaliselt muuta korrelatsioonimaatriksiks, jagades iga mitte-diagonaalse sisendi kahe vastava diagonaalkirje ruutjuurega. Näiteks kui kaks esimest diagonaalset sisendit on .36 ja .64 ning positsiooni [1,2] väljapoole diagonaalne sisestus on .3, siis jääb korrelatsiooniks .3 / (.6 * .8) = 5 / 8 = .625.

Sel viisil leitud korrelatsioonid on korrelatsioonid, mis peaksid olema lubatud muutujate „ainulaadsete“ osade hulgas, et muutujate ühised osad sobiksid m üldiste tegurite hüpoteesiga . Kui need arvutatud korrelatsioonid on nii suured, et need on vastuolus hüpoteesiga, et need on populatsioonis 0, lükatakse m üldiste tegurite hüpotees . Suurendamine m vähendab alati neid korrelatsioone, andes sellega hüpoteesi, mis on andmetega paremini kooskõlas.

Soovime leida lihtsamaid hüpoteese (st madalaim m ), mis on kooskõlas andmetega. Selles suhtes võib faktoranalüüsi võrrelda teadusliku ajaloo episoodidega, mis kulgenusid aastakümnete või sajandite arenguks. Kopernik mõistis, et Maa ja teised planeedid liigutasid päikese käes, kuid esialgu väitis ta, et nende orbiidid on ringid. Kepler mõistis hiljem, et orbiidid on paremini kirjeldatud kui ellipsid. Ring on lihtsam joonis kui ellips, seega see teadusliku ajaloo episood illustreerib üldist punkti, et me alustame lihtsa teooriaga ja muudame selle järk-järgult keerukamaks täheldatud andmete paremaks rahuldamiseks.

Sama põhimõtet võib täheldada ka eksperimentaalse psühholoogia ajaloos. 1940. aastatel uskusid eksperimentaalsed psühholoogid, et kõik õppimispõhimõtted, mis võivad isegi hariduspraktikat murranguliselt muuta, võiksid avastada, uurides pruukitest mazistel. Täna on see seisukoht naeruväärselt ülimalt lihtsustatud, kuid see näitab üldteaduslikku seisukohta, et on mõistlik alustada lihtsa teooriaga ja järk-järgult liikuda keerulisemate teooriate juurde ainult siis, kui selgub, et lihtne teooria ei sobi andmete hulka.

Seda üldteaduslikku põhimõtet saab rakendada ühe faktoranalüüsi abil. Alustage lihtsaimast võimalikest teooriatest (tavaliselt m = 1), katsetage selle teooria ja andmete vahelist sobivust ja suurendage seejärel vajaduse korral m . Iga m tõus toodab teooriat, mis on keerulisem, kuid sobib paremini andmetega. Peatage, kui leiate teooria, mis sobib andmetega piisavalt.

Iga vaadeldava muutuja kommunikatsioon on selle hinnanguline ruudus korrelatsioon oma ühise osaga – st selle muutuja osakaal, mida seletatakse ühiste teguritega. Kui teete tegurite analüüse mitmete erinevate väärtustega m , nagu eespool soovitatud, siis leiad, et kommuunid üldiselt kasvavad koos m-ga . Kuid kompaniisid ei kasutata, et valida lõplik väärtus m. Madalad ühendused ei tõlgendata tõendina, et andmed ei vasta hüpoteesile, vaid lihtsalt tõendina, et analüüsitavatel muutujatel on vähe ühist. Enamik faktoranalüüsi programme hindab kõigepealt iga muutuja kogukust kui selle muutuja ja teiste analüüsi muutujate ruudustiku mitmekordset korrelatsiooni, seejärel kasutage paremat hinnangut järk-järgult korduvat menetlust.

Faktoranalüüs võib kasutada kas korrelatsioone või covariantsioone . Covariance cov jk kahe muutuja vahel, mis on nummerdatud j ja k, on nende korrelatsiooniajad nende kahe standardhälbe puhul: cov jk = r jk s j s k , kus r jk on nende korrelatsioon ja s j ja s kon nende standardhälbed. Kovariant ei ole väga olulist sisulist tähendust, kuid sellel on mõni väga kasulik matemaatiline omadus, mida on kirjeldatud järgmises osas. Kuna ükskõik milline muutuja korreleerub 1 iseendaga, on iga muutuja enda omavaheline kovariatsioon selle dispersiooniga – standardhälbe ruut. Korrelatsioonimaatriksit võib mõelda kui muutujate variatsioone ja kovariaatsioone (täpsemalt, kovariatsiooni maatriksit), mis on juba kohandatud standardhälbeteni 1. Seetõttu räägin sageli kovariatsiooni maatriksist, kui me tõesti tähendab kas korrelatsiooni või kovariatsiooni maatriksit. Ma kasutan R, et tähistada täheldatud muutujate korrelatsiooni või kovariatsiooni maatriksit. See on küll ebamugav, kuid analüüsitav maatriks on peaaegu alati korrelatsioonimaatriks,

Maatriksi lagunemine ja positsioon

See vabatahtlik sektsioon annab mõnevõrra üksikasjalikuma ülevaate faktoranalüüsi matemaatika kohta. Ma eeldan, et olete kursis dispersiooni analüüsi keskse teoreemiga: sõltuva muutuja Y ruutude summa võib jagada komponentideks, mille summa on kokku. Mis tahes dispersioonanalüüsil võib ruutude summaarse summa jagada mudeli ja jääkkomponentideks. Kahepoolse faktoriaalse analüüsi abil, mis erineb võrdsest raku sagedusest, võib ruutude mudeli summat veelgi jagada rida, veergu ja vastastikust komponenti.

Teguranalüüsi keskne teoreem on see, et võite teha midagi sarnast kogu kovariatsiooni maatriksi jaoks. Kovariaalse maatriksi R saab jagada ühiseks C-osaks, mis on seletatav tegurite kogumiga ja nende teguritega seletamatu ainulaadne osa U. Maatriksi terminoloogias on R = C + U, mis tähendab, et iga sissekanne maatriksis R on vastavate sisestuskohtade summa maatriksites C ja U.

Nagu võrdse raku sagedusena varieerumise analüüsimisel, võib selgitatud komponenti C edasi jaotada. C saab lagundada komponentide maatriksidesse c 1 , c 2 jne, mida selgitavad üksikud tegurid. Kõik need üheteguri komponendid c j on „faktorkoormuse“ veeru „välimine toode“. Numbripositsiooni välimine toode on ruutmaatriks, mis moodustub maatriksisse sisestamise jk andmisest , mis võrdub veeru sisestuste j ja k tootega . Seega, kui veerus on kirjeid .9, .8, .7, .6, .5 nagu varasemal näitel, on selle välimine toode

      .81, 72, 63, 54, 45
      72, 64, 56, 48, 40
c 1     63,556 49,42 .35
      54, 48, 42, 36, 30
      45, 40, 35, 30, 25

Varem mainisin maatriksist väljapoole suunatud diagonaalseid kirjeid, kuid mitte diagonaalseid kirjeid. Iga ac j- maatriksi diagonaal on sisuliselt selle teguriga seonduva muutuja hulk. Meie näites gkorreleerub .9 esimese täheldatava muutujaga, seega on selle muutuja selgitatud varieeruvus 9, 2 või .81, esimene sellel maatriksil olev diagonaal.

Selles näites on ainult üks ühine tegur, nii et selle näite maatriks C (tähistatud C55) on C55 = c 1 . Seetõttu on selle näite jääkmaatriks U (tähistatud kui U55) U55 = R55-c 1 . See annab U55 jaoks järgmise maatriksi:

      .19 .00 .00 .00 .00
      .00 .36 .00 .00 .00
U55 .00 .00 .51 .00 .00
      .00 .00 .00 .64 .00
      .00 .00 .00 .00 .75

See on teguri poolt seletamatu muutujate osade kovariatsioonmaatriks. Nagu varem mainitud, on kõik U55 diagonaalsed kirjed 0 ja diagonaalkirjad on iga muutuja seletamatu või unikaalse variandi kogused.

Sageli C on mitme maatriksi c j summa , mitte ainult üks, nagu käesolevas näites. C -maatriksite arv, mis summeerub C-ga, on maatriksi C auastmed ; selles näites on C aste 1. C – aste on selle mudeli ühiste tegurite arv. Kui määrate teatud hulga tegurite m , tuletatakse faktoranalüüsiprogrammis kaks maatriksit C ja U, mis summeeritakse esialgse korrelatsiooni või kovariatsiooni maatriksiga R, mis muudab C väärtuse võrdseks m . Mida suurem, m , lähemale C on ligikaudne R. Kui määrate m = p , kus pon maatriksis olevate muutujate arv, siis iga C-kirje vastab täpselt vastavale R-kirjele, jättes U nullide maatriksiks. Idee on näha, kui madal saab m määrata ja C-l on mõistlik ligikaudne väärtus R.

Mitu juhtumit ja muutujaid?

Mida selgem on tegeliku teguri struktuur, seda väiksem on selle avastamiseks vajalik valimi suurus. Kuid oleks väga keeruline leida isegi väga selget ja lihtsat teguristruktuuri, kus on vähem kui ligikaudu 50 juhtumit ja vähem selge struktuuri jaoks oleks eelistatavalt 100 või enama juhtumiga.

Muutujate arvu reeglid on teguranalüüsil väga erinevad kui regressioon. Faktoranalüüsis on täiesti okei, et on palju muid muutujaid kui juhtumitel. Tegelikult on üldiselt paremad pigem muutujad, kui muutujad jäävad aluseks olevate tegurite suhtes oluliseks.

Kui palju tegureid?

Selles jaotises kirjeldatakse kahte reeglit tegurite arvu valimisel. Faktoranalüüsi tuttavad lugejad üllatab, et ei leita ühtegi viidet Kaiseri tuttavale reaalse väärtuse reeglile ega Cattelli testile. Mõlemad reeglid on nimetatud hiljem, kuid nagu sel ajal selgitatud, pean mõlemat reeglit iganenuks. Mõlemad kasutavad ka omavahelist väärtust, mida ma pole veel kasutusele võtnud.

Kaks käesolevas jaos käsitletud reeglit kasutavad esmakordselt ametlikke olulisuse katseid ühiste tegurite kindlaksmääramiseks. Olgu N valimi suurus, p muutujate arv ja m faktorite arv. Samuti tähistab R Ujärelejäänud maatriksit U, mis on transformeeritud korrelatsioonimaatriksiks, | R U | on selle determinant ja ln (1 / | R U |) on selle determinandi vastasmõju naturaallogaritm.

Selle reegli rakendamiseks arvutage kõigepealt G = N-1- (2p + 5) / 6- (2/3) m. Siis arvuta

Chi-ruut = G Ln (1 / | R U |)

koos

df = .5 [(pm) 2- ppm]

Kui on raske arvutada ln (1 / | R U |), siis on see väljend sageli väga lähedane r 2-ga , kus summaarne summa tähistab maatriksis R U diagonaalil olevate kõigi ruudukorralduste summat .

Faktorite arvu valimiseks kasutage seda valemit, alustades m = 1 (või isegi m = 0-ga) ja arvutage seda katset järjest suurenevate väärtuste m jaoks , peatades, kui leiad tähtsuse; see väärtus m on väikseim väärtus m, mis ei ole andmetega oluliselt vastuolus. Selle reegli peamine raskus on see, et minu kogemuse kohaselt on mõõdukate suurproovidega rohkem tegureid kui neid saab edukalt tõlgendada.

Soovitan alternatiivset lähenemist. See lähenemine oli kunagi ebapraktiline, kuid täna on see hästi saadaval. Tehke tegurite analüüse mitmesuguste väärtustega m , mis on täidetud pöörlemisega, ja valige see, mis annab kõige atraktiivsema struktuuri.

Pöörlemine
Avatud näites uudishimu kohta mainisin üksikuid tegureid, mida Rubenstein kirjeldas: lugemine naudingut, huvi teaduse vastu jne. Pöörlemine on faktoranalüüsi samm, mis võimaldab tuvastada tähendusrikka teguri nimesid või selliseid kirjeldusi.

Prediktorite lineaarsed funktsioonid

Rotatsiooni mõistmiseks tuleb kõigepealt käsitleda probleemi, mis ei hõlma faktoranalüüsi. Oletame, et soovite ennustada klasside õpilasi (kõik samas kolledžis) paljude erinevate kursuste, nende skoori üldine „verbaalne“ ja „matemaatika“ oskuste testid. Ettenägematute valemite väljatöötamiseks on teil olemas varasemate andmete kogum, mis koosneb mitmesaja vanemate õpilaste hinnangutest nendes kursustes, ning nende õpilaste arv matemaatika ja suuliste testide kohta. Praeguste ja tulevaste üliõpilaste tasemete ennustamiseks võite kasutada neid andmeid varasematest õpilastest, et need sobiksid kahe muutujaga mitmekordse regressiooni sarjaga, kusjuures iga regressioon ennustab klassi ühel kursusel kahe oskuste testi tulemusena.

Nüüd arvan, et kolleeg soovitab kokku võtta iga üliõpilase suulise ja matemaatika skoori, et saada kombineeritud akadeemiliste oskuste skoor, mida kutsun AS-ile ja võttes vahet iga õpilase suulise ja matemaatika skoori vahel, et saada teine muutuja, mida helistan VMD-le (verbaalne matemaatiline erinevus). Koostöötaja soovitab kasutada sama regressioonide kogumit, et ennustada klasside taset üksikutes kursustes, välja arvatud esialgsete verbaalsete ja matemaatika skooride asemel, kasutades AS-i ja VMD-d kui ennustajaid igas regressioonis. Selles näites võite saada täpselt samad ennustused nende kahe regressioonide perekonna kohta: üks ennustusklassi individuaalsetest kursustest verbaalsest ja matemaatika skoorist, teine prognoosib sama klassi AS-i ja VMD skooride kohta. Tegelikult, võite saada samu ennustusi, kui moodustasid 3 matemaatika + 5 suulise ja 5 verbaalse + 3 matemaatika komposiiti ja käivitasid kahe muutuva mitme regressiooni seeria, mis ennustavad nende kahe komposiidi klassi. Need näited on kõikalgse verbaalse ja matemaatika skoori lineaarsed funktsioonid .

Keskpunktiks on see, et kui teil on m prognoosimuutujaid ja asendate m algupäraseid ennustajaid nende ennustajate m lineaarsete funktsioonidega, ei võta üldse ega kaotad mingit teavet – võiksite soovi korral kasutada lineaarsete funktsioonide skoori rekonstrueerige esialgsete muutujate skoorid. Kuid mitmekordne regressioon kasutab uut muutujat ennustamiseks optimaalselt (nagu mõõdetakse jooksva valimi ruudusurvete summaga) mis tahes teavet (nt teatud kursuse klassid). Kuna lineaarfunktsioonid sisaldavad sama teavet kui esialgsed muutujad, saadakse samad ennustused nagu varem.

Arvestades, et on võimalik saada täpselt samu ennustusi, on kasulik kasutada pigem ühte lineaarsete funktsioonide komplekti kui teist? Jah seal on; üks seade võib olla lihtsam kui teine. Üks konkreetne lineaarfunktsioonide paar võib lubada paljusid kursuse klasse ennustada vaid ühelt muutujalt (see tähendab, üks lineaarne funktsioon), mitte kahest. Kui me leiame vähem prognoositavate muutujatega regressioone lihtsamaks, siis võime küsida seda küsimust: kõigi võimalike prognoositavate muutujate paaridest, mis annaksid samad ennustused, mida on kõige lihtsam kasutada prognoositavate muutujate arvu minimeerimiseks tüüpiline regressioon? Eeldatavate muutujate paar, mis mõnevõrra lihtsust suurendab, võib öelda, et sellel on lihtne struktuur. Selles näites, mis hõlmab palgaastmeid, võite olla võimeline ennustama mõne kursuse tasemeid täpselt ainult verbaalsest testi skoorist ja ennustada teiste kursuste tasemeid täpselt lihtsalt matemaatika skoorist. Kui nii, siis oleksite oma ennustustes saavutanud lihtsama struktuuri kui oleksite kasutanud mõlemat testid kõikide prognooside jaoks.

Lihtsa struktuuri tegurite analüüs

Eelmise lõigu punktid kehtivad siis, kui ennustaja muutujad on tegurid. Mõelge m- teguritele F sõltumatute või prognoositavate muutujate komplektile ja mõtle p-le täheldatud muutujate X-ga sõltuvate või kriteeriumite muutujate komplektile. Vaatleme p- hulga regressioonide komplekti , millest igaüks ennustab ühte muutujat kõigist m- teguritest. Standardiseeritud koefitsientide seda komplekti regressioon moodustada p x m maatriksi nimetatakse faktori loading maatriksi. Kui me asendasime algfaktorid nende tegurite lineaarsete funktsioonidega, saame täpselt samad ennustused nagu varem, kuid teguri laadimismaatriks oleks erinev. Seetõttu võime küsida, mis paljudest võimalikest lineaarfunktsioonide komplektidest, mida me võiksime kasutada, toodab lihtsaimate tegurite laadimismaatriksit. Täpsemalt määratleme lihtsuse nullide arvu või peaaegu nullide kande tegurina tegurite laadimismaatriksis – seda rohkem nulle, seda lihtsam struktuur. Pöörlemine ei muuda maatriksit C või U üldse, vaid muudab teguri laadimismaatriksit.

Lihtsa struktuuri äärmuslikul juhul on kõigil X-muutujatel ainult üks suur sisestus, nii et kõiki teisi saab ignoreerida. Kuid see oleks lihtsam struktuur, kui tavaliselt loodaksite saavutada; lõppude lõpuks ei mõjuta ükski teine muutuja tavaliselt mõnda muutujat. Seejärel nimetate tegureid subjektiivselt, lähtudes nende koormuste kontrollist.

Ühises teguranalüüsis on rotatsiooniprotsess tegelikult mõnevõrra abstraktsem, mida ma siin siinkohal maininud, sest te ei tunne tegureid üksikjuhtudel. Sellegipoolest saab siin kõige olulisemat mitmekordse regressiooni statistikat – mitmest korrelatsioonist ja standardiseeritud regressiooni nõlvadest – kõik saab arvutada ainult muutujate ja kaasatud tegurite korrelatsioonidest. Seetõttu võime arvutusi pöörlemiseks tugineda lihtsalt korrelatsioonidele lihtsa struktuuriga, ilma individuaalseid tulemusi kasutamata.

Pöörlemine, mis nõuab, et faktorid jääksid korreleerumata, on ortogonaalne pöörlemine, teised aga kaldu pöörlevad. Tavalised pööramised saavutavad tihti suurema lihtsa struktuuri, kuigi kulude põhjal tuleb arvestada ka tegurite korrelatsioonide maatriksit tulemuste tõlgendamisel. Käsiraamatud on üldiselt selged, mis on, kuid kui on mingisugust ebaselgust, siis on lihtne reegel, et kui on võimalik suutlikkus välja töötada tegurite korrelatsioonide maatriksi, siis on pöörlemine kaldu, kuna sellist suutlikkust ei ole vaja ortogonaalsete pöörde jaoks .

Näide

Tabel 1 illustreerib rotatsiooni tulemust 24 vaimse võime mõõtmega tegelanalüüsil.

Tabel 1
Oblique Promax pöörlemine 4 tegurist 24 vaimse võime muutujad
Gorsuchilt (1983)

                           Verbaalne Numer-Visual Recog-
                                   icalnition

Üldteave .80 .10-01-06
Lõigi arusaadavus .81 -10 .02 .09
Sõnavara lõpetamine .87 .04 .01-10
Sõna klassifikatsioon .55 .12 .23 -.08
Sõnade tähendus .87 -11 -.01 .07

Lisa .08 .86-30,05
Kood .03 .52 -.09 .29
Punktide loendamisrühmad -16 .79 .14 -.09
Sirged ja kõverad pealinnad -01 .54.41 -.16
Woody-McCall segatud .24,43 .00 .18

Visuaalne tajumine -.08 .03 .77 -.04
Kuubad-07,02,059 -.08
Paberiformaat-02 -19 .68 -.02
Lipud .07 -.06.66 -.12
Mahaarvamine .25 -11 .40 .20
Numbrilised mosaiikpildid-03 .35 .37. 06
Probleemiarvestus .24 -.07 .36 .21
Seeria valmimine .21 .05 .49. 06

Sõna tuvastamine .09 -08 -13 .66
Arv tunnusjoon -.04 -.09 -.02 .64
Joonis tunnusjoon -16- 13. 43. 47
Objekti number .00 .09 -13 .69
Arvnäitaja -22 .23 .25 .42
Joonis-sõna .00 .05 .15 .37

See tabel näitab üsna head lihtsat struktuuri. Igas neljas muutuja plokis on kõrgeid väärtusi (ületab umbes 0,4 absoluutväärtuses) tavaliselt kõik ühes veerus – iga nelja ploki jaoks eraldi veerg. Lisaks näib, et iga bloki muutujad mõjutavad sama üldist vaimseid võimeid. Peamine erand mõlemast neist üldistustest on kolmandas plokis. Selles plokis olevad muutujad näivad olevat hõlmatud nii visuaalse võime kui ka arutlusvõimega ning põhjenduste muutujad (ploki viimased neli) on üldjuhul veerus 3 koormused, mis ei ületa nende koormus ühte või mitmesse muusse veergu. See viitab sellele, et viiekorruseline lahendus võiks olla väärt proovimist, lootes, et see võib anda eraldi „visuaalse“ ja „põhjendamise“ tegureid.

Ma ei tähenda seda, et peaks alati püüdma teha iga muutuja koormus väga ühe tegurina. Näiteks võib aritmeetiliste sõnaprobleemide lahendamise võime proovida nii suulisi kui ka matemaatilisi tegureid. See on tegelikult üks klastrianalüüsi faktoranalüüsi eeliseid, kuna te ei saa sama muutujat paigutada kahte erinevatesse klastritesse.

Põhiline komponentide analüüs (PCA)

Põhitõed

Olen tutvustanud peamist komponentide analüüsi (PCA) selles peatükis nii hilja, peamiselt pedagoogilistel põhjustel. See lahendab probleemi, mis sarnaneb ühise faktoranalüüsi probleemiga, kuid on piisavalt erinev, et tekitada segadust. Pole juhus, et ühine teguranalüüs leiutas teadlane (diferentsiaal-psühholoog Charles Spearman), samal ajal kui PCA leiutas statistik. PCA-i riigid ja siis lahendab täpselt määratletud statistilise probleemi ja erandjuhtudel pakub see alati ainulaadset lahendust mõne väga kena matemaatilise omadusega. Võib isegi kirjeldada mõningaid väga kunstlikke praktilisi probleeme, mille puhul PCA pakub täpset lahendust. Raskuseks on püüda siduda partnerlus- ja koostöölepingut tegelike teaduslike probleemidega; mäng ei ole lihtsalt väga hea. Tegelikult pakub PCA sageli üldist tegurianalüüsi hästi,

PCA keskne kontseptsioon on esindus või kokkuvõte. Oletame, et tahame suure hulga muutujate asendada väiksema komplektiga, mis kõige paremini kokku võtab suurema hulga. Näiteks oletame, et oleme salvestanud sadade õpilaste arvust 30 vaimse testiga ning meil ei ole ruumi kõigi nende skooride salvestamiseks. (See on arvutiajastu väga kunstlik näide, kuid see oli veel ahvatlev enne seda, kui PCA leiutas.) Säästumiseks tahaksime vähendada õpilasele 5 hindepunkti, millest me tahaksime olla võimelised rekonstrueerima 30 esialgse punktisumma nii täpselt kui võimalik.

Olgu p ja m tähistatud vastavalt algse ja vähendatud arvu muutujaid – 30 ja 5 praeguses näites. Esialgsed muutujad on tähistatud X, kokku võtvad muutujad F teguriks. Kõige lihtsamal juhul on meie rekonstrueerimise täpsusmõõde summast p- ruutude arvukad korrelatsioonid X-muutujate ja teguritega tehtud prognooside X vahel. Üldisemas mõttes võime kaaluda iga ruudu mitu korrelatsiooni vastava X-muutuja dispersiooniga. Kuna me saame seada need dispersioonid ise, korrutades iga muutuja skoorid mis tahes valitud konstandiga, siis on see võime määrata kõik erinevad muutujad, mida me valime.

Nüüd on meil probleeme, mis on matemaatilises mõttes hästi määratletud: p muutujate vähendamine nende muutujate m lineaarsete funktsioonide komplektile, mis kõige paremini kokku annavad originaalteksti p- tähenduses just kirjeldatud tähenduses. Selgus aga, et lõpmata palju lineaarseid funktsioone annab võrdselt head kokkuvõtted. Probleemi kitsendamiseks ühele ainulaadsele lahendusele tutvustame kolme tingimust. Esiteks peavad m tuletatud lineaarfunktsioonid olema vastastikku omavahel seotud. Teiseks, iga komplekt mlineaarsed funktsioonid peavad sisaldama väiksema komplekti funktsioone. Näiteks parimad 4 lineaarfunktsiooni peavad sisaldama parimat 3, mis sisaldab parimat 2, mis sisaldab parimat. Kolmandaks peab iga lineaarse funktsiooni määratletav ruutude mass kokku 1. Need kolm tingimust annavad enamiku andmekogumite jaoks ühe unikaalse lahenduse. Tavaliselt on p- line funktsioonid (nn peamised komponendid ) tähtsuselt langenud; kasutades kõiki p saate algseid X-punktide täiuslikku rekonstrueerimist ja kasutades esimest m (kus m jääb vahemikku 1 kuni p ), saad parima rekonstrueerimise selle väärtuse m jaoks .

Määratlege iga komponendi enda vektor või iseloomulik vektor või latentsed vektorid X-muutujate moodustamiseks kasutatud kaalude veergu. Kui algne maatriks R on korrelatsioonimaatriks, määratlege iga komponendi enda väärtus või iseloomulik väärtus või varjatud väärtus kui X-muutujate ruudustiku korrelatsioonide summa. Kui R on kovariatsiooni maatriks, määratlege enda väärtus ruutkorrelatsioonide kaalutud summana, kusjuures iga korrelatsioon kaalub vastava X-muutuja dispersiooniga. Eigenäärtuste summa on alati võrdne R diagonaalsete sisestuste summaga.

Mittesugused lahendused tekivad ainult siis, kui kaks või enam algväärtust on täpselt võrdsed; siis selgub, et vastavad eigenvectorsid ei ole üheselt määratletud. See juhtum tekib harva praktikas ja ma ignoreerin seda edaspidi.

Iga komponendi algväärtust nimetatakse komponendi selgitamiseks „dispersioonide hulgale“. Selle peamine põhjus on omavahelise väärtuse määratlus ruudukujuliste korrelatsioonide kaalutud summana. Siiski selgub ka, et komponentide skooride tegelikud dispersioonid on võrdsed omavahega. Seega PCA-s on „faktori varieeruvus“ ja „dispersiooni hulk, mida tegur selgitab“, alati võrdsed. Seepärast kasutatakse kahte fraasi sageli üksteist vahetult, kuigi kontseptuaalselt on need väga erinevad kogused.

Põhikomponentide arv

Võib juhtuda, et m- põhikomponendid selgitavad X-muutujate kogumikus esinevat kõikvõimalikku dispersiooni – see tähendab, et X-ide täiuslik rekonstrueerimine on võimalik, ehkki m < p. Kuid selle sündmuse puudumisel pole põhikomponentide arvu olulisustesti. Selleks, et mõista, miks kõigepealt käsitletakse lihtsamat probleemi: nullhüpoteesi katsetamine, et kahe muutuja vahel on korrelatsioon 1,0. See hüpotees näitab, et kõik populatsiooni punktid langevad sirgjooneliselt. Seejärel tuleb järgida, et kõik selle populatsiooni iga valimi punktid peavad ka langema sirgjooneliselt. Sellest järeldub, et kui korrelatsioon on 1,0 elanikkonnast, peab see olema ka 1,0 elaniku kohta igas proovis. Iga kõrvalekalle 1.0-st, olenemata sellest, kui väike, on vastuolus null-hüpoteesiga. Sarnane argument kehtib hüpoteesi kohta, et korrelatsioon on 1,0. Kuid hüpotees, et m komponendid moodustavad kogu dispersiooni p-smuutujad on sisuliselt hüpotees, et kui muutujad on komponentidest prognoositud mitme regressiooni abil, on kõik korrelatsioonid 1,0. Seega isegi väikseim suutmatus seda proovis näidata on vastuolus elanikkonna hüpoteesiga.

Kui lõppeesmärgi lõpu lõpus tundub olevat tühimik, siis ei eristata valimisvea ja mõõtmisviga. Olulised katsed puudutavad ainult valimi võtmise viga, kuid on mõistlik eeldada, et täheldatud korrelatsioon, näiteks .8 erineb 1,0-st ainult mõõtmisviga. Kuid mõõtmisviga tähendab, et peate mõtlema ühtse teguri mudeli kui komponentmudeli mõttes, kuna mõõteviga tähendab, et iga X-muutuja puhul on erinevusi, mida tegurid ei seletata.

Faktorite arvu valimise põhinäitajad

Henry Kaiser soovituslikke reegel valides mitmeid tegureid olen väiksem number vaja täiuslik rekonstrueerimine: komplekt mmis võrdub nende omaväärtuste arvuga üle 1. Seda reeglit kasutatakse tihti nii ühises teguranalüüsis kui ka partnerlus- ja koostöölepingus. Mitmed mõtteviisid viivad Kaiseri reegli juurde, kuid kõige lihtsam on see, et kuna algväärtus on dispersiooni hulk, mida selgitab veel üks tegur, ei ole mõtet lisada tegurit, mis selgitab vähem varieeruvust kui see, mis sisaldub ühes muutujas. Kuna komponentide analüüs peaks andmekogu kokku võtma, on komponendi kasutamine, mis selgitab vähem kui 1 dispersioon, midagi sellist nagu raamatu kokkuvõtte kirjutamine, milles kokkuvõtte üks osa on pikem kui selle peatükis kokkuvõte – mis pole mõtet. Kuid Kaiseri põhiline õigustus reeglile oli see, et see vastab suhteliselt hästi lõplikule reeglile mitmete faktorite analüüside tegemiseks erinevate tegurite arvuga, ja nähes, milline analüüs oli mõttekas. See lõplik reegel on tänapäeval palju lihtsam kui põlvkond tagasi, nii et Kaiseri reegel tundub vananenud.

Raymond B. Cattell soovitas alternatiivset meetodit, mida nimetati skree testiks . Selles meetodis proovitate järjestikuseid omaväärtusi ja otsige graafiku koha, kus graafik järsult jõuab välja. Cattell nimetas selle katse pärast koonustav „scree“ või rockpile allosas maalihe. Üheks raskuseks skriinimiskatsega võib järeldada, et kui teete ruutjuurte või enda omaväärtuste logaritmide asemel iseenda omaväärtuste asemel ruumijuhte või logaritmi, siis pole selge, miks iseenda väärtused ise on paremad kui teised väärtused .

Teine lähenemisviis on väga sarnane skreetikatsega, kuid tugineb rohkem arvutamisele ja vähem graafikutele. Iga omavahelise väärtuse L puhul määratlege S kõigi hilisemate omaväärtuste ja pluss L-iga. Siis L / S on varem selgitamata vaheliste erinevuste osakaal, mida L selgitab. Näiteks oletame, et 7 muutujaga probleemis oli viimane 4 omavahelist väärtust 0,8, 2, 15 ja 1. Need summad on 1,25, seega 1,25 on kolmeastmelise mudeliga seletamatu muutuse hulk. Kuid .8 / 1,25 = .64, nii et kolme teguri mudelile lisades veel üks tegur, selgitaks 64% varem seletamatut dispersiooni. Sarnane arvutus viienda algväärtuse saamiseks on .2 / (.2 + .15 + .1) = .44, seega viies põhikomponent selgitab ainult 44% varem seletamatut dispersiooni.

Mõned väljundväärtuste suhted
Väljundväärtuste seas on palju suhteid. Paljud inimesed tunnevad, et need suhted aitavad neil paremini mõista oma toodangut. Teised on lihtsalt kompulsiivsed ja soovivad kasutada neid suhteid, et kinnitada, et gremlins ei rünnanud oma arvutiprogrammi. Peamised suhted on järgmised:

1. Eigenäärtuste summa = p,
kui sisendmaatriks oli korrelatsioonimaatriks

Eigenäärtuste summa = sisendväljundite summa,
kui sisendmaatriks oli kovariatsiooni maatriks

2. Variatsioonide osakaal on selgitatud = isiklik väärtus / omavaheliste väärtuste summa

3. J- põhikomponendi ruudukujuliste tegurite koormuste summa
= omaväärtus j

4. Erinevate faktorite koormuste summa muutuja i
= dispersioonile, mida selgitatakse muutujast i
= C ii ( maatriksi C diagonaalne sisend i )
= ühisteguri analüüs kommuuni i
= muutuja i dispersioon, kui m = p

5. summa crossproducts veergude vahel i ja j faktori loading maatriksi
= C ij (versioon ij maatriksis C)

6. Suhted # 3, # 4 ja # 5 on ikka tõsi pärast pöörlemist.

7. R – C = U. Vajaduse korral võib diagonaalsete kirjete leidmiseks C-s kasutada reeglit 4, siis saab reegli 7 leida diagonaalkirjeid U.

Kahe teguri analüüsi võrdlus
Kuna tegurite koormus on faktoranalüüsi kõige olulisemate väljundite hulgas, tundub olevat loomulik küsida tegurite koormuse standardviga, nii et näiteks saaksime katsetada kahte näidist sisaldava tegurikoormuse erinevuse olulisust. Kahjuks ei saa tuletada sellist eesmärki väga kasulik üldine valem, sest tegurid ise on kahtlustatavad. Selle nägemiseks kujutlege, et „matemaatika“ ja „verbaalsed“ tegurid seovad rahvastikus ligikaudu võrdse hulga erinevusi. Matemaatika ja verbaalsed tegurid võivad esineda vastavalt ühe ja teise valimi tegurites 1 ja 2, samas kui samas populatsioonis teises proovis asetsevad vastupidises järjekorras. Siis, kui me mehhaaniliselt võrrelda näiteks kahte muutuja 5 laadimise väärtust tegurile 1, me tegelikult võrdleme muutuja 5 koormust matemaatika tegurile selle verbaalse teguri laadimisega. Üldisemalt ei ole kunagi täiesti mõttekas öelda, et üks tegurianalüüsi tegur „vastab“ ühe teguri teisele teguranalüüsile. Seepärast on meil vaja täiesti erinevat lähenemist, et uurida kahe teguri analüüside sarnasusi ja erinevusi.

Tegelikult võib mitu erinevat küsimust sõnastada ka kahe teguri analüüsi sarnasuse küsimustele. Kõigepealt peame eristama kaht erinevat andmeformaati:

1. Sama muutujad, kaks rühma . Sama meetmete komplekti võib võtta mehed ja naised või ravi- ja kontrollirühmad. Seejärel tekib küsimus, kas kahe teguri struktuur on ühesugune.

2. Üks rühm, kaks tingimust või kaks muutujate komplekti . Ühele ainerühmale võib anda kaks katseklaasi ja küsimused selle kohta, kuidas kaks erinevat skoorijat on erinevad. Või sama aku võib anda kahel erineval tingimusel.

Järgmised kaks sektsiooni käsitlevad neid küsimusi eraldi.

Faktoranalüüside võrdlemine kahes grupis

Kahe rühma ja ühe muutujate kogumi puhul ei käsitleta teguristruktuuri küsimusena selgelt, kas need kaks rühma erinevad vahendite vahel; see oleks MANOVA (mitmetahuline dispersioonanalüüs) küsimus. Kui mõlemad vahendid ei ole võrdsed või mõnevõrra võrdsed, ei küsita ka seda, kas korrelatsioonimaatriksi saab mõlema näidise koondamise tulemusena mõistlikult arvutada, kuna vahendite erinevused hävitavad sellise maatriksi tähenduse.

Küsimus: „Kas need kaks rühma on sama teguristruktuuriga?“ on tegelikult päris teistsugune küsimusest: „Kas neil on samad tegurid?“ Viimane küsimus on lähemal küsimusele: „Kas meil on vaja kahe erineva teguri analüüsi?“ Selle punkti nägemiseks kujutlege probleemi 5 „verbaalse“ testiga ja 5 „matemaatika“ testiga. Lihtsuse mõtmiseks on kõik korrelatsioonid kahe katse komplekti vahel täpselt null. Ka lihtsuse huvides kaaluge komponentide analüüsi, kuigi samasugust punkti saab teha ka ühtse tegurianalüüsi kohta. Kujutlege nüüd, et seosed 5 verbaalse testi vahel on täpselt 4 naiste seas ja 8 meeste hulgas, samas kui 5 matemaatika testide seosed on täpselt 8 naiste seas ja 4 meeste seas. Faktoranalüüsid kahes grupis eraldi annaksid erinevad teguristruktuurid, kuid identsed tegurid; iga soo puhul tuvastab analüüs „verbaalse“ teguri, mis on kõigi matemaatiliste esemete 0-kaaluga verbaalsete esemete võrdselt kaalutud keskmine ja vastasmõistega matemaatiline tegur. Selles näites ei saada midagi kahe sugendi eraldi tegurianalüüside tegemiseks, kuigi kaks teguristruktuuri on üsna erinevad.

Teine oluline küsimus kahe rühma probleemi kohta on see, et B-rühmas A ja 4. rühma neljas teguril põhinev analüüs sisaldab nii palju tegureid kui analüüsi, mis moodustab kombineeritud rühmas 8-st. Seega ei saa praktiline küsimus olla, kas mõlema rühma m- tegurite analüüsid sobivad andmetega paremini kui kombineeritud rühma m- teguritest lähtuv analüüs . Pigem tuleks kahte erinevat analüüsi võrrelda kombineeritud rühma 2- meetrise teguri analüüsiga . Komponentanalüüsi võrdlemiseks summeerige esimesed m- väärtused igas eraldi rühmas ja võrrelge nende kahe summa keskmist esimese 2 momavahelised väärtused kombineeritud rühmas. Oleks väga haruldane, et see analüüs näitab, et oleks parem teha mõlema rühma jaoks eraldi tegurianalüüsid. Sama analüüs peaks andma vähemalt ligikaudse vastuse küsimusele ühiste tegurianalüüside jaoks.

Oletame, et tõesti on küsimus selles, kas kaks teguristruktuuri on identsed. See küsimus on väga sarnane küsimusele, kas kaks korrelatsiooni- või kovariatsiooni maatriksit on identsed – küsimus on täpselt määratletud, kusjuures üldse ei viidata faktoranalüüsile. Nende hüpoteeside katsed jäävad väljapoole selle töö ulatust, kuid Morrisoni (1990) ja ka mitmemõõtmelise analüüsi teoste kohta esineb kahte kovariatiivmaatriksi võrdsuse test.

Ühe grupi muutuja kahe muutuja analüüsimeetodite võrdlus

Üks küsimus, mida inimesed sageli küsivad, on see, kas nad peaksid analüüsima muutujaid A ja B koos või eraldi. Minu vastus on tavaliselt „kokku“, välja arvatud juhul, kui kahe uuritud valdkonna vahel pole ilmselgelt kattumist. Lõppude lõpuks, kui mõlemad muutujate komplektid on tõepoolest mitteseotud, siis faktuuranalüüs ütleb sulle nii, et saadakse üks komplekt tegureid komplektile A ja teine komplektile B. Seega analüüsitakse neid kahte komplekti eraldi, et ennetada küsimuse osa faktoranalüüs peaks teile vastama.

Nagu ka kahe eraldi juhtumite näidise puhul, on küsimus, mida sageli väljendatakse tegurite poolest, kuid mida on paremini sõnastada kahe korrelatsiooni või kovariatiivmaatriksi võrdsuse küsimusena – küsimus, millele saab vastata, ei viide faktorianalüüsile. Käesoleval juhul on meil kaks paralleelset muutujate kogumit; see tähendab, et iga muutuja A-rööpparanduses on üks komplekt B. Tegelikult võivad komplektid A ja B olla samad meetmed, mida manustatakse kahe erineva tingimuse alusel. Küsimus on selles, kas kaks korrelatsioonimaatriksit või kovariatsiooni maatriksid on identsed. See küsimus ei ole seotud tegurianalüüsiga, kuid sellel on ka vähe seotud küsimus, kas AB korrelatsioonid on kõrged.

Darlington, Weinberg ja Walberg (1973) kirjeldasid nullhüpoteesi testi, et muutuva hulga A ja B kovariatsioonmaatriksid on samad, kui komplektid A ja B mõõdetakse samades juhtumites. See eeldab, et AB kovariatsioonmaatriks on sümmeetriline. Seega, näiteks kui komplektid A ja B on samad testid, mis manustatakse aastatel 1 ja 2, eeldatakse eeldust, et X katse X 1. aasta ja Y-i 2. aasta vahelise kovariatsiooniga võrduvad X-ga katset X 2. aastal ja testiga Y aastal 1. Võttes arvesse seda eeldust, võite lihtsalt moodustada kaks komplekti tulemusi, mida kutsun A + B ja AB, mis koosnevad kahe komplekti paralleelsete muutujate summadest ja erinevustest. Seejärel selgub, et algne nullhüpotees on samaväärne hüpoteesiga, et kõik muutujad A + B-s on korreleerunud kõigi AB-iga muutujatega. Seda hüpoteesi saab testida MANOVA-ga.

Faktorite ja komponentide analüüs SYSTAT 5-s

Andmete sisestamine

SYSTAT 5 andmete sisestamiseks vormis, mida saab kasutada FACTOR-protseduurina, on kolm erinevat moodi. Neljas viis (lühidalt kirjeldatud) võib tunduda mõistlik, kuid tegelikult ei toimi.

FACTOR aktsepteerib andmeid standardse neljakandilise formaadis. See arvutab automaatselt korrelatsioonimaatriksi ja kasutab seda edasiseks analüüsiks. Kui soovite selle asemel analüüsida kovariatsiooni maatriksit, sisestage

TYPE = COVARIANCE

Kui soovite hiljem analüüsima korrelatsioonimaatriksit, sisestage

TÜÜP = VASTAVUS

Tüüp „korrelatsioon“ on vaikimisi tüüp, nii et te ei pea seda sisestama, kui soovite analüüsida ainult korrelatiivmaatriksit.

Faktoranalüüsi andmete ettevalmistamise teine võimalus on CORR menüüs korrelatsiooni- või kovariatsiooni maatriksi arvutamine ja salvestamine. SYSTAT märgib automaatselt, kas maatriks on korrelatsiooni- või kovariatsiooni maatriks selle salvestamise ajal ja salvestab selle teabe. Seejärel kasutab FACTOR automaatselt õiget tüüpi.

Kolmas võimalus on kasulik siis, kui trükitud allikast on korrelatsiooni- või kovariatsiooni maatriks ja soovite sisestada selle maatriksi käsitsi. Selleks ühenda INPUT ja TYPE käsklused. Näiteks oletame, et maatriks

     .94, 62, 47, 36
     62,89 .58,29
     47,58 97,78
     .36, 29, 38, 87

on kovariatsiooni maatriks nelja muutuja ALGEBRA, GEOMETRIA, COMPUTER, TRIGONOM. (Tavaliselt sisesta korrelatsioonid või kovariatsioonid olulisematele numbritele kui see.) DATA moodulis võite kirjutada

SAVE MATH
INPUT algebra geomeetria, arvuti TRIGONOM
TÜÜP kovariatsiooni
RUN
0,94
0,62 0,89
0,47 0,58 0,97
0,36 0,29 0,38 0,87
LÕPETA

Pange tähele, et sisestate ainult maatriksi alumine kolmnurkne osa. Selles näites sisestate diagonaali, kuid kui sisestate korrelatiivmaatriksi, nii et kõik diagonaali sisendid on 1,0, siis sisestage käsk DIAGONAL ABSENT just enne RUN-i, seejärel jätke diagonaalkirjad välja.

Neljas viis, mis ei toimi, on korreleerimis- või kovariatsiooni maatriksi sisestamine või skannimine tekstitöötlusprogrammi, seejärel kasuta SYSTATi GET käsku, et teisendada maatriks SYSTATis. Selles meetodis ei salvesta SYSTAT maatriksitüüpi nõuetekohaselt ja tabab maatriksit pigem skooride maatriksina, mitte korrelatsioonide või kovariatsioonidega. Kahjuks annab SYSTAT teile väljundi teie arvatavas vormingus ja pole ilmne märge, et kogu analüüs on tehtud valesti.

Funktsionaalanalüüsi käsklused

Ühe sõna käsu FACTOR abil genereeritakse andmekogumi kõigi arvuliste muutujate peamine komponentide analüüs. Määra kindlaks teatavad muutujad, nimetage need kohe pärast sõna FACTOR, nagu ka

FACTOR ALGEBRA, GEOMEETRIA, COMPUTER, TRIGONOM

Põhikomponentide asemel tuleb valida ühine teguranalüüs, lisage valikuvõimalus IPA „iteratiivse peatelje“ jaoks. Kõik valikud on loetletud kaldkriipsu järel; IPA on valik, kuid muutujate nimekirja ei ole. Seega võib käsk lugeda

FACTOR ALGEBRA, GEOMETRIA, COMPUTER, TRIGONOM / IPA

ITERi (iteratsioon) variant määrab maksimaalse korduste arvutamise, et hinnata ühenduste ühist tegurianalüüsi. Suurendage ITERi, kui SYSTAT hoiatab, et kommunaalhinnangud on kahtlased; vaikimisi on ITER = 25. TOL-i valik määrab kommunaalsuse hinnangute muutuse, mille all FACTOR lõpetab kommunaalhinnangute parandamise; vaikimisi on TOL = .001. PLOT-i valik annab tegurite koormuste skeeme tegurite või komponentide paaride jaoks. Selliste kruntide arv on m (m-1) / 2, mis võib olla suur, kui m on suur. Kõik need võimalused kasutavad käsud võivad lugeda

FACTOR / IPA, TOL = .0001, ITER = 60, PLOT

Need on FACTORi käsu ainsad võimalused; kõik teised FACTOR-programmi juhised väljastatakse eraldi käskudena.

Te saate kasutada kahte käsku, et kontrollida tegurite arvu: NUMBER ja EIGEN. Käsk

NUMBER = 4

juhendab FACTORilt 4 tegurit. Käsk

EIGEN = .5

juhendab FAKTORI valima hulga tegureid, mis on võrdsed eelmainitud väärtustega .5. Seega, kui teete korrelatsioonimaatriksit, siis käsk

EIGEN = 1

rakendab Kaiseri reeglit tegurite arvu valimisel. Vaikimisi on EIGEN = 0, mis põhjustab FACTORi kõigi võimalike tegurite leidmisel. Kui kasutate nii NUMBER- kui ka EIGENi käske, järgib FACTOR seda, mis reegel toob kaasa väiksema tegurite arvu.

Ühe sõna käsk SORT põhjustab FACTORi, et sorteerida muutujaid nende tegurikoormuste järgi teguri laadimismaatriksi printimiseks. Eelkõige teeb FACTOR printida kõigepealt kõik muutujad, mis laadivad üle teguri 1 üle väärtuse .5, siis kõik kõik üleminekud, mis laadivad üle faktori 2, jne. Iga muutujate ploki puhul liigitatakse muutujad vastavalt laadimise suurusele vastav tegur, kõige kõrgemate koormustega. See sorteerimine lihtsustab lihtsa struktuuriga teguristruktuurmaatriksi uurimist.

Käsk ROTATE võimaldab valida pöörlemise meetodi. Valikud on

ROTATE = VARIMAX

ROTE = EQUAMAX

ROTATE = QUARTIMAX

Nende meetodite erinevus ei kuulu käesoleva peatüki reguleerimisalasse. Igal juhul ei mõjuta pööramine teguristruktuuri andmete sobivust, nii et võite soovida neid kõiki kasutada ja valida selle, kelle tulemused teile kõige paremini sobivad. Tegelikult on see tavaliselt tehtud. Vaikimisi pöörlemise meetod on varimax, seega trükkides lihtsalt ROTATE, rakendab varimax.

Faktoranalüüsi väljundi salvestamiseks failidesse on kolm võimalust. Selleks kasutage käsku SAVE enne FACTOR käsku. Käsk

SAVE MYFILE / MÄNGUD

salvestab peamiste komponentide skoori failina nimega MYFILE. Seda ei saa kasutada ühise tegurianalüüsiga (IPA valik), kuna ühised tegurite skoorid on määratlemata. Käsk

SAVE MYFILE / COEF

salvestab komponentide määratlemiseks kasutatavad koefitsiendid. Need koefitsiendid on mõnevõrra vastupidine tegurite koormusele. Koormused prognoosivad muutujaid teguritest, samas kui koefitsiendid määratlevad tegurid algsete muutujate osas. Kui määrate rotatsiooni, on need koefitsiendid, mis määravad pööratud komponendid. Käsk

SAVE MYFILE / LOADING

salvestab faktori koormuste maatriksi; seda võib kasutada kas ühiste tegurite analüüsi või komponentide analüüsiga. Jällegi, kui määrate pööramise, on salvestatud koormus pööratud tegurite jaoks.

Väljund

FACTORi baasväljund koosneb neljast tabelist:

  • isiklikud väärtused
  • faktori laadimismaatriks (nimetatakse IPA teguriks)
  • dispersioon, mida iseloomustavad tegurid (tavaliselt võrdsed omavaheliste väärtustega)
  • dispersiooni osakaal, mida selgitavad tegurid
  • pööratud faktori koormused
  • muutused, mida selgitavad pööratud tegurid
  • dispersioonide osakaal, mida selgitavad pööratud tegurid

IPA lisab veel kolm:

  • esialgne kogukondlik hinnang
  • kommunaalsuse prognooside muutuste indeks
  • lõplikud kommunaalsuse hinnangud

PRINT LONG lisab veel kaks:

  • Sisendkorrelatsiooni või kovariatsiooni maatriks R
  • Järelektovariantide maatriks – U-diagonaalne osa

FACTORi käsu PLOT-i valik lisab veel kaks elementi:

  • rünnak
  • faktorite koormuste krudid, korraga kaks tegurit

Nendes loendites ei kattu. Seega, kõigi nende valikute valimine põhjustab FACTORil printida 12 tabelit, skreeplokki ja m (m-1) / 2 tegurite laadimisplatsid.

Näide

File USDATA (koos SYSTATiga) sisaldab muutujaid CARDIO, TERVIS, PULMONAR, PNEU_FLU, DIABETES ja LIVER, andes igal järgnevast 50st USA osariigist kõikidest põhjustest tulenevad suremusnäitajad. Nende andmete teguranalüüs võib tuua endast kuulda rahvatervise tegureid, mis määravad suremuse määra nende 6 põhjusel. Kõigi eespool nimetatud väljunditüüpide saamiseks kasutage järgmisi käsklusi:

use usdata
rotate = varimax
sorteeri
pika
arv = 2
faktori südame, vähk, pulmonaar, pneu_flu, diabeet, maks / ipa, maatükk

Välja arvatud skriiniproov ja tegelike koormuste graafik, mis on ära jäetud, ja mõned väikesed parandused, mille ma olen selguse saavutanud, annavad need käsud järgmise väljaande:

 MATRIX KASUTADA
     
          CARDIO VÄLJAVÕTE PULMON PNEU_FLU DIAB LIVER
      
  CARDIO 1000
  LOOMINE 0,908 1,000
PULMONAR 0.441 0.438 1.000
PNEU_FLU 0.538 0.358 0.400 1.000
DIABETID 0.619 0.709 0.227 0.022 1.000
   Liver 0.136 0.363 0.263 -0.097 0.148 1.000
      
 ESIALGNE ÜHTEKUULUVUSE HINNANG
      
   1 2 3 4 5 6
      
 0.901 0.912 0.297 0.511 0.600 0.416
      
     
 ITERAATILINE PÕHINEV AXI FAKTORI ANALÜÜS
      
 ITERATSIOONI MAKSIMAALSED MUUDATUSED ÜHENDUSTES
     1.7032
     2.1849
     3.8777
     4.0489
     5. 0421
     06,0372
     7. 0334
     8.0304
     9,0279
    10,0259
    11. 0241
    12 .0226
    13,0212
    14.0201
    15.0190
    16.0181
    17. 0054
    18 .0009
      
 LÕPP KOMITEE HINNANGUD
      
  1 2 3 4 5 6
      
0.867 1.000 0.256 1.000 0.525 0.110
      
 LATTIIVSED SÕNAD (EIGENVALUES)
      
  1 2 3 4 5 6
      
2,831 0,968 0,245 -0,010 -0,052 -0,223
      
      
 FAKTORI KIRJELDUS
                 1 2
      
     LOOMINE 0,967 0,255
     CARDIO 0.931 -0.011
   DIABETID 0,620 0,374
   PNEU_FLU 0,563 -0,826
      LIVER 0,238 0,231
   PULMONAR 0.493 -0.113

 FAKTEERITUD VARIANCE
      
                 1 2
      
               2,831 0,968
      
 VÄLJENDATUD KOKKU VÄÄRTUSE PERSENT
      
                 1 2
      
              47.177 16.125
      
 PÖÖRATUD FAKTORI MASINA
      
                 1 2
      
     LAHK 0.913 0.409
   DIABETID 0,718 0,098
     CARDIO 0.718 0.593
   PNEU_FLU -0.080 0.997
   PULMONAR 0.313 0.397
      LIVER 0.330 -0.030
      
 VARIANT, MIDA SELGITAB PÖÖRATUD TEGURID
      
                 1 2
      
               2,078 1,680
 VÄLJENDATUD KOKKU VÄÄRTUSE PERSENT
      
                 1 2
      
              34.627 28.002
      
 JÄTKUVUSE MATRIKS
      
          LOOSA DIABETID CARDIO PNEU_FLU PULMONAR LIVER
      
  LOOMINE 0,000
DIABETID 0,01 0,000
  CARDIO -0.019 -0.010 0.000
PNEU_FLU 0.005 0.024 0.030 0.000
PULMONAR 0.046 0.014 -0.037 -0.017 0.000
   LIVER -0,083 0.074 0.172 -0.040 -0.087 0.000
 

VIITED
Darlington, Richard B., Sharon Weinberg ja Herbert Walberg (1973). Canonical variate analüüs ja sellega seotud tehnikad. Haridusuuringute ülevaade , 453-454.

Gorsuch, Richard L. (1983) faktoranalüüs . Hillsdale, NJ: Erlbaum

Morrison, Donald F. (1990) mitmemõõtmelised statistilised meetodid . New York: McGraw-Hill.

Rubenstein, Amy S. (1986). Mõõduka uudishimu küsimustiku tüüpi meetmete üksuste taseme analüüs. Cornelli ülikooli doktoritöö.