flervalg

Multiple choice ( MC , /mʌltɪpl̩.tʃɔɪs/ ) eller tysk multiple choice , også svar-valget prosedyren , er en spørreteknikk som brukes i eksamener , tester , eksamener og undersøkelser , der flere pre-formulert svar er tilgjengelige for spørsmål. Det skal bemerkes at flervalg på engelsk strengt betyr et gyldig svar av flere (derav en feil venn ), som tilsvarer enkeltvalg på tysk , mens flere gyldige svaralternativer på engelsk blir referert til som flere svar .

Det er et "tvunget valg" ( tvunget valg ) i motsetning til et gratis svarformat. Spørsmålene blir også referert til som lukkede spørsmål i motsetning til åpne spørsmål , som testpersonen må oppgi et gratis svar på. En kombinasjon av begge typer spørsmål er også vanlig i individuelle tester eller undersøkelser.

Ulike formater og terminologi

I noen disipliner var begrepet "enkeltvalg" (SC) eller enkeltvalg det fortsatt forskjellig - for spørsmål der et svar skal velges nøyaktig slik som kan velges i "Multiple Choice" ved denne definisjonen, mer enn ett svar. I mange sammenhenger gjelder avtalen at bare ett svar kan være riktig eller valgt om gangen. I utgangspunktet må dette påpekes i instruksjonene, i noen tilfeller er dette så selvsagt at det ikke eksplisitt påpekes - for eksempel ved eksamen ved skoler og universiteter i USA eller Australia.

Det er i utgangspunktet følgende valgformater for testelementer med n mulige svar og kn riktige svar, dvs. H. med n - k ikke anvendelige distraksjoner :

Flervalg: Velg
et kjent antall k svar gjelder
Enkeltvalg eller flervalg: Velg
ett svar ( k = 1) gjelder
Binært spørsmål eller beslutningsspørsmål
ett av to dikotome svar ( k = 1, n = 2) gjelder: sant / usant, ja / nei ...
Flervalg: sjekk
et ukjent antall svar ( k ≥ 0) gjelder
høyst et kjent antall svar ( kc ) gjelder, for eksempel i ekstreme tilfeller ett ( k ≤ 1) eller alle unntatt ett ( kn −1)
minst et kjent antall svar ( ck ) gjelder, for eksempel ett ( k ≥ 1)
minst og mest kjente antall svar ( ckd ) gjelder, for eksempel ett til alle unntatt ett ( c = 1, d = n -1)
flere svar gjelder enn ikke ( k > n2 ) eller omvendt ( k < n2 )

å forme

Flervalg
Hvilke svar er riktige?
☐ Svar 1
☑ Svar 2
☑ Svar 3
☐ Svar 4
Enkeltvalg
Hvilket svar er riktig?
☐ Svar 1
☐ Svar 2
☒ Svar 3
☐ Svar 4
Enkeltvalg
Hvilket svar er riktig?
○ Svar 1
○ Svar 2
● Svar 3
○ Svar 4
eksempel
Enkeltvalg farget

I elektroniske skjemaer og GUIer er det vanlig å vise enkeltvalg med runde bokser og flervalg med firkantede bokser. I stedet for et kryss kan det settes et kryss eller noe lignende. Alternativt, på berøringsskjerm eller på TV (se quiz-programmer som Who Wants to be a Millionaire? ), Kan de valgte svarene og de riktige og uriktige svarene under evaluering vises med tekst og bakgrunnsfarger eller rammer og andre stiler.

klart svarvalg
Er svarene riktige?
Ja Nei
☐☒ Svar 1
☒☐ Svar 2
☒☐ Svar 3
☐☒ Svar 4

For å kunne skille mellom uvalgte og ubehandlede svar under evalueringen, brukes to ruter for hvert spørsmål for “gjelder” / “ja” og “gjelder ikke” / “nei”. Dette er en gruppe beslutningsspørsmål med samme spørsmål.

korreksjon
Hvilket svar er riktig?
☐ Svar 1
▣ Svar 2
☒ Svar 3
☐ Svar 4

På papirskjemaer kan en fullstendig fylt boks telles som en rettelse og dermed som en boks som ikke er krysset av. På den annen side forventer noen automatiske evalueringsmetoder fylte bokser i stedet for kryss for å markere svaret.

fult sett
Hvilken blodgruppe er mest vanlig i Tyskland?
☐ 0
☐ A
☐ B
☐ AB

De gitte svarene kan dekke alle mulige svar eller bare tilby et utvalg. Noen ganger oppnås fullstendig dekning indirekte ved å gi ett svar: "ingen av de andre svarene gjelder".

Vekter og matriser

myk skala spørsmål: oddetall
☐ veldig fornøyd ☒ fornøyd ☐ usikker ☐ misfornøyd ☐ veldig misfornøyd
vanskelig spørsmål på skalaen: partall
☐ veldig fornøyd ☒ fornøyd ☐ misfornøyd ☐ veldig misfornøyd

Hvis svarvariantene representerer forskjellige karakterer av en evaluering (f.eks. "Veldig fornøyd" til "veldig misfornøyd"), hvorav nøyaktig en må velges, snakker man i samfunnsforskning ikke av multiple choice, men om en skalert spørsmålsprosedyre .

Siden mening er undersøkt i MC-spørsmål innen samfunnsvitenskap og ikke kunnskap blir testet, er det ofte det siste mulige svaret “vet ikke” eller “ikke noe svar”, ettersom testpersoner ofte føler seg forpliktet til å krysse av for et kryss.

I spesielle applikasjoner må kryss plasseres i en matrise . Så du kan realisere flere kombinasjonsalternativer.

To-trinns testoppgaver

Inntil for få år siden ble det brukt et flervalgsformat i medisinske studier, hvor det i utgangspunktet er foreslått forskjellige utsagn, hvorav mange kan gjelde. Dette følges av det faktiske spørsmålet, som bare ett svar er riktig for.

eksempel
  1. Erklæring 1
  2. Uttalelse 2
  3. Uttalelse 3
  4. Uttalelse 4
Statement Ingen uttalelser er korrekte.
☐ Bare uttalelse 4 gjelder.
Uttalelsene 1 og 2 gjelder.
Uttalelsene 1, 3 og 4 gjelder.
Statements Alle uttalelser er korrekte.

Med fem svaralternativer i eksemplet er kompleksiteten litt høyere enn i tilfellet med et enkelt riktig svar blant de fire påstandene, men betydelig lavere enn med gratis kombinasjonsevne, inkludert marginale tilfeller som ingen eller alle påstandene gjelder, fordi det ville være 16 mulige svarmønstre. Selv med begrensningen at nøyaktig ett eller to utsagn kan gjelde, ville det allerede være ti mønstre. Reduksjonen i kompleksitet letter derfor spesielt korreksjon og evaluering. I eksemplet er svaralternativene sortert i stigende rekkefølge etter antall gjeldende utsagn, men dette trenger ikke være tilfelle.

Evaluering av testprestasjoner

En rettferdig evaluering av MC-oppgaver er ikke triviell og fører lett til urettferdige dommer.

Dette blir tydeligst i en test med bare to svaralternativer per spørsmål ("gjelder" eller "gjelder ikke"). Hvis et riktig plassert kryss er rangert med et punkt, men ingen poeng blir trukket for et feilplassert kryss, kan en testperson uten kunnskap oppnå et gjennomsnitt på 50% av det oppnåelige antall poeng ved å bare krysse av i den første ruten og dermed vitne om en tilstrekkelig eller bestått etter felles evaluering . Fag som blir testet med lignende spørsmål i en eksamen uten MC er helt klart en ulempe.

Likevel blir MC-tester i praksis noen ganger evaluert på denne måten og derfor feil. Eksamenresultatene oppnådd på denne måten er da en til to karakterer høyere enn konvensjonelt oppnådde resultater (en fire oppnådd på denne måten tilsvarer for eksempel en seks, dvs. ingen verifiserbar kunnskap i det hele tatt).

I noen tilfeller, med bevissthet om problemet, men uvitenhet om de matematiske relasjonene, er godkjennelsesgrensen satt til en flat sats på 60% uavhengig av antall mulige svar. Denne prosedyren er imidlertid også feil, bortsett fra nøyaktig 5 svarfelt per spørsmål (se nedenfor).

SC-rangering

Hvis nøyaktig ett av alternativene som tilbys er riktig, og alle andre er feil, er den enkleste måten å få en rettferdig evaluering å trekke poeng ( malus ) for feil kryss : ett poeng per spørsmål for to tilbudte alternativalternativer, et halvt poeng for tre alternativer og et halvt poeng for fire alternativer en tredjedel av et poeng osv. Ubesvarte spørsmål og spørsmål der mer enn ett kryss ble plassert forblir uten evaluering, det gis ingen poeng og ingen trekkes fra. For å alltid gi testpersonen muligheten til å unngå å trekke poeng for ubesvarte spørsmål, bør minst to alternativer ("gjelder" og "gjelder ikke") alltid tilbys. Bestillinger som "merk de riktige utsagnene" bør generelt unngås.

Hensynet til den statistiske effekten ved å trekke poeng ( straffepoeng ) for feil svar
Alternative svar per spørsmål Trekk for hvert feil plassert kryss
2 1
3 12
4. plass 13
5 14
n 1n −1

Hensynet til den statistiske effekten gjennom denne fradragsprosedyren er juridisk åpen for utfordringer. Alternativt kan en juridisk sikker vurdering oppnås ved å bruke en tilpasset poengnøkkel med høyere passeringsgrense i stedet for å trekke poeng for feil svar. I det (hyppigste) tilfellet at testpersonen må bevise kjennskap til 50% av emnet for å bestå, oppnås følgende korrigerte poengnøkkel:

Hensyn til den statistiske effekten gjennom korrigert punktnøkkel
Alternative svar per spørsmål Passasjegrense
2 75% ¾
3 66,6%
4. plass 62,5%
5 60%
n n +1 2 n

Som et resultat av en rettsavgjørelse bruker for eksempel Nordrhein-Westfalske universiteter for eksempel nå en fast notasjon som verken tar hensyn til antall alternativer eller de riktige svarene per spørsmål, og antar at hver oppgave eller riktig svar er den samme uavhengig av vanskeligheter og kompleksitet mange poeng (nemlig ett) blir vurdert. Bestemmelsesgrensen er vanligvis 60% av det totale antallet poeng, men vil bli økt hvis sviktfrekvensen til førstegangsdeltakere i en eksamen ellers ville være for høy fordi dette regnes som en indikator på en uhensiktsmessig vanskelig eksamen. For å dekke begge tilfellene defineres graderingsnøkkelen som prosentandelen av riktige svar over den fleksible passeringsgrensen. Mer finklassifiserte karakterer som 1.3 og 2.7 er ikke spesifisert, men settes vanligvis lineært inn i rutenettet, hvorved spørsmålet er om grensen for x gjelder x , 0 eller x , 3.

nøkkel
karakter Minimum andel over pass linjen Delkarakter myk tolkning hard tolkning
1 90% 75% 1.0 93 13 % 83 Anmeldelse for 1. / 3- % 90% 75%
1.3 90% 75% 86 23 % 66 23 %
2 80% 50% 1.7 86 23 % 66 23 % 83 Anmeldelse for 1. / 3- % 58 Anmeldelse for 1. / 3- %
2.0 83 Anmeldelse for 1. / 3- % 58 Anmeldelse for 1. / 3- % 80% 50%
2.3 80% 50% 76 23 % 41 23 %
3 70% 25% 2.7 76 23 % 41 23 % 73 1 / 3 % 33 13 %
3.0 73 1 / 3 % 33 13 % 70% 25%
3.3 70% 25% 66 23 % 16 23 %
4. plass 60% 0% 3.7 65% 12 12 % 63 13 % 8 13 %
4.0 60% 0% 60% 0%
5 0% - 5.0 - - - -

MC vurdering

Hvis flere svar er riktige for en oppgave, blir den samme fremgangsmåten som for flere individuelle spørsmål med to alternativer hver ("gjelder [ikke]") og en straff på ett poeng for feil kryss. Svar som ikke krysses eller krysses to ganger har ingen konsekvens.

Det skal derfor alltid være to bokser for hvert alternative svar. Deretter legges de enkelte punktene til, negative summer blir rangert som 0.

Riktig opprettet oppgave
Hvilke politikere var forbundsminister i Brandt-regjeringen?
Ja Nei
☐ ☐ Karl Schiller
☐ ☐ Herbert Wehner
☐ ☐ Rainer Barzel
Leb ☐ Georg Leber
☐ ☐ Erich Mende
Ugunstig utformet oppgave, rettferdig evaluering problematisk
Hvilke politikere var forbundsminister i Brandt-regjeringen?
Sch Karl Schiller
☐ Herbert Wehner
☐ Rainer Barzel
☐ Georg Leber
☐ Erich Mende

For å bestemme vekten av oppgaven i den samlede undersøkelsen, kan antall oppnådde poeng konverteres til ønsket antall poeng for oppgaven. Hvis det for eksempel, som i eksemplet vist, må vurderes fem mulige svar, kan den samlede oppgaven tjene 2 poeng fra 4 delpoeng (dvs. maks. Ett feil kryss), 1 poeng for 2–3 delpoeng og ingen andre poeng.

fordeler

Mange læringsmål (med unntak av kreative prestasjoner) kan testes med disse testene . I tillegg kan de vanligvis vurderes på maskin. De brukes derfor veldig ofte, f.eks. B. IQ-testen , førerkortprøven og ulike kvalifikasjonstester. Skole og universitet eksamener er også noen ganger holdt på denne måten. Denne testen er også populær i bedriftsvalgsprosesser fordi alt som trengs er en løsningsmal .

ulempe

Evnen til å utvikle den riktige løsningen fra rent formell informasjon i tilfelle ufullstendig spesialkunnskap eller i det minste å eliminere individuelle distraksjoner er diskutert i USA under begrepet testwiseness (" testability ") (Millman et al. 1965). I tilfelle av dårlig utformede tester, brukte tommelfingerregelen, hvis du er i tvil, til å krysse av det lengste svaret. New York School Board har utgitt en parodisk test som ikke inneholder meningsfull kunnskap, men som fremdeles kan løses ved rent formelt resonnement.

Kubinger (2005) skriver om den ofte undervurderte effekten av hastighetseffekten på diagnostisk gyldighet av MC-tester:

Sannsynligheten for at et element i en test [spørsmål i MC-testen; Merknad d. Red.] Svares bare riktig ved en tilfeldighet og i den grad det "løses" åpenbart er jo større, jo færre svaralternativer tilbys. I testbeholdningen som er tilgjengelig i dag for psykologisk diagnostikk, er det stort sett fem, nemlig løsningen inkludert fire “distraktorer”. For slike tester er sannsynligheten på forhånd pr 1/5 = 20%, dvs. Dette betyr at testpersoner uten tilsvarende behov vil "løse" i gjennomsnitt 1/5 av alle elementene. Problemet forverres av det faktum at ikke alle mulige svar er like sannsynlige for testpersoner med minst mindre evne, slik at av de fem ofte en, to, noen ganger tre i henhold til forfalskningsstrategien [tilsvarer omtrent her til: eliminasjonsprosedyre , se forfalskning ; Merknad d. Red.] Korrekt ignorert, noe som kan øke gjetnings sannsynligheten per vare individuelt opp til 50%.

Flervalg i internasjonale sammenligninger

Flervalgsoppgaver brukes også i internasjonale sammenligninger av skoleprestasjoner som TIMSS , PIRLS eller PISA . Det amerikanske standardformatet brukes, hvor det gis fire til fem svar, hvorav nøyaktig ett blir vurdert som riktig. I det tyskspråklige området, der dette oppgaveformatet ikke er veldig vanlig, krysset imidlertid mer enn 10% av studentene mer enn ett svar for individuelle oppgaver i første runde av PISA.

En kanadisk studie viser at fordelen til nordamerikanske studenter som er vant til MC-tester fra skoledagen, også kan demonstreres i eksamen under studiene.

Ytterligere problemer

Flervalgstester fremmer (delvis) faktakunnskap i stedet for spesialistkunnskap. Folk lærer å verifisere svar i stedet for å løse problemer. En person som pålitelig finner det riktige svaret av fem mulige, kan fortsatt ikke være i stand til å løse oppgaven.
Eksempel: Testpersonen løser problemet til løsningen samsvarer med en av de gitte løsningene. Hvis testpersonen ikke gjør feilene som skaperne av MC-løsningene bevisst gjorde for å generere feil svar, kan testpersonen finne den rette løsningen uten å kunne løse oppgaven uavhengig.

Et tredje problem er riktig forståelse av oppgaver, både på grunn av uklarheter og manglende språklige ferdigheter hos testpersonen. Du tester alltid en blanding av spesialkunnskap og mestring av språket oppgaven ble spurt på, selv om sistnevnte ikke ville spille en rolle i praksis, fordi oppgaven vanligvis blir spurt fra sammenhengen og ikke fra en oppgave i praksis.

I SC-utvalgssvar kan distrahererne variere sterkt i nærheten til det riktige svaret, noen er til og med bevisst åpenbart feil, andre bare feil i en enkelt oversett detalj. Men de er alle vurdert likt, mens det i en fritekstkorreksjon kan gis delpoeng for noen.

Tiltak mot gjetting

Flervalgseksamen er veldig vanlig ved tyske og østerrikske universiteter. For å hindre studentene i å gjette, er passeringsmerket satt over tilfeldig sannsynlighet eller et negativt poengsystem brukes, eller begge deler.

Variantene som presenteres her krever enten en binær avgjørelse ("sann" eller "usann") eller et enkelt valg.

absolutt og relativt forhold mellom bonus og malus
bonus Malus Nøytral absolutt forhold relativt forhold
+1 −1 -
+1 −1 ± 0
+1 −1 −½
+1 −1 −1
+1 −1 + ½
+1 −2 -
+1 −2 ± 0
+1 −2 −1
+1 −½ ± 0
+1 ± 0 + ½
+1 ± 0 ± 0

I den enkleste og mest utbredte prosedyren får hvert svar den samme verdien når det gjelder mengde, men riktig positiv og feil negativ. Dette systemet er imidlertid juridisk kontroversielt, for med denne typen evalueringer kan "poeng som er oppnådd gjennom et riktig svar" trekkes fra. Oppgaven med en eksamen er å “innhente uttalelser om den jobbrelaterte kunnskapen eksaminanden har. En vurderingsprosedyre der eksamener som er fullført uten feil, blir vurdert som mislykkede eller dårlig bestått fordi andre eksamensspørsmål ikke er besvart riktig, mangler denne egnetheten. ”(Sitat fra årsakene til dommen NRW, 14 A 2154/08).

Alternativer, som er ment å redusere påvirkningen fra testvitenskap ytterligere , gir en høyere negativ vurdering for feil svar enn positive for riktige svar.

Ofte er oppgaver med malus inkludert i den samlede evalueringen med null poeng i verste fall, selv om det totale poenget faktisk ville være negativt. På denne måten kan utskrift av poster holdes positiv. Dette krever imidlertid en oppgave der en oppgave består av flere flervalgsspørsmål. Slike oppgaver brukes ofte i eksamener som hovedsakelig inneholder andre typer oppgaver.

Juridisk evaluering

I Tyskland er det nå et stort antall rettsavgjørelser som viser grensene for bruken av flervalgsprosedyren , som det kalles i det juridiske miljøet. Mange dommer refererer til en absolutt bestandsgrense, noe som har ført til at antall eksisterende kandidater kan variere betydelig fra år til år; andre dommer er knyttet til evaluering av oppgaver.

Samlet sett er det tilrådelig å studere rettspraksis før du utformer flervalgsoppgaver.

Eksempler

Hvilke politikere var forbundsministre i Brandt-regjeringen?
  1. Karl Schiller
  2. Herbert Wehner
  3. Rainer Barzel
  4. Georg Leber
  5. Erich Mende

Antall riktige svar er ikke spesifisert. Det første og fjerde svaret er riktig. 2, 3 og 5 fungerer som distraherende.

Hvilken er den største innsjøen som helt ligger i Tyskland?
  1. Bodensee
  2. Müritz
  3. Steinhuder Meer

Fra spørsmålsteksten virker det opprinnelig klart at bare ett svar kan være riktig (det andre). Steinhuder Meer er imidlertid en innsjø og kan derfor også vurderes, men er mindre enn Müritz.

litteratur

  • KD Kubinger: Objektive psykologiske-diagnostiske prosedyrer . I: H. Weber, T. Rammsayer (red.): Handbook of Personality Psychology and Differential Psychology from Handbook of Psychology . Hogrefe, Göttingen 2005, s. 158-165 .
  • J. Millman, CH Bishop, R. Ebel: An Analysis of Test-Wiseness . I: Pedagogisk psykologisk måling . teip 25 , 1965, s. 707-726 .

weblenker

Individuelle bevis

  1. DORSCH Lexicon of Psychology
  2. Flere svar. I: Skrive vurderingsspørsmål for online levering: Prinsipper og retningslinjer . University of Bristol. Hentet 23. juli 2017.
  3. ^ Flere svar, itslearning. Hentet 23. juli 2017.
  4. Zeitartikel om en slik sak http://www.zeit.de/campus/2014/06/pruefungsverbindungen-klage
  5. a b c Avgjørelse truffet av Høyere forvaltningsdomstol i Nordrhein-Westfalen av 16. desember 2008, 14 A 2154/08 http://www.justiz.nrw.de/nrwe/ovgs/ovg_nrw/j2008/14_A_2154_08 Dom20081216.html
  6. Test din testvitne , åpnet 1. oktober 2018 (PDF; 52 kB)
  7. Joachim Wuttke: Ubetydeligheten av signifikante forskjeller. I: T. Jahnke, W. Meyerhöfer: PISA & Co - kritikk av et program. Andre utgave. Franzbecker, Hildesheim 2007, s. 171 ff.
    Også http://www.messen-und-deuten.de/pisa/Wuttke2007b.pdf . Wuttke påpeker at dette forvrenger testen utover de direkte berørte oppgavene, fordi det tar mye mer tid å teste fire eller fem svarvarianter for riktig / falsk i stedet for å velge den mest sannsynlige.
  8. ^ A. Mahamed et al.: "Testwiseness" Among International Pharmacy Graduates and Canadian Senior Pharmacy Students. I: American Journal of Pharmaceutical Education . Volum 70, s. 131.
  9. Vurderinger - Vurdering av flervalgseksamen