Post on 08-Nov-2015
transcript
Zertifikat B1 Deutschprfung fr Jugendliche und Erwachsene Standard Setting.
Ein Arbeitsbericht
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 2
ZERTIFIKAT B1: STANDARD SETTING, BENCHMARKING
ERGEBNISSE
Mnchen, 15.16.10.2012
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 3
Inhalt
Vorwort
1 Das Projekt Zertifikat B1
2 Arbeitsgruppen zum Standard Setting und Benchmarking
2.1 Lesen, Hren
2.2 Schreiben
2.3 Sprechen
3 Evaluation der Veranstaltung
4 Bibliographie
5 Anlagen
Zertifikat B1 Standard Setting / Benchmarking Programm
Zertifikat B1 Standard Setting / Benchmarking Teilnehmerliste
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 4
Vorwort
Am 15. und 16. Oktober 2012 fand in der Zentrale des Goethe-Instituts in Mnchen eine Konferenz zum Standard
Setting und Benchmarking zum neuen Zertifikat B1 statt. Diese neue Prfung wird im Portfolio der beiden Testin-stitutionen Goethe-Institut und sterreichisches Sprachdiplom Deutsch (SD) die bisherigen Prfungen Zertifikat Deutsch (ZD) und Zertifikat Deutsch fr Jugendliche (ZDj) zum 01. August 2013 ablsen.
An der Konferenz haben ausgewiesene Testexpertinnen und -experten, Sprachlehrende sowie Reprsentantinnen
und Reprsentanten von Politik und Bildungsinstitutionen teilgenommen. Insgesamt waren 45 Experten aus neun
europischen Lndern anwesend.
Vertreten waren folgende Institutionen:
Bundesdeutsche anerkennende Einrichtungen:
Bundesamt fr Migration und Flchtlingen (BAMF)
Testentwickler, pdagogische und testmethodische Einrichtungen:
Arbeitskreis Deutsch als Fremdsprache/Deutsch als Zweitsprache in der Schweiz (AKDaF), Association
of Language Testers in Europe (ALTE), Europisches Fremdsprachenzentrum des Europarats, Goethe-
Institut e. V., Institut fr Qualittssicherung im Bildungswesen Berlin (IQB), Instituut voor
Toetsontwikkeling Niederlande (CITO), sterreichisches Sprachdiplom Deutsch, Universitt Frei-
burg/Schweiz,
Hochschulen, Universitten:
Alpen-Adria-Universitt Klagenfurt, Freie Universitt Bozen, Ludwig-Maximilians-Universitt Mnchen,
Universitt Freiburg/Schweiz, Universitt Ljubljana, Universitt St. Gallen, Universitt Udine, Universitt
Wien, Zrcher Hochschule fr Angewandte Wissenschaften
Verlage fr Deutsch als Fremdsprache:
Duden, Hueber Hellas, Hueber, Klett, Langenscheidt
Landesverbnde der Volkshochschulen:
Baden-Wrttemberg, Bayern, Niedersachsen, Saarland, Sachsen-Anhalt, Verband der Schweizerischen
Volkshochschulen, Volkshochschule Wien
Anbieter von Deutschkursen und Prfungszentren:
Deutschkurse bei der Universitt Mnchen e. V., Goethe-Institut Athen, Goethe-Institut Mnchen, Klub-
schulen Schweiz, Lernraum Wien, Lyce Jean Piaget Neuchtel,
sterreich-Institut Budapest, sterreich-Institut Warschau
Das Programm wurde auf der Grundlage der im Manual for Relating Language Examinations to the Common Eu-ropean Framework of Reference for Languages (2009) des Europarats vorgeschlagenen Schritte durchgefhrt.
Das Standard Setting hatte zwei Ziele. Zum einen ging es darum nachzuweisen, dass die Prfungsanforderungen
und die erhobenen Kandidatenleistungen mit der Definition des angestrebten Niveaus im Referenzrahmen kom-patibel sind. Zum zweiten sollte festgestellt werden, wo die Bestehensgrenze gezogen werden muss (cut-off).
Zwei Tage lang wurden die Aufgabenstellungen und Erprobungsergebnisse diskutiert. Die Expertinnen und Exper-
ten in der Arbeitsgruppe Lesen/Hren beurteilten Items, deren Schwierigkeitswerte aus der statistischen Analy-se der Erprobungsrcklufe bekannt waren. In den Arbeitsgruppen Sprechen und Schreiben wurden Teilneh-merleistungen begutachtet, die die Anforderungen der Aufgaben illustrieren. Diese Leistungsbeispiele wurden auf
ihr Niveau hin eingeschtzt.
Die Ergebnisse des Workshops flieen direkt in die weitere Arbeit des Entwicklungsteams ein. An dieser Stelle
bedanken wir uns noch einmal herzlich bei allen Teilnehmenden fr ihre Zeit und das hohe Engagement.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 5
Manuela Glaboniat, SD, Alpen-Adria-Universitt Klagenfurt (Sprechen)
Michaela Perlmann-Balme, Goethe-Institut e. V. (Schreiben und allgemeiner Teil)
Thomas Studer, Universitt Freiburg/Schweiz (Lesen und Hren)
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 6
1 Das Projekt Zertifikat B1
Das Zertifikat B1 wurde gemeinschaftlich von den drei folgenden Institutionen entwickelt: dem Goethe-Institut, Zentrale, Bereich 41, der Universitt Freiburg (Schweiz), Bereich Mehrsprachigkeitsforschung und Fremdspra-
chendidaktik, Deutsch als Fremdsprache sowie dem sterreichischen Sprachdiplom Deutsch (SD), Klagen-
furt/Wien.
Eine weltweit durchgefhrte Bedarfs- und Zielgruppenanalyse bildete die Grundlage fr die Konzeption der neuen
Prfung. Unter Hinzuziehung renommierter Expertinnen und Experten begann 2010 die Entwicklung des Zertifi-kats B1 mit der Definition des Prfungsformats und der Aufgabentypen.
Um die neue Sprachprfung auf dem Referenzrahmen zu positionieren, wurde ein zweistufiges Verfahren einge-setzt: zunchst das Expertenurteil als qualitatives und dann die statistische Analyse als quantitatives Verfahren.
Mit einer detaillierten Beschreibung der Prfungsziele und -inhalte wurde ein transparenter Bezug zu den Kann-
Beschreibungen des Referenzrahmens fr die Stufe B1 sichergestellt, der durch Gutachten externer Expertinnen und Experten ergnzt wurde.
2011 begann man mit der weltweiten Validierung des Testmodells, die u. a. zum Ziel hatte, die Brauchbarkeit der
Aufgabentypen zu berprfen. Hierbei wurde besonders auf die Akzeptanz und Praktikabilitt der Aufgaben, den
Zeitbedarf und die Lnge der produzierten Texte geachtet. Durch die statistische Erprobung der Prfungsmodule
lie sich auf die Performanz sowie Schwierigkeit und Trennschrfe der einzelnen Testitem-Entwrfe schlieen.
Im August 2012 wurden der Modellsatz (Erwachsene) und das Handbuch Prfungsziele. Testbeschreibung sowie Wortschatz und Strukturen in einer separaten Publikation im Intranet des Goethe-Instituts verffentlicht (alle in einer vorlufigen Version). Es folgten die Trainingsmaterialien zu den Modulen Sprechen und Schreiben sowie der Modellsatz (Jugendliche).
Bevor die Prfung ab August 2013 in den Echteinsatz geht, fand im Oktober das hier beschriebene Standard
Setting und Benchmarking statt. Auerdem begannen im August 2012 Schulungen von Multiplikatorinnen und
Multiplikatoren bzw. von Bewertenden, die im Echtbetrieb die Teilnehmerleistungen in den Modulen Schreiben und Sprechen bewerten werden.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 7
2 Arbeitsgruppen zum Standard Setting und Benchmarking
2.1 Lesen, Hren
Leitung: Thomas Studer
Assistenz: Naomi Shafer, Eva Wiedenkeller
Teilnehmende: Matthias Buschhaus, Bayerischer Volkshochschulverband e. V.
Renate Faistauer, Universitt Wien
Ina Ferbear, Universitt Ljubljana Karin Fux, Klubschulen Schweiz
Renate Khl-Kuhn, Goethe-Institut e. V., Zentrale, Bereich 42
Rotraud Koll, Landesverband der Volkshochschulen Niedersachsens e. V.
Kathrin Kunkel-Razum, Duden-Verlag
Martina Mrz, Universitt Wien
Osman Osmanoglu, Bundesamt fr Migration und Flchtlinge, Nrnberg
Denise Pochon, Verband der Schweizerischen Volkshochschulen
Chris Punter, sterreichisches Sprachdiplom, Klagenfurt
Robert Saxer, Universitt Klagenfurt
Ursula Schmitz, Goethe-Institut e. V., Zentrale, Bereich 41
Nora Tahy, Hueber-Verlag
Rob Verheyen, CITO Niederlande
Andrea Zank, Zrcher Hochschule fr Angewandte Wissenschaften
Hauptziel der Arbeitsgruppe war es, die Bestehensgrenze der Prfungsmodule Lesen und Hren zu bestimmen. Dazu wurde in einem mehrstufigen Verfahren als kritischer Wert (cut score) ein Leistungsstandard (performance
standard) festgelegt, der ber das letzte, von einer mindestkompetenten B1-Person gerade noch lsbare Item
definiert ist. Vor dieser Festlegung sollte sichergestellt werden, dass die in Form von Aufgaben operationalisierten
Anforderungen der Prfung Zertifikat B1 in den Modulen Lesen und Hren dem angezielten Niveau B1 des Ge-meinsamen europischen Referenzrahmens fr Sprachen (GER) entsprechen.
Bestimmt wurde die Bestehensgrenze mit der Bookmark-Methode. Grundlage dieses testzentrierten, IRT-
basierten Verfahrens ist ein Ordered Item Booklet, in dem die Items nicht nach der Abfolge in der Prfung ange-ordnet sind, sondern nach ihrem statistischen Schwierigkeitswert (scaled measure), und zwar aufsteigend, begin-
nend mit dem leichtesten Item. Die Schwierigkeitswerte wurden mittels Rasch-Analyse der Rcklufe aus der
zweiten Erprobung des Modellsatzes ermittelt (n=206).
Vorgelegt wurden den Teilnehmenden zwei Booklets mit je 30 Items zum Modul Lesen bzw. zum Modul Hren. Jedes Item wurde auf einer separaten Seite dargestellt, auch wenn mehrere Items zu einem Text gehrten. Zustz-
lich zum Item selbst wurden auf jeder Seite weitere Informationen prsentiert, um die Schwierigkeit des Items
besser nachvollziehbar zu machen: die Instruktion zur Aufgabe, die Aufgabensituierung, der Lese- oder Hrtext
und der Lsungsschlssel (ggf. inklusive Distraktoren). Die Jurorinnen und Juroren hatten die Aufgabe zu ent-
scheiden, was ihrer Meinung nach eine knapp gengende B1-Leistung ist. Ihre Entscheidung sollten sie auf zwei
Konzepte sttzen: erstens auf das Konzept einer Person, die hinsichtlich des Niveaus B1 minimal kompetent ist,
und zweitens auf das Konzept der Lsungswahrscheinlichkeit. Beim Konzept der minimal kompetenten Person
mussten sich die Jurorinnen und Juroren eine/n Prfungsteilnehmende/n mit einer Kompetenz am unteren Rand
von B1 vorstellen. Beim Konzept der Lsungswahrscheinlichkeit (response probability; RP) galt es zu przisieren,
was es bedeutet, ein Item zu beherrschen bzw. dieses Item mit relativ hoher Wahrscheinlichkeit korrekt lsen zu
knnen (mastery of an item). Hier wurde, basierend auf der Fachliteratur (s. Bibliographie), ein Wert von RP=0.67
angesetzt. Alternativ, aber bedeutungsquivalent zu diesem numerischen Wert konnten sich die Juroren vorstel-
len, dass die mindestkompetente Person das Item in zwei von drei Fllen richtig lst oder dass zwei von drei min-
destkompetenten Personen das Item korrekt lsen. Auf der Grundlage dieser beiden Konzepte mussten die Juro-
rinnen und Juroren die Item-Booklets Seite fr Seite durcharbeiten, d. h. die Schwierigkeit der Items aus der Sicht
der mindestkompetenten B1-Person nachvollziehen und entscheiden, bei welchem Item die Wahrscheinlichkeit
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 8
nicht mehr relativ hoch (also RP < 0.67) ist, dass diese Person das Item korrekt lst. Dieses Item musste durch
Markieren der betreffenden Seite im Item-Booklet bezeichnet werden. Die Markierung steht gleichzeitig auch fr
die Meinung der Jurorinnen und Juroren, dass alle Items, die im Booklet auf den Seiten vor der markierten Seite
stehen, von der mindestkompetenten Person mit einer Wahrscheinlichkeit von RP = 0.67 oder hher korrekt ge-
lst werden.
Die Arbeit vollzog sich in drei Phasen.
Als erste Phase stand das auch fr Fachleute immer wieder notwendige Vertrautmachen mit dem Referenzrahmen im Mittelpunkt. Nachdem ein allgemeines Vertrautmachen besonders mit dem Niveau B1 bereits in der Gesamt-
gruppe vorgenommen worden war, konzentrierte sich die Gruppe Lesen/Hren auf die Deskriptoren mit Rele-vanz fr diese beiden Fertigkeiten. Gearbeitet wurde mit einer Art Zuordnungs-Aufgabe, bei der es darum ging,
das Niveau einer Reihe von Kann-Beschreibungen des Referenzrahmens aus den Einzelskalen zum Lesen und zum Hren zu erkennen. Vorgelegt wurden Kann-Beschreibungen der Niveaus A2, B1 und B2, jedoch ohne Niveau-
Angabe, denn das Erkennen des Niveaus sollte ausschlielich auf Basis von Niveauindikationen in den Deskripto-
ren erfolgen. Als Hilfestellung dienten den Teilnehmenden die Beschreibungen der Niveaubereiche A2, B1 und B2
aus den Skalen Leseverstehen allgemein bzw. Hrverstehen allgemein. Besonders fokussiert und diskutiert wurde bei dieser Arbeitsgruppenaktivitt, mit Blick auf Arbeitsphase drei, der bergang von A2 zu B1.
Im Anschluss an kurze Vorstellungen der Test-Konstrukte Lesen und Hren und Erluterungen zur Umsetzung der
Konstrukte in Aufgaben folgte eine zweite Phase des Vertrautmachens, bei der die Prfungsaufgaben der Module
Lesen und Hren im Vordergrund standen. In dieser Arbeitsphase lsten die Juroren die Aufgaben unter Prfungs-bedingungen und glichen dann ihre Antworten mit dem Lsungsschlssel ab.
Als dritte Phase folgte das eigentliche Standard Setting, bei dem die Item-Booklets fr das Hren und das Lesen
je zweimal durchgearbeitet werden mussten. In Runde 1 beurteilten die Jurorinnen und Juroren die Items in Ein-
zelarbeit und setzten die Markierung im Item-Booklet. Die Ergebnisse dieser 1. Runde wurden registriert, als
Sulendiagramme aufbereitet (vgl. Schaubild 1) und in dieser Form als Input fr die Diskussion verwendet, die im
Anschluss an Runde 1 stattfand. Diskutiert wurde in drei separaten Teilgruppen von jeweils vier bis sechs Jurorin-
nen und Juroren, wobei bei der Zusammensetzung der Diskussionsgruppen darauf geachtet wurde, Teilnehmende
mit weiter auseinander liegenden Bookmarks zusammenzubringen. Ziel dieser Diskussionen war es, die Einzelvo-
ten zu begrnden, d. h. es sollten Argumente fr Entscheidungen ausgetauscht und insbesondere auch Grnde fr
strker divergierende Voten beigebracht und verglichen werden.
Nach der Diskussion in Teilgruppen, in Runde 2, setzten die Jurorinnen und Juroren wieder individuell ihre Markie-
rung im Item-Booklet. Dabei stand es ihnen frei, ihre Markierung aus der 1. Runde zu bernehmen oder diese
unter dem Eindruck der Diskussion neu zu setzen. Die Ergebnisse der 2. Runde wurden ebenfalls registriert, auf-
bereitet und prsentiert (vgl. Schaubild 2). In der Folge wurde auf eine weitere Diskussion in Teilgruppen verzich-
tet, weil die Ergebnisse der 2. Runde im Vergleich zur 1. nher beieinander lagen und weniger extreme Werte
aufwiesen.
Bestehensgrenzen
Der Cut-Score jeder Jurorin bzw. jedes Jurors wird durch den IRT-Schwierigkeitswert des Items angezeigt, auf dem
die Markierung platziert wurde. Der korrespondierende Test-Score, d. h. die eigentliche Bestehensgrenze, liegt
jeweils ein Item tiefer, weil die Jurorinnen und Juroren ja dasjenige Item markiert haben, das eine minimal kom-
petente B1-Person nur mehr mit einer kleineren Wahrscheinlichkeit als 0.67 korrekt lsen kann. Demgegenber
wurde die Bestehensgrenze oben positiv im Sinne eines Leistungsstandards definiert, und zwar so, dass dieser
Standard durch das letzte von der minimal kompetenten B1-Person gerade noch lsbare Item reprsentiert ist.
Auf der Basis dieser berlegungen lsst sich der Test-Score der gesamten Jurorengruppe (total 16 Jurorinnen und
Juroren) durch die statistischen Mae der zentralen Tendenz fr die 16 einzelnen Test-Scores charakterisieren.
Lesen Fr das Modul Lesen wurde die Markierung in Runde 2 des Standard Settings auf Seite 19 (arithmetisches Mit-tel), 18 (Median) bzw. 17 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach
18 (arithmetisches Mittel), 17 (Median) bzw. 16 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten
Jurorengruppe am besten durch das arithmetische Mittel der Test-Scores ausgedrckt wird, wird die
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 9
Bestehensgrenze bei 18 angesetzt. Dies entspricht einem Schwierigkeitswert von 53.272 und der Anforderung,
60 % von total 30 Items richtig zu lsen.
Hren Fr das Modul Hren wurde die Markierung in Runde 2 des Standard Settings auf Seite 18 (arithmetisches Mit-tel), 17 (Median) bzw. 19 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach
17 (arithmetisches Mittel), 16 (Median) bzw. 18 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten
Jurorengruppe am besten durch den Modus der Test-Scores ausgedrckt wird, wird die Bestehensgrenze bei 18
angesetzt. Dies entspricht einem Schwierigkeitswert von 57.701 und der Anforderung, 60 % von total 30 Items
richtig zu lsen.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 10
Schaubild 1 zeigt die Ergebnisse fr Lesen und Hren der 1. Runde.
Schaubild 1
Lesen Runde 1
0
1
2
3
4
5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item-Booklet
An
zah
l d
er
Rate
r
Hren Runde 1
0
1
2
3
4
5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item-Booklet
An
zah
l d
er
Rate
r
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 11
Schaubild 2 zeigt die Ergebnisse fr Lesen und Hren der 2. Runde.
Schaubild 2
Lesen Runde 2
0
1
2
3
4
5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item-Booklet
An
zah
l d
er
Rate
r
Hren Runde 2
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Seite im Item-Booklet
An
zah
l d
er
Rate
r
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 12
2.2 Schreiben
Leitung: Michaela Perlmann-Balme
Assistenz: Christof Arndt
Teilnehmende: Anne-Katrin Behnert, Landesverband der VHS Sachsen-Anhalt
Johanna Bleiker, Pdagogische Hochschule St. Gallen
Eva Fontana, Sprachenzentrum Universitt Freiburg/Schweiz
Linda Fromme, Goethe-Institut e. V., Zentrale, Bereich 41
Gabriele Gippner, Institut zur Qualittsentwicklung im Bildungswesen Berlin
Thomas Holzmann, sterreich-Institut Warschau
Jane Kettner, Volkshochschulverband Baden-Wrttemberg e. V.
Annette Kuppler, Ernst-Klett-Verlag
Peter Lenz, Universitt Freiburg/Schweiz
Nora Peer, sterreich Institut Budapest
Jrg Roche, Ludwig-Maximilians-Universitt Mnchen
Annalisa Scarpa, Langenscheidt-Verlag
Katerina Touraki, Goethe-Institut Athen
Heike Widmer-Behr, Zrcher Hochschule fr Angewandte Wissenschaften
Eva Wolf-Manfre, Goethe-Institut Mnchen
Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der
Aufgaben erhobenen Teilnehmerleistungen im Modul Schreiben mit der Definition des angestrebten Niveaus im Referenzrahmen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.
Zunchst wurden die Teilnehmenden mit Hilfe der Deskriptoren des Referenzrahmens aus Kapitel 4 Korrespon-denz, Schriftliche Interaktion Allgemein, Notizen, Mitteilungen, Formulare, und aus Kapitel 5 Kohrenz und Koh-sion, Wortschatzspektrum, Wortschatzbeherrschung, Grammatische Korrektheit und Beherrschung der Orthogra-phie mit den fr die Fertigkeit Schreiben relevanten Deskriptoren auf dem Niveau B1 sowie den Nachbarniveaus vertraut gemacht. Ein solches Vertrautmachen war in so fern notwendig, als sich die Einstufung allein auf diese
Deskriptoren sttzt und nicht etwa auf Bewertungskriterien zur Prfung.
Anschlieend wurden zwei Vergleichsarbeiten auf dem Niveau B1 aus dem Material des Europarates (Council of
Europe, 2005) herangezogen, um das Leistungsniveau zu verdeutlichen und die Einstufung zu trainieren.
Danach wurden insgesamt 60 Teilnehmerleistungen begutachtet und eingestuft. Zu jedem der drei Teile des Pr-
fungsmoduls Schreiben wurden je zehn Leistungsbeispiele fr Erwachsene und zehn fr Jugendliche bearbeitet. Die sechs Schreibanlsse waren:
Aufgabe 1: Geburtstag (Erwachsene) und Sporttag (Jugendliche)
Aufgabe 2: Persnliche Kontakte und Internet (Erwachsene) und Hausaufgaben aus dem Internet (Ju-gendliche)
Aufgabe 3: Terminabsage (Erwachsene) und Kinobesuch absagen (Jugendliche)
Die Jurorinnen und Juroren entschieden, welche Leistungsbeispiele zum Schreiben auf der Niveaustufe B1 zu
verorten sind bzw. ob das Niveau B1 erreicht wurde.
Die Arbeit vollzog sich in zwei Runden. Die Jurorinnen und Juroren gaben ihre Urteile anonym ab, d. h. jede Jurorin
bzw. jeder Juror hatte eine Nummer. In Runde 1 wurden zu den Aufgaben 1, 2 und 3 jeweils zehn Leistungsbei-
spiele eingestuft. Die Leistungsbeispiele wurden zuerst in Einzelarbeit beurteilt. Grundlage der Beurteilung waren
die Deskriptoren des Referenzrahmens. Es wurde als notwendig empfunden, eine Orientierung zu geben, wie viele Deskriptoren als erfllt gelten mssten, um das Niveau zu erreichen und vorgeschlagen, diese Vorgabe bei 80 %
anzulegen.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 13
Die Ergebnisse dieser 1. Runde wurden aufgezeichnet, die Auswertung dieser Ergebnisse in der Gruppe prsen-
tiert (vgl. Schaubild 3). In zwei separaten Teilgruppen von jeweils sieben bzw. acht Jurorinnen und Juroren wurden
die Einstufungen diskutiert. Ziel dieser Diskussion war es, die Einzelvoten zu begrnden und die Jurorinnen und
Juroren, deren Werte strker vom Rest der Teilgruppe abwichen, zu einer Reflexion zu bringen. Ein Gruppenkon-
sens war nicht erforderlich. Nach Abschluss der Diskussion wurde fr die Leistungsbeispiele der ersten Runde von
jeder Jurorin bzw. jedem Juror einzeln ein zweites Votum abgegeben.
In Runde 2 wurden je zehn weitere Leistungsbeispiele bewertet, wiederum fr die Aufgaben 1, 2 und 3, diesmal
allerdings aus Prfungsstzen fr Jugendliche. Auch erfolgte die Einstufung zunchst in Einzelarbeit, nach Darle-
gung der Ergebnisse erfolgte eine Diskussion in zwei Teilgruppen der Gesamtarbeitsgruppe Schreiben. Die Schaubilder zeigen jeweils, wie viele Personen ein Beispiel als auf B1 liegend bewertet haben. Ein Gruppenkon-
sens war nicht erforderlich. Nach Abschluss der Diskussion wurden fr die Leistungsbeispiele der zweiten Runde
von jedem Juror einzeln ein zweites Votum abgegeben.
Die Schaubilder 3 bis 9 zeigen die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren wie folgt:
0 = unterhalb Niveau B1
1 = Niveau B1 und darber
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 14
Schaubild 3
Geburtstag
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 0 1 1 1 1 0 1 1 1 1 80%
2 0 1 0 0 1 0 1 1 0 0 40%
3 0 1 1 0 1 0 1 1 0 1 60%
4 0 1 0 0 1 0 1 1 0 0 40%
5 1 1 1 1 1 0 1 1 0 1 80%
6 0 1 0 0 1 0 1 1 0 0 40%
7 1 1 1 0 1 0 1 1 0 0 60%
8 0 1 0 1 1 0 1 1 0 0 50%
9 0 1 0 1 1 0 1 1 1 1 70%
10 0 1 1 0 1 0 1 0 0 0 40%
11 1 1 1 0 1 0 1 1 1 0 70%
12 0 1 0 0 1 0 1 1 0 1 50%
13 0 1 1 1 1 0 1 1 1 1 80%
14 0 1 1 0 1 0 1 1 0 1 60%
15 0 1 0 0 1 0 1 1 1 0 50%
Ergebnis Aufgabe % 20% 100% 69% 33% 100% 0% 100% 93% 33% 47%
Beispiel
Schaubild 3 zeigt die Ergebnisse fr Aufgabe 1 Geburtstag (1. Runde) vor der Diskussion. Auf der horizontalen Achse befinden sich oben die Beispiele 1 bis 10, unten die erzielten Ergebnisse pro Beispiel.
Auf der vertikalen Achse sind links die 15 Jurorinnen und Juroren aufgelistet, rechts die von den Jurorinnen und
Juroren insgesamt auf B1 eingestuften Beispiele. Die Beispiele 2, 5, 7 und 8 wurden von fast allen Jurorinnen und
Juroren bereinstimmend als klar auf Niveau B1, eingestuft, die Beispiele 1 und 6 wurden von fast allen klar unter
Niveau B1 bewertet. Bei den Beispielen 3, 4, 9 und 10 gab es vor der Diskussion kein eindeutiges Votum.
Schaubild 4
Geburtstag
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 0 1 1 0 1 0 1 1 0 0 50%
2 0 1 0 0 1 0 1 1 0 0 40%
3 0 1 1 0 1 0 1 1 0 0 50%
4 0 1 0 0 1 0 1 1 0 0 40%
5 1 1 1 1 1 0 1 1 0 0 70%
6 0 1 1 0 1 0 1 1 0 0 50%
7 1 1 1 1 1 0 1 1 0 0 70%
8 0 1 0 0 1 0 1 1 0 0 40%
9 0 1 0 1 1 0 1 1 0 0 50%
10 0 1 1 1 1 0 1 0 0 0 50%
11 1 1 1 0 1 0 1 1 0 0 60%
12 0 1 0 0 1 0 1 1 0 0 40%
13 0 1 1 1 1 0 1 1 1 0 70%
14 0 1 1 0 1 0 1 1 0 1 60%
15 0 1 0 0 1 0 1 1 1 0 50%
Ergebnis Aufgabe % 20% 100% 60% 33% 100% 0% 100% 93% 13% 7%
Beispiel
Schaubild 4 zeigt das Ergebnis fr Aufgabe 1 Geburtstag (Runde 1) nach der Diskussion. Die Diskussion in Teil-gruppen fhrte bei den Beispielen 9 und 10 zu einer strkeren Einheitlichkeit des Votums. In acht der zehn Bei-
spiele wurde eine weitreichende bereinstimmung erzielt.
Es wurde darauf verzichtet, die verbleibenden Abweichungen weiter zu diskutieren.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 15
Schaubild 5
Persnliche Kontakte und Internet
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 1 0 1 1 0 1 1 1 1 0 70%
2 0 1 0 1 0 1 1 1 1 0 60%
3 1 1 0 1 0 1 0 1 1 1 70%
4 1 1 0 1 0 1 0 0 1 1 60%
5 1 1 0 1 0 1 0 0 1 1 60%
6 0 1 0 1 0 1 1 0 1 1 60%
7 1 1 0 1 0 1 0 1 1 1 70%
8 1 1 0 1 0 1 1 0 1 1 70%
9 1 1 1 1 0 1 0 0 0 1 60%
10 0 1 0 1 0 1 0 0 1 1 50%
11 1 1 0 1 0 1 0 0 1 1 60%
12 1 1 0 1 0 0 1 0 1 1 60%
13 1 1 0 1 0 1 0 0 1 0 50%
14 1 1 1 1 0 0 1 0 1 1 70%
15 0 1 0 1 0 1 0 0 1 0 40%
Ergebnis Aufgabe % 73% 93% 20% 100% 0% 87% 40% 27% 93% 73%
Beispiel
Schaubild 5 zeigt die Ergebnisse fr Aufgabe 2 Persnliche Kontakte und Internet (1. Runde) nach der Diskussi-on. In acht der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 6
Terminabsage
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 1 0 1 0 1 0 0 1 1 1 60%
2 1 0 1 0 1 0 0 1 1 1 60%
3 1 0 1 1 0 1 0 1 1 1 70%
4 1 0 1 0 1 1 0 1 1 1 70%
5 1 0 1 0 1 1 0 1 1 1 70%
6 1 0 0 0 1 1 0 1 1 1 60%
7 1 0 1 0 1 1 0 1 1 1 70%
8 1 0 1 1 0 0 0 1 0 1 50%
9 1 0 1 1 1 1 0 1 1 1 80%
10 1 0 1 0 1 1 0 1 1 1 70%
11 1 0 1 0 1 1 0 1 1 1 70%
12 1 0 1 0 1 0 1 1 0 1 60%
13 1 0 1 0 1 0 0 1 0 1 50%
14 1 0 1 0 0 1 0 0 1 1 50%
15 1 0 1 0 0 0 0 0 1 1 40%
Ergebnis Aufgabe % 100% 0% 93% 20% 73% 60% 7% 87% 80% 100%
Beispiel
Schaubild 6 zeigt die Ergebnisse fr Aufgabe 3 Terminabsage (1. Runde) nach der Diskussion. Die Beispiele 1, 3, 5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele
4 und 7 klar unter Niveau B1. Die Diskussion in Teilgruppen fhrte zu einer strkeren Einheitlichkeit des Votums.
In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 7
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 16
Sporttag
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 1 1 1 0 1 0 0 0 0 1 50%
2 1 1 1 0 1 0 0 0 0 1 50%
3 1 1 1 0 1 0 0 0 0 1 50%
4 1 1 0 0 1 0 0 0 0 1 40%
5 1 1 1 0 1 1 0 0 0 1 60%
6 1 1 1 0 1 0 0 0 0 1 50%
7 1 1 1 0 1 1 0 1 1 1 80%
8 1 1 1 0 1 0 0 0 0 1 50%
9 1 1 1 1 1 1 0 0 1 1 80%
10 1 1 1 0 1 1 0 0 0 1 60%
11 1 1 1 0 1 0 0 0 0 1 50%
12 1 1 1 0 1 0 0 0 0 1 50%
13 1 1 1 0 1 1 0 0 0 1 60%
14 1 1 1 0 1 0 0 0 0 1 50%
15 1 1 1 0 1 0 0 0 0 1 50%
Ergebnis Aufgabe
% 100% 100% 93% 7% 100% 33% 0% 7% 13% 100%
Beispiel
Schaubild 7 zeigt die Ergebnisse fr Aufgabe 1 Sporttag (2. Runde) nach der Diskussion. Die Beispiele 1, 2, 5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele 4, 7,
8 und 9 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 8
Hausaufgaben aus dem Internet
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 1 0 1 0 1 0 1 1 1 0 60%
2 1 0 1 0 1 0 0 0 1 0 40%
3 1 0 1 0 1 0 1 0 1 0 50%
4 1 0 1 0 1 1 0 0 1 0 50%
5 1 0 1 0 1 0 1 0 1 0 50%
6 1 0 1 0 1 0 0 1 0 0 40%
7 1 0 1 0 1 0 1 0 1 0 50%
8 1 0 1 0 1 0 0 0 1 0 40%
9 1 0 1 1 1 1 1 0 1 1 80%
10 1 0 1 0 1 0 1 0 1 0 50%
11 1 0 1 0 1 0 0 0 1 0 40%
12 1 0 1 0 1 0 0 0 1 0 40%
13 1 0 1 0 1 0 1 0 1 0 50%
14 1 0 1 0 1 0 0 0 1 0 40%
15 1 0 1 0 1 0 0 0 1 0 40%
Ergebnis Aufgabe
% 100% 0% 100% 7% 100% 13% 47% 13% 93% 7%
Beispiel
Schaubild 8 zeigt die Ergebnisse fr Aufgabe 2 Hausaufgaben aus dem Internet (2. Runde) nach der Diskussion. Die Beispiele 1, 5 und 9 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1
bewertet, Beispiel 2 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.
Schaubild 9
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 17
Kinobesuch absagen
rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %
1 0 1 0 1 1 1 1 1 0 1 70%
2 0 1 0 0 1 1 1 1 0 1 60%
3 0 1 0 1 1 1 1 1 1 1 80%
4 0 0 0 1 1 1 1 1 0 1 60%
5 0 1 0 1 1 1 1 1 0 1 70%
6 0 1 0 1 1 1 1 1 0 1 70%
7 0 1 0 1 0 1 1 1 0 1 60%
8 0 1 0 0 1 1 1 1 0 1 60%
9 0 1 0 1 1 1 0 1 1 1 70%
10 0 1 0 0 1 1 1 1 0 1 60%
11 0 1 0 1 1 1 1 1 0 1 70%
12 0 1 0 0 1 1 1 1 0 1 60%
13 0 1 0 0 1 1 1 1 0 1 60%
14 0 1 0 1 1 1 1 1 0 1 70%
15
Ergebnis Aufgabe
% 0% 93% 0% 64% 93% 100% 93% 100% 14% 100%
Beispiel
Schaubild 9 zeigt die Ergebnisse fr Aufgabe 3 Kinobesuch absagen (2. Runde) nach der Diskussion. Die Grup-pendiskussion fhrte bei fnf Beispielen nach einer kurzen Diskussion bereits zu totaler bereinstimmung, bei
weiteren drei Beispielen zu nur einem abweichenden Votum. In acht der zehn Beispiele wurde somit eine weitrei-
chende bereinstimmung erzielt.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 18
Schaubild 10
Beispiel Ergebnis des
Standard Settings
Niveau B1
Ergebnis des
Entwicklerteams
Niveau B1
1/1 Evgenyi nein
20% der Gruppe
ja
1/2 Polina ja
100% der Gruppe
ja
1/6 Jorge nein
0% der Gruppe
nein
1/8 Boris ja
93% der Gruppe
ja
1/3 j Anja ja
93% der Gruppe
ja
2/2 Dalila ja
93% der Gruppe
ja
2/3 Diana nein
20% der Gruppe
nein
2/4 Jean ja
100% der Gruppe
ja
2/5 Tessa nein
0% der Gruppe
nein
2/5 j Anton ja
100% der Gruppe
ja
3/2 Hiromi nein
0% der Gruppe
nein
3/3 j Jaroslawa
nein
0% der Gruppe
nein
3/7 Tzvetan nein
7% der Gruppe
nein
3/9 Mirte ja
80% der Gruppe
ja
Schaubild 10 zeigt die Ergebnisse zu 11 ausgewhlten Leistungsbeispielen zu den Schreibanlssen aus dem
Modellsatz fr Erwachsene und 3 Leistungsbeispielen (mit dem Zusatz j) zu den Schreibanlssen aus dem Mo-dellsatz fr Jugendliche.
Das Schaubild geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarking und dem Bewertungs-
raster ein. Es zeigt die Ergebnisse im Vergleich zu einer Anwendung der Bewertungskriterien durch eine
trinationale Gruppe von Bewertenden des Goethe-Instituts, des SD und der Universitt Freiburg/Schweiz. Die
linke Spalte enthlt die Spezifizierung der Beispiele. Die mittlere Spalte enthlt sowohl die Prozentwerte des
Benchmarkings aus den Schaubildern 3 bis 9 als auch als ja- oder nein-Entscheidung. In der rechten Spalte finden sich die Ergebnisse, die durch den Einsatz der prfungsspezifischen Bewertungskriterien seitens des
trinationalen Entwicklungsteams erzielt wurden als ja- oder nein-Entscheidung. Bei 14 Beispielen gab es nur eine Abweichung: Das Beispiel 1/1 Evgenyi wurde durch die Gruppe der Seminarteilnehmenden deutlich strenger
bewertet als durch die Testentwicklerinnen und -entwickler.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 19
2.3 Sprechen
Leitung: Manuela Glaboniat
Assistenz: Helga Lorenz
Teilnehmende: Kirsten Brcker, Landesverband der VHS Sachsen-Anhalt
Andr Feller, Prfungszentrum Neuchatel / Lyce Jean Piaget
Christina Gregor, Goethe-Institut e. V., Zentrale, Bereich 41
Nicola Kraml, Volkshochschule Wien, DaF
Michael Krger, Deutschkurse bei der Universitt Mnchen e. V.
Sonja Kuri, Universitt Udine (I)
Anton Nf, Prfungszentrum Neuchatel / Lyce Jean Piaget
Anne Pritchard-Smith, sterreich-Institut
Helen Schmitz, Langenscheidt-Verlag
Susanna Slivensky, Europisches Fremdsprachenzentrum des Europarats
Irmingard Staudigel, Bayerischer Volkshochschulverband e. V.
Claudia Wallner, Hueber-Verlag sterreich
Lukas Wertenschlag, Universitt Freiburg (Schweiz)
Brigitte Widmann, Freie Universitt Bozen (I)
Bettina Wohlgemuth-Fekonja, sterreichisches Sprachdiplom
Heiner Zietz, Verband der Volkshochschulen im Saarland
Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der
Aufgaben erhobenen Teilnehmerleistungen im Modul Sprechen mit der Definition des angestrebten Niveaus im Gemeinsamen europischen Referenzrahmen fr Sprachen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.
Methodische Grundlage hierfr war das im Manual for relating Language Examinations to the Common European Framework of Reference (CEFR) beschriebene dreistufige Vorgehen:
Vertrautmachen mit den Deskriptoren Mndliche Interaktion allgemein sowie mit der Tabelle 3 Qualitative Aspekte des mndlichen Sprachgebrauchs gem dem Gemeinsamen europischen Referenzrahmen.
Vorgabe von je einem kalibrierten Beispiel zur Produktion und zur Interaktion, die im Auftrag des Europarats von Jurorinnen und Juroren eingestuft worden waren (Bolton et al., 2008).
Einstufung der Kandidatenleistungen nach Vertrautmachen mit der Aufgabenstellung.
Bewertet wurden insgesamt 22 Kandidatenleistungen, davon jeweils 11 fr die Produktion und 11 fr die Interak-
tion. Die gezeigten mndlichen Kandidatenleistungen im Zertifikat B1 waren in der Zentrale des Goethe-Instituts und an der Alpen-Adria-Universitt Klagenfurt aufgenommen worden. Es handelte sich um Teilnehmende aus
Deutschkursen am Goethe-Institut Mnchen und der Universitt Klagenfurt sowie um Schlerinnen und Schler
der Mittelschule an der Fhrichstrae Mnchen.
Eingangs wurde wie in der Gruppe Schreiben klargestellt, dass es beim Benchmarking nicht um eine detail-lierte Bewertung der Beispiele, sondern vorrangig um die Identifikation des Niveaus bzw. die Ermittlung der
Bestehensgrenze geht.
Die Sprechanlsse fr die 22 Leistungsbeispiele in der Interaktion (Aufgabe 1) und Produktion (Aufgabe 2) waren:
Aufgabe 1: Krankenhausbesuch planen
Aufgabe 2: Brauchen Kinder Mobiltelefone? und Sehen Kinder zu viel fern?
Die Jurorinnen und Juroren entschieden, welche der Leistungsbeispiele zum Sprechen auf der Niveaustufe B1 zu
verorten sind bzw. in welchen das Niveau B1 nicht erreicht wurde (unter B1). Zustzlich wurde im Bereich B1 zwischen den Kategorien gerade noch B1 und B1 und ber B1 unterschieden. Diese feinere Differenzierung dient lediglich der Orientierung bei der Erstellung der Trainingsmaterialien; fr den eigentlichen Benchmarking-
Prozess ist diese Unterteilung nicht relevant und wird daher in den folgenden Schaubildern auch nicht eigens
dargestellt.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 20
Die Urteile der Jurorinnen und Juroren erfolgten in Stationen und wurden anonym abgegeben, d. h. jede Jurorin
bzw. jeder Juror hatte eine Nummer.
1) Die Jurorinnen und Juroren nahmen zunchst jede/r fr sich eine globale und anschlieend eine analyti-sche Einstufung auf Basis der Tabelle 3 (GER) vor.
2) Das Ergebnis der globalen Einstufung wurde bekannt gemacht. 3) Es erfolgte eine Diskussion ber die Abweichungen. 4) Nach der Diskussion erfolgte eine erneute Einstufung.
Aufgrund der groen bereinstimmung bei den Leistungsbeispielen beschrnkte sich die Diskussion auf die Bei-
spiele 2, 3, 4, 5 und 10 in der Interaktion und 3, 6 und 8 bei der Produktion.
Bestehensgrenze
Bei beiden Aufgaben wird die Bestehensgrenze durch Anwendung der Deskriptoren auf diese Beispiele ermittelt.
Schaubild 11 und 12 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der ersten Runde sowohl in
der Interaktion als auch in der Produktion. Die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren stellt sich wie folgt dar:
0 = unterhalb Niveau B1
1 = Niveau B1
Schaubild 11
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 21
Schaubild 11 zeigt die Ergebnisse zur Interaktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 2, 7, 9
und 11 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bewertet. Beispiel 8
wurde mit 6%, die fr B1 waren, sehr klar (also zu 94%) unter Niveau B1 (8) bewertet. Bei den Beispielen 3, 4 und
6 gab es jeweils eine/n bzw. zwei von 16 Jurorinnen und Juroren, die diese Leistungen unter dem Niveau B1 be-
werteten. Das Beispiel 5 ist mit 31% eher unter B1 anzusiedeln. Viel Diskussionsbedarf gab es bei Beispiel 10,
bei dem genau 50% fr Niveau B1 und 50% fr unter Niveau B1 stimmten.
Schaubild 12
Schaubild 12 zeigt die Ergebnisse zur Produktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 4, 5,
7, 9 und 10 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bzw. klar unter
Niveau B1 (6 und 8) bewertet. Bei den Beispielen 2, 3 und 11 gab es jeweils zwei bzw. drei von 16 Jurorinnen und
Juroren, die diese Leistungen unter dem Niveau B1 bewerteten.
Die Schaubilder 13 und 14 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der zweiten Runde.
Schaubild 13
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 22
Schaubild 14
Die Schaubilder 13 und 14 zur Runde 2 zeigen, dass die Bewertungen kaum gendert wurden. Es kam lediglich
zu minimalen Verschiebungen, wie z. B. bei Beispiel 3 in der Interaktion, bei dem in beiden Fllen zwei Teilneh-
mende fr unter Niveau B1 stimmten, allerdings waren es in Runde 1 andere Jurorinnen und Juroren als in Run-de 2.
Schaubild 15
Beispiel INTERAKTION
Ergebnis des Stan-
dard Settings
Niveau B1?
INTERAKTION
Ergebnis des Entwick-
lerteams
Niveau B1?
PRODUKTION
Ergebnis des Standard
Settings
Niveau B1?
PRODUKTION
Ergebnis des
Entwicklerteams
Niveau B1?
Maristela Ja
100%
Ja Ja
100%
Ja
Lorenzo Ja
100%
Ja
Ja
100%
Ja
Pia Ja
88%
Ja
Ja
88%
Ja
Siham Ja
94%
Ja
Ja
100%
Ja
Marsela (j) Nein
31%
Ja Nein
31%
Nein
Aven (j) Ja
94%
Ja
Ja
88%
Ja
Kristina Ja
100%
Ja
Ja
100%
Ja
Filippos Nein
6%
Nein Nein
13%
Nein
Susannah Ja
100%
Ja Ja
100%
Ja
Alessia Ja
50%
Ja Ja
81%
Ja
Philipp Ja
100%
Ja Ja
100%
Ja
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 23
Schaubild 15 geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarkings und dem Bewertungs-
raster ein. Es zeigt die Ergebnisse fr die Sprechanlsse fr Erwachsene im Vergleich zu einer Anwendung der
Bewertungskriterien durch eine trinationale Bewertergruppe des Goethe-Instituts, des SD und der Universitt
Freiburg/Schweiz.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 24
3 Evaluation der Veranstaltung
Die Teilnehmenden erhielten am Ende der Veranstaltung einen Evaluationsbogen. Sie zogen ein positi-
ves Fazit von der Veranstaltung:
Ein sehr befruchtender Austausch auch ich nehme viele wertvolle Erkenntnisse in meine knftige Ar-beit mit: Das Bild vom armen Lerner hat wieder einmal Konturen bekommen.
Wichtiger als die Ergebnisse ist die Methode der Item-Beurteilung, die an die Unterrichtenden weiter vermittelt werden sollte.
Ich habe sehr vieles dazugelernt und freue mich, die neue B1-Prfung mit Kandidaten durchzufhren.
Ich habe viel gelernt und Anregungen fr meine Arbeit mitgenommen. Die Gruppenarbeit war konstruktiv und die gute, internationale Atmosphre hat mir gefallen.
Herzlichen Dank fr die spannende Tagung, die mir wichtige neue Einsichten gebracht hat.
Nachfolgend die quantitativen Ergebnisse:
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 25
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 26
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 27
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 28
4 Bibliografie
Association of Language Testers in Europe (ALTE) (Hrsg.) (1994), The ALTE Code of practice. ALTE Document 3. Cambridge: University of Cambridge Local Examinations Syndicate.
Association of Language Testers in Europe (ALTE) (Hrsg.) (2007), Minimum standards for establishing quality profiles in ALTE examinations. [Online: http://www.alte.org/attachments/files/minimum_standards.pdf 11.04.2007].
Bachman, Lyle & Palmer, Diana (2010), Language Assessment in Practice. Oxford: Oxford University Press (= Applied Lin-guistics).
Breov, Jana; Breton, Gilles; Noijons, Jos & Szab, Gbor (2011), Relating language examinations to the Common Euro-pean Framework of Reference for Languages: Learning, teaching, assessment (CEFR). Highlights from the Manual. Graz: ECML. [Online: http://www.ecml.at/tabid/277/PublicationID/67/Default.aspx 01.03.2013].
Bolton, Sibylle; Glaboniat, Manuela; Lorenz, Helga; Perlmann-Balme, Michaela & Steiner, Stefanie (2008), Mndlich: Mnd-liche Produktion und Interaktion Deutsch. Illustration der Niveaustufen des Gemeinsamen europischen Referenzrahmens. Berlin: Langenscheidt.
Breton, Gilles, Grego Bolli, Giuliana & Perlmann-Balme, Michaela (2010), All different all equal? Towards cross-language benchmarking using samples of oral production in French, German and Italian. Forum Sprache 4/2010, 5-19.
Cizek, Gregory J. & Bunch, Michael B. (2007), Standard Setting. A guide to establishing and evaluating performance stan-dards on tests. Thousand Oaks, CA: Sage.
Council of Europe (Hrsg.) (2003), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. DGIV/EDU/LANG 5. Strasbourg: Council of Europe.
Council of Europe (Hrsg.) (2005), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. Reading and Listening Items and Tasks: Pilot Samples illustrating the common reference levels in English, French, German, Italian and Spanish. CD-ROM. Strasbourg: Council of Europe. [Online: http://www.coe.int/t/dg4/education/elp/elp-reg/Source/Key_reference/exampleswriting_EN.pdf 01.03.2013].
Council of Europe (Hrsg.) (2009), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. A manual. Strasbourg, Language Policy Division: Council of Europe.
Council of Europe & ALTE (Hrsg.) (2011), Manual for Language Test Development and Examining For use with the CEFR. Strasbourg: Council of Europe.
EALTA (2006), Guidelines for Good Practice in Language Testing and Assessment (Adopted 20th May 2006). [Online: http://www.ealta.eu.org/guidelines.htm 01.03.2013].
Europarat (Hrsg.) (2001), Gemeinsamer europischer Referenzrahmen fr Sprachen: lernen, lehren, beurteilen. Berlin: Langenscheidt.
Figueras, Neus & Noijons, Jos (Hrsg.) (2009), Linking to the CEFR levels: Research perspectives. Arnheim: Cito, EALTA.
Glaboniat, Manuela; Mller, Martin; Rusch, Paul; Schmitz, Helen & Wertenschlag, Lukas (2005), Profile deutsch. A1 C2 (Version 2.0). Berlin: Langenscheidt.
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2013, in Druck,), Zertifikat Deutsch. Deutschprfung fr Jugendliche und Erwachsene. Prfungsziele, Testbeschreibung. Ismaning: Hueber.
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Prfungsziele, Testbeschreibung. Mnchen, Wien: Goethe Institut & SD.
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Trainingsmaterial fr Prfende. Modul Schreiben. Mnchen, Wien: Goethe Institut & SD.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 29
Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Trainingsmaterial fr Prfende. Modul Sprechen. Mnchen, Wien: Goethe Institut & SD.
Kaftandjieva, Felianka (2010), Methods for Setting Cut Scores in Criterionreferenced Achievement Tests. A comparative analysis of six recent methods with an application to tests of reading in EFL. Arnheim: EALTA Cito.
Kantarcolu, Elif & Papageorgiou, Spiros (2011), Benchmarking and standards in language tests. In: O'Sullivan, Barry (Hrsg.) (2011), Language testing. Theories and practices. New York: Palgrave, 94-110.
Karantonis, Ana & Sireci, Stephen G. (2006), The Bookmark Standard Setting Method: A Literature Review. In: Educational Measurement: Issues and Practice 25, 412.
Kecker, Gabriele (2010), Validierung von Sprachprfungen. Die Zuordnung des TestDaF zum Gemeinsamen europischen Referenzrahmen fr Sprachen. Frankfurt: Peter Lang.
Kenyon, Dorry (2013), Standard Setting on Language Tests. In: Chapelle, Carol A. (Hrsg.) (2013): The Encyclopedia of Ap-plied Linguistics. Blackwell, 1-5. [Online: http://onlinelibrary.wiley.com/doi/10.1002/9781405198431.wbeal1113/pdf 23.03.2013].
Krath, Stefany & Meyer-Engling, Bettina (2011/12), Standard Setting: Deutsches Sprachdiplom auf dem Prfstand. In:
Zentralstelle fr das Auslandsschulwesen (Hrsg.) Jahrbuch 2011/2012, Deutsche Auslandsarbeit: Rohstoff Bildung, 115-118. [Online:
http://www.auslandsschulwesen.de/cln_350/nn_2141658/sid_34083B24FB89097D213604577C51A0E9/Auslandss
chulwesen/DieZfA/Publikationen/Jahrbuecher/Ausgaben/Jahrbuch2011__2012,templateId=raw,property=publicationFil
e.pdf/Jahrbuch2011_2012.pdf 01.03.2013].
Porsch, Raphaela; Tesch, Bernd & Kller, Olaf (Hrsg.) (2010), Standardbasierte Testentwicklung und Leistungsmessung. Franzsisch in der Sekundarstufe I. Mnster: Waxmann.
Tannenbaum, Richard J. & Wylie, Caroline E. (2004), Mapping Test Scores onto the Common European Framework: Setting Standards of Language Proficiency on the Test of English as a Foreign Language (TOEFL), the Test of Spoken English (TSE), the Test of Written English (TWE), and the Test of English for International Communication (TOEIC). Princeton, NJ: Educational Testing Service.
Van Hofwegen, Laura (2011), Relating Examinations to the CEFR checks and balances. Vortrag ALTE-Konferenz Krakau.
Weir, Cyril J. (2005), Language Testing and Validation: An Evidence-Based Approach. Basingstoke: Palgrave/ Macmillan.
Weitere Informationen oder Materialien (z.B. Modellstze) zum B1 Zertifikat finden sich auf der Homepage der beiden Her-ausgeber Goethe Institut und SD unter http://www.goethe.de/lrn/prj/pba/bes/gzd/deindex.htm sowie
http://www.osd.at/default.aspx?SIid=32&LAid=1&ARid=351.
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 30
5 Anlagen
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 31
Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 32