Arbeitsbericht.pdf

transcript

Zertifikat B1 Deutschprfung fr Jugendliche und Erwachsene Standard Setting.

Ein Arbeitsbericht

Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 2

ZERTIFIKAT B1: STANDARD SETTING, BENCHMARKING

ERGEBNISSE

Mnchen, 15.16.10.2012


Inhalt

Vorwort

1 Das Projekt Zertifikat B1

2 Arbeitsgruppen zum Standard Setting und Benchmarking

2.1 Lesen, Hren

2.2 Schreiben

2.3 Sprechen

3 Evaluation der Veranstaltung

4 Bibliographie

5 Anlagen

Zertifikat B1 Standard Setting / Benchmarking Programm

Zertifikat B1 Standard Setting / Benchmarking Teilnehmerliste


Vorwort

Am 15. und 16. Oktober 2012 fand in der Zentrale des Goethe-Instituts in Mnchen eine Konferenz zum Standard

Setting und Benchmarking zum neuen Zertifikat B1 statt. Diese neue Prfung wird im Portfolio der beiden Testin-stitutionen Goethe-Institut und sterreichisches Sprachdiplom Deutsch (SD) die bisherigen Prfungen Zertifikat Deutsch (ZD) und Zertifikat Deutsch fr Jugendliche (ZDj) zum 01. August 2013 ablsen.

An der Konferenz haben ausgewiesene Testexpertinnen und -experten, Sprachlehrende sowie Reprsentantinnen

und Reprsentanten von Politik und Bildungsinstitutionen teilgenommen. Insgesamt waren 45 Experten aus neun

europischen Lndern anwesend.

Vertreten waren folgende Institutionen:

Bundesdeutsche anerkennende Einrichtungen:

Bundesamt fr Migration und Flchtlingen (BAMF)

Testentwickler, pdagogische und testmethodische Einrichtungen:

Arbeitskreis Deutsch als Fremdsprache/Deutsch als Zweitsprache in der Schweiz (AKDaF), Association

of Language Testers in Europe (ALTE), Europisches Fremdsprachenzentrum des Europarats, Goethe-

Institut e. V., Institut fr Qualittssicherung im Bildungswesen Berlin (IQB), Instituut voor

Toetsontwikkeling Niederlande (CITO), sterreichisches Sprachdiplom Deutsch, Universitt Frei-

burg/Schweiz,

Hochschulen, Universitten:

Alpen-Adria-Universitt Klagenfurt, Freie Universitt Bozen, Ludwig-Maximilians-Universitt Mnchen,

Universitt Freiburg/Schweiz, Universitt Ljubljana, Universitt St. Gallen, Universitt Udine, Universitt

Wien, Zrcher Hochschule fr Angewandte Wissenschaften

Verlage fr Deutsch als Fremdsprache:

Duden, Hueber Hellas, Hueber, Klett, Langenscheidt

Landesverbnde der Volkshochschulen:

Baden-Wrttemberg, Bayern, Niedersachsen, Saarland, Sachsen-Anhalt, Verband der Schweizerischen

Volkshochschulen, Volkshochschule Wien

Anbieter von Deutschkursen und Prfungszentren:

Deutschkurse bei der Universitt Mnchen e. V., Goethe-Institut Athen, Goethe-Institut Mnchen, Klub-

schulen Schweiz, Lernraum Wien, Lyce Jean Piaget Neuchtel,

sterreich-Institut Budapest, sterreich-Institut Warschau

Das Programm wurde auf der Grundlage der im Manual for Relating Language Examinations to the Common Eu-ropean Framework of Reference for Languages (2009) des Europarats vorgeschlagenen Schritte durchgefhrt.

Das Standard Setting hatte zwei Ziele. Zum einen ging es darum nachzuweisen, dass die Prfungsanforderungen

und die erhobenen Kandidatenleistungen mit der Definition des angestrebten Niveaus im Referenzrahmen kom-patibel sind. Zum zweiten sollte festgestellt werden, wo die Bestehensgrenze gezogen werden muss (cut-off).

Zwei Tage lang wurden die Aufgabenstellungen und Erprobungsergebnisse diskutiert. Die Expertinnen und Exper-

ten in der Arbeitsgruppe Lesen/Hren beurteilten Items, deren Schwierigkeitswerte aus der statistischen Analy-se der Erprobungsrcklufe bekannt waren. In den Arbeitsgruppen Sprechen und Schreiben wurden Teilneh-merleistungen begutachtet, die die Anforderungen der Aufgaben illustrieren. Diese Leistungsbeispiele wurden auf

ihr Niveau hin eingeschtzt.

Die Ergebnisse des Workshops flieen direkt in die weitere Arbeit des Entwicklungsteams ein. An dieser Stelle

bedanken wir uns noch einmal herzlich bei allen Teilnehmenden fr ihre Zeit und das hohe Engagement.


Manuela Glaboniat, SD, Alpen-Adria-Universitt Klagenfurt (Sprechen)

Michaela Perlmann-Balme, Goethe-Institut e. V. (Schreiben und allgemeiner Teil)

Thomas Studer, Universitt Freiburg/Schweiz (Lesen und Hren)


1 Das Projekt Zertifikat B1

Das Zertifikat B1 wurde gemeinschaftlich von den drei folgenden Institutionen entwickelt: dem Goethe-Institut, Zentrale, Bereich 41, der Universitt Freiburg (Schweiz), Bereich Mehrsprachigkeitsforschung und Fremdspra-

chendidaktik, Deutsch als Fremdsprache sowie dem sterreichischen Sprachdiplom Deutsch (SD), Klagen-

furt/Wien.

Eine weltweit durchgefhrte Bedarfs- und Zielgruppenanalyse bildete die Grundlage fr die Konzeption der neuen

Prfung. Unter Hinzuziehung renommierter Expertinnen und Experten begann 2010 die Entwicklung des Zertifi-kats B1 mit der Definition des Prfungsformats und der Aufgabentypen.

Um die neue Sprachprfung auf dem Referenzrahmen zu positionieren, wurde ein zweistufiges Verfahren einge-setzt: zunchst das Expertenurteil als qualitatives und dann die statistische Analyse als quantitatives Verfahren.

Mit einer detaillierten Beschreibung der Prfungsziele und -inhalte wurde ein transparenter Bezug zu den Kann-

Beschreibungen des Referenzrahmens fr die Stufe B1 sichergestellt, der durch Gutachten externer Expertinnen und Experten ergnzt wurde.

2011 begann man mit der weltweiten Validierung des Testmodells, die u. a. zum Ziel hatte, die Brauchbarkeit der

Aufgabentypen zu berprfen. Hierbei wurde besonders auf die Akzeptanz und Praktikabilitt der Aufgaben, den

Zeitbedarf und die Lnge der produzierten Texte geachtet. Durch die statistische Erprobung der Prfungsmodule

lie sich auf die Performanz sowie Schwierigkeit und Trennschrfe der einzelnen Testitem-Entwrfe schlieen.

Im August 2012 wurden der Modellsatz (Erwachsene) und das Handbuch Prfungsziele. Testbeschreibung sowie Wortschatz und Strukturen in einer separaten Publikation im Intranet des Goethe-Instituts verffentlicht (alle in einer vorlufigen Version). Es folgten die Trainingsmaterialien zu den Modulen Sprechen und Schreiben sowie der Modellsatz (Jugendliche).

Bevor die Prfung ab August 2013 in den Echteinsatz geht, fand im Oktober das hier beschriebene Standard

Setting und Benchmarking statt. Auerdem begannen im August 2012 Schulungen von Multiplikatorinnen und

Multiplikatoren bzw. von Bewertenden, die im Echtbetrieb die Teilnehmerleistungen in den Modulen Schreiben und Sprechen bewerten werden.


2 Arbeitsgruppen zum Standard Setting und Benchmarking

2.1 Lesen, Hren

Leitung: Thomas Studer

Assistenz: Naomi Shafer, Eva Wiedenkeller

Teilnehmende: Matthias Buschhaus, Bayerischer Volkshochschulverband e. V.

Renate Faistauer, Universitt Wien

Ina Ferbear, Universitt Ljubljana Karin Fux, Klubschulen Schweiz

Renate Khl-Kuhn, Goethe-Institut e. V., Zentrale, Bereich 42

Rotraud Koll, Landesverband der Volkshochschulen Niedersachsens e. V.

Kathrin Kunkel-Razum, Duden-Verlag

Martina Mrz, Universitt Wien

Osman Osmanoglu, Bundesamt fr Migration und Flchtlinge, Nrnberg

Denise Pochon, Verband der Schweizerischen Volkshochschulen

Chris Punter, sterreichisches Sprachdiplom, Klagenfurt

Robert Saxer, Universitt Klagenfurt

Ursula Schmitz, Goethe-Institut e. V., Zentrale, Bereich 41

Nora Tahy, Hueber-Verlag

Rob Verheyen, CITO Niederlande

Andrea Zank, Zrcher Hochschule fr Angewandte Wissenschaften

Hauptziel der Arbeitsgruppe war es, die Bestehensgrenze der Prfungsmodule Lesen und Hren zu bestimmen. Dazu wurde in einem mehrstufigen Verfahren als kritischer Wert (cut score) ein Leistungsstandard (performance

standard) festgelegt, der ber das letzte, von einer mindestkompetenten B1-Person gerade noch lsbare Item

definiert ist. Vor dieser Festlegung sollte sichergestellt werden, dass die in Form von Aufgaben operationalisierten

Anforderungen der Prfung Zertifikat B1 in den Modulen Lesen und Hren dem angezielten Niveau B1 des Ge-meinsamen europischen Referenzrahmens fr Sprachen (GER) entsprechen.

Bestimmt wurde die Bestehensgrenze mit der Bookmark-Methode. Grundlage dieses testzentrierten, IRT-

basierten Verfahrens ist ein Ordered Item Booklet, in dem die Items nicht nach der Abfolge in der Prfung ange-ordnet sind, sondern nach ihrem statistischen Schwierigkeitswert (scaled measure), und zwar aufsteigend, begin-

nend mit dem leichtesten Item. Die Schwierigkeitswerte wurden mittels Rasch-Analyse der Rcklufe aus der

zweiten Erprobung des Modellsatzes ermittelt (n=206).

Vorgelegt wurden den Teilnehmenden zwei Booklets mit je 30 Items zum Modul Lesen bzw. zum Modul Hren. Jedes Item wurde auf einer separaten Seite dargestellt, auch wenn mehrere Items zu einem Text gehrten. Zustz-

lich zum Item selbst wurden auf jeder Seite weitere Informationen prsentiert, um die Schwierigkeit des Items

besser nachvollziehbar zu machen: die Instruktion zur Aufgabe, die Aufgabensituierung, der Lese- oder Hrtext

und der Lsungsschlssel (ggf. inklusive Distraktoren). Die Jurorinnen und Juroren hatten die Aufgabe zu ent-

scheiden, was ihrer Meinung nach eine knapp gengende B1-Leistung ist. Ihre Entscheidung sollten sie auf zwei

Konzepte sttzen: erstens auf das Konzept einer Person, die hinsichtlich des Niveaus B1 minimal kompetent ist,

und zweitens auf das Konzept der Lsungswahrscheinlichkeit. Beim Konzept der minimal kompetenten Person

mussten sich die Jurorinnen und Juroren eine/n Prfungsteilnehmende/n mit einer Kompetenz am unteren Rand

von B1 vorstellen. Beim Konzept der Lsungswahrscheinlichkeit (response probability; RP) galt es zu przisieren,

was es bedeutet, ein Item zu beherrschen bzw. dieses Item mit relativ hoher Wahrscheinlichkeit korrekt lsen zu

knnen (mastery of an item). Hier wurde, basierend auf der Fachliteratur (s. Bibliographie), ein Wert von RP=0.67

angesetzt. Alternativ, aber bedeutungsquivalent zu diesem numerischen Wert konnten sich die Juroren vorstel-

len, dass die mindestkompetente Person das Item in zwei von drei Fllen richtig lst oder dass zwei von drei min-

destkompetenten Personen das Item korrekt lsen. Auf der Grundlage dieser beiden Konzepte mussten die Juro-

rinnen und Juroren die Item-Booklets Seite fr Seite durcharbeiten, d. h. die Schwierigkeit der Items aus der Sicht

der mindestkompetenten B1-Person nachvollziehen und entscheiden, bei welchem Item die Wahrscheinlichkeit


nicht mehr relativ hoch (also RP < 0.67) ist, dass diese Person das Item korrekt lst. Dieses Item musste durch

Markieren der betreffenden Seite im Item-Booklet bezeichnet werden. Die Markierung steht gleichzeitig auch fr

die Meinung der Jurorinnen und Juroren, dass alle Items, die im Booklet auf den Seiten vor der markierten Seite

stehen, von der mindestkompetenten Person mit einer Wahrscheinlichkeit von RP = 0.67 oder hher korrekt ge-

lst werden.

Die Arbeit vollzog sich in drei Phasen.

Als erste Phase stand das auch fr Fachleute immer wieder notwendige Vertrautmachen mit dem Referenzrahmen im Mittelpunkt. Nachdem ein allgemeines Vertrautmachen besonders mit dem Niveau B1 bereits in der Gesamt-

gruppe vorgenommen worden war, konzentrierte sich die Gruppe Lesen/Hren auf die Deskriptoren mit Rele-vanz fr diese beiden Fertigkeiten. Gearbeitet wurde mit einer Art Zuordnungs-Aufgabe, bei der es darum ging,

das Niveau einer Reihe von Kann-Beschreibungen des Referenzrahmens aus den Einzelskalen zum Lesen und zum Hren zu erkennen. Vorgelegt wurden Kann-Beschreibungen der Niveaus A2, B1 und B2, jedoch ohne Niveau-

Angabe, denn das Erkennen des Niveaus sollte ausschlielich auf Basis von Niveauindikationen in den Deskripto-

ren erfolgen. Als Hilfestellung dienten den Teilnehmenden die Beschreibungen der Niveaubereiche A2, B1 und B2

aus den Skalen Leseverstehen allgemein bzw. Hrverstehen allgemein. Besonders fokussiert und diskutiert wurde bei dieser Arbeitsgruppenaktivitt, mit Blick auf Arbeitsphase drei, der bergang von A2 zu B1.

Im Anschluss an kurze Vorstellungen der Test-Konstrukte Lesen und Hren und Erluterungen zur Umsetzung der

Konstrukte in Aufgaben folgte eine zweite Phase des Vertrautmachens, bei der die Prfungsaufgaben der Module

Lesen und Hren im Vordergrund standen. In dieser Arbeitsphase lsten die Juroren die Aufgaben unter Prfungs-bedingungen und glichen dann ihre Antworten mit dem Lsungsschlssel ab.

Als dritte Phase folgte das eigentliche Standard Setting, bei dem die Item-Booklets fr das Hren und das Lesen

je zweimal durchgearbeitet werden mussten. In Runde 1 beurteilten die Jurorinnen und Juroren die Items in Ein-

zelarbeit und setzten die Markierung im Item-Booklet. Die Ergebnisse dieser 1. Runde wurden registriert, als

Sulendiagramme aufbereitet (vgl. Schaubild 1) und in dieser Form als Input fr die Diskussion verwendet, die im

Anschluss an Runde 1 stattfand. Diskutiert wurde in drei separaten Teilgruppen von jeweils vier bis sechs Jurorin-

nen und Juroren, wobei bei der Zusammensetzung der Diskussionsgruppen darauf geachtet wurde, Teilnehmende

mit weiter auseinander liegenden Bookmarks zusammenzubringen. Ziel dieser Diskussionen war es, die Einzelvo-

ten zu begrnden, d. h. es sollten Argumente fr Entscheidungen ausgetauscht und insbesondere auch Grnde fr

strker divergierende Voten beigebracht und verglichen werden.

Nach der Diskussion in Teilgruppen, in Runde 2, setzten die Jurorinnen und Juroren wieder individuell ihre Markie-

rung im Item-Booklet. Dabei stand es ihnen frei, ihre Markierung aus der 1. Runde zu bernehmen oder diese

unter dem Eindruck der Diskussion neu zu setzen. Die Ergebnisse der 2. Runde wurden ebenfalls registriert, auf-

bereitet und prsentiert (vgl. Schaubild 2). In der Folge wurde auf eine weitere Diskussion in Teilgruppen verzich-

tet, weil die Ergebnisse der 2. Runde im Vergleich zur 1. nher beieinander lagen und weniger extreme Werte

aufwiesen.

Bestehensgrenzen

Der Cut-Score jeder Jurorin bzw. jedes Jurors wird durch den IRT-Schwierigkeitswert des Items angezeigt, auf dem

die Markierung platziert wurde. Der korrespondierende Test-Score, d. h. die eigentliche Bestehensgrenze, liegt

jeweils ein Item tiefer, weil die Jurorinnen und Juroren ja dasjenige Item markiert haben, das eine minimal kom-

petente B1-Person nur mehr mit einer kleineren Wahrscheinlichkeit als 0.67 korrekt lsen kann. Demgegenber

wurde die Bestehensgrenze oben positiv im Sinne eines Leistungsstandards definiert, und zwar so, dass dieser

Standard durch das letzte von der minimal kompetenten B1-Person gerade noch lsbare Item reprsentiert ist.

Auf der Basis dieser berlegungen lsst sich der Test-Score der gesamten Jurorengruppe (total 16 Jurorinnen und

Juroren) durch die statistischen Mae der zentralen Tendenz fr die 16 einzelnen Test-Scores charakterisieren.

Lesen Fr das Modul Lesen wurde die Markierung in Runde 2 des Standard Settings auf Seite 19 (arithmetisches Mit-tel), 18 (Median) bzw. 17 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach

18 (arithmetisches Mittel), 17 (Median) bzw. 16 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten

Jurorengruppe am besten durch das arithmetische Mittel der Test-Scores ausgedrckt wird, wird die


Bestehensgrenze bei 18 angesetzt. Dies entspricht einem Schwierigkeitswert von 53.272 und der Anforderung,

60 % von total 30 Items richtig zu lsen.

Hren Fr das Modul Hren wurde die Markierung in Runde 2 des Standard Settings auf Seite 18 (arithmetisches Mit-tel), 17 (Median) bzw. 19 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach

17 (arithmetisches Mittel), 16 (Median) bzw. 18 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten

Jurorengruppe am besten durch den Modus der Test-Scores ausgedrckt wird, wird die Bestehensgrenze bei 18

angesetzt. Dies entspricht einem Schwierigkeitswert von 57.701 und der Anforderung, 60 % von total 30 Items

richtig zu lsen.


Schaubild 1 zeigt die Ergebnisse fr Lesen und Hren der 1. Runde.

Schaubild 1

Lesen Runde 1

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Seite im Item-Booklet

An

zah

l d

er

Rate

r

Hren Runde 1

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30


An

zah

l d

er

Rate

r


Schaubild 2 zeigt die Ergebnisse fr Lesen und Hren der 2. Runde.

Schaubild 2

Lesen Runde 2

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30


An

zah

l d

er

Rate

r

Hren Runde 2

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30


An

zah

l d

er

Rate

r


2.2 Schreiben

Leitung: Michaela Perlmann-Balme

Assistenz: Christof Arndt

Teilnehmende: Anne-Katrin Behnert, Landesverband der VHS Sachsen-Anhalt

Johanna Bleiker, Pdagogische Hochschule St. Gallen

Eva Fontana, Sprachenzentrum Universitt Freiburg/Schweiz

Linda Fromme, Goethe-Institut e. V., Zentrale, Bereich 41

Gabriele Gippner, Institut zur Qualittsentwicklung im Bildungswesen Berlin

Thomas Holzmann, sterreich-Institut Warschau

Jane Kettner, Volkshochschulverband Baden-Wrttemberg e. V.

Annette Kuppler, Ernst-Klett-Verlag

Peter Lenz, Universitt Freiburg/Schweiz

Nora Peer, sterreich Institut Budapest

Jrg Roche, Ludwig-Maximilians-Universitt Mnchen

Annalisa Scarpa, Langenscheidt-Verlag

Katerina Touraki, Goethe-Institut Athen

Heike Widmer-Behr, Zrcher Hochschule fr Angewandte Wissenschaften

Eva Wolf-Manfre, Goethe-Institut Mnchen

Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der

Aufgaben erhobenen Teilnehmerleistungen im Modul Schreiben mit der Definition des angestrebten Niveaus im Referenzrahmen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.

Zunchst wurden die Teilnehmenden mit Hilfe der Deskriptoren des Referenzrahmens aus Kapitel 4 Korrespon-denz, Schriftliche Interaktion Allgemein, Notizen, Mitteilungen, Formulare, und aus Kapitel 5 Kohrenz und Koh-sion, Wortschatzspektrum, Wortschatzbeherrschung, Grammatische Korrektheit und Beherrschung der Orthogra-phie mit den fr die Fertigkeit Schreiben relevanten Deskriptoren auf dem Niveau B1 sowie den Nachbarniveaus vertraut gemacht. Ein solches Vertrautmachen war in so fern notwendig, als sich die Einstufung allein auf diese

Deskriptoren sttzt und nicht etwa auf Bewertungskriterien zur Prfung.

Anschlieend wurden zwei Vergleichsarbeiten auf dem Niveau B1 aus dem Material des Europarates (Council of

Europe, 2005) herangezogen, um das Leistungsniveau zu verdeutlichen und die Einstufung zu trainieren.

Danach wurden insgesamt 60 Teilnehmerleistungen begutachtet und eingestuft. Zu jedem der drei Teile des Pr-

fungsmoduls Schreiben wurden je zehn Leistungsbeispiele fr Erwachsene und zehn fr Jugendliche bearbeitet. Die sechs Schreibanlsse waren:

Aufgabe 1: Geburtstag (Erwachsene) und Sporttag (Jugendliche)

Aufgabe 2: Persnliche Kontakte und Internet (Erwachsene) und Hausaufgaben aus dem Internet (Ju-gendliche)

Aufgabe 3: Terminabsage (Erwachsene) und Kinobesuch absagen (Jugendliche)

Die Jurorinnen und Juroren entschieden, welche Leistungsbeispiele zum Schreiben auf der Niveaustufe B1 zu

verorten sind bzw. ob das Niveau B1 erreicht wurde.

Die Arbeit vollzog sich in zwei Runden. Die Jurorinnen und Juroren gaben ihre Urteile anonym ab, d. h. jede Jurorin

bzw. jeder Juror hatte eine Nummer. In Runde 1 wurden zu den Aufgaben 1, 2 und 3 jeweils zehn Leistungsbei-

spiele eingestuft. Die Leistungsbeispiele wurden zuerst in Einzelarbeit beurteilt. Grundlage der Beurteilung waren

die Deskriptoren des Referenzrahmens. Es wurde als notwendig empfunden, eine Orientierung zu geben, wie viele Deskriptoren als erfllt gelten mssten, um das Niveau zu erreichen und vorgeschlagen, diese Vorgabe bei 80 %

anzulegen.


Die Ergebnisse dieser 1. Runde wurden aufgezeichnet, die Auswertung dieser Ergebnisse in der Gruppe prsen-

tiert (vgl. Schaubild 3). In zwei separaten Teilgruppen von jeweils sieben bzw. acht Jurorinnen und Juroren wurden

die Einstufungen diskutiert. Ziel dieser Diskussion war es, die Einzelvoten zu begrnden und die Jurorinnen und

Juroren, deren Werte strker vom Rest der Teilgruppe abwichen, zu einer Reflexion zu bringen. Ein Gruppenkon-

sens war nicht erforderlich. Nach Abschluss der Diskussion wurde fr die Leistungsbeispiele der ersten Runde von

jeder Jurorin bzw. jedem Juror einzeln ein zweites Votum abgegeben.

In Runde 2 wurden je zehn weitere Leistungsbeispiele bewertet, wiederum fr die Aufgaben 1, 2 und 3, diesmal

allerdings aus Prfungsstzen fr Jugendliche. Auch erfolgte die Einstufung zunchst in Einzelarbeit, nach Darle-

gung der Ergebnisse erfolgte eine Diskussion in zwei Teilgruppen der Gesamtarbeitsgruppe Schreiben. Die Schaubilder zeigen jeweils, wie viele Personen ein Beispiel als auf B1 liegend bewertet haben. Ein Gruppenkon-

sens war nicht erforderlich. Nach Abschluss der Diskussion wurden fr die Leistungsbeispiele der zweiten Runde

von jedem Juror einzeln ein zweites Votum abgegeben.

Die Schaubilder 3 bis 9 zeigen die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren wie folgt:

0 = unterhalb Niveau B1

1 = Niveau B1 und darber


Schaubild 3

Geburtstag

rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

1 0 1 1 1 1 0 1 1 1 1 80%

2 0 1 0 0 1 0 1 1 0 0 40%

3 0 1 1 0 1 0 1 1 0 1 60%

4 0 1 0 0 1 0 1 1 0 0 40%

5 1 1 1 1 1 0 1 1 0 1 80%

6 0 1 0 0 1 0 1 1 0 0 40%

7 1 1 1 0 1 0 1 1 0 0 60%

8 0 1 0 1 1 0 1 1 0 0 50%

9 0 1 0 1 1 0 1 1 1 1 70%

10 0 1 1 0 1 0 1 0 0 0 40%

11 1 1 1 0 1 0 1 1 1 0 70%

12 0 1 0 0 1 0 1 1 0 1 50%

13 0 1 1 1 1 0 1 1 1 1 80%

14 0 1 1 0 1 0 1 1 0 1 60%

15 0 1 0 0 1 0 1 1 1 0 50%

Ergebnis Aufgabe % 20% 100% 69% 33% 100% 0% 100% 93% 33% 47%

Beispiel

Schaubild 3 zeigt die Ergebnisse fr Aufgabe 1 Geburtstag (1. Runde) vor der Diskussion. Auf der horizontalen Achse befinden sich oben die Beispiele 1 bis 10, unten die erzielten Ergebnisse pro Beispiel.

Auf der vertikalen Achse sind links die 15 Jurorinnen und Juroren aufgelistet, rechts die von den Jurorinnen und

Juroren insgesamt auf B1 eingestuften Beispiele. Die Beispiele 2, 5, 7 und 8 wurden von fast allen Jurorinnen und

Juroren bereinstimmend als klar auf Niveau B1, eingestuft, die Beispiele 1 und 6 wurden von fast allen klar unter

Niveau B1 bewertet. Bei den Beispielen 3, 4, 9 und 10 gab es vor der Diskussion kein eindeutiges Votum.

Schaubild 4

Geburtstag


1 0 1 1 0 1 0 1 1 0 0 50%

2 0 1 0 0 1 0 1 1 0 0 40%

3 0 1 1 0 1 0 1 1 0 0 50%

4 0 1 0 0 1 0 1 1 0 0 40%

5 1 1 1 1 1 0 1 1 0 0 70%

6 0 1 1 0 1 0 1 1 0 0 50%

7 1 1 1 1 1 0 1 1 0 0 70%

8 0 1 0 0 1 0 1 1 0 0 40%

9 0 1 0 1 1 0 1 1 0 0 50%

10 0 1 1 1 1 0 1 0 0 0 50%

11 1 1 1 0 1 0 1 1 0 0 60%

12 0 1 0 0 1 0 1 1 0 0 40%

13 0 1 1 1 1 0 1 1 1 0 70%

14 0 1 1 0 1 0 1 1 0 1 60%

15 0 1 0 0 1 0 1 1 1 0 50%


Beispiel

Schaubild 4 zeigt das Ergebnis fr Aufgabe 1 Geburtstag (Runde 1) nach der Diskussion. Die Diskussion in Teil-gruppen fhrte bei den Beispielen 9 und 10 zu einer strkeren Einheitlichkeit des Votums. In acht der zehn Bei-

spiele wurde eine weitreichende bereinstimmung erzielt.

Es wurde darauf verzichtet, die verbleibenden Abweichungen weiter zu diskutieren.


Schaubild 5

Persnliche Kontakte und Internet


1 1 0 1 1 0 1 1 1 1 0 70%

2 0 1 0 1 0 1 1 1 1 0 60%

3 1 1 0 1 0 1 0 1 1 1 70%

4 1 1 0 1 0 1 0 0 1 1 60%

5 1 1 0 1 0 1 0 0 1 1 60%

6 0 1 0 1 0 1 1 0 1 1 60%

7 1 1 0 1 0 1 0 1 1 1 70%

8 1 1 0 1 0 1 1 0 1 1 70%

9 1 1 1 1 0 1 0 0 0 1 60%

10 0 1 0 1 0 1 0 0 1 1 50%

11 1 1 0 1 0 1 0 0 1 1 60%

12 1 1 0 1 0 0 1 0 1 1 60%

13 1 1 0 1 0 1 0 0 1 0 50%

14 1 1 1 1 0 0 1 0 1 1 70%

15 0 1 0 1 0 1 0 0 1 0 40%


Beispiel

Schaubild 5 zeigt die Ergebnisse fr Aufgabe 2 Persnliche Kontakte und Internet (1. Runde) nach der Diskussi-on. In acht der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

Schaubild 6

Terminabsage


1 1 0 1 0 1 0 0 1 1 1 60%

2 1 0 1 0 1 0 0 1 1 1 60%

3 1 0 1 1 0 1 0 1 1 1 70%

4 1 0 1 0 1 1 0 1 1 1 70%

5 1 0 1 0 1 1 0 1 1 1 70%

6 1 0 0 0 1 1 0 1 1 1 60%

7 1 0 1 0 1 1 0 1 1 1 70%

8 1 0 1 1 0 0 0 1 0 1 50%

9 1 0 1 1 1 1 0 1 1 1 80%

10 1 0 1 0 1 1 0 1 1 1 70%

11 1 0 1 0 1 1 0 1 1 1 70%

12 1 0 1 0 1 0 1 1 0 1 60%

13 1 0 1 0 1 0 0 1 0 1 50%

14 1 0 1 0 0 1 0 0 1 1 50%

15 1 0 1 0 0 0 0 0 1 1 40%


Beispiel

Schaubild 6 zeigt die Ergebnisse fr Aufgabe 3 Terminabsage (1. Runde) nach der Diskussion. Die Beispiele 1, 3, 5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele

4 und 7 klar unter Niveau B1. Die Diskussion in Teilgruppen fhrte zu einer strkeren Einheitlichkeit des Votums.

In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

Schaubild 7


Sporttag


1 1 1 1 0 1 0 0 0 0 1 50%

2 1 1 1 0 1 0 0 0 0 1 50%

3 1 1 1 0 1 0 0 0 0 1 50%

4 1 1 0 0 1 0 0 0 0 1 40%

5 1 1 1 0 1 1 0 0 0 1 60%

6 1 1 1 0 1 0 0 0 0 1 50%

7 1 1 1 0 1 1 0 1 1 1 80%

8 1 1 1 0 1 0 0 0 0 1 50%

9 1 1 1 1 1 1 0 0 1 1 80%

10 1 1 1 0 1 1 0 0 0 1 60%

11 1 1 1 0 1 0 0 0 0 1 50%

12 1 1 1 0 1 0 0 0 0 1 50%

13 1 1 1 0 1 1 0 0 0 1 60%

14 1 1 1 0 1 0 0 0 0 1 50%

15 1 1 1 0 1 0 0 0 0 1 50%

Ergebnis Aufgabe

% 100% 100% 93% 7% 100% 33% 0% 7% 13% 100%

Beispiel

Schaubild 7 zeigt die Ergebnisse fr Aufgabe 1 Sporttag (2. Runde) nach der Diskussion. Die Beispiele 1, 2, 5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele 4, 7,

8 und 9 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

Schaubild 8

Hausaufgaben aus dem Internet


1 1 0 1 0 1 0 1 1 1 0 60%

2 1 0 1 0 1 0 0 0 1 0 40%

3 1 0 1 0 1 0 1 0 1 0 50%

4 1 0 1 0 1 1 0 0 1 0 50%

5 1 0 1 0 1 0 1 0 1 0 50%

6 1 0 1 0 1 0 0 1 0 0 40%

7 1 0 1 0 1 0 1 0 1 0 50%

8 1 0 1 0 1 0 0 0 1 0 40%

9 1 0 1 1 1 1 1 0 1 1 80%

10 1 0 1 0 1 0 1 0 1 0 50%

11 1 0 1 0 1 0 0 0 1 0 40%

12 1 0 1 0 1 0 0 0 1 0 40%

13 1 0 1 0 1 0 1 0 1 0 50%

14 1 0 1 0 1 0 0 0 1 0 40%

15 1 0 1 0 1 0 0 0 1 0 40%

Ergebnis Aufgabe

% 100% 0% 100% 7% 100% 13% 47% 13% 93% 7%

Beispiel

Schaubild 8 zeigt die Ergebnisse fr Aufgabe 2 Hausaufgaben aus dem Internet (2. Runde) nach der Diskussion. Die Beispiele 1, 5 und 9 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1

bewertet, Beispiel 2 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

Schaubild 9


Kinobesuch absagen


1 0 1 0 1 1 1 1 1 0 1 70%

2 0 1 0 0 1 1 1 1 0 1 60%

3 0 1 0 1 1 1 1 1 1 1 80%

4 0 0 0 1 1 1 1 1 0 1 60%

5 0 1 0 1 1 1 1 1 0 1 70%

6 0 1 0 1 1 1 1 1 0 1 70%

7 0 1 0 1 0 1 1 1 0 1 60%

8 0 1 0 0 1 1 1 1 0 1 60%

9 0 1 0 1 1 1 0 1 1 1 70%

10 0 1 0 0 1 1 1 1 0 1 60%

11 0 1 0 1 1 1 1 1 0 1 70%

12 0 1 0 0 1 1 1 1 0 1 60%

13 0 1 0 0 1 1 1 1 0 1 60%

14 0 1 0 1 1 1 1 1 0 1 70%

15

Ergebnis Aufgabe

% 0% 93% 0% 64% 93% 100% 93% 100% 14% 100%

Beispiel

Schaubild 9 zeigt die Ergebnisse fr Aufgabe 3 Kinobesuch absagen (2. Runde) nach der Diskussion. Die Grup-pendiskussion fhrte bei fnf Beispielen nach einer kurzen Diskussion bereits zu totaler bereinstimmung, bei

weiteren drei Beispielen zu nur einem abweichenden Votum. In acht der zehn Beispiele wurde somit eine weitrei-

chende bereinstimmung erzielt.


Schaubild 10

Beispiel Ergebnis des

Standard Settings

Niveau B1

Ergebnis des

Entwicklerteams

Niveau B1

1/1 Evgenyi nein

20% der Gruppe

ja

1/2 Polina ja

100% der Gruppe

ja

1/6 Jorge nein

0% der Gruppe

nein

1/8 Boris ja

93% der Gruppe

ja

1/3 j Anja ja

93% der Gruppe

ja

2/2 Dalila ja

93% der Gruppe

ja

2/3 Diana nein

20% der Gruppe

nein

2/4 Jean ja

100% der Gruppe

ja

2/5 Tessa nein

0% der Gruppe

nein

2/5 j Anton ja

100% der Gruppe

ja

3/2 Hiromi nein

0% der Gruppe

nein

3/3 j Jaroslawa

nein

0% der Gruppe

nein

3/7 Tzvetan nein

7% der Gruppe

nein

3/9 Mirte ja

80% der Gruppe

ja

Schaubild 10 zeigt die Ergebnisse zu 11 ausgewhlten Leistungsbeispielen zu den Schreibanlssen aus dem

Modellsatz fr Erwachsene und 3 Leistungsbeispielen (mit dem Zusatz j) zu den Schreibanlssen aus dem Mo-dellsatz fr Jugendliche.

Das Schaubild geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarking und dem Bewertungs-

raster ein. Es zeigt die Ergebnisse im Vergleich zu einer Anwendung der Bewertungskriterien durch eine

trinationale Gruppe von Bewertenden des Goethe-Instituts, des SD und der Universitt Freiburg/Schweiz. Die

linke Spalte enthlt die Spezifizierung der Beispiele. Die mittlere Spalte enthlt sowohl die Prozentwerte des

Benchmarkings aus den Schaubildern 3 bis 9 als auch als ja- oder nein-Entscheidung. In der rechten Spalte finden sich die Ergebnisse, die durch den Einsatz der prfungsspezifischen Bewertungskriterien seitens des

trinationalen Entwicklungsteams erzielt wurden als ja- oder nein-Entscheidung. Bei 14 Beispielen gab es nur eine Abweichung: Das Beispiel 1/1 Evgenyi wurde durch die Gruppe der Seminarteilnehmenden deutlich strenger

bewertet als durch die Testentwicklerinnen und -entwickler.


2.3 Sprechen

Leitung: Manuela Glaboniat

Assistenz: Helga Lorenz

Teilnehmende: Kirsten Brcker, Landesverband der VHS Sachsen-Anhalt

Andr Feller, Prfungszentrum Neuchatel / Lyce Jean Piaget

Christina Gregor, Goethe-Institut e. V., Zentrale, Bereich 41

Nicola Kraml, Volkshochschule Wien, DaF

Michael Krger, Deutschkurse bei der Universitt Mnchen e. V.

Sonja Kuri, Universitt Udine (I)

Anton Nf, Prfungszentrum Neuchatel / Lyce Jean Piaget

Anne Pritchard-Smith, sterreich-Institut

Helen Schmitz, Langenscheidt-Verlag

Susanna Slivensky, Europisches Fremdsprachenzentrum des Europarats

Irmingard Staudigel, Bayerischer Volkshochschulverband e. V.

Claudia Wallner, Hueber-Verlag sterreich

Lukas Wertenschlag, Universitt Freiburg (Schweiz)

Brigitte Widmann, Freie Universitt Bozen (I)

Bettina Wohlgemuth-Fekonja, sterreichisches Sprachdiplom

Heiner Zietz, Verband der Volkshochschulen im Saarland

Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der

Aufgaben erhobenen Teilnehmerleistungen im Modul Sprechen mit der Definition des angestrebten Niveaus im Gemeinsamen europischen Referenzrahmen fr Sprachen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.

Methodische Grundlage hierfr war das im Manual for relating Language Examinations to the Common European Framework of Reference (CEFR) beschriebene dreistufige Vorgehen:

Vertrautmachen mit den Deskriptoren Mndliche Interaktion allgemein sowie mit der Tabelle 3 Qualitative Aspekte des mndlichen Sprachgebrauchs gem dem Gemeinsamen europischen Referenzrahmen.

Vorgabe von je einem kalibrierten Beispiel zur Produktion und zur Interaktion, die im Auftrag des Europarats von Jurorinnen und Juroren eingestuft worden waren (Bolton et al., 2008).

Einstufung der Kandidatenleistungen nach Vertrautmachen mit der Aufgabenstellung.

Bewertet wurden insgesamt 22 Kandidatenleistungen, davon jeweils 11 fr die Produktion und 11 fr die Interak-

tion. Die gezeigten mndlichen Kandidatenleistungen im Zertifikat B1 waren in der Zentrale des Goethe-Instituts und an der Alpen-Adria-Universitt Klagenfurt aufgenommen worden. Es handelte sich um Teilnehmende aus

Deutschkursen am Goethe-Institut Mnchen und der Universitt Klagenfurt sowie um Schlerinnen und Schler

der Mittelschule an der Fhrichstrae Mnchen.

Eingangs wurde wie in der Gruppe Schreiben klargestellt, dass es beim Benchmarking nicht um eine detail-lierte Bewertung der Beispiele, sondern vorrangig um die Identifikation des Niveaus bzw. die Ermittlung der

Bestehensgrenze geht.

Die Sprechanlsse fr die 22 Leistungsbeispiele in der Interaktion (Aufgabe 1) und Produktion (Aufgabe 2) waren:

Aufgabe 1: Krankenhausbesuch planen

Aufgabe 2: Brauchen Kinder Mobiltelefone? und Sehen Kinder zu viel fern?

Die Jurorinnen und Juroren entschieden, welche der Leistungsbeispiele zum Sprechen auf der Niveaustufe B1 zu

verorten sind bzw. in welchen das Niveau B1 nicht erreicht wurde (unter B1). Zustzlich wurde im Bereich B1 zwischen den Kategorien gerade noch B1 und B1 und ber B1 unterschieden. Diese feinere Differenzierung dient lediglich der Orientierung bei der Erstellung der Trainingsmaterialien; fr den eigentlichen Benchmarking-

Prozess ist diese Unterteilung nicht relevant und wird daher in den folgenden Schaubildern auch nicht eigens

dargestellt.


Die Urteile der Jurorinnen und Juroren erfolgten in Stationen und wurden anonym abgegeben, d. h. jede Jurorin

bzw. jeder Juror hatte eine Nummer.

1) Die Jurorinnen und Juroren nahmen zunchst jede/r fr sich eine globale und anschlieend eine analyti-sche Einstufung auf Basis der Tabelle 3 (GER) vor.

2) Das Ergebnis der globalen Einstufung wurde bekannt gemacht. 3) Es erfolgte eine Diskussion ber die Abweichungen. 4) Nach der Diskussion erfolgte eine erneute Einstufung.

Aufgrund der groen bereinstimmung bei den Leistungsbeispielen beschrnkte sich die Diskussion auf die Bei-

spiele 2, 3, 4, 5 und 10 in der Interaktion und 3, 6 und 8 bei der Produktion.

Bestehensgrenze

Bei beiden Aufgaben wird die Bestehensgrenze durch Anwendung der Deskriptoren auf diese Beispiele ermittelt.

Schaubild 11 und 12 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der ersten Runde sowohl in

der Interaktion als auch in der Produktion. Die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren stellt sich wie folgt dar:

0 = unterhalb Niveau B1

1 = Niveau B1

Schaubild 11


Schaubild 11 zeigt die Ergebnisse zur Interaktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 2, 7, 9

und 11 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bewertet. Beispiel 8

wurde mit 6%, die fr B1 waren, sehr klar (also zu 94%) unter Niveau B1 (8) bewertet. Bei den Beispielen 3, 4 und

6 gab es jeweils eine/n bzw. zwei von 16 Jurorinnen und Juroren, die diese Leistungen unter dem Niveau B1 be-

werteten. Das Beispiel 5 ist mit 31% eher unter B1 anzusiedeln. Viel Diskussionsbedarf gab es bei Beispiel 10,

bei dem genau 50% fr Niveau B1 und 50% fr unter Niveau B1 stimmten.

Schaubild 12

Schaubild 12 zeigt die Ergebnisse zur Produktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 4, 5,

7, 9 und 10 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bzw. klar unter

Niveau B1 (6 und 8) bewertet. Bei den Beispielen 2, 3 und 11 gab es jeweils zwei bzw. drei von 16 Jurorinnen und

Juroren, die diese Leistungen unter dem Niveau B1 bewerteten.

Die Schaubilder 13 und 14 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der zweiten Runde.

Schaubild 13


Schaubild 14

Die Schaubilder 13 und 14 zur Runde 2 zeigen, dass die Bewertungen kaum gendert wurden. Es kam lediglich

zu minimalen Verschiebungen, wie z. B. bei Beispiel 3 in der Interaktion, bei dem in beiden Fllen zwei Teilneh-

mende fr unter Niveau B1 stimmten, allerdings waren es in Runde 1 andere Jurorinnen und Juroren als in Run-de 2.

Schaubild 15

Beispiel INTERAKTION

Ergebnis des Stan-

dard Settings

Niveau B1?

INTERAKTION

Ergebnis des Entwick-

lerteams

Niveau B1?

PRODUKTION

Ergebnis des Standard

Settings

Niveau B1?

PRODUKTION

Ergebnis des

Entwicklerteams

Niveau B1?

Maristela Ja

100%

Ja Ja

100%

Ja

Lorenzo Ja

100%

Ja

Ja

100%

Ja

Pia Ja

88%

Ja

Ja

88%

Ja

Siham Ja

94%

Ja

Ja

100%

Ja

Marsela (j) Nein

31%

Ja Nein

31%

Nein

Aven (j) Ja

94%

Ja

Ja

88%

Ja

Kristina Ja

100%

Ja

Ja

100%

Ja

Filippos Nein

6%

Nein Nein

13%

Nein

Susannah Ja

100%

Ja Ja

100%

Ja

Alessia Ja

50%

Ja Ja

81%

Ja

Philipp Ja

100%

Ja Ja

100%

Ja


Schaubild 15 geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarkings und dem Bewertungs-

raster ein. Es zeigt die Ergebnisse fr die Sprechanlsse fr Erwachsene im Vergleich zu einer Anwendung der

Bewertungskriterien durch eine trinationale Bewertergruppe des Goethe-Instituts, des SD und der Universitt

Freiburg/Schweiz.


3 Evaluation der Veranstaltung

Die Teilnehmenden erhielten am Ende der Veranstaltung einen Evaluationsbogen. Sie zogen ein positi-

ves Fazit von der Veranstaltung:

Ein sehr befruchtender Austausch auch ich nehme viele wertvolle Erkenntnisse in meine knftige Ar-beit mit: Das Bild vom armen Lerner hat wieder einmal Konturen bekommen.

Wichtiger als die Ergebnisse ist die Methode der Item-Beurteilung, die an die Unterrichtenden weiter vermittelt werden sollte.

Ich habe sehr vieles dazugelernt und freue mich, die neue B1-Prfung mit Kandidaten durchzufhren.

Ich habe viel gelernt und Anregungen fr meine Arbeit mitgenommen. Die Gruppenarbeit war konstruktiv und die gute, internationale Atmosphre hat mir gefallen.

Herzlichen Dank fr die spannende Tagung, die mir wichtige neue Einsichten gebracht hat.

Nachfolgend die quantitativen Ergebnisse:


4 Bibliografie

Association of Language Testers in Europe (ALTE) (Hrsg.) (1994), The ALTE Code of practice. ALTE Document 3. Cambridge: University of Cambridge Local Examinations Syndicate.

Association of Language Testers in Europe (ALTE) (Hrsg.) (2007), Minimum standards for establishing quality profiles in ALTE examinations. [Online: http://www.alte.org/attachments/files/minimum_standards.pdf 11.04.2007].

Bachman, Lyle & Palmer, Diana (2010), Language Assessment in Practice. Oxford: Oxford University Press (= Applied Lin-guistics).

Breov, Jana; Breton, Gilles; Noijons, Jos & Szab, Gbor (2011), Relating language examinations to the Common Euro-pean Framework of Reference for Languages: Learning, teaching, assessment (CEFR). Highlights from the Manual. Graz: ECML. [Online: http://www.ecml.at/tabid/277/PublicationID/67/Default.aspx 01.03.2013].

Bolton, Sibylle; Glaboniat, Manuela; Lorenz, Helga; Perlmann-Balme, Michaela & Steiner, Stefanie (2008), Mndlich: Mnd-liche Produktion und Interaktion Deutsch. Illustration der Niveaustufen des Gemeinsamen europischen Referenzrahmens. Berlin: Langenscheidt.

Breton, Gilles, Grego Bolli, Giuliana & Perlmann-Balme, Michaela (2010), All different all equal? Towards cross-language benchmarking using samples of oral production in French, German and Italian. Forum Sprache 4/2010, 5-19.

Cizek, Gregory J. & Bunch, Michael B. (2007), Standard Setting. A guide to establishing and evaluating performance stan-dards on tests. Thousand Oaks, CA: Sage.

Council of Europe (Hrsg.) (2003), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. DGIV/EDU/LANG 5. Strasbourg: Council of Europe.

Council of Europe (Hrsg.) (2005), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. Reading and Listening Items and Tasks: Pilot Samples illustrating the common reference levels in English, French, German, Italian and Spanish. CD-ROM. Strasbourg: Council of Europe. [Online: http://www.coe.int/t/dg4/education/elp/elp-reg/Source/Key_reference/exampleswriting_EN.pdf 01.03.2013].

Council of Europe (Hrsg.) (2009), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. A manual. Strasbourg, Language Policy Division: Council of Europe.

Council of Europe & ALTE (Hrsg.) (2011), Manual for Language Test Development and Examining For use with the CEFR. Strasbourg: Council of Europe.

EALTA (2006), Guidelines for Good Practice in Language Testing and Assessment (Adopted 20th May 2006). [Online: http://www.ealta.eu.org/guidelines.htm 01.03.2013].

Europarat (Hrsg.) (2001), Gemeinsamer europischer Referenzrahmen fr Sprachen: lernen, lehren, beurteilen. Berlin: Langenscheidt.

Figueras, Neus & Noijons, Jos (Hrsg.) (2009), Linking to the CEFR levels: Research perspectives. Arnheim: Cito, EALTA.

Glaboniat, Manuela; Mller, Martin; Rusch, Paul; Schmitz, Helen & Wertenschlag, Lukas (2005), Profile deutsch. A1 C2 (Version 2.0). Berlin: Langenscheidt.

Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2013, in Druck,), Zertifikat Deutsch. Deutschprfung fr Jugendliche und Erwachsene. Prfungsziele, Testbeschreibung. Ismaning: Hueber.

Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Prfungsziele, Testbeschreibung. Mnchen, Wien: Goethe Institut & SD.

Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Trainingsmaterial fr Prfende. Modul Schreiben. Mnchen, Wien: Goethe Institut & SD.


Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Trainingsmaterial fr Prfende. Modul Sprechen. Mnchen, Wien: Goethe Institut & SD.

Kaftandjieva, Felianka (2010), Methods for Setting Cut Scores in Criterionreferenced Achievement Tests. A comparative analysis of six recent methods with an application to tests of reading in EFL. Arnheim: EALTA Cito.

Kantarcolu, Elif & Papageorgiou, Spiros (2011), Benchmarking and standards in language tests. In: O'Sullivan, Barry (Hrsg.) (2011), Language testing. Theories and practices. New York: Palgrave, 94-110.

Karantonis, Ana & Sireci, Stephen G. (2006), The Bookmark Standard Setting Method: A Literature Review. In: Educational Measurement: Issues and Practice 25, 412.

Kecker, Gabriele (2010), Validierung von Sprachprfungen. Die Zuordnung des TestDaF zum Gemeinsamen europischen Referenzrahmen fr Sprachen. Frankfurt: Peter Lang.

Kenyon, Dorry (2013), Standard Setting on Language Tests. In: Chapelle, Carol A. (Hrsg.) (2013): The Encyclopedia of Ap-plied Linguistics. Blackwell, 1-5. [Online: http://onlinelibrary.wiley.com/doi/10.1002/9781405198431.wbeal1113/pdf 23.03.2013].

Krath, Stefany & Meyer-Engling, Bettina (2011/12), Standard Setting: Deutsches Sprachdiplom auf dem Prfstand. In:

Zentralstelle fr das Auslandsschulwesen (Hrsg.) Jahrbuch 2011/2012, Deutsche Auslandsarbeit: Rohstoff Bildung, 115-118. [Online:

http://www.auslandsschulwesen.de/cln_350/nn_2141658/sid_34083B24FB89097D213604577C51A0E9/Auslandss

chulwesen/DieZfA/Publikationen/Jahrbuecher/Ausgaben/Jahrbuch2011__2012,templateId=raw,property=publicationFil

e.pdf/Jahrbuch2011_2012.pdf 01.03.2013].

Porsch, Raphaela; Tesch, Bernd & Kller, Olaf (Hrsg.) (2010), Standardbasierte Testentwicklung und Leistungsmessung. Franzsisch in der Sekundarstufe I. Mnster: Waxmann.

Tannenbaum, Richard J. & Wylie, Caroline E. (2004), Mapping Test Scores onto the Common European Framework: Setting Standards of Language Proficiency on the Test of English as a Foreign Language (TOEFL), the Test of Spoken English (TSE), the Test of Written English (TWE), and the Test of English for International Communication (TOEIC). Princeton, NJ: Educational Testing Service.

Van Hofwegen, Laura (2011), Relating Examinations to the CEFR checks and balances. Vortrag ALTE-Konferenz Krakau.

Weir, Cyril J. (2005), Language Testing and Validation: An Evidence-Based Approach. Basingstoke: Palgrave/ Macmillan.

Weitere Informationen oder Materialien (z.B. Modellstze) zum B1 Zertifikat finden sich auf der Homepage der beiden Her-ausgeber Goethe Institut und SD unter http://www.goethe.de/lrn/prj/pba/bes/gzd/deindex.htm sowie

http://www.osd.at/default.aspx?SIid=32&LAid=1&ARid=351.


5 Anlagen

Arbeitsbericht.pdf

Documents