+ All Categories
Home > Documents > Arbeitsbericht.pdf

Arbeitsbericht.pdf

Date post: 08-Nov-2015
Category:
Upload: aiglecity-oukassou
View: 13 times
Download: 0 times
Share this document with a friend
32
Zertifikat B1 Deutschprüfung für Jugendliche und Erwachsene Standard Setting. Ein Arbeitsbericht
Transcript
  • Zertifikat B1 Deutschprfung fr Jugendliche und Erwachsene Standard Setting.

    Ein Arbeitsbericht

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 2

    ZERTIFIKAT B1: STANDARD SETTING, BENCHMARKING

    ERGEBNISSE

    Mnchen, 15.16.10.2012

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 3

    Inhalt

    Vorwort

    1 Das Projekt Zertifikat B1

    2 Arbeitsgruppen zum Standard Setting und Benchmarking

    2.1 Lesen, Hren

    2.2 Schreiben

    2.3 Sprechen

    3 Evaluation der Veranstaltung

    4 Bibliographie

    5 Anlagen

    Zertifikat B1 Standard Setting / Benchmarking Programm

    Zertifikat B1 Standard Setting / Benchmarking Teilnehmerliste

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 4

    Vorwort

    Am 15. und 16. Oktober 2012 fand in der Zentrale des Goethe-Instituts in Mnchen eine Konferenz zum Standard

    Setting und Benchmarking zum neuen Zertifikat B1 statt. Diese neue Prfung wird im Portfolio der beiden Testin-stitutionen Goethe-Institut und sterreichisches Sprachdiplom Deutsch (SD) die bisherigen Prfungen Zertifikat Deutsch (ZD) und Zertifikat Deutsch fr Jugendliche (ZDj) zum 01. August 2013 ablsen.

    An der Konferenz haben ausgewiesene Testexpertinnen und -experten, Sprachlehrende sowie Reprsentantinnen

    und Reprsentanten von Politik und Bildungsinstitutionen teilgenommen. Insgesamt waren 45 Experten aus neun

    europischen Lndern anwesend.

    Vertreten waren folgende Institutionen:

    Bundesdeutsche anerkennende Einrichtungen:

    Bundesamt fr Migration und Flchtlingen (BAMF)

    Testentwickler, pdagogische und testmethodische Einrichtungen:

    Arbeitskreis Deutsch als Fremdsprache/Deutsch als Zweitsprache in der Schweiz (AKDaF), Association

    of Language Testers in Europe (ALTE), Europisches Fremdsprachenzentrum des Europarats, Goethe-

    Institut e. V., Institut fr Qualittssicherung im Bildungswesen Berlin (IQB), Instituut voor

    Toetsontwikkeling Niederlande (CITO), sterreichisches Sprachdiplom Deutsch, Universitt Frei-

    burg/Schweiz,

    Hochschulen, Universitten:

    Alpen-Adria-Universitt Klagenfurt, Freie Universitt Bozen, Ludwig-Maximilians-Universitt Mnchen,

    Universitt Freiburg/Schweiz, Universitt Ljubljana, Universitt St. Gallen, Universitt Udine, Universitt

    Wien, Zrcher Hochschule fr Angewandte Wissenschaften

    Verlage fr Deutsch als Fremdsprache:

    Duden, Hueber Hellas, Hueber, Klett, Langenscheidt

    Landesverbnde der Volkshochschulen:

    Baden-Wrttemberg, Bayern, Niedersachsen, Saarland, Sachsen-Anhalt, Verband der Schweizerischen

    Volkshochschulen, Volkshochschule Wien

    Anbieter von Deutschkursen und Prfungszentren:

    Deutschkurse bei der Universitt Mnchen e. V., Goethe-Institut Athen, Goethe-Institut Mnchen, Klub-

    schulen Schweiz, Lernraum Wien, Lyce Jean Piaget Neuchtel,

    sterreich-Institut Budapest, sterreich-Institut Warschau

    Das Programm wurde auf der Grundlage der im Manual for Relating Language Examinations to the Common Eu-ropean Framework of Reference for Languages (2009) des Europarats vorgeschlagenen Schritte durchgefhrt.

    Das Standard Setting hatte zwei Ziele. Zum einen ging es darum nachzuweisen, dass die Prfungsanforderungen

    und die erhobenen Kandidatenleistungen mit der Definition des angestrebten Niveaus im Referenzrahmen kom-patibel sind. Zum zweiten sollte festgestellt werden, wo die Bestehensgrenze gezogen werden muss (cut-off).

    Zwei Tage lang wurden die Aufgabenstellungen und Erprobungsergebnisse diskutiert. Die Expertinnen und Exper-

    ten in der Arbeitsgruppe Lesen/Hren beurteilten Items, deren Schwierigkeitswerte aus der statistischen Analy-se der Erprobungsrcklufe bekannt waren. In den Arbeitsgruppen Sprechen und Schreiben wurden Teilneh-merleistungen begutachtet, die die Anforderungen der Aufgaben illustrieren. Diese Leistungsbeispiele wurden auf

    ihr Niveau hin eingeschtzt.

    Die Ergebnisse des Workshops flieen direkt in die weitere Arbeit des Entwicklungsteams ein. An dieser Stelle

    bedanken wir uns noch einmal herzlich bei allen Teilnehmenden fr ihre Zeit und das hohe Engagement.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 5

    Manuela Glaboniat, SD, Alpen-Adria-Universitt Klagenfurt (Sprechen)

    Michaela Perlmann-Balme, Goethe-Institut e. V. (Schreiben und allgemeiner Teil)

    Thomas Studer, Universitt Freiburg/Schweiz (Lesen und Hren)

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 6

    1 Das Projekt Zertifikat B1

    Das Zertifikat B1 wurde gemeinschaftlich von den drei folgenden Institutionen entwickelt: dem Goethe-Institut, Zentrale, Bereich 41, der Universitt Freiburg (Schweiz), Bereich Mehrsprachigkeitsforschung und Fremdspra-

    chendidaktik, Deutsch als Fremdsprache sowie dem sterreichischen Sprachdiplom Deutsch (SD), Klagen-

    furt/Wien.

    Eine weltweit durchgefhrte Bedarfs- und Zielgruppenanalyse bildete die Grundlage fr die Konzeption der neuen

    Prfung. Unter Hinzuziehung renommierter Expertinnen und Experten begann 2010 die Entwicklung des Zertifi-kats B1 mit der Definition des Prfungsformats und der Aufgabentypen.

    Um die neue Sprachprfung auf dem Referenzrahmen zu positionieren, wurde ein zweistufiges Verfahren einge-setzt: zunchst das Expertenurteil als qualitatives und dann die statistische Analyse als quantitatives Verfahren.

    Mit einer detaillierten Beschreibung der Prfungsziele und -inhalte wurde ein transparenter Bezug zu den Kann-

    Beschreibungen des Referenzrahmens fr die Stufe B1 sichergestellt, der durch Gutachten externer Expertinnen und Experten ergnzt wurde.

    2011 begann man mit der weltweiten Validierung des Testmodells, die u. a. zum Ziel hatte, die Brauchbarkeit der

    Aufgabentypen zu berprfen. Hierbei wurde besonders auf die Akzeptanz und Praktikabilitt der Aufgaben, den

    Zeitbedarf und die Lnge der produzierten Texte geachtet. Durch die statistische Erprobung der Prfungsmodule

    lie sich auf die Performanz sowie Schwierigkeit und Trennschrfe der einzelnen Testitem-Entwrfe schlieen.

    Im August 2012 wurden der Modellsatz (Erwachsene) und das Handbuch Prfungsziele. Testbeschreibung sowie Wortschatz und Strukturen in einer separaten Publikation im Intranet des Goethe-Instituts verffentlicht (alle in einer vorlufigen Version). Es folgten die Trainingsmaterialien zu den Modulen Sprechen und Schreiben sowie der Modellsatz (Jugendliche).

    Bevor die Prfung ab August 2013 in den Echteinsatz geht, fand im Oktober das hier beschriebene Standard

    Setting und Benchmarking statt. Auerdem begannen im August 2012 Schulungen von Multiplikatorinnen und

    Multiplikatoren bzw. von Bewertenden, die im Echtbetrieb die Teilnehmerleistungen in den Modulen Schreiben und Sprechen bewerten werden.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 7

    2 Arbeitsgruppen zum Standard Setting und Benchmarking

    2.1 Lesen, Hren

    Leitung: Thomas Studer

    Assistenz: Naomi Shafer, Eva Wiedenkeller

    Teilnehmende: Matthias Buschhaus, Bayerischer Volkshochschulverband e. V.

    Renate Faistauer, Universitt Wien

    Ina Ferbear, Universitt Ljubljana Karin Fux, Klubschulen Schweiz

    Renate Khl-Kuhn, Goethe-Institut e. V., Zentrale, Bereich 42

    Rotraud Koll, Landesverband der Volkshochschulen Niedersachsens e. V.

    Kathrin Kunkel-Razum, Duden-Verlag

    Martina Mrz, Universitt Wien

    Osman Osmanoglu, Bundesamt fr Migration und Flchtlinge, Nrnberg

    Denise Pochon, Verband der Schweizerischen Volkshochschulen

    Chris Punter, sterreichisches Sprachdiplom, Klagenfurt

    Robert Saxer, Universitt Klagenfurt

    Ursula Schmitz, Goethe-Institut e. V., Zentrale, Bereich 41

    Nora Tahy, Hueber-Verlag

    Rob Verheyen, CITO Niederlande

    Andrea Zank, Zrcher Hochschule fr Angewandte Wissenschaften

    Hauptziel der Arbeitsgruppe war es, die Bestehensgrenze der Prfungsmodule Lesen und Hren zu bestimmen. Dazu wurde in einem mehrstufigen Verfahren als kritischer Wert (cut score) ein Leistungsstandard (performance

    standard) festgelegt, der ber das letzte, von einer mindestkompetenten B1-Person gerade noch lsbare Item

    definiert ist. Vor dieser Festlegung sollte sichergestellt werden, dass die in Form von Aufgaben operationalisierten

    Anforderungen der Prfung Zertifikat B1 in den Modulen Lesen und Hren dem angezielten Niveau B1 des Ge-meinsamen europischen Referenzrahmens fr Sprachen (GER) entsprechen.

    Bestimmt wurde die Bestehensgrenze mit der Bookmark-Methode. Grundlage dieses testzentrierten, IRT-

    basierten Verfahrens ist ein Ordered Item Booklet, in dem die Items nicht nach der Abfolge in der Prfung ange-ordnet sind, sondern nach ihrem statistischen Schwierigkeitswert (scaled measure), und zwar aufsteigend, begin-

    nend mit dem leichtesten Item. Die Schwierigkeitswerte wurden mittels Rasch-Analyse der Rcklufe aus der

    zweiten Erprobung des Modellsatzes ermittelt (n=206).

    Vorgelegt wurden den Teilnehmenden zwei Booklets mit je 30 Items zum Modul Lesen bzw. zum Modul Hren. Jedes Item wurde auf einer separaten Seite dargestellt, auch wenn mehrere Items zu einem Text gehrten. Zustz-

    lich zum Item selbst wurden auf jeder Seite weitere Informationen prsentiert, um die Schwierigkeit des Items

    besser nachvollziehbar zu machen: die Instruktion zur Aufgabe, die Aufgabensituierung, der Lese- oder Hrtext

    und der Lsungsschlssel (ggf. inklusive Distraktoren). Die Jurorinnen und Juroren hatten die Aufgabe zu ent-

    scheiden, was ihrer Meinung nach eine knapp gengende B1-Leistung ist. Ihre Entscheidung sollten sie auf zwei

    Konzepte sttzen: erstens auf das Konzept einer Person, die hinsichtlich des Niveaus B1 minimal kompetent ist,

    und zweitens auf das Konzept der Lsungswahrscheinlichkeit. Beim Konzept der minimal kompetenten Person

    mussten sich die Jurorinnen und Juroren eine/n Prfungsteilnehmende/n mit einer Kompetenz am unteren Rand

    von B1 vorstellen. Beim Konzept der Lsungswahrscheinlichkeit (response probability; RP) galt es zu przisieren,

    was es bedeutet, ein Item zu beherrschen bzw. dieses Item mit relativ hoher Wahrscheinlichkeit korrekt lsen zu

    knnen (mastery of an item). Hier wurde, basierend auf der Fachliteratur (s. Bibliographie), ein Wert von RP=0.67

    angesetzt. Alternativ, aber bedeutungsquivalent zu diesem numerischen Wert konnten sich die Juroren vorstel-

    len, dass die mindestkompetente Person das Item in zwei von drei Fllen richtig lst oder dass zwei von drei min-

    destkompetenten Personen das Item korrekt lsen. Auf der Grundlage dieser beiden Konzepte mussten die Juro-

    rinnen und Juroren die Item-Booklets Seite fr Seite durcharbeiten, d. h. die Schwierigkeit der Items aus der Sicht

    der mindestkompetenten B1-Person nachvollziehen und entscheiden, bei welchem Item die Wahrscheinlichkeit

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 8

    nicht mehr relativ hoch (also RP < 0.67) ist, dass diese Person das Item korrekt lst. Dieses Item musste durch

    Markieren der betreffenden Seite im Item-Booklet bezeichnet werden. Die Markierung steht gleichzeitig auch fr

    die Meinung der Jurorinnen und Juroren, dass alle Items, die im Booklet auf den Seiten vor der markierten Seite

    stehen, von der mindestkompetenten Person mit einer Wahrscheinlichkeit von RP = 0.67 oder hher korrekt ge-

    lst werden.

    Die Arbeit vollzog sich in drei Phasen.

    Als erste Phase stand das auch fr Fachleute immer wieder notwendige Vertrautmachen mit dem Referenzrahmen im Mittelpunkt. Nachdem ein allgemeines Vertrautmachen besonders mit dem Niveau B1 bereits in der Gesamt-

    gruppe vorgenommen worden war, konzentrierte sich die Gruppe Lesen/Hren auf die Deskriptoren mit Rele-vanz fr diese beiden Fertigkeiten. Gearbeitet wurde mit einer Art Zuordnungs-Aufgabe, bei der es darum ging,

    das Niveau einer Reihe von Kann-Beschreibungen des Referenzrahmens aus den Einzelskalen zum Lesen und zum Hren zu erkennen. Vorgelegt wurden Kann-Beschreibungen der Niveaus A2, B1 und B2, jedoch ohne Niveau-

    Angabe, denn das Erkennen des Niveaus sollte ausschlielich auf Basis von Niveauindikationen in den Deskripto-

    ren erfolgen. Als Hilfestellung dienten den Teilnehmenden die Beschreibungen der Niveaubereiche A2, B1 und B2

    aus den Skalen Leseverstehen allgemein bzw. Hrverstehen allgemein. Besonders fokussiert und diskutiert wurde bei dieser Arbeitsgruppenaktivitt, mit Blick auf Arbeitsphase drei, der bergang von A2 zu B1.

    Im Anschluss an kurze Vorstellungen der Test-Konstrukte Lesen und Hren und Erluterungen zur Umsetzung der

    Konstrukte in Aufgaben folgte eine zweite Phase des Vertrautmachens, bei der die Prfungsaufgaben der Module

    Lesen und Hren im Vordergrund standen. In dieser Arbeitsphase lsten die Juroren die Aufgaben unter Prfungs-bedingungen und glichen dann ihre Antworten mit dem Lsungsschlssel ab.

    Als dritte Phase folgte das eigentliche Standard Setting, bei dem die Item-Booklets fr das Hren und das Lesen

    je zweimal durchgearbeitet werden mussten. In Runde 1 beurteilten die Jurorinnen und Juroren die Items in Ein-

    zelarbeit und setzten die Markierung im Item-Booklet. Die Ergebnisse dieser 1. Runde wurden registriert, als

    Sulendiagramme aufbereitet (vgl. Schaubild 1) und in dieser Form als Input fr die Diskussion verwendet, die im

    Anschluss an Runde 1 stattfand. Diskutiert wurde in drei separaten Teilgruppen von jeweils vier bis sechs Jurorin-

    nen und Juroren, wobei bei der Zusammensetzung der Diskussionsgruppen darauf geachtet wurde, Teilnehmende

    mit weiter auseinander liegenden Bookmarks zusammenzubringen. Ziel dieser Diskussionen war es, die Einzelvo-

    ten zu begrnden, d. h. es sollten Argumente fr Entscheidungen ausgetauscht und insbesondere auch Grnde fr

    strker divergierende Voten beigebracht und verglichen werden.

    Nach der Diskussion in Teilgruppen, in Runde 2, setzten die Jurorinnen und Juroren wieder individuell ihre Markie-

    rung im Item-Booklet. Dabei stand es ihnen frei, ihre Markierung aus der 1. Runde zu bernehmen oder diese

    unter dem Eindruck der Diskussion neu zu setzen. Die Ergebnisse der 2. Runde wurden ebenfalls registriert, auf-

    bereitet und prsentiert (vgl. Schaubild 2). In der Folge wurde auf eine weitere Diskussion in Teilgruppen verzich-

    tet, weil die Ergebnisse der 2. Runde im Vergleich zur 1. nher beieinander lagen und weniger extreme Werte

    aufwiesen.

    Bestehensgrenzen

    Der Cut-Score jeder Jurorin bzw. jedes Jurors wird durch den IRT-Schwierigkeitswert des Items angezeigt, auf dem

    die Markierung platziert wurde. Der korrespondierende Test-Score, d. h. die eigentliche Bestehensgrenze, liegt

    jeweils ein Item tiefer, weil die Jurorinnen und Juroren ja dasjenige Item markiert haben, das eine minimal kom-

    petente B1-Person nur mehr mit einer kleineren Wahrscheinlichkeit als 0.67 korrekt lsen kann. Demgegenber

    wurde die Bestehensgrenze oben positiv im Sinne eines Leistungsstandards definiert, und zwar so, dass dieser

    Standard durch das letzte von der minimal kompetenten B1-Person gerade noch lsbare Item reprsentiert ist.

    Auf der Basis dieser berlegungen lsst sich der Test-Score der gesamten Jurorengruppe (total 16 Jurorinnen und

    Juroren) durch die statistischen Mae der zentralen Tendenz fr die 16 einzelnen Test-Scores charakterisieren.

    Lesen Fr das Modul Lesen wurde die Markierung in Runde 2 des Standard Settings auf Seite 19 (arithmetisches Mit-tel), 18 (Median) bzw. 17 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach

    18 (arithmetisches Mittel), 17 (Median) bzw. 16 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten

    Jurorengruppe am besten durch das arithmetische Mittel der Test-Scores ausgedrckt wird, wird die

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 9

    Bestehensgrenze bei 18 angesetzt. Dies entspricht einem Schwierigkeitswert von 53.272 und der Anforderung,

    60 % von total 30 Items richtig zu lsen.

    Hren Fr das Modul Hren wurde die Markierung in Runde 2 des Standard Settings auf Seite 18 (arithmetisches Mit-tel), 17 (Median) bzw. 19 (Modus) des Item-Booklets gesetzt. Die korrespondierenden Test-Scores sind demnach

    17 (arithmetisches Mittel), 16 (Median) bzw. 18 (Modus). Da in diesem Fall die zentrale Tendenz der gesamten

    Jurorengruppe am besten durch den Modus der Test-Scores ausgedrckt wird, wird die Bestehensgrenze bei 18

    angesetzt. Dies entspricht einem Schwierigkeitswert von 57.701 und der Anforderung, 60 % von total 30 Items

    richtig zu lsen.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 10

    Schaubild 1 zeigt die Ergebnisse fr Lesen und Hren der 1. Runde.

    Schaubild 1

    Lesen Runde 1

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    Seite im Item-Booklet

    An

    zah

    l d

    er

    Rate

    r

    Hren Runde 1

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    Seite im Item-Booklet

    An

    zah

    l d

    er

    Rate

    r

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 11

    Schaubild 2 zeigt die Ergebnisse fr Lesen und Hren der 2. Runde.

    Schaubild 2

    Lesen Runde 2

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    Seite im Item-Booklet

    An

    zah

    l d

    er

    Rate

    r

    Hren Runde 2

    0

    1

    2

    3

    4

    5

    6

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    Seite im Item-Booklet

    An

    zah

    l d

    er

    Rate

    r

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 12

    2.2 Schreiben

    Leitung: Michaela Perlmann-Balme

    Assistenz: Christof Arndt

    Teilnehmende: Anne-Katrin Behnert, Landesverband der VHS Sachsen-Anhalt

    Johanna Bleiker, Pdagogische Hochschule St. Gallen

    Eva Fontana, Sprachenzentrum Universitt Freiburg/Schweiz

    Linda Fromme, Goethe-Institut e. V., Zentrale, Bereich 41

    Gabriele Gippner, Institut zur Qualittsentwicklung im Bildungswesen Berlin

    Thomas Holzmann, sterreich-Institut Warschau

    Jane Kettner, Volkshochschulverband Baden-Wrttemberg e. V.

    Annette Kuppler, Ernst-Klett-Verlag

    Peter Lenz, Universitt Freiburg/Schweiz

    Nora Peer, sterreich Institut Budapest

    Jrg Roche, Ludwig-Maximilians-Universitt Mnchen

    Annalisa Scarpa, Langenscheidt-Verlag

    Katerina Touraki, Goethe-Institut Athen

    Heike Widmer-Behr, Zrcher Hochschule fr Angewandte Wissenschaften

    Eva Wolf-Manfre, Goethe-Institut Mnchen

    Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der

    Aufgaben erhobenen Teilnehmerleistungen im Modul Schreiben mit der Definition des angestrebten Niveaus im Referenzrahmen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.

    Zunchst wurden die Teilnehmenden mit Hilfe der Deskriptoren des Referenzrahmens aus Kapitel 4 Korrespon-denz, Schriftliche Interaktion Allgemein, Notizen, Mitteilungen, Formulare, und aus Kapitel 5 Kohrenz und Koh-sion, Wortschatzspektrum, Wortschatzbeherrschung, Grammatische Korrektheit und Beherrschung der Orthogra-phie mit den fr die Fertigkeit Schreiben relevanten Deskriptoren auf dem Niveau B1 sowie den Nachbarniveaus vertraut gemacht. Ein solches Vertrautmachen war in so fern notwendig, als sich die Einstufung allein auf diese

    Deskriptoren sttzt und nicht etwa auf Bewertungskriterien zur Prfung.

    Anschlieend wurden zwei Vergleichsarbeiten auf dem Niveau B1 aus dem Material des Europarates (Council of

    Europe, 2005) herangezogen, um das Leistungsniveau zu verdeutlichen und die Einstufung zu trainieren.

    Danach wurden insgesamt 60 Teilnehmerleistungen begutachtet und eingestuft. Zu jedem der drei Teile des Pr-

    fungsmoduls Schreiben wurden je zehn Leistungsbeispiele fr Erwachsene und zehn fr Jugendliche bearbeitet. Die sechs Schreibanlsse waren:

    Aufgabe 1: Geburtstag (Erwachsene) und Sporttag (Jugendliche)

    Aufgabe 2: Persnliche Kontakte und Internet (Erwachsene) und Hausaufgaben aus dem Internet (Ju-gendliche)

    Aufgabe 3: Terminabsage (Erwachsene) und Kinobesuch absagen (Jugendliche)

    Die Jurorinnen und Juroren entschieden, welche Leistungsbeispiele zum Schreiben auf der Niveaustufe B1 zu

    verorten sind bzw. ob das Niveau B1 erreicht wurde.

    Die Arbeit vollzog sich in zwei Runden. Die Jurorinnen und Juroren gaben ihre Urteile anonym ab, d. h. jede Jurorin

    bzw. jeder Juror hatte eine Nummer. In Runde 1 wurden zu den Aufgaben 1, 2 und 3 jeweils zehn Leistungsbei-

    spiele eingestuft. Die Leistungsbeispiele wurden zuerst in Einzelarbeit beurteilt. Grundlage der Beurteilung waren

    die Deskriptoren des Referenzrahmens. Es wurde als notwendig empfunden, eine Orientierung zu geben, wie viele Deskriptoren als erfllt gelten mssten, um das Niveau zu erreichen und vorgeschlagen, diese Vorgabe bei 80 %

    anzulegen.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 13

    Die Ergebnisse dieser 1. Runde wurden aufgezeichnet, die Auswertung dieser Ergebnisse in der Gruppe prsen-

    tiert (vgl. Schaubild 3). In zwei separaten Teilgruppen von jeweils sieben bzw. acht Jurorinnen und Juroren wurden

    die Einstufungen diskutiert. Ziel dieser Diskussion war es, die Einzelvoten zu begrnden und die Jurorinnen und

    Juroren, deren Werte strker vom Rest der Teilgruppe abwichen, zu einer Reflexion zu bringen. Ein Gruppenkon-

    sens war nicht erforderlich. Nach Abschluss der Diskussion wurde fr die Leistungsbeispiele der ersten Runde von

    jeder Jurorin bzw. jedem Juror einzeln ein zweites Votum abgegeben.

    In Runde 2 wurden je zehn weitere Leistungsbeispiele bewertet, wiederum fr die Aufgaben 1, 2 und 3, diesmal

    allerdings aus Prfungsstzen fr Jugendliche. Auch erfolgte die Einstufung zunchst in Einzelarbeit, nach Darle-

    gung der Ergebnisse erfolgte eine Diskussion in zwei Teilgruppen der Gesamtarbeitsgruppe Schreiben. Die Schaubilder zeigen jeweils, wie viele Personen ein Beispiel als auf B1 liegend bewertet haben. Ein Gruppenkon-

    sens war nicht erforderlich. Nach Abschluss der Diskussion wurden fr die Leistungsbeispiele der zweiten Runde

    von jedem Juror einzeln ein zweites Votum abgegeben.

    Die Schaubilder 3 bis 9 zeigen die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren wie folgt:

    0 = unterhalb Niveau B1

    1 = Niveau B1 und darber

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 14

    Schaubild 3

    Geburtstag

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 0 1 1 1 1 0 1 1 1 1 80%

    2 0 1 0 0 1 0 1 1 0 0 40%

    3 0 1 1 0 1 0 1 1 0 1 60%

    4 0 1 0 0 1 0 1 1 0 0 40%

    5 1 1 1 1 1 0 1 1 0 1 80%

    6 0 1 0 0 1 0 1 1 0 0 40%

    7 1 1 1 0 1 0 1 1 0 0 60%

    8 0 1 0 1 1 0 1 1 0 0 50%

    9 0 1 0 1 1 0 1 1 1 1 70%

    10 0 1 1 0 1 0 1 0 0 0 40%

    11 1 1 1 0 1 0 1 1 1 0 70%

    12 0 1 0 0 1 0 1 1 0 1 50%

    13 0 1 1 1 1 0 1 1 1 1 80%

    14 0 1 1 0 1 0 1 1 0 1 60%

    15 0 1 0 0 1 0 1 1 1 0 50%

    Ergebnis Aufgabe % 20% 100% 69% 33% 100% 0% 100% 93% 33% 47%

    Beispiel

    Schaubild 3 zeigt die Ergebnisse fr Aufgabe 1 Geburtstag (1. Runde) vor der Diskussion. Auf der horizontalen Achse befinden sich oben die Beispiele 1 bis 10, unten die erzielten Ergebnisse pro Beispiel.

    Auf der vertikalen Achse sind links die 15 Jurorinnen und Juroren aufgelistet, rechts die von den Jurorinnen und

    Juroren insgesamt auf B1 eingestuften Beispiele. Die Beispiele 2, 5, 7 und 8 wurden von fast allen Jurorinnen und

    Juroren bereinstimmend als klar auf Niveau B1, eingestuft, die Beispiele 1 und 6 wurden von fast allen klar unter

    Niveau B1 bewertet. Bei den Beispielen 3, 4, 9 und 10 gab es vor der Diskussion kein eindeutiges Votum.

    Schaubild 4

    Geburtstag

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 0 1 1 0 1 0 1 1 0 0 50%

    2 0 1 0 0 1 0 1 1 0 0 40%

    3 0 1 1 0 1 0 1 1 0 0 50%

    4 0 1 0 0 1 0 1 1 0 0 40%

    5 1 1 1 1 1 0 1 1 0 0 70%

    6 0 1 1 0 1 0 1 1 0 0 50%

    7 1 1 1 1 1 0 1 1 0 0 70%

    8 0 1 0 0 1 0 1 1 0 0 40%

    9 0 1 0 1 1 0 1 1 0 0 50%

    10 0 1 1 1 1 0 1 0 0 0 50%

    11 1 1 1 0 1 0 1 1 0 0 60%

    12 0 1 0 0 1 0 1 1 0 0 40%

    13 0 1 1 1 1 0 1 1 1 0 70%

    14 0 1 1 0 1 0 1 1 0 1 60%

    15 0 1 0 0 1 0 1 1 1 0 50%

    Ergebnis Aufgabe % 20% 100% 60% 33% 100% 0% 100% 93% 13% 7%

    Beispiel

    Schaubild 4 zeigt das Ergebnis fr Aufgabe 1 Geburtstag (Runde 1) nach der Diskussion. Die Diskussion in Teil-gruppen fhrte bei den Beispielen 9 und 10 zu einer strkeren Einheitlichkeit des Votums. In acht der zehn Bei-

    spiele wurde eine weitreichende bereinstimmung erzielt.

    Es wurde darauf verzichtet, die verbleibenden Abweichungen weiter zu diskutieren.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 15

    Schaubild 5

    Persnliche Kontakte und Internet

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 1 0 1 1 0 1 1 1 1 0 70%

    2 0 1 0 1 0 1 1 1 1 0 60%

    3 1 1 0 1 0 1 0 1 1 1 70%

    4 1 1 0 1 0 1 0 0 1 1 60%

    5 1 1 0 1 0 1 0 0 1 1 60%

    6 0 1 0 1 0 1 1 0 1 1 60%

    7 1 1 0 1 0 1 0 1 1 1 70%

    8 1 1 0 1 0 1 1 0 1 1 70%

    9 1 1 1 1 0 1 0 0 0 1 60%

    10 0 1 0 1 0 1 0 0 1 1 50%

    11 1 1 0 1 0 1 0 0 1 1 60%

    12 1 1 0 1 0 0 1 0 1 1 60%

    13 1 1 0 1 0 1 0 0 1 0 50%

    14 1 1 1 1 0 0 1 0 1 1 70%

    15 0 1 0 1 0 1 0 0 1 0 40%

    Ergebnis Aufgabe % 73% 93% 20% 100% 0% 87% 40% 27% 93% 73%

    Beispiel

    Schaubild 5 zeigt die Ergebnisse fr Aufgabe 2 Persnliche Kontakte und Internet (1. Runde) nach der Diskussi-on. In acht der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

    Schaubild 6

    Terminabsage

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 1 0 1 0 1 0 0 1 1 1 60%

    2 1 0 1 0 1 0 0 1 1 1 60%

    3 1 0 1 1 0 1 0 1 1 1 70%

    4 1 0 1 0 1 1 0 1 1 1 70%

    5 1 0 1 0 1 1 0 1 1 1 70%

    6 1 0 0 0 1 1 0 1 1 1 60%

    7 1 0 1 0 1 1 0 1 1 1 70%

    8 1 0 1 1 0 0 0 1 0 1 50%

    9 1 0 1 1 1 1 0 1 1 1 80%

    10 1 0 1 0 1 1 0 1 1 1 70%

    11 1 0 1 0 1 1 0 1 1 1 70%

    12 1 0 1 0 1 0 1 1 0 1 60%

    13 1 0 1 0 1 0 0 1 0 1 50%

    14 1 0 1 0 0 1 0 0 1 1 50%

    15 1 0 1 0 0 0 0 0 1 1 40%

    Ergebnis Aufgabe % 100% 0% 93% 20% 73% 60% 7% 87% 80% 100%

    Beispiel

    Schaubild 6 zeigt die Ergebnisse fr Aufgabe 3 Terminabsage (1. Runde) nach der Diskussion. Die Beispiele 1, 3, 5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele

    4 und 7 klar unter Niveau B1. Die Diskussion in Teilgruppen fhrte zu einer strkeren Einheitlichkeit des Votums.

    In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

    Schaubild 7

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 16

    Sporttag

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 1 1 1 0 1 0 0 0 0 1 50%

    2 1 1 1 0 1 0 0 0 0 1 50%

    3 1 1 1 0 1 0 0 0 0 1 50%

    4 1 1 0 0 1 0 0 0 0 1 40%

    5 1 1 1 0 1 1 0 0 0 1 60%

    6 1 1 1 0 1 0 0 0 0 1 50%

    7 1 1 1 0 1 1 0 1 1 1 80%

    8 1 1 1 0 1 0 0 0 0 1 50%

    9 1 1 1 1 1 1 0 0 1 1 80%

    10 1 1 1 0 1 1 0 0 0 1 60%

    11 1 1 1 0 1 0 0 0 0 1 50%

    12 1 1 1 0 1 0 0 0 0 1 50%

    13 1 1 1 0 1 1 0 0 0 1 60%

    14 1 1 1 0 1 0 0 0 0 1 50%

    15 1 1 1 0 1 0 0 0 0 1 50%

    Ergebnis Aufgabe

    % 100% 100% 93% 7% 100% 33% 0% 7% 13% 100%

    Beispiel

    Schaubild 7 zeigt die Ergebnisse fr Aufgabe 1 Sporttag (2. Runde) nach der Diskussion. Die Beispiele 1, 2, 5 und 10 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1 bewertet, Beispiele 4, 7,

    8 und 9 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

    Schaubild 8

    Hausaufgaben aus dem Internet

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 1 0 1 0 1 0 1 1 1 0 60%

    2 1 0 1 0 1 0 0 0 1 0 40%

    3 1 0 1 0 1 0 1 0 1 0 50%

    4 1 0 1 0 1 1 0 0 1 0 50%

    5 1 0 1 0 1 0 1 0 1 0 50%

    6 1 0 1 0 1 0 0 1 0 0 40%

    7 1 0 1 0 1 0 1 0 1 0 50%

    8 1 0 1 0 1 0 0 0 1 0 40%

    9 1 0 1 1 1 1 1 0 1 1 80%

    10 1 0 1 0 1 0 1 0 1 0 50%

    11 1 0 1 0 1 0 0 0 1 0 40%

    12 1 0 1 0 1 0 0 0 1 0 40%

    13 1 0 1 0 1 0 1 0 1 0 50%

    14 1 0 1 0 1 0 0 0 1 0 40%

    15 1 0 1 0 1 0 0 0 1 0 40%

    Ergebnis Aufgabe

    % 100% 0% 100% 7% 100% 13% 47% 13% 93% 7%

    Beispiel

    Schaubild 8 zeigt die Ergebnisse fr Aufgabe 2 Hausaufgaben aus dem Internet (2. Runde) nach der Diskussion. Die Beispiele 1, 5 und 9 wurden bereits im ersten Durchgang von allen Jurorinnen und Juroren als klar auf B1

    bewertet, Beispiel 2 klar unter Niveau B1. In neun der zehn Beispiele wurde eine weitreichende bereinstimmung erzielt.

    Schaubild 9

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 17

    Kinobesuch absagen

    rater 1 2 3 4 5 6 7 8 9 10 Ergebnis Rater %

    1 0 1 0 1 1 1 1 1 0 1 70%

    2 0 1 0 0 1 1 1 1 0 1 60%

    3 0 1 0 1 1 1 1 1 1 1 80%

    4 0 0 0 1 1 1 1 1 0 1 60%

    5 0 1 0 1 1 1 1 1 0 1 70%

    6 0 1 0 1 1 1 1 1 0 1 70%

    7 0 1 0 1 0 1 1 1 0 1 60%

    8 0 1 0 0 1 1 1 1 0 1 60%

    9 0 1 0 1 1 1 0 1 1 1 70%

    10 0 1 0 0 1 1 1 1 0 1 60%

    11 0 1 0 1 1 1 1 1 0 1 70%

    12 0 1 0 0 1 1 1 1 0 1 60%

    13 0 1 0 0 1 1 1 1 0 1 60%

    14 0 1 0 1 1 1 1 1 0 1 70%

    15

    Ergebnis Aufgabe

    % 0% 93% 0% 64% 93% 100% 93% 100% 14% 100%

    Beispiel

    Schaubild 9 zeigt die Ergebnisse fr Aufgabe 3 Kinobesuch absagen (2. Runde) nach der Diskussion. Die Grup-pendiskussion fhrte bei fnf Beispielen nach einer kurzen Diskussion bereits zu totaler bereinstimmung, bei

    weiteren drei Beispielen zu nur einem abweichenden Votum. In acht der zehn Beispiele wurde somit eine weitrei-

    chende bereinstimmung erzielt.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 18

    Schaubild 10

    Beispiel Ergebnis des

    Standard Settings

    Niveau B1

    Ergebnis des

    Entwicklerteams

    Niveau B1

    1/1 Evgenyi nein

    20% der Gruppe

    ja

    1/2 Polina ja

    100% der Gruppe

    ja

    1/6 Jorge nein

    0% der Gruppe

    nein

    1/8 Boris ja

    93% der Gruppe

    ja

    1/3 j Anja ja

    93% der Gruppe

    ja

    2/2 Dalila ja

    93% der Gruppe

    ja

    2/3 Diana nein

    20% der Gruppe

    nein

    2/4 Jean ja

    100% der Gruppe

    ja

    2/5 Tessa nein

    0% der Gruppe

    nein

    2/5 j Anton ja

    100% der Gruppe

    ja

    3/2 Hiromi nein

    0% der Gruppe

    nein

    3/3 j Jaroslawa

    nein

    0% der Gruppe

    nein

    3/7 Tzvetan nein

    7% der Gruppe

    nein

    3/9 Mirte ja

    80% der Gruppe

    ja

    Schaubild 10 zeigt die Ergebnisse zu 11 ausgewhlten Leistungsbeispielen zu den Schreibanlssen aus dem

    Modellsatz fr Erwachsene und 3 Leistungsbeispielen (mit dem Zusatz j) zu den Schreibanlssen aus dem Mo-dellsatz fr Jugendliche.

    Das Schaubild geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarking und dem Bewertungs-

    raster ein. Es zeigt die Ergebnisse im Vergleich zu einer Anwendung der Bewertungskriterien durch eine

    trinationale Gruppe von Bewertenden des Goethe-Instituts, des SD und der Universitt Freiburg/Schweiz. Die

    linke Spalte enthlt die Spezifizierung der Beispiele. Die mittlere Spalte enthlt sowohl die Prozentwerte des

    Benchmarkings aus den Schaubildern 3 bis 9 als auch als ja- oder nein-Entscheidung. In der rechten Spalte finden sich die Ergebnisse, die durch den Einsatz der prfungsspezifischen Bewertungskriterien seitens des

    trinationalen Entwicklungsteams erzielt wurden als ja- oder nein-Entscheidung. Bei 14 Beispielen gab es nur eine Abweichung: Das Beispiel 1/1 Evgenyi wurde durch die Gruppe der Seminarteilnehmenden deutlich strenger

    bewertet als durch die Testentwicklerinnen und -entwickler.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 19

    2.3 Sprechen

    Leitung: Manuela Glaboniat

    Assistenz: Helga Lorenz

    Teilnehmende: Kirsten Brcker, Landesverband der VHS Sachsen-Anhalt

    Andr Feller, Prfungszentrum Neuchatel / Lyce Jean Piaget

    Christina Gregor, Goethe-Institut e. V., Zentrale, Bereich 41

    Nicola Kraml, Volkshochschule Wien, DaF

    Michael Krger, Deutschkurse bei der Universitt Mnchen e. V.

    Sonja Kuri, Universitt Udine (I)

    Anton Nf, Prfungszentrum Neuchatel / Lyce Jean Piaget

    Anne Pritchard-Smith, sterreich-Institut

    Helen Schmitz, Langenscheidt-Verlag

    Susanna Slivensky, Europisches Fremdsprachenzentrum des Europarats

    Irmingard Staudigel, Bayerischer Volkshochschulverband e. V.

    Claudia Wallner, Hueber-Verlag sterreich

    Lukas Wertenschlag, Universitt Freiburg (Schweiz)

    Brigitte Widmann, Freie Universitt Bozen (I)

    Bettina Wohlgemuth-Fekonja, sterreichisches Sprachdiplom

    Heiner Zietz, Verband der Volkshochschulen im Saarland

    Hauptziel dieser Arbeitsgruppe war es nachzuweisen, dass die Prfungsanforderungen, die auf der Basis der

    Aufgaben erhobenen Teilnehmerleistungen im Modul Sprechen mit der Definition des angestrebten Niveaus im Gemeinsamen europischen Referenzrahmen fr Sprachen kompatibel sind. Ein weiteres Ziel bestand darin, eine Reihe von Referenzleistungen zu erhalten, die von Expertinnen und Experten auf dem Niveau B1 verorten wurden.

    Methodische Grundlage hierfr war das im Manual for relating Language Examinations to the Common European Framework of Reference (CEFR) beschriebene dreistufige Vorgehen:

    Vertrautmachen mit den Deskriptoren Mndliche Interaktion allgemein sowie mit der Tabelle 3 Qualitative Aspekte des mndlichen Sprachgebrauchs gem dem Gemeinsamen europischen Referenzrahmen.

    Vorgabe von je einem kalibrierten Beispiel zur Produktion und zur Interaktion, die im Auftrag des Europarats von Jurorinnen und Juroren eingestuft worden waren (Bolton et al., 2008).

    Einstufung der Kandidatenleistungen nach Vertrautmachen mit der Aufgabenstellung.

    Bewertet wurden insgesamt 22 Kandidatenleistungen, davon jeweils 11 fr die Produktion und 11 fr die Interak-

    tion. Die gezeigten mndlichen Kandidatenleistungen im Zertifikat B1 waren in der Zentrale des Goethe-Instituts und an der Alpen-Adria-Universitt Klagenfurt aufgenommen worden. Es handelte sich um Teilnehmende aus

    Deutschkursen am Goethe-Institut Mnchen und der Universitt Klagenfurt sowie um Schlerinnen und Schler

    der Mittelschule an der Fhrichstrae Mnchen.

    Eingangs wurde wie in der Gruppe Schreiben klargestellt, dass es beim Benchmarking nicht um eine detail-lierte Bewertung der Beispiele, sondern vorrangig um die Identifikation des Niveaus bzw. die Ermittlung der

    Bestehensgrenze geht.

    Die Sprechanlsse fr die 22 Leistungsbeispiele in der Interaktion (Aufgabe 1) und Produktion (Aufgabe 2) waren:

    Aufgabe 1: Krankenhausbesuch planen

    Aufgabe 2: Brauchen Kinder Mobiltelefone? und Sehen Kinder zu viel fern?

    Die Jurorinnen und Juroren entschieden, welche der Leistungsbeispiele zum Sprechen auf der Niveaustufe B1 zu

    verorten sind bzw. in welchen das Niveau B1 nicht erreicht wurde (unter B1). Zustzlich wurde im Bereich B1 zwischen den Kategorien gerade noch B1 und B1 und ber B1 unterschieden. Diese feinere Differenzierung dient lediglich der Orientierung bei der Erstellung der Trainingsmaterialien; fr den eigentlichen Benchmarking-

    Prozess ist diese Unterteilung nicht relevant und wird daher in den folgenden Schaubildern auch nicht eigens

    dargestellt.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 20

    Die Urteile der Jurorinnen und Juroren erfolgten in Stationen und wurden anonym abgegeben, d. h. jede Jurorin

    bzw. jeder Juror hatte eine Nummer.

    1) Die Jurorinnen und Juroren nahmen zunchst jede/r fr sich eine globale und anschlieend eine analyti-sche Einstufung auf Basis der Tabelle 3 (GER) vor.

    2) Das Ergebnis der globalen Einstufung wurde bekannt gemacht. 3) Es erfolgte eine Diskussion ber die Abweichungen. 4) Nach der Diskussion erfolgte eine erneute Einstufung.

    Aufgrund der groen bereinstimmung bei den Leistungsbeispielen beschrnkte sich die Diskussion auf die Bei-

    spiele 2, 3, 4, 5 und 10 in der Interaktion und 3, 6 und 8 bei der Produktion.

    Bestehensgrenze

    Bei beiden Aufgaben wird die Bestehensgrenze durch Anwendung der Deskriptoren auf diese Beispiele ermittelt.

    Schaubild 11 und 12 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der ersten Runde sowohl in

    der Interaktion als auch in der Produktion. Die Globaleinstufung der Leistungen auf Basis der im Gemeinsamen europischen Referenzrahmen fr Sprachen festgelegten Deskriptoren stellt sich wie folgt dar:

    0 = unterhalb Niveau B1

    1 = Niveau B1

    Schaubild 11

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 21

    Schaubild 11 zeigt die Ergebnisse zur Interaktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 2, 7, 9

    und 11 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bewertet. Beispiel 8

    wurde mit 6%, die fr B1 waren, sehr klar (also zu 94%) unter Niveau B1 (8) bewertet. Bei den Beispielen 3, 4 und

    6 gab es jeweils eine/n bzw. zwei von 16 Jurorinnen und Juroren, die diese Leistungen unter dem Niveau B1 be-

    werteten. Das Beispiel 5 ist mit 31% eher unter B1 anzusiedeln. Viel Diskussionsbedarf gab es bei Beispiel 10,

    bei dem genau 50% fr Niveau B1 und 50% fr unter Niveau B1 stimmten.

    Schaubild 12

    Schaubild 12 zeigt die Ergebnisse zur Produktion nach dem ersten Einstufungsdurchgang. Die Beispiele 1, 4, 5,

    7, 9 und 10 wurden von allen Jurorinnen und Juroren bereinstimmend als klar auf Niveau B1 bzw. klar unter

    Niveau B1 (6 und 8) bewertet. Bei den Beispielen 2, 3 und 11 gab es jeweils zwei bzw. drei von 16 Jurorinnen und

    Juroren, die diese Leistungen unter dem Niveau B1 bewerteten.

    Die Schaubilder 13 und 14 zeigen die Ergebnisse der mndlichen Leistungsbeispiele nach der zweiten Runde.

    Schaubild 13

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 22

    Schaubild 14

    Die Schaubilder 13 und 14 zur Runde 2 zeigen, dass die Bewertungen kaum gendert wurden. Es kam lediglich

    zu minimalen Verschiebungen, wie z. B. bei Beispiel 3 in der Interaktion, bei dem in beiden Fllen zwei Teilneh-

    mende fr unter Niveau B1 stimmten, allerdings waren es in Runde 1 andere Jurorinnen und Juroren als in Run-de 2.

    Schaubild 15

    Beispiel INTERAKTION

    Ergebnis des Stan-

    dard Settings

    Niveau B1?

    INTERAKTION

    Ergebnis des Entwick-

    lerteams

    Niveau B1?

    PRODUKTION

    Ergebnis des Standard

    Settings

    Niveau B1?

    PRODUKTION

    Ergebnis des

    Entwicklerteams

    Niveau B1?

    Maristela Ja

    100%

    Ja Ja

    100%

    Ja

    Lorenzo Ja

    100%

    Ja

    Ja

    100%

    Ja

    Pia Ja

    88%

    Ja

    Ja

    88%

    Ja

    Siham Ja

    94%

    Ja

    Ja

    100%

    Ja

    Marsela (j) Nein

    31%

    Ja Nein

    31%

    Nein

    Aven (j) Ja

    94%

    Ja

    Ja

    88%

    Ja

    Kristina Ja

    100%

    Ja

    Ja

    100%

    Ja

    Filippos Nein

    6%

    Nein Nein

    13%

    Nein

    Susannah Ja

    100%

    Ja Ja

    100%

    Ja

    Alessia Ja

    50%

    Ja Ja

    81%

    Ja

    Philipp Ja

    100%

    Ja Ja

    100%

    Ja

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 23

    Schaubild 15 geht auf die Verbindung zwischen der Niveaueinstufung des Benchmarkings und dem Bewertungs-

    raster ein. Es zeigt die Ergebnisse fr die Sprechanlsse fr Erwachsene im Vergleich zu einer Anwendung der

    Bewertungskriterien durch eine trinationale Bewertergruppe des Goethe-Instituts, des SD und der Universitt

    Freiburg/Schweiz.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 24

    3 Evaluation der Veranstaltung

    Die Teilnehmenden erhielten am Ende der Veranstaltung einen Evaluationsbogen. Sie zogen ein positi-

    ves Fazit von der Veranstaltung:

    Ein sehr befruchtender Austausch auch ich nehme viele wertvolle Erkenntnisse in meine knftige Ar-beit mit: Das Bild vom armen Lerner hat wieder einmal Konturen bekommen.

    Wichtiger als die Ergebnisse ist die Methode der Item-Beurteilung, die an die Unterrichtenden weiter vermittelt werden sollte.

    Ich habe sehr vieles dazugelernt und freue mich, die neue B1-Prfung mit Kandidaten durchzufhren.

    Ich habe viel gelernt und Anregungen fr meine Arbeit mitgenommen. Die Gruppenarbeit war konstruktiv und die gute, internationale Atmosphre hat mir gefallen.

    Herzlichen Dank fr die spannende Tagung, die mir wichtige neue Einsichten gebracht hat.

    Nachfolgend die quantitativen Ergebnisse:

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 25

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 26

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 27

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 28

    4 Bibliografie

    Association of Language Testers in Europe (ALTE) (Hrsg.) (1994), The ALTE Code of practice. ALTE Document 3. Cambridge: University of Cambridge Local Examinations Syndicate.

    Association of Language Testers in Europe (ALTE) (Hrsg.) (2007), Minimum standards for establishing quality profiles in ALTE examinations. [Online: http://www.alte.org/attachments/files/minimum_standards.pdf 11.04.2007].

    Bachman, Lyle & Palmer, Diana (2010), Language Assessment in Practice. Oxford: Oxford University Press (= Applied Lin-guistics).

    Breov, Jana; Breton, Gilles; Noijons, Jos & Szab, Gbor (2011), Relating language examinations to the Common Euro-pean Framework of Reference for Languages: Learning, teaching, assessment (CEFR). Highlights from the Manual. Graz: ECML. [Online: http://www.ecml.at/tabid/277/PublicationID/67/Default.aspx 01.03.2013].

    Bolton, Sibylle; Glaboniat, Manuela; Lorenz, Helga; Perlmann-Balme, Michaela & Steiner, Stefanie (2008), Mndlich: Mnd-liche Produktion und Interaktion Deutsch. Illustration der Niveaustufen des Gemeinsamen europischen Referenzrahmens. Berlin: Langenscheidt.

    Breton, Gilles, Grego Bolli, Giuliana & Perlmann-Balme, Michaela (2010), All different all equal? Towards cross-language benchmarking using samples of oral production in French, German and Italian. Forum Sprache 4/2010, 5-19.

    Cizek, Gregory J. & Bunch, Michael B. (2007), Standard Setting. A guide to establishing and evaluating performance stan-dards on tests. Thousand Oaks, CA: Sage.

    Council of Europe (Hrsg.) (2003), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. DGIV/EDU/LANG 5. Strasbourg: Council of Europe.

    Council of Europe (Hrsg.) (2005), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. Reading and Listening Items and Tasks: Pilot Samples illustrating the common reference levels in English, French, German, Italian and Spanish. CD-ROM. Strasbourg: Council of Europe. [Online: http://www.coe.int/t/dg4/education/elp/elp-reg/Source/Key_reference/exampleswriting_EN.pdf 01.03.2013].

    Council of Europe (Hrsg.) (2009), Relating Language Examinations to the Common European Framework of References for languages: Learning, Teaching, Assessment. A manual. Strasbourg, Language Policy Division: Council of Europe.

    Council of Europe & ALTE (Hrsg.) (2011), Manual for Language Test Development and Examining For use with the CEFR. Strasbourg: Council of Europe.

    EALTA (2006), Guidelines for Good Practice in Language Testing and Assessment (Adopted 20th May 2006). [Online: http://www.ealta.eu.org/guidelines.htm 01.03.2013].

    Europarat (Hrsg.) (2001), Gemeinsamer europischer Referenzrahmen fr Sprachen: lernen, lehren, beurteilen. Berlin: Langenscheidt.

    Figueras, Neus & Noijons, Jos (Hrsg.) (2009), Linking to the CEFR levels: Research perspectives. Arnheim: Cito, EALTA.

    Glaboniat, Manuela; Mller, Martin; Rusch, Paul; Schmitz, Helen & Wertenschlag, Lukas (2005), Profile deutsch. A1 C2 (Version 2.0). Berlin: Langenscheidt.

    Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2013, in Druck,), Zertifikat Deutsch. Deutschprfung fr Jugendliche und Erwachsene. Prfungsziele, Testbeschreibung. Ismaning: Hueber.

    Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Prfungsziele, Testbeschreibung. Mnchen, Wien: Goethe Institut & SD.

    Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Trainingsmaterial fr Prfende. Modul Schreiben. Mnchen, Wien: Goethe Institut & SD.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 29

    Glaboniat, Manuela; Perlmann-Balme, Michaela & Studer, Thomas (2012), Zertifikat Deutsch. Deutschprfung fr Jugendli-che und Erwachsene. Trainingsmaterial fr Prfende. Modul Sprechen. Mnchen, Wien: Goethe Institut & SD.

    Kaftandjieva, Felianka (2010), Methods for Setting Cut Scores in Criterionreferenced Achievement Tests. A comparative analysis of six recent methods with an application to tests of reading in EFL. Arnheim: EALTA Cito.

    Kantarcolu, Elif & Papageorgiou, Spiros (2011), Benchmarking and standards in language tests. In: O'Sullivan, Barry (Hrsg.) (2011), Language testing. Theories and practices. New York: Palgrave, 94-110.

    Karantonis, Ana & Sireci, Stephen G. (2006), The Bookmark Standard Setting Method: A Literature Review. In: Educational Measurement: Issues and Practice 25, 412.

    Kecker, Gabriele (2010), Validierung von Sprachprfungen. Die Zuordnung des TestDaF zum Gemeinsamen europischen Referenzrahmen fr Sprachen. Frankfurt: Peter Lang.

    Kenyon, Dorry (2013), Standard Setting on Language Tests. In: Chapelle, Carol A. (Hrsg.) (2013): The Encyclopedia of Ap-plied Linguistics. Blackwell, 1-5. [Online: http://onlinelibrary.wiley.com/doi/10.1002/9781405198431.wbeal1113/pdf 23.03.2013].

    Krath, Stefany & Meyer-Engling, Bettina (2011/12), Standard Setting: Deutsches Sprachdiplom auf dem Prfstand. In:

    Zentralstelle fr das Auslandsschulwesen (Hrsg.) Jahrbuch 2011/2012, Deutsche Auslandsarbeit: Rohstoff Bildung, 115-118. [Online:

    http://www.auslandsschulwesen.de/cln_350/nn_2141658/sid_34083B24FB89097D213604577C51A0E9/Auslandss

    chulwesen/DieZfA/Publikationen/Jahrbuecher/Ausgaben/Jahrbuch2011__2012,templateId=raw,property=publicationFil

    e.pdf/Jahrbuch2011_2012.pdf 01.03.2013].

    Porsch, Raphaela; Tesch, Bernd & Kller, Olaf (Hrsg.) (2010), Standardbasierte Testentwicklung und Leistungsmessung. Franzsisch in der Sekundarstufe I. Mnster: Waxmann.

    Tannenbaum, Richard J. & Wylie, Caroline E. (2004), Mapping Test Scores onto the Common European Framework: Setting Standards of Language Proficiency on the Test of English as a Foreign Language (TOEFL), the Test of Spoken English (TSE), the Test of Written English (TWE), and the Test of English for International Communication (TOEIC). Princeton, NJ: Educational Testing Service.

    Van Hofwegen, Laura (2011), Relating Examinations to the CEFR checks and balances. Vortrag ALTE-Konferenz Krakau.

    Weir, Cyril J. (2005), Language Testing and Validation: An Evidence-Based Approach. Basingstoke: Palgrave/ Macmillan.

    Weitere Informationen oder Materialien (z.B. Modellstze) zum B1 Zertifikat finden sich auf der Homepage der beiden Her-ausgeber Goethe Institut und SD unter http://www.goethe.de/lrn/prj/pba/bes/gzd/deindex.htm sowie

    http://www.osd.at/default.aspx?SIid=32&LAid=1&ARid=351.

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 30

    5 Anlagen

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 31

  • Zertifikat B1 Ergebnisse Standard Setting Fassung: 31.10.2012 32