Forschungsmethoden-Materialsammlung


Tab 1: Arbeitsschritte in der empirischen Forschung 
(Vortrag Mand 23.9.2009)
1. Schritt: Frage entwickeln
2. Schritt: In Literaturrecherche prüfen, ob es bereits eine Antwort gibt
3. Schritt: Entscheiden, ob die Frage qualitativ oder quantitativ untersucht werden soll
4. Schritt: Erhebungsinstrument auswählen
5. Stichprobe auswählen
6. Schritt: Zugang zum Feld wählen
7. Erheben
8. Auswerten
9. Untersuchung verwerten: Hausarbeiten, Diplomarbeiten, Prüfungen, Aufsätze, Dissertationen, Bücher usw.
Tab 2: Vorgehen bei der Literaturrecherche
1. Schritt: Frage entwickeln
2. Schritt: Geeignete Datenbank auswählen (z. B.: FIS-Bildung für Pädagogik/Heilpädagogik, Pubpsych für Psychologie, Pubmed für Medizin, Juris für Recht, Eric für Recherchen im Bereich Pädagogik und Psychologie in den US)
3. Schritt: Mit geeigneten Suchbegriffen suchen
4. Treffer dokumentieren (mit Suchbegriffen &  Trefferzahl speichern)
5. geeignete Veröffentlichungen auswählen (gut geeignet für einen ersten Überblick: Handbuchaufsätze, Dissertationen, Überblicksbeiträge=Reviews in Zeitschriften, Metaanalysen / selten geeignet: Kongressberichte, Festschriften)
6. Recherchieren, in welchen Bibliotheken Zeitschriften  kopiert werden können oder Bücher entliehen/kopiert werden können
7. Bücher / Aufsätze beschaffen
8. Quellen bewerten (Hinweise auf Eignung bei Büchern: Publikation in seriösen/bekannten Verlag, erfolgreiches Durchlaufen eines Promotionsverfahrens, umfangreiche Verwendung von aktueller Literatur, faire und sachliche Auseinandersetzung mit anderen Meinungen, Zitation durch andere Autoren / Hinweise auf Bedeutung von Zeitschriftenaufsätze: Publikation in Zeitschriften mit Gutachtersystem, Zitation durch andere Autoren)
9. Lesen – Zusammenfassen – in Beziehung setzen: Was sind wichtige Themen im Publikationsgebiet? Was ist strittig? Worüber besteht Konsens? Was ist gut erforscht? Wo bestehen Forschungslücken?
10. Ggf. im Internet ergänzend nach Online-Publikationen mit öffentlichem Auftraggeber, Zahlen von öffentlichen Institituonen (z. B. Statistisches Bundesamt/Landesamt, Ministerien o.ä.) oder in seriösen Online-Datenbanken suchen (z. B.: bidok). Informationen von privaten Homepages, Homepages von Vereinen sind nur selten brauchbar. Lexika sind nur dann geeignet, wenn sie sich explizit an ein wissenschaftliches Publikum wenden.
Tab 3: Vorgehen bei der Datenbankrecherche
1. Was ist zu meinem Thema veröffentlicht (Datenbankrecherche)
2. Inhaltlich passende Veröffentlichungen auswählen (z. B. nach Aktualität, Genre, bei empirischen Untersuchungen z. B. auch nach Stichprobenumfang usw) 
3. Bücher & Zeitschriftenbeiträge in Bibliotheken lokalisieren, ausleihen, kopieren oder digitalisieren
Tab 4: Datenbankrechereche in der EvH
1. Homepage der EFH – Quicklinks – Bibliothek
2. Angebote – Fachdatenbanken
3. Link in Tabelle anklicken
4. Trefferliste per Mail anfordern (APA-Format)
Tab 5: Wunschzettel
AutorTitelJahrQuelleBibliotheken
ISBN, Herausgeberwerke oder Zeitschriftenname mit ISSN notieren
Tab 6: Bücher & Zeitschriften lokalisieren (UB Dortmund) 
1. Homepage  UB Dortmund besuchen(www.ub.uni-dortmund.de)
2. Literatursuche klicken
Bücher suchen– HBZ Katalog (teilt mit, welche NRW Bibliothek außer EvH das gesuchte Buch hat)Zeitschriften suchen– Zeitschriftendatenbank (teilt mit, welche Bibliothek die gesuchte Zeitschrift hat)
Im HBZ Katalog: ISBN-Suche (teilt mit, welche deutsche Bibliothek außer EvH Zeitschrift hält)In der Zeitschriftendatenbank: ISSN-Suche einstellen & ISSN eingeben, dabei in den Bestandsnachweisen auf fehlende Jahrgänge achten
Im Katalog der jeweiligen Bibliothek Ausleihstatus prüfen, & wenn möglich vorbestellenggf. telefonisch erfragen, ob Zeitschriften beim Buchbinder sind (normalerweise im 2. Lebensjahr)
Tab 7: Prüffragen für empirische Untersuchungen
1. Bearbeitet die Untersuchung eine relevante Fragestellung?
2. Ist die Fragestellung von anderen Untersuchungen untersucht worden?
3. Sind diese Untersuchungen in Stichprobe, Methodik vergleichbar und kommen sie zu gleichen Ergebnissen?
4. Ist die Stichprobe der Untersuchung nach nachvollziehbaren Kriterien (qualitative Sozialforschung) ausgewählt worden, oder handelt es sich um eine nach Berechnung von Zufallszahlen ausgewählte Stichprobe angemessener Größe bzw. liegt eine Totalerhebung vor (quantitative Sozialforschung)?
5. Werden Zahlen zum Rücklauf angegeben?
6. Welche Auswirkungen hat der gewählte Zugang zum Feld?
7. Ist ein der Forschungsfrage angemessenes Erhebungsinstrument ausgewählt worden (Wird untersucht, was angeblich untersucht werden soll)?
8. Ist ein der Forschungsfrage angemessenes Auswertungsverfahren ausgewählt worden (quantitative Sozialforschung: Dürfen die statistischen Analyseverfahren angewendet werden? Wird die Auswerterübereinstimmung berechnet und angegeben? Ist sie angemessen?).
9. Sind die in der Auswertung verwendeten Variablen angemessen definiert?
10. Gibt es Fehler in der Berechnung?
11. Laesst sich aus den gefundenen Ergebnissen das ableiten, was abgeleitet wird?
Tab 8: Empirische Studien vergleichen
(1) Design vergleichen
Ausagen über Wirksamkeit von Methoden kann man nur machen, wenn folgende Bedingungen erfüllt sind:
Erstens: Die Studie untersucht einen Aspekt, der wirklich bedeutsam für die untersuchte Methode ist.
Zweitens: Die Studie hat eine Versuchs- und Kontrollgruppe oder arbeitet mit mehreren Interventionsgruppen, von denen zumindest eine angemessen untersucht ist.Versuchs- und Kontrollgruppe müssen dabei unbedingt aus (in für die Fragestellung bedeutsamen Dimensionen) vergleichbaren Personen bestehen. Dies erreicht man, indem die Gruppenzuweisung nach Zufallszahlen erfolgt (Randomisierung) oder statistische Verfahren verwendet werden, die dafür sorgen, dass die Gruppen vergleichbar sind (Matching).
und drittens: Die Studie misst die Entwicklung vor der Intervention (also z. B. der Anwendung einer Fördermethode) und nach der Intervention (Pre-Test/Post-Test-Design) 
(2) Stichprobenauswahl vergleichen:
Am besten sind Zufallsstichprobe und Totalerhebung. 
Klumpenstichproben können akzeptabel sein.
Am schlechtesten sind anfallende Stichproben/Stichproben nach Belieben. Sie sind nicht repräsentativ. D.h.: Die Ergebnisse können nicht verallgemeinert werden. Anfallende Stichproben/Stichproben nach Belieben sind auch dann nicht repräsentativ, wenn die Stichproben groß sind (z. B. grösser 1000).
Die Studie sollte zudem Angaben über den Rücklauf enthalten (nicht ausgefüllte Fragebogen, Anteil der ausgefüllten Onlinefragebogen an allen Klicks auf Seite, Angaben über Interviewverweigerer usw). 
(3) Stichprobenumfang vergleichen: Grundsätzlich gilt: Je größer eine Stichprobe, desto besser.
(4) Rücklauf prüfen: Studien mit geringem Rücklauf sind fast immer mangelhaft. Ein schlechter Rücklauf verdirbt auch die Aussagekraft von Zufallsstichproben oder großer Stichproben. Für die Interpretation ist dabei nicht wesentlich, ob andere Studien vergleichbar schlechte Rücklaufquoten haben. Sondern wesentlich ist, ob denkbar ist, dass bei Rücklaufquoten von z. B. 20-30% überhaupt noch Aussagen verallgemeinert werden können.
(5) Ergebnisse vergleichen:
Die Effektivität einer Methode bewertet man nach den Unterschieden im Leistungszuwachs von Versuchs- und Kontrollgruppe.

Die Unterschiede sollten mehr als zufällig sein (signifikante Unterschiede * entsprechen einer Irrtumswahrscheinlichkeit von 5% also p = .05 / hoch signifikante Unterschiede ** entsprechen einer Irrtumswahrscheinlichkeit von 1 % also p = 0 .01).

Hilfreich ist, wenn die Effektstärke nach Cohen (d) berechnet wird oder berechnet werden kann. Hierfür benötigt man die Angaben zum Artihmetischen Mittel und zur Standardabweichung in Versuchs- und Kontrollgruppe jeweils im Pre-test (also vor der Intervention) und im Posttest (also nach der Intervention). Ab d = 0.2 spricht man von einem geringen Effekt, ab d = 0.5 von einem moderaten Effekt, ab d = 0.8 spricht von einem starken Effekt. Negative Werte  bedeuten, dass die Kontrollgruppe einen höheren Kennwert erzielt als die Versuchsgruppe.
Merksatz: Je mehr Untersuchungen mit guter Stichprobe vorliegen, je reglmäßiger zumindest moderate Effekte gemessen werden und je stärker der Effekt ist, desto wirksamer ist auch die Methode´
Tab 9: Aufbau wissenschaftlicher Arbeiten
1. EinleitungFragestellungAufbau der Arbeit
2. Stand der Theoriediskussion / Stand der Forschung: ggf. kurze historische Übersicht z. B. anhand von Handbuchbeiträgen (Inhaltsangabe)Übersicht über aktuelle Veröffentlichungen  (Inhaltsangabe)
3. Methoden (nur in empirischen Arbeiten)Methodenbeschreibung Inhaltsangabe: Das fordern unterschiedliche Autoren in Methodenhandbüchern und Aufsätzen Diskussion: Sind Forderungen angemessen?
4. Ergebnisse (nur in empirischen Arbeiten): Hypothesen und Ergebnisse
 5. Diskussion: Fragestellung wieder aufgreifen
Ergebnisse interpretieren (nur in empirischen Arbeiten)
Antwort formulieren
Bedeutung der Antwort / der Ergebnisse diskutieren
Hinweise für die weitere Forschung geben
Tab 10: Vorgehen bei der Erstellung von testdiagnostischen Gutachten (Mand 2008)
Rechtsgrundlage prüfen:

Sich über Fragestellung des Gutachtens klar werden (Mittelverteilung, Zuweisung zu Institutionen, Entziehung des Aufenthaltsbestimmungsrechts usw.)

Hypothesen über Interessen der Beteiligten formulierenStand der diagnostischen Diskussion prüfen (Literaturrecherche in Pub Psych)

Auf Basis der diagnostischen Diskussion geeignete standardisierte Verfahren auswählen (dabei beachten: Größe & Alter der Eichstichprobe)

Diagnostisch relevante Daten erheben, auswerten und interpretierenzuverlässige und am Stand der Methodendiskussion orientierte Antwort auf diagnostische Frage entwickeln

Entscheidung darüber treffen, was Kernaussage des Gutachtens sein soll

Stand der Forschung beachten

Auswirkungen der Kernaussage auf die Beteiligten bedenken, d.h.: darüber nachdenken, welche Entscheidung man sich wünschen würde, wenn man selbst der Betroffene wäre

darüber nachdenken, welche Entscheidung sich die beteiligten Institutionen wünschen und welche Auswirkungen die Entscheidung haben könnte

darüber nachdenken, welche Entscheidung aus Perspektive des Gemeinwesens wünschenswert ist

abschließend abwägende Entscheidung treffen

ggf. auch Verfahren so auswählen, dass sie getroffene Entscheidung stützen (z. B. bei der Diagnose von Lernbehinderung alte/leichte IQ-Tests und neue Schulleistungstests einsetzen, um eine Überweisung zur Förderschule zu verhindern).

Gutachten schreiben
Tab 11: Beispiel-Gliederung für testdiagnostische Gutachten Vortrag Mand 050407
Einleitung:
Fragestellung des Gutachtens
ggf. Verweis auf rechtlichen Rahmen

Verwendete Methoden: Was wurde wie untersucht

Ergebnisse: Welche Befunde werden ermittelt

Resümee: Zusammenfassende Interpretation der Ergebnisse, Bezug auf Frage
Tab 12: Vorgehen bei Fallanalysen nach Kraimer, K.: Einzelfallstudien. In: König, E.: Qualitative Forschung. Weinheim 2002, 220 ff.
1. Abgrenzung des Gegenstandsbereiches
2. Methodenwahl
3. Materialzugang klären
4. Nicht standardisierte Datenerhebung (Teilnehmende Beobachtung, Dokumentenanalyse, Verwendung vorhandenen statistischen Materials, Feldstudien, Experiment, Offene Interviews, Gruppendiskussion)
5. Rekonstruktionslogische Datenauswertung
6. Fallspezifische Sequenzanalyse (Gesetzmäßigkeiten)
7. Sequenzanalytische Kontrastierung in maximal anders gelagerten Fällen
Tab 13: Förderdiagniostisches Gutachten / Vortrag Mand 25.4.2007
Ein förderdiagnostisches Gutachen lässt sich auf zumindest zweierlei Wegen schreiben: 

Das förderdiagnostische Gutachten kann erstens als eine Art Bericht über den Versuch geschrieben werden, im Rahmen der pädagogischen Arbeit, ein pädagogisches Problem zu lösen. Material dieses Berichts sind in aller Regel Gedächtnisprotokolle  über teilnehmende Beobachtung (z. B. aus dem pädagogischen Tagebuch), Gesprächsprotokolle, Akteneinträge o.ä.) Das förderdiagnostische Gutachten setzt also voraus, dass man über einen längeren Zeitraum pädagogisch gearbeitet hat, Beobachtungen und Gespräche systematisch dokumentiert hat und das pädagogische Problem in irgendeiner Form auch erfolgreich angehen konnte. 

Ein förderdiagnostisches Gutachten kann zweitens auch dazu dienen, anhand der genannten Materialien strukturierte Hypothesen darüber zu entwickeln, welche Schwerpunkte die zukünftige Förderung haben sollte (Förderplan). Es sollte dabei Informationen darüber enthalten, an welchem Punkt der Entwicklung ein Kind, ein Jugendlicher, ein Erwachsener steht und in Auseinandersetzung mit der wissenschaftlichen Literatur entscheiden, welche Interventionen/Situationen/Lernerfahrungen den Klienten dazu bewegen können. den nächsten Schritt in seiner Entwicklung zu tun. 
Tab 14: Merkmale Quantitativer und Qualitativer Untersuchungen
Typische Merkmale qualitativer UntersuchungenTypische Merkmale quantitativer Untersuchungen

kleine Stichproben, die z. B. auf Basis im Rahmen von ersten Erkundungen erhobenen Empfehlungen zusammengestellt werden

Erhebungsinstrumente: Expertengespräche, Narrative/Leitfaden gestützte Interviews, teilnehmende Beobachtung

interpretative
Auswertungsverfahren (mehrere Durchgänge)

Herstellung von Objektivität/Validität durch Auswertung im Team, kommunikative Validierung



Design: Querschnitt und Längsschnitt
große Stichproben (berechnet nach Zufallszahlen oder Totalerhebungen)


Erhebungsinstrumente: Fragebogen, standardisierte Testverfahren, Zeitreihenbeobachtung, Experiment

Auswertung:Methoden der deskriptiven Statistik und Prüfstatistik

Herstellung von Objektivität z. B. durch den Einsatz von mehreren Auswertern und Berechnung der Auswerterübereinstimmung

Design: Querschnitt und Längsschnitt, Pretest-Posttest-Studien mit und ohne Kontrollgruppe, Replikationsstudien
Tab 15: Hypothesen und Variablen
Merkmale von Untersuchungseinheiten (Personen, Objekte) nennt man Variablen, weil diese Merkmale verschiedene Ausprägungen annehmen können.

Dichotome Variablen haben 2 Ausprägungen.

Kontinuierliche Variablen haben eine Vielzahl von Ausprägungen.

Manifeste Varibalen sind beobachtbar.

Latente Variablen sind nicht direkt beobachtbar .

Unabhängige Variablen stehen mit abhängigen Variablen in einer Kausalbeziehung.

Moderatorvariablen, sind Variablen, die neben abhängigen und unabhängigen Variabeln einen zusätzlichen Einfluss haben.

Eine Operationalisierung legt fest, was jede Variablen bedeutet
Tab 16: Skalenniveaus
Nominalskala
Ordinalskala
Intertvallskala
Verhältnisskala
Tab 17: Datenqualität und Fragetypen
SkalenniveauDatenAuswertungBeispiele
Nominalniveauja-nein- DatenHäufigkeiten / Kreuztabellen, Chi-Quadrat (bei mittleren und großen Stichproben), Fisher (bei kleinen Stichproben)erlernter Beruf
Studienfach
Ordinalniveaugrößer- kleiner- DatenMedian, Modalwert
Rangkorrelation
Wie oft lesen Sie Texte zur Vorbereitung von Lehrveranstaltungen (z. B.: nie – selten – machmal häufig – sehr häufig).
Intervallniveau oder metrisches NiveauMess- datenArithmetisches Mittel, Standardabweichung, mittelwertsbasierte Korrelationskorrefizienten,
Regression, Faktorenanalyse usw.
Wie alt sind Sie?
Wie viel Lehrveranstaltungen besuchen Sie in diesem Semester?
Wie hoch ist bis heute der Anteil von Lehrveran- staltungssitzungen in den von Ihnen besuchten Veranstaltungen, die nicht stattgefunden haben?
Tab 18: Essentials der Fragebogenkonstruktion Vortrag Mand 16.10.07
Unterschiedliche Fragetypen vorsehen: Ja/Nein Fragen, Schätzskalen, Polaritätsprofile, Prozent-Fragen

Keine zwei Fragen in eine Frage zusammenfassen

Immer auch sozialstatistische Daten erheben (Alter, Geschlecht, Semesterzahl, Kinder usw.)

Fragebogen darf nicht zu lang werden (1-2 Seiten)

Fragebogen muss auf Stand der Theoriediskussion/Forschung sein (also aus den Fehlern alter Untersuchungen lernen, das fragen, was zu derzeit aktuellen Konzepten der Theoriediskussion passt)

Fragen immer so stellen, dass sozial erwünschte Antwortalternativen nicht offensichtlich sind

Fragebogen so konstruieren, dass dies nicht zu Abbruch der Befragung führt

keine Suggestivfragen

Platz lassen für spätere Nummerierung der Fragebogen

offene Fragen implizieren erheblichen Aufwand bei der Auswertung

Fragebogen in kleinerer Stichprobe (Pilotstudie) testen
Tab 19: Datenauswertung
Häufigkeitstabellen erstellen

Kennwerte berechnen: Maße der zentralen Tendenz
Modalwert als häufigster Messwert, Median als Wert, der die Verteilung halbiert 
Arithmetisches Mittel, Maße der Variablität (Streuung), Variationsbreite (range) als Differenz zwischen kleinstem und größtem Wert

mittlere Abweichung als durchschnittliche Abweichung der Messwerte vom Arithemtischern Mittel
Varianz (s)
Standardabweichung (s2)
Tab 20: Wichtige Statistische Kennwerte
Arithmetisches MittelMesswerte also  x1 + x2 + x3 + …N
————————————–
N
Median (nach Clauß/Ebner 1985)Der Median ist der Wert in der nach der Größe geordneten Rangreihe, der die Reihe halbiert (genau so viele Werte oberhalb und unterhalb)
Modalwert (nach Clauß /Ebner 1985)Der Modalwert ist der Messwert, der am häufigsten vorkommt
Standard-abweichung
Summe der Abstandsquadrate der Messwerte zum 
Arithmetischen Mittel
Quadrat Wurzel aus:        ————————————–
N -1
ProzentrangDer Prozentrang gibt darüber Auskunft, wie viel Prozent der Eichstichprobe besser bzw. schlechter abgeschnitten haben als der untersuchte Proband.

Prozentränge haben das Problem, dass der Abstand zwischen zwei Prozenträngen nicht immer gleich ausfallen muss. Der Unterschied zwischen Prozentrang 3 und Prozentrang 4 kann z. B. größer ausfallen, als der Unterschied zwischen Prozentrang 50 und 51.

Man darf deshalb mit Prozenträngen nicht rechnen (also z. B. den Mittelwert bilden). Prozentränge sind zwar anschaulich, aber letztlich Kennwerte minderer Güte. 
Tab 21: Zusammenhangsmaße
Positive und negative ZusammenhängePhi für nominaskalierte Daten (- 1 bis +1)Rangkorrelation für ordinalskalierte Daten (-1 bis +1)Produkt-Moment-Korrelation für intervallskalierte Dten (-1 bis +1) 
Tab 22: phi     
 b x c – a x d
  ——————————– 
     Quadratwurzel aus: A x B x C x D
 MaennerFrauen 
 (a)(b)Zeilensumme A
 (c)(d)Zeilensumme B
 Spaltensumme CSpaltensumme D 
Tab 23: Maßkorrelation zwischen zwei Variablen (Var 1 und Var 2)
Summe: (Messwerte minus Arith. M. Var 1) x (Messwerte minus Arith. M. Var2)
——————————————————————————-
(n-1) x Standardabweichung Var 1 x Standardabweichung Var 2
Tab 24: Rangkorrelation zwischen zwei Variablen (R)
               6 x Summe der quadrierten Rangplatzdifferenzen zwischen Var 1 und Var 2R =
1 – ———————————————————————————–
n x ((n x n) -1)
Tab 25: Kreuztabellen
In die Spalten: unabhängige Variablen (Geschlecht, Schichtzugehörigkeit usw.)
In die Zeilen: abhängige Variablen, also Var, die von den unabhängigen Variablen beeinflusst werdenJungeMädchen
SpaltenprozenteSpaltenprozente
SpaltenprozenteSpaltenprozente
nn
Zusätzlich wird der p-Wert angegeben

z. B. als p <=.05
Tab 26: Designs
Zwei-Gruppendesign: Experimental und Kontrollgruppe

Pre / Post-Test-Design

Randomisierung als Methode, systematische Unterschiede auszuschließen

Parallelisierung/Matching: sicherstellen, dass Störvariable gleich verteilt ist

Einfluss der Störvariable berechnen
Tab 27: Gebräuchliche Verfahren in der Signifikanzprüfung für Unterschieds und Zusammenhangshypothesen
Chi-Quadrat (nominalskalierte Daten)
t-Test (intervallskalierte Daten)
Korrelationen (ordinal bzw. intervallskaliert Daten
Tab 28: Cohens Effektstärke d nach Walter 2002
Mittelwertsdifferenz zwischen Versuchs- und Kontrollgruppe
————————————————————————–
Standardabweichung Kontrollgruppe

Eine ES ab 0.20 ist klein, eine ES ab 0.50 ist moderat, eine ES ab 0.80 ist groß
Tab 29: Stichproben

Größe

Gewinnung

Rücklauf

einfache Zufallsstichprobe

geschichtete Zufallsstichprobe

Totalerhebung

Klumpenstichprobe (Zufallsauswahl von Einheiten)

Stichproben nach Belieben / Ad hoc Stichproben
Tab 30: Hypothesen, die mit Signifikanztests untersucht werden
Unterschiedhypothesen

Zusammenhangshypothesen

ungerichtete Hypothesen behaupten Zusammenhang/Unterschied

gerichtete Hypothesen spezifizieren Richtung des

Zusammenhangs/UnterschiedsNullhypothesen und Alternativhypothesen

alpha-Fehler: Alternativhypothese wird akzeptiert, obwohl Nullhypothese gilt

beta-Fehler: Alternativhypothese wird fälschlich verworfen
Tab 31: Vorgehen bei Hypothesenvergleich
Berechnung des Kennwerts in der untersuchten Stichprobe

Berechnung der auf Basis von Annahmen über die Verteilung zu erwarteten Werte

Vergleich der theoretischen Verteilung mit der empirischen Verteilung 
Tab32: Vergleich theoretischer und empirischer Verteilung nach Clauss/Ebner 1985, 214 ff.
Chi-Quadrat:

Quadrierte Summe der (beobachtete Häufigkeiten minus Summe erwarteter Häufigkeiten)
————————–erwartete Häufigkeiten
Würfelbeispiel: Fragestellung: Hat jede Augenzahl die gleiche Wahrscheinlichkeit?

Nullhypothese: Es handelt sich um einen homogenen Würfel.
Würfelbeobachtete Häufigkeiterwartete Häufigkeitbeobachtete minus erwartete Häufigkeit(beobachtete minus erwartete Häufigkeit)2Chi-Quadrat
14050-101002
255505250,5
35150110.02
44950110.02
54650-4160.32
659509811.62
Summe3003004,48
Freiheitsgrade berechnen: 6-1 = 5
Kritischer Wert (in Abhängigkeit von akzeptierter Irrtumswahrscheinlichkeit / z. B. 5 % / und Freiheitsgrade) in Chi-Quadrat-Tafel nachschlagen.

Dies erlaubt eine Berechnung der Wahrscheinlichkeit, einen Chi-Quadrat-Wert zu erhalten, der dem kritischen Wert entspricht oder diesen Wert zu überschreitet.
Damit werden Aussagen darüber möglich, ob die Nullhypothese beizubehalten ist oder zurückgewiesen werden muss.
Tab 33: Regeln in der Wirkungsforschung
1. Seriöse Studien arbeiten zumindest mit zwei Untersuchungszeitpunkten: einmal vor der Therapie (Pre-Test) und einmal nach der Therapie (Post-Test).

2. Um Veränderungen bewerten zu können, ist ein Vergleich notwendig. Klienten, die eine Theapie erhalten (Versuchs- oder Experimentalgruppe), sollten z. B. mit Menschen verglichen werden, die keine Therapie erhalten (Kontrollgruppe).

3. Versuchs- und Kontrollgruppe müssen ausreichend groß sein. 

4. Versuchsgruppe und Kontrollgruppe dürfen nicht vollkommen untypisch sein.

Problematisch sind z. B. Studien, die ausschließlich oder in wesentlichen Teilen an Anhängern der untersuchten Methode durchgeführt werden. Ausgeschlossen werden derlei Probleme durch die Auswahl und Zuteilung der Teilnehmerinnen über Zufallszahlen (Randomisierung) oder durch andere Verfahren, die sicherstellen, dass Versuchsgruppe und Kontrollgruppe vergleichbar sind (z. B. Matching).

5. Die durch die Therapie erzielten Erfolge sollten so häufig auftreten, dass sie nicht auch durch den Zufall erklärt werden können. Fünf Prozent Irrtumswahrscheinlichkeit gelten als gerade noch tolerierbar. Dass signifikante Unterschiede auftreten (also mehr als zufällige Unterschiede zwischen Versuchsgruppe und Kontrollgruppe), reicht für einen Effektivitätsnachweis nicht aus. Denn es ist auch möglich, dass winzige Unterschiede häufiger auftreten, als der Zufall erwarten lässt. 

6. Die Effekte sollen so groß sein, dass spürbare Veränderungen sichtbar werden. Die Stärke der Veränderungen wird häufig über Cohens Effektstärke erhoben (Tabelle 28 der Forschungsmethodenunterseite).
Tab 34: Die Berechnung von Cohens d am Beispiel der „Auf´s-Meer-gucken-Therapie“
Versuchsgruppe:
Eine Woche lang 6 Std. täglich an der Nordsee auf´s Meer guckenPretest mittlere Herzfrequenz : 70 Posttest mittlere Herzfrequenz: 61
Standardabweichung: 10
Kontrollgruppe: Eine Woche lang 6 Std. täglich in Bochum Hamme auf eine Wand gucken
Pretest mittlere Herzfrequenz : 70
Posttest mittlere Herzfrequenz 70
Standardabweichung 11

Cohens Effektstärke
(70-61)-(70-70)
—————— = 0,8211
11
Tab 35 Empirischer Nachweis kausaler Beziehungen
Signifikante Unterschiede / Korrelative ZusammenhängeVorhersage über einen längeren ZeitraumEffekt von Interventionen
Armut x Lernbehinderungx
Motorische Entwicklung x Schreibentwicklung
x


phonologische Bewusstheit x Leseentwicklung
x

x

x
Wortschatz x Leseentwicklungxx?
Zahl der Bücher im Haushalt x Lesenentwicklung
x

x

Tab 36: Interpretation von Korrelationen
1. Positiver oder negativer Zusammenhang? 
2. Stärke des Zusammenhangs (bis 0,1: schwach / bis 0,3 moderat / ab 0,5 stark)
3. bei Zufallsstichproben: Ist der Zusammenhang signifikant? (p bis ,05 = signifikant * / p bis 0,01 = hoch signifikant **)
Tab 37: Qualitätsbegriffe nach Kuper (2002, 534 f.) 
Heid (2000): Qualität als Resultat der Bewertung der Beschaffenheit eines Objektes. Eine Bestimmung von Qualität ist damit auf die Entscheidungsträger verwiesen. Der Begriff Qualität ist eine relative GrößeHarvey & Green (2000): Mit Qualität können Ansprüche verbunden werden: als Ausnahme, als Perfektion, als Zewckmäßigkeit, als adäquater Gegenwert und als Transformation (sofern die in Prozessen erfolgte Änderung einer Beschreibung oder Bewertung unterliegt).Cuttance (1998) unterscheidet:Qualitätskontrolle als Vergleich der Ergebnisse eines Prozesses mit definierten ErwartungswertenQualitätssicherung als Prävention von Qualitätsmängeln durch eine systematische Begleitung von operativen Prozzessen im Interesse der Gewährleistung von Qualität
Tab 38: Greve & Pfeiffer (2002, 572 f.) Qualitätsmanagment in Unternehmen
in BWL Zusammenhängen (DIN EN ISO 8402): Qualität als Gesamtheit von Eigenschaften und Merkmalen eines Produkts oder einer Dienstleistung, die sich auf deren Eignung zur Erfüllung festgelegter oder vorausgelegter Erfordernisse beziehen
weitere Qualitätsbegriffe in der Qualitätsliteratur:
(1) Produktbezogener Qualitätsbegriff: Qualität als Summe der vorhanden Eigenschaften von Produkten und Dienstleistungen
(2) Kundenbezogener Qualitätsbegriff: Qualität deifiniert als Kundenwahrnehmung der Produkteigenschaften und Leistungen
(3) Absoluter Quaitätsbegriff: Qualität als kategorisierbares, allgemeines Maß für die Güte eines Produktes 
(4) Herstellerorientierter Qualitätsbegriff: Unternehmen gibt Standards vor 
(5) Werorientierter Qualitätsbegriff: Ist Leistung ihren Preis wert?
Tab 39: Definition Evaluationsforschung nach Rossi/Freemann (nach Bortz/Döring 2009)
Evaluationsforschung als systematische Anwendung von Forschungsmethoden zur Bewertung eines Konzepts, eines Untersuchungsplans der Implementierung und der Wirksamkeit sozialer Interventionsprogramme
Tab 40: Ziele / Zwecke / Funktionen der Evaluation nach Stockmann 2000 (Bortz/Döring 2009)
Erkenntnis
Optimierung
Kontrolle
Entscheidung
Legitimation
Tab 41: Evaluationsforschung nach Bortz/Döring (2009)
gleiche Methodenstandards wie empirische Grundlagenforschung
Ergebnisse so formulieren, dass auch weniger fachkundige Personen sie verstehen
Zweifel an Eindeutigkeit der Befunde nicht überbetonen
klare Aussagen
Ratgeberpflicht (Entscheidung für oder gegen Wirksamkeit einer Maßnahme)
Erkenntnisinteresse begrenzt 
Wissenschaftliche Theorien beschreiben, erklären oder versuchen Vorhersage – technolgische Theorien geben Anweisungen zur Umsetzung
i.d.R. keine Veröffentlichung
Tab 42: Evaluation als Auftragsforschung nach Bortz/Döring (2009)
Vorrangiges Ziel: Evaluationsfrage beantworten
nicht unabhängig
externe Evaluation besser als Selbstevaluation
Tab 43: Probleme externer Evaluation nach Bortz/Döring (2009)
weniger Detailkenntnisse zur Intervention/zum Praxisfeld
Rückkopplung in die Praxis aufwendiger
mehr Kosten
Ausweg: Mitarbeiter/innen für Selbstevaluation schulen und Teilaspekte extern evaluieren 
Tab 44: Evaluations vs Interventionsforschung nach Bortz/Döring (2009)
Interventionsforschung befasst sich auf Basis technologischer Theorien mit der Entwicklung von Maßnahmen – die Evaluationsforschung mit ihrer Bewertung
Tab 45: Merkmale von Evaluator/innen nach Bortz/Döring (2009)
Fachliche Kompetenz
Solide Kenntnisse in Forschungsmethoden, Designtechnik & statistischer Analyse
Verantwortlich dafür, dass die Bewertung einer Maßnahme auf Basis unstrittiger Tatsachen erfolgt (interne Validität) und nicht nur für die untersuchten Personen, sondern für alle Beteiligten gilt (externe Validität)
Tab 46: Evaluationsstandards der Deutschen Gesellschaft für Evaluation nach Bortz/Döring (2009)
1. Nützlichkeit, d.h. an den Interessen der Evaluationsnutzer ausgerichtet, Interessen und Bedürfnisse berücksichtigen, vertrauenswürdige & kompetene Evaluatoren, klare & verständliche Berichte
2. Durchführbarkeit, d.h.: realistisch, gut durchdacht, diplomatisch & kostenbewusst arbeiten / Störungen minimieren / Interessenkonflikte vermeiden
3. Korrektheit: ethisch & fachlich korrekt vorgehen / dem Wohlergehen der betroffenen Personen ausreichend Raum geben / Stärken & Schwächen fair beschreiben / alle beteiligten Personen über Ergebnisse informieren
4. Genauigkeit: fachlich angemessene Informationen ermitteln / Programm korrekt dokumentieren / zuverlässige Informationsquellen nutzen / qualitative und quantitative Informationen verwenden / unparteilich & fair berichten
Tab 47: Evaluationsstandard Nützlichkeit nach Sander (2006)
1. Betroffene und beteiligte Personen sollen ermittelt und beteiligt werden
2. Evaluierende sollen vertrauenswürdig & kopetent sein
3. Die Informationen sollen so umfangreich sein und so ausgewählt werden, dass sie die Behandlung von sachdienlichen Fragen zum Programm ermöglichen und gleichzeitig auf die Interessen & Bedürfnisse des Auftraggebers und anderer Beteiligter und Betroffener eingehen
4. Perspektiven, Verfahren und Gedankengäng, auf denen ide Interpretationen der Ergebnisse beruhen, sollen sorgfältig beschrieben werden, damit die Grundlagen der Werturteile klar sind.
5. Evaluationsberichte sollen das evaluierte Programm einschließlich seines Kontextes ebenso beschreiben wie die Ziele, die Verfahren und Befunde der Evaluation, damit die wesentlichen Informationen zur Verfügung stehen und leicht verstanden werden können.
6. Wichtige Ziwschenerkenntnisse und Schlussbereichte sollen so zur Kenntnis gebracht werden, dass diese rechtzeitig verwendet werden können. 
7. Evaluationen sollen so geplant, durchgeführt und dargestellt werden, dass die Beteiligten und Betroffenen ermutigt werden, dem Evluationsprozess zu folgen (47 ff) 
Tab 48: Evaluationsstandard Durchführbarkeit nach Sander (2006): Die Durchführbarkeitsstandards sollen sicherstellen, dass eine Evaluation realistisch, gut durchdacht, diplomatisch und kostenbewusst ausgeführt wird
1. Das Evaluationsverfahren sollten so praktisch sein, dass Störungen minimiert und benötigte Informationen beschafft werden können.
2. Evaluationen sollten mit Voraussicht auf die unterschiedlichen Interessengruppen geplant und durchgeführt werden
3. Die Evaluation sollte effizient sein und Informationen mit einem Wert hervorbringen, der die eingesetzten Mittel rechtfertigt. (87 ff.)
Tab 49: Evaluationsstandard Korrektheit nach Sander (2006)
1. Die Evaluation sollte so gestaltet werden, dass Organisationen dabei unterstützt werden, die Ineteressen und Bedürfnisse des ganzen Zielgruppenspektrums zu berücksichtigen.2. Die Pflichten der Vertragsparteien sollten schriftlich festgehalten werden3. Evaluationen sollen so geplant & durchgeführt werden, dass die Rechte und ds Wohlergehen der Menschen respektiert und geschützt sind.4. Evaluatorinnen sollten in ihrem Kontakten die Würde und den Wert der Menschen respektieren.5. Evaluationen sollen in der Überprüfung und in der Präsentation der Stärken und Schwächen eines Programms vollständig und fair sein.6.Offenlegung der Ergebnisse7. Inetressenkonflikte sollten offen und aufrichtig behandelt werden.8. Die Zuweisung und Ausgabe von Ressourcen sollte durch sorgfältige Rechnungsführung nachgewiesen werden und auch anderweitig klug & ethisch verantwortlich erfolgen (107 f.) 
Tab 50: Evaluationsstandard Genauigkeit nach Sander (2006):
Die Evaluation muss angemessene Informationen hervorbringen und umfassend sein
1. Programmdokumentation: Das Evaluationsprogramm sollte klar und genau beschrieben und dokumentiert werden.
2.Kontextanalyse: Der Kontext, in dem das Programm angesiedelt ist, sollte ausreichend detailliert untersucht werden, damit mögliche Beeinflussungen des Programms identifiziert werden können.
3. Beschreibung von Zielen & Vorgehen: Die Zwecksetzungen und das Vorgehen der Evaluation sollten ausreichend genau dokumentiert und beschrieben werden.
4. Verlässliche Informationsquellen: Die in einer Programmevaluation benutzten Informationsquellen sollten hinreichend genau beschrieben werden.
5. Valide Informationen: Die Gültigkeit der gewonnenen Informationen für die eingesetzten Zwecke sollte sichergestellt sein. 
6. Reliable Informationen: Die Zuverlässigkeit der gewonnenen Informationen für die eingesetzten Zwecke sollte sichergestellt sein. 
7. Systematische Informationsüberprüfung Die im Rahmen einer Evaluation gesammelten & Präsentierten Informationen sollten systemtisch überprüft & korrigiert werden.
8. Analyse quantativer Informationen
9. Analyse quanlitativer Informationen
10. Begründete Schlussfolgerungen: Die Folgerungen sollten ausdrücklich begründet werden, damit die Betroffenen diese einschätzen können.
11. Unparteiische Berichterstattung: Die Verfahren der Berichterstattung sollten über Vorkehrungen gegen Verzerrungen durch persönliche Gefühle und Vorlieben irgendeiner Evaluationspartei geschützt werden.
12. Meta-Evaluation: Die Evaluation selbst sollte evaluiert werden (154 ff)
Tabelle 51: Guiding Principels der American Evaluation Association nach Bortz/Döring (2009)
(1) Gegenstand systematisch datenbasiert untersuchen
(2) Fachkompetenz zur Durchführung von Evaluationsstudien belegen
(3) fairen & integren Evaluationsprozess garantieren
(4) Persönlichkeitsrechte respektieren
(5) für die öffentliche Wohlfahrt Verantwortung zeigen
Tabelle 52: Vorgehen bei Evaluation nach Bortz/Döring
Ziele der Maßnahme müssen genau beschrieben sein
unpräzise Ziele müssen operationalisiert werden
Evaluator/in muss über Methoden verfügen, die Evalution erforderlich macht
Auftrag nur dann annehmen, wenn Zeit & Geld reichen
keine Evaluation, wenn: Intimsphäre von Beteiligten verletzt werden kann /Teilnahme an Evaluationsstudie über Sanktionen erzwungen werden soll / Mitwirkung an Evaluation zu körperlichen oder psychischen Beeinträchtigungen der Beteiligten führen kann
Tab 53: Planungsfragen für Evaluator/innen nach Bortz/Döring (2009)
Wurde richtige Zielpopulation ausgewählt?Sind Einrichtung und Dienste für die Durchführung der Maßnahme ausreichend?Ist das Personal für die Maßnahme ausreichend qualifiziert?Welche Maßnahmen sind vorgesehen, um Mitarbeiter/innen zur Teilnahme an Evaluation motivieren?Gibt es Möglichkeiten den Erfolg der Maßnahme zu optimieren?Mit welchen Techniken soll der Erfolg der Maßnahme kontrolliert werden?
Tab 54: Untersuchungsvarianten der Evaluation nach Bortz/Döring (2009)
Erkundung
summative Evaluation (zusammenfassend)
formative Evaluation (begleitend)
Fallstudien
Populationsbeschreibung: Prävalenz (Wie viele Personen derzeit?) und Inzidenz (Wie viele kommen hinzu?
Tab 55: Mindeststandards nach Bortz/Döring (2009)
Experimentalgruppe und Kontrollgruppe
Randomisierung
präzise Kenntnis über Aufteilung in Experimental & Kontrollgruppe
Alternativen zu Experimentalgruppen/ Kontrollgruppendesign: mehrere Maßnahmen vergleichen, Maßnahmen mehrfach anwenden, Intensität der Maßnahme variieren, Vergleich mit Normen
Effektgrößen ermitteln
Tab 56: Operationalisierung nach Bortz/Döring (2009)
Prüfen, ob unabhängige Variablen in untersuchter Evaluationsstichprobe ausreichend vertreten sind
Festlegen, wie Erfolg der Maßnahme ermittelt werden soll (abhängige Variable)
Tab 57: Nützlichkeit prüfen nach Bortz/Döring (2009)
z. B. Goal-Attainment Scale: Jede Person formuliert möglicherweise auch subjektiv erscheinende Ziele, Erfolg wird über 5-stufige Skala ermittelt

Verbundsmessung (Conjoint Measurement): In welchem Ausmaß beeinflussen einzelne Merkmale den Gesamtnutzen? Probleme treten auf bei Wechselwirkungen zwischen Einzelmerkmalen.

Individualanalyse: Wer profitiert wie stark?

Zielexplikation: Ziele präzise formulieren!

Neben Wirkungen muss auch der Nutzen explizit definiert werden.

Prospektive Evaluation: Erfolgsaussichten einer Maßnahme wird vor Evaluation ermittelt.
Tab 58: Interventionsstudien nach Bortz/Döring (2009)
Zielpopulation prüfen

Praktikabilität einer Zielgruppendefinition checken: in einer Machbarkeitsstudie geprüft werden (Feasability Study) / Expertengespräche / öffentlichen Diskussionsveranstaltungen / Vergleichende Analysen (z. B. Städtevergleich) / Veröffentlichte statistische Daten nutzen

Wege aufzeigen, wie man gut & kostengünstig an Zielgruppe heran kommt.
Tab 59: Ausschöpfungsqualität einer Interventionsstichprobe nach Bortz/Döring (2009)
Ausschöpfungsqualität berechnen: 100 x [(Anzahl der erreichten Zielobjekte : Anzahl aller Zielobjekte) – (Anzahl der unbefugten Programmteilnehmer : Anzahl aller Programmteilnehmer] / Optimalwert: 100

Terminologie: Falsch positiver Wert: Anzahl der unbefugten Personen, die am Programm teilnehmen

Falsch negativer Wert: Anzahl der befugten Personen, die nicht am Programm teilnehmen
Sensitivität: Anzahl der befugten Personen, die am Programm teilnehmen (relativiert durch: Anzahl aller befugten Personen)

Spezifität: Anzahl der unbefugten Personen, die nicht am Programm teilnehmen
Tab 60: Fragen für Planungsgespräche nach Bortz/Döring (2009)
(1) Welche Vorkehrungen sollen unternommen werden, um Zielgruppe zu erreichen?
(2) Wie soll kontrolliert werden, ob Zielgruppe erreicht wurde?
(3) Wie wird geprüft, ob die für die Durchführung der Maßnahme erforderlichen Dienste/Personen/Institutionen richtig funktionieren?
(4) An welchem Ort, zu welchem Zeitpunkt und mit welchem Hilfspersonal können die Daten erhoben werden?
(5) Besteht die Gefahr, dass die Evaluationsstudie die Akzeptanz der Maßnahme beeinträchtigt?
Wie wird kontrolliert, ob die Mittel angemessen verwendet wurden?
Anhand welcher Daten soll kontrolliert werden, ob die Maßnahme richtig abgewickelt wird?
Tab 61: Hornbostel/Keiner (2002, 640): Korrelationen zwischen Urteil der Lehrenden und Studierenden bei Lehrevaluationen an Hochschulen auf Basis des CHE Rankings 2001 (Auswahl)
Zustand der Hörsäle .616**
Verfügbarkeit studienrelevanter Literatur .602 **
Breite des Lehrangebots .546 **
Vollständigkeit des Lehrangebots .426 *
Forschungsbezug der Lehre. .424*
Angebot an Projektseminaren und Praktika .259 *
Tab 62: Hornbostel/Keiner (2002, 640) Beurteilung der Studiensituation auf Basis des CHE Rankings 2000, 2001, 2002 (Auswahl)
1 sehr gut23456 sehr schlecht
EWI2,9 %26,9 %40,5 %20,1 %8,5 %1,2 %
Tab 63: Berendt (2000, 51) Kriterien guter Hochschullehre nach Ledic, Rafajec & Kovac (1999)
1. Lernziele klar definiert
2. Studentische Interessen werden ermutigt
3. Lehrende sind gut vorbereitet
4. Lehrende sind Experten in ihrem Fach
5. Lehrende sind begeistert von ihrem Fach
6. Lehrende betonen wichtige Teile ihres Fachs
7. Lehrmethoden werden benutzt, die eine aktive Kooperation der Studierenden ermöglichen
8. Aktives und selbstgesteuertes Lernen wird ermutigt
9. Lehrende akzetieren individuelle studentische Unterschiede
10. Lehrende fragen nach Feedback
11. Lehrende antworten auf studentisches Feedback
12. Die Prüfung von Studierenden ist fair ud zuverlässig
13. Individuelle Kurse werden geplant, um integrativ zu Studienthemen eines Studierenden beizutragen
14. Bücher und andere Quellen sind verfügbar
15. Lehrende zeigen die Bereitschaft zu helfen
Tab 64: Rindermann (2001, 51 f.) Unterschiede und Gemeinsamkeiten in der Bewertung von Lehre bei Studierende und Lehrenden in Rindermann 1999 (N= 58 Lehrende plus N = 58 Studierende)
Kriterien, die Studierende und Lehrende anlegen, differieren nicht fundamental 
studentische Urteile sind durchaus valide und wenig bias-verzerrt
Fremdeinschätzungen & studentische Urteile korrelieren substanziell (aber Dozenten legen mehr wert auf Kenntnis der aktuellen Forschung, Studenten mehr auf Freundlichkeit) 
Tab 65: Rindermann (2001, 142): Übereinstimmung von Dozenten, Wissenschaftler, Fremdberuteiler und Studierenden bei Lehrveranstaltungsbewertungen bei Einsatz des HILVE I und HILVE II 
UrteilerübereinstimmungRetestreliabilität
Lehrverhalten
Lehreffektivität
studentische Skalen
Rahmenbediingungen
.31
.30
. 21
.27
.77
.66
.58
.77
Tab 66: Umrechnung von Reliablitätskoeffizienten in prozentuale Übereinstimmung nach Bundschuh 1999, 71 ff.
(Reliabilitätskoeffizent)2 x 100
Tab 66: Veränderungen des Studierendenurteils nach Feedback an Lehrende (Rindermann 2001, 239 f., 241, 265 / N = 906 Fragebogen von Studierenden, die insgesamt 15 Kurse in der Mitte und am Ende des , Semesters besuchten)
LehrkompetenzEngagementKlimaInteressantheit
Cohens d =0,030,01– 0,080,1
Schlussfolgerungen: Bloße Durchführung der Lehrevaluation hat keine Auswirkungen auf die Lehre. Auch die Veranstaltungsbezogene Rückmeldung der Evaluationsergebnisse und die Besprechung mit den Studierenden hat keine Auswirkungen auf die Lehre.
Besprechung oder Nichtbesprechung hat Indikatorfunktion: Dozenten deren Lehre von Studenten als kompetent und enagiert wahrgenommen wird, besprechen eher die Ergebnisse mit ihren Studenten, aber: Verbesserungeeffekte werden insbesondere bei Veranstaltungen sichtbar, deren Lehrende die das Feedback nicht besprochen haben. Opitmierungseffekte sind erreichbar, wenn die Feeedbacks durch Beratung und Weiterbildung ergänzt werden

Schreibe einen Kommentar