Издательская программа


Download 1.01 Mb.
bet67/153
Sana12.03.2023
Hajmi1.01 Mb.
#1264534
TuriУчебник
1   ...   63   64   65   66   67   68   69   70   ...   153
Bog'liq
seriya

b

с

d

е

1.

1

1

0

1

1

4

2.

0

1

0

0

1

2

3.

1

0

0

1

1

3

4.

1

0

0

0

1

2

5.

0

0

0

1

1

2

Сумма

3

2

0

3

5

13


Следующим шагом будет вычисление показателя, определяющего долю испы­туемых, ответивших в соответствии с «ключом» опросника или индекса эффек­тивности задания1. Этот показатель подсчитывается делением количества обсле­дуемых, давших правильный (так называемый «ключевой») ответ, на их общее количество. В идеалt этот индекс для каждого задания должен располагаться в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника. Ин­декс, меньший чем 0,25, показывает, что задание неэффективно потому, что очень 1


1 В ряде случаев определяется как индекс сложности задания; например, во многих шкалах интеллек­та присутствуют субтести, предназначенные для определения общей осведомленности и состоящие из вопросов типа: «Назовите столицу Уругвая» или «Кто автор "Критики чистого разума"?». В таких тестах с помощью индекса сложности устраняются те задания, на которые отвечают почти все испы­туемые (легкие) и те, на которые отвечают правильно очень немногие (сложные).


3.5 Анализ заданий 159




немногие обследуемые отвечают на него правильно, а выше 0,75 указывает на то, что на данное задание получено слишком много правильных ответов. В табл. 3.3 анализа заданий индекс эффективности для каждого задания получается следу­ющим образом: (а)
3/5 - 0,6; (b) 2/5 - 0,4; (с) 0/5 - 0; (d) 3/5 - 0,6 и (е) 5/5 = 1. Из этого следует, что нужно устранить задания (с) и (е) из окончательной версии опросника.
Также нужно удостовериться, просмотрев результаты в таблице анализа зада­ний, в том что хороший индекс эффективности, т. е. лежащий где-то посередине между крайними оценками, не просто означает выбор средних оценок в оценоч­ном континууме каждым испытуемым, а представляет собой вариацию различных оценок.
Задания (вопросы, утверждения) только тогда следует включать в окончатель­ную версию опросника, когда они измеряют те же самые личностные особенно­сти, что и другие, предназначенные для этого задания. Для определения дискри- минативности заданий используется коэффициент корреляции каждого задания с общим баллом всего теста. Чем выше коэффициент корреляции, тем выше дис- криминантность задания, тем лучше задание. Это основной критерий. Как прави­ло, требуется минимальная корреляция в 0,2. Задания с отрицательной или нуле­вой корреляцией почти всегда исключаются.
Для расчета этого показателя чаще всего применяется коэффициент произве­дения моментов Пирсона (заметим, что он наиболее приемлем для оценивания заданий, имеющих пять и более вариантов ответа, а в случае дихотомических за­даний используется точечно-бисериальная корреляция). Вычисления обычно производятся с помощью специальных компьютерных программ, однако каждый разработчик тестов должен хотя бы один раз провести расчеты вручную. Это дает возможность проникновения в смысл того, что происходит с заданиями теста. Тем читателям, которые попытаются осуществить эту процедуру, напоминаем, что ко­эффициенты корреляции всегда меньше + 1 и больше -1. Если получено значение коэффициента, выходящее за границы этого интервала, значит, допущена ошибка в расчетах. Формула коэффициента произведения моментов Пирсона имеет вид:


где г— коэффициент корреляции; X — результат по каждому заданию; Y— балл (результат) по всему тесту; п — количество попарных произведений; 2 — сумма.
Для того чтобы подсчитать коэффициент корреляции произведения моментов Пирсона, нужны: сумма баллов испытуемых по каждому заданию (UC), сумма бал­лов, испытуемых по всему тесту (2У), сумма квадратов баллов испытуемых по каждому заданию (2Х2),сумма квадратов баллов испытуемых по всему опросни­ку (2У2), сумма произведения баллов по каждому заданию и по всем заданиям (2ХУ). Путем подстановки в формулу значений перечисленных показателей вы­числяется коэффициент корреляции. Нижеследующий пример демонстрирует простой способ получения этого коэффициента. Для избежания ошибок рекомен­дуется повторный подсчет по каждому заданию.




Испытуемые Балл по зада­

Балл по зада-

Балл по всему Бал по всему

Произведение

нию

нию в квад­

тесту

тесту в квадрате

баллов по зада-




рате







нию и по всему













тесту

п X

X2

Y

Y2

XY

1

1

1

30

900

30

2

3

9

57

3249

171

3

5

25

94

8836

470

4

4

16

76

5776

304

5

3

9

80

6400

240

6

1

1

33

1089

33

7

2

4

54

2916

108

8

2

4

58

3364

116

9

5

25

83

6889

415

10

4

6

76

5776

304

я = 10

2Х=30

£*г=110

2Г=641

ZTJ=45195

1ХУ=2191


г=


10(2191)—(3Q)(641)


V[1 W - (30)2 j [10(45195) - (641)2


Способы улучшения заданий выясняются как раз на этой стадии конструирова­ния теста. Например, изменение формулировки ответа в задании с «иногда» на «все­гда» может повысить показатель эффективности. Однако эти изменения во всех вопросах (утверждениях) могут повлиять на надежность и валидность теста. Про­цедура анализа заданий дает необходимую информацию относительно параметров каждого задания. Тем не менее только исследователь может вынестирешение
о том, какой из критериев наиболее важен для реализации цели создаваемого теста.
В начале 1980-х гг., помимо традиционных процедур анализа заданий, появ­ляются более сложные, использование которых невозможно без достаточно мощ­ного компьютерного обеспечения. К таковым прежде всего относится теория «за­дание—ответ» (item response theory, IRT). Технические приемы этой теории, не­смотря на продолжающиеся дискуссии, сегодня включаются во вновь создаваемые


3.6. Определение надежности теста 161




тесты. Однако речь идет прежде всего о тестировании способностей. Наиболее слож­ные проблемы возникают в связи с попытками приложения ITR
к тестам лично­сти. Безусловно, нельзя утверждать, что процедуры из ITR неприменимы в оценке личности, однако требуется решение многих задач, прежде чем эта теория заменит традиционные процедуры анализа заданий подробнее об этой теории см. в рабо­тах П. Клайна, 1994; А. Анастази и С. Урбина, 2001; и др.).

  1. Определение надежности теста

Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.
В психометрике термин надежность имеет два значения. На одном из них — на­дежности по внутренней согласованности — мы не будем останавливаться под­робно, отсылая читателя к соответствующим справочникам и руководствам1, от­метив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Суще­ствует несколько способов определения надежности.
Надежность ретестовая — предполагает повторное предъявление того же само­го теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испыту­емые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому по­вторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаи­вают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).
Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестиро­вания варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумы­вать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.
Наименьшим удовлетворительным значением для ретестовой надежности яв­ляется коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.


1 Изданный под нашей редакцией перевод с английского книги П. Клайна «Справочное руководство по конструированию тестов» (Киев, 1994), пока, к сожалению, единственная на русском языке дос­таточно подробная работа по конструированию тестов, может удовлетворить интерес читателя к этой проблеме.




162 Глава 3. Психометрические основы психодиагностики: основные этапы...



Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная пробле­ма, препятствующая широкому распространению этого способа определения на­дежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.

Download 1.01 Mb.

Do'stlaringiz bilan baham:
1   ...   63   64   65   66   67   68   69   70   ...   153




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling