Что такое надежность в психологии. Надежность тестовых методик
Психодиагностика: конспект лекций Алексей Сергеевич Лучинин
ЛЕКЦИЯ № 9. Надежность психодиагностических методик
1. Определение. Факторы, влияющие на надежность методики. Стандартная ошибка измерения. Надежность измерения. Понятие о методе измерения ретестовой надежности
Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста).
Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов . К числу таких факторов относятся:
1) разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (времени суток, освещенности, температуры в помещении, наличия посторонних звуков, отвлекающих внимание и т. п.);
2) динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой врабатываемости – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость наступления утомления и т. п.);
3) информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).
Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы, в принципе, получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как стандартная ошибка измерения (Se) . Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы.
Ошибка измерения (Se) и надежность измерения (R) согласно общепринятой психометрической теории связаны следующей формулой:
R = 1 – Se 2 / S x 2 , (1),
где S x – дисперсия тестовых показателей Х.
Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы. Самый известный их них – метод перетестирования («тест-ретест») или метод измерения ретестовой надежности . На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование Х, а затем повторное тестирование Y. Интервал, как правило, 2 недели, что гарантирует забывание вопросов теста.
Затем для двух рядов значений Х и Y подсчитывается, например, линейный коэффициент корреляции, или ранговый коэффициент корреляции :
где S x , S y – стандартные отклонения X и Y, t;
Cov (X, Y ) – ковариация двух переменных X и Y.
Для сути теории надежности методов важна возможность определить ошибку измерения, после того как подсчитана корреляция «тест – ретест» по формуле (3), полученной путем простого преобразования формулы (1):
Se = S x ? V1 – R . (3)
Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция «тест – ретест» оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:
Se = 10 ? V1-0,5 ~ 7.1.
Оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И, если испытуемый набрал на 6 очков больше, чем средний испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.
Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.
Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8–0,9.
Метод измерения ретестовой надежности пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамические установки личности нельзя проверить таким образом. В этом случае применяют различные методы расщепления теста на отдельные пункты.
Надежность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психодиагностического исследования. Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста. Общий разброс (дисперсию) результатов тестового обследования можно, таким образом, представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры.
В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.
В более узком, методическом смысле под надежностью понимают степень согласованности результатов теста, получаемых при первичном и вторичном его применении у одних и тех же испытуемых в различные моменты времени с использованием разных (но сопоставимых по характеру) наборов тестовых заданий или при других изменениях условий обследования.
Разновидностей характеристик надежности теста так же много, как условий, влияющих на его результаты. Наиболее широкое практическое применение находит несколько типов характеристик надежности: надежность ретестовая, надежность параллельных форм, надежность частей теста.
Из книги Хорошие мышцы – путь к здоровью и процветанию автора Геннадий Петрович МалаховГлава 3 ОПИСАНИЕ МЕТОДИК ПО РАБОТЕ С МЫШЦАМИ И УПРАЖНЕНИЙ В зависимости от состояния здоровья, желания и склонности заниматься физическими упражнениями можно в любом состоянии и положении. Это могут быть постельные гимнастики, утренние гимнастики, специальные
Из книги Медицинская физика автора Вера Александровна Подколзина Из книги Психодиагностика: конспект лекций автора Алексей Сергеевич ЛучининЛЕКЦИЯ № 5. Основные виды диагностических методик 1. Опросники. Интроспекционизм как теоретическая основа метода. Работы Ф. Гальтона, А. Бине, Р. Вудвортса Особое направление в психологической диагностике связано с разработкой различных методов диагностики личности. С
Из книги Портреты гомеопатических препаратов, (часть 2) автора Кэтрин Р. Култер3. Общие критерии классификации психодиагностических методик. Понятие о научных и практических методиках Более развернутую классификацию психодиагностических методик можно предложить, лишь выделив общие критерии, в соответствии с которыми различные методы
Из книги 100%-ное зрение. Лечение, восстановление, профилактика автора Светлана Валерьевна Дубровская4. Ограничения, достоинства и недостатки различных типов психодиагностических методик Существование множества психодиагностических методик объясняется не только большим количеством свойств, которые с их помощью приходится оценивать, но также тем, что практически все
Из книги Чистые сосуды по Залманову и еще чище автора Ольга Калашникова1. Определение. Факторы, влияющие на надежность методики. Стандартная ошибка измерения. Надежность измерения. Понятие о методе измерения ретестовой надежности Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической
Из книги Лечение болезней глаз + курс лечебной гимнастики автора Сергей Павлович Кашин3. Надежность параллельных форм. Сущность, достоинства и недостатки Надежность параллельных форм – характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности
Из книги Полный справочник анализов и исследований в медицине автора Михаил Борисович Ингерлейб4. Относительность деления валидности на типы. Понятие комплекса валидности. Обоснование необходимости периодической валидизации психодиагностических методик В психологической диагностике не существует универсального подхода к характеристике валидности. Для
Из книги Бросай курить! САМОкодирование по системе СОС автора Владимир Иванович Звягин4. Основные схемы валидизации психодиагностических методик Решение проблемы прогностической валидности под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать на порядок
Из книги автора3. Принцип ограниченного распространения психодиагностических методик (принцип профессиональной тайны) В кратком изложении этот принцип гласит, что сертифицированные психологическим обществом профессиональные психодиагностические методики могут распространяться
Из книги автораНАДЁЖНОСТЬ И НЕПРЕДСКАЗУЕМОСТЬ Natrum muriaticum - это сама противоположность самодовольству, опирающемуся на чувство стабильности и безопасности. Даже если всё идёт хорошо в его жизни, он редко бывает удовлетворён. Боясь поворота судьбы, он начинает суеверно думать: «Всё это
Из книги автораПовышение остроты зрения с помощью аппаратных методик Несмотря на то что регулярные занятия гимнастикой для глаз помогают повысить остроту зрения, при близорукости высокой степени рекомендуется терапевтическое лечение в стационаре. В настоящее время существуют
Из книги автораГлава 3 РАЗНООБРАЗИЕ МЕТОДИК Помимо скипидарных ванн существуют и другие методики физиотерапевтического воздействия на капилляры. Все они уходят корнями в давнее прошлое, то есть их безопасность и эффективность проверены временем. Многие древние методики в наши дни
Из книги автораПовышение остроты зрения с помощью аппаратных методик Несмотря на то что регулярные занятия гимнастикой для глаз помогают повысить остроту зрения, при близорукости высокой степени рекомендуется терапевтическое лечение в стационаре.В настоящее время существуют
Из книги автораАлфавитный указатель анализов, методик и определяемых веществ A-Z 17-гидроксипрогестерон 9617-кетостероиды 993D УЗИ 4794D УЗИ 479CA 15-3 162CA 19-9 162CA 72-4 163CA 125 161Cyfra 21-1 163C-реактивный белок 31D-димер 82HLA антигены 94IgA 86IgE 86IgG 87IgM 87MAR-тест 91pH мочи
Из книги автораЭРМы – это надежность! Психотехники системы СОС позволяют практически любому человеку стать очень хорошим гипнотизером для себя. Однако превращение себя в него с помощью только этой книги (вспомните для сравнения, как некоторые энтузиасты обучаются игре на музыкальных
*Надежность и валидность теста - это характеристики соответствия исследования формальным критериям, определяющим качество и пригодность к применению на практике.
Что такое надежность
В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием.
Надежность теста - это критерий, который свидетельствует о Существенными считаются следующие свойства тестов:
- воспроизводимость результатов, полученных по итогам исследования;
- степень точности или соответствующих приборов;
- устойчивость результатов на протяжении определенного периода времени.
В трактовке надежности можно выделить следующие основные составляющие:
- надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
- стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
- объективность результата (то есть его независимость от личных предпочтений исследователя).
Факторы надежности
На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:
- несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
- временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
- несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
- меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
- субъективный подход при оценке результатов теста.
Способы оценки надежности теста
При определении надежности теста могут быть использованы следующие методики.
Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.
- конструктивная валидность теста - это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
- валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
- валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
- прогностическая валидность - это который позволяет оценить перспективное развитие параметра.
Типы критериев валидности
Валидность теста - это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:
- критерий исполнителя (речь идет о квалификации и опыте исследователя);
- субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
- физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
- критерий случайностей (имеет место в определении вероятности наступления того или иного события).
Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.
Основные требования к критериям
Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:
- соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
- отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
- исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.
Способы установления валидности
Проверка валидности тестов может осуществляться несколькими способами.
Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.
Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:
- конвергентную валидизацию - проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
- дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.
Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.
Выводы
Валидность и надежность тестов - это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.
Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.
Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).
МИНОБРНАУКИ РФ
Государственное образовательное учреждение
Высшего профессионального образования
«Поволжская государственная социально-гуманитарная академия»
Кафедра социальной педагогики, психологии и педагогики начального образования
Надежность психодиагностических методик: её виды, способы установления. Соотношение валидности и надежности.
Выполнила студентка II курса по
Психолого-педагогической диагностике
дневного отделения
факультета начального образования
(специальность Социальная педагогика)
Павлова Марина Вячеславовна
Самара 2011
Введение
Надежность психодиагностических методик
Способы установлении и виды надежности
Соотношение валидности и надежности
Заключение
Список использованной литературы
Введение
В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу - 80. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.
Надежность можно установить двумя общими способами: 1) путем сравнения результатов, получаемой посредством данной методики или теста разными диагностами; 2) путем сравнения результатов, получаемой применением данной методики или теста в идентичных условиях. Различается множество видов надежности и конкретных способов определения их уровня. Определение надежности теста бывает связано с понятием внутренней состоятельности теста; это выражается в расчленении теста на части с последующим сопоставлением результатов частей. Надежность теста определяется также методами анализа дисперсионного и факторного.
Виды надёжности
При исследовании надёжности часто ставится задача определить причины, приводящие к формированию той или другой стороны надёжности. Без этого невозможно наметить правильную программу работ по повышению надёжности. Это приводит к делению надёжности на:
Аппаратную надёжность, обусловленную состоянием аппаратуры;
Программную надёжность объекта, обусловленную состоянием программ;
Надёжность объекта, обусловленную качеством обслуживания;
Надёжность функциональная.
Особого внимания заслуживает понятие “программная надёжность”, так как её важная роль в обеспечении надёжности АСУ является одной из самых характерных особенностей прикладной теории надёжности АСУ. Понятие “программная надёжность” возникло в результате следующих основных причин. В инженерной практике всё большее значение приобретают программно-управляемые изделия: программно-управляемые станки; вычислительные машины и системы машин; системы передачи данных АСУ и др. Для этих изделий характерно то, что они являются органическим слиянием технических средств (аппаратуры) и программы. Без программного обеспечения вычислительный комплекс, или тракт передачи данных, - это “мёртвый” набор технических устройств, который оживает тогда и только тогда, когда он используется как единое целое с программой. Поэтому говорить о надёжности таких устройств бессмысленно, если не учитывать влияния программного обеспечения.
Учёт влияния программного обеспечения приводит к необходимости выделять в особый вид программную надёжность объектов.
Надёжность функциональная - надёжность выполнения отдельных функций, возлагаемых на систему. АСУ, как правило, система многофункциональная, т.е. она предназначается для выполнения ряда функций, различных по своей значимости. Требования к надёжности выполнения различных функций могут быть различными (например, для функции “расчёт зарплаты” требуется высокая точность, но не требуется жёсткого ограничения времени). Поэтому может оказаться целесообразным задавать различные требования к выполнению различных функций. Примером функциональной надёжности в АСУ может быть надёжность передачи определённой информации в системе передачи данных.
Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В результате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диагностическими методиками.
К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статистический аппарат (прежде всего корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.
В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рассмотрения надежности методик.
В традиционной тестологии термин "надежность" означает относительное постоянство, устойчивость, согласованность результатов методики при ее применении на одних и тех же испытуемых. Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу - 801. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических измерений, т.е. позволяет судить о том, насколько внушают доверие полученные результаты.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:
- 1) нестабильность диагностируемого свойства;
- 2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т.д.);
- 3) меняющаяся ситуация обследования (разнос время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.);
- 4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
- 5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т.д.);
- 6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности методики. К важнейшим средствам повышения надежности психодиагностической методики относятся единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры диагностирования можно существенно уменьшить влияние посторонних случайных факторов на диагностические результаты и таким образом повысить их надежность.
На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также будут располагаться тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась се надежность, то эта процедура должна быть проведена заново.
Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики, - это корреляция по Пирсону или Спирмену . Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.
В настоящем учебнике при описании видов надежности основной упор делается на работы К. М. Гуревича (1969, 1970, 1975, 1977), который, проведя тщательный анализ зарубежной литературы по рассматриваемой проблеме, предложил толковать надежность как комплексную характеристику, включающую:
- 1) надежность самого измерительного инструмента;
- 2) стабильность изучаемого признака;
- 3) константность, т.е. относительную независимость результатов от личности экспериментатора.
Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности; показатель, характеризующий стабильность измеряемого свойства - коэффициентом стабильности; а показатель оценки влияния личности экспериментатора - коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.
Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.
- Анастази А. Психологическое тестирование: в 2 т. Т. 1 М., 1982; Гуревич К. М. Указ. соч.
Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.
Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:
1. Воспроизводимость рез-тов исследования.
2. Точность измерения.
3. Устойчивость результатов.
Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:
1. нестабильность диагностируемого свойства;
2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);
3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);
4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом – утомление и т.д.);
6. элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности и т.д.).
Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.
На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.
Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.
Валидность психодиагностических методик, ее типы, виды и способы установления
Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).
Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
1) Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента - теоретической валидизацией
При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Она направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.
2) Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования - прагматическая валидизация.
Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.
Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).
Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:
1. Критерий исполнения (количество выполняемой работы, успеваемость, время, темп роста квалификации).
2. Субъективные критерии (включают различные виды ответов, которые отражают отношение человека к чему-либо, его мнения, взгляды).
3. Физиологический критерий (используется при изучении влияния внешней среды, влияющей на организм и психику).
4. Критерий случайности (например, когда цель касается проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).
Способ установления:
Оценка валидности методики может носить количественный и качественный характер. Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).
Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.
Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:
1. Валидность «по содержанию» (используется в тестах достижения): 3 – 4 вопроса из большой темы могут показать истинные знания ученика. Для этого результаты диагностики сравнивают с экспертными оценками учителя.
2. Валидность «по одновременности» или текущая валидность – собираются данные, относящиеся к настоящему времени: успеваемость, производительность и т.п. С ними коррелируют результаты успешности по тесту.
3. «Предсказывающая» валидность («прогностическая»). Определяется по надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования.
4. «Ретроспективная» валидность. Определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.