Московский государственный университет печати. Оценка качества тестовых заданий Что влияет на уровень трудности теста
Итр - показатель измерения легкости и трудности вопроса (утверждения) теста с учетом ВСЕХ правильных ответов, данных испытуемыми.
Индекс трудности Итр вычисляют следующим образом:
Итр = (Н + L )/n x 100
где: Н - число правильных ответов в «сильной» группе;
L - число правильных ответов в «слабой» группе;
общее число испытуемых в обеих группах (1/3+1/3).
Индекс трудности 95% свидетельствует о том, что для 95% испытуемых ответ на данный тест не составлял трудности. Тест с низкими значениями индекса трудности или слишком труден, или неправильно составлен. Оптимальное значение индекса трудности составляет 50-60%, а приемлемые колебания - от 30 до 70% . Тесты со значением Итр ниже 30% и более 70% из тестовой программы исключаются (или не принимаются во внимание при окончательном подсчете всех баллов по всей тестовой программе).
Качество каждого теста может быть охарактеризовано с помощью индекса дискриминативности (Ид) . Индекс дискриминации показывает, насколько данный тест может отличить (дискриминировать) более подготовленных специалистов от менее подготовленных:
Ид = 2 x (H - L )/n
(обозначения те же, что и для расчета Итр).
Экспериментальным путем установлено:
Значение Ид 0,35 и выше - отличный тест
0,25-0,34 - хороший тест
0,15-0,24 - спорный тест
ниже 0,15 - тест составлен плохо и подлежит исключению из «банка» тестов.
После вычисления индексов трудности и дискриминации тестовая программа пересматривается - из нее исключаются тесты с неудовлетворительными индексами Итр и Ид и, прежде всего, тесты со значением Итр более 70% (легкие тесты) и Ид менее 0,25.
Надежность теста характеризуется воспроизводимостью результатов при повторном тестировании одной и той же группы испытуемых и так же, как и трудность, определяется экспериментальным путем.
Все учебные задачи можно разделить условно на три типа: предметные, логические и психологические, которые в свою очередь могут быть разделены на группы, различающиеся по механизму вызываемых ими мыслительных действий.
Предметные типы задач. При их решении обучаемому приходится ориентироваться в некотором предметном поле, в котором могут «размещаться» не только предметы (вещи), но и люди, живые организмы, а также их модели (рисунки, чертежи, схемы и т.д.) Ориентирование в предметном поле – это действия мыслительные, когда человек по определенным, известным ему признакам находит в нем объекты, производит их мысленную классификацию, чтобы оперировать только значимыми объектами, которые позволяют решить задачу.
Логические типы задач . Это такие задачи, которые требуют для их решения рассуждений по законам логики, т.е. действий в уме, без какой-либо опоры на материальные объекты-ориентиры. Рассуждения направлены на выявление того, какие данные действительно нужны для решения задач, какие надо отсеять как лишние, а какие необходимые данные отсутствуют в формулировке задачи. Их необходимо испросить у преподавателя или найти самому.
Какие разновидности задач логического типа можно предусмотреть в наборе для обучения мыслительным действиям?
Всего их четыре разновидности:
задачи, в которых нет лишних данных, но нет и некоторых необходимых (А– В–), и, наконец,
задачи, в которых при наличии лишних данных есть не все необходимые (А – В+).
Психологические типы задач . Они могут провоцировать ошибочные действия обучаемого, потому что существенные моменты, имеющие прямое отношение к решению задачи, могут быть скрыты за несущественными. От субъекта требуется ум, воля, чтобы не поддаться соблазну идти по легкому пути, а также вдумчивость в действиях, рассудительность при анализе условий задачи.
Психологические типы задач можно различать по таким признакам:
а) признаки представленного в задаче явления напоминают те, которые характеризуют искомое (требуемое, относящееся к данной деятельности) явление, но на самом деле это нечто другое (похоже, но не то),
б) наблюдаемые признаки напоминают искомое явление, да и на самом деле так и есть (и похоже, и то);
в) наблюдаемые признаки вроде бы не относятся явно к искомому явлению, но тем не менее оказывается, что это именно его признаки (не похоже, а то);
г) по наглядным признакам явления, не совсем напоминающим искомое, можно заключить, что они принадлежат не ему (не похоже и не то).
Поскольку в реальной жизни такие ситуации могут встречаться, постольку у обучаемого нужно формировать умение ориентироваться безошибочно на существенные признаки искомого, не поддаваться иллюзиям зрения или слуха, не принимать похожее за то, что нужно для правильного выполнения деятельности, но не пропускать внешне не похожее, но внутренне присущее ей. Поэтому в наборе практических учебных задач обязательно должны содержаться такие данные, которые заманивают обучаемого в ловушку, провоцируют ошибочное действие, подают ложные сигналы. Зная об этом, обучаемый должен быть предельно внимателен, не попадаться на хитро замаскированную уловку, строго следовать принятым критериям оценки ситуаций.
Умение решать задачи психологического типа свидетельствует о том, что обучаемый достаточно полно и всесторонне освоил деятельность, все его действия осмысленны, обладают высокой степенью сознательности.
Методическая разработка тематического занятия включает в себя следующие пункты:
Название темы.
Цели занятия.
Общее время занятия.
Оснащение занятия (указывается материально-техническое (оборудование, приборы), методическое, информационное обеспечение (перечень учебных таблиц, стендов, методических пособий, препаратов, программ и т.д.).
План (по приведенной выше схеме).
Обучающие и тренирующие материалы.
Контролирующие материалы (задания для исходного и конечного контроля усвоения).
Трудность. Трудность теста – это степень сложности в совокупности включенных в тест заданий. В процессе создания теста мера трудности регулярно проверяется на случайной выборке из того контингента, для которого тест предназначается. В сбалансированном тесте авторы обычно легко добиваются нормальности распределения. Дальнейшее совершенствование теста идет по пути замены ряда заданий, ответы на к
оторые нарушают нормальность распределения. Трудность заданий влияет на надежность и валидность. Если тест очень трудный, то учащиеся чаще вынуждены догадываться - какой ответ правильный, но чем чаще они прибегают к догадке, тем больше распределение результатов теста приближается к случайному распределению. Поэтому пригодность теста для оценки знаний всей массы учащихся будет ниже, чем труднее тест. Такое же влияние на надежность, но по другой причине, оказывает легкий тест, в котором учащиеся редко догадываются, их ответы устойчивы, но между ними нет различий.
Эффективность. Эффективность педагогического теста определяется творческим подходом составителей к разработке системы заданий, соответствующих конкретным целям тестирования.
К настоящему времени в педагогическом сообществе нет единства в классификации тестов. В. С. Аванесов, А. Н. Майоров, М. Б. Челышкова, Т. Д. Макарова видят разные признаки демаркации. Однако в соответствии с методологией создания теста все авторы единодушно выделяют: критериальные, предназначенные для выявления факта порога усвоения учебного материала; нормативные, обеспечивающие ранжирование учащихся по уровню усвоения материала относительно нормы. По профессиональному признаку можно определить: стандартизированные и нестандартизированные тесты.
Обобщая исследования учёных, из существующего многообразия типологизаций тестов выделим в первую очередь те, которые могут быть соотнесены с видами контроля: предупредительным, текущим, итоговым. Это, соответственно, установочный, формирующий, итоговый тесты. Установочный тест выявляет исходный уровень подготовки школьников, он содержит как легкие, так и трудные задания. Замерив базовый уровень учащегося, учитель может наблюдать за развитием каждого ребенка, вносить элементы индивидуализации в учебный процесс. Формирующий тест определяет прогресс достигнутого в обучении. К данному типу тестов мы относим базовые и диагностические. Первые включают репродуктивные задания и проводятся на уровне формирований понятий. Вторые содержат задания от репродуктивных до творческих и выявляют уровень усвоения темы или раздела программы. Итоговый тест, который чаще называют тестом школьных достижений, должен отвечать всем требованиям стандартизированного научно обоснованного теста.
Проанализировав многообразие классификаций тестовых заданий, представленных в литературе, и сопоставив их с нормативными документами, целесообразно предложить классификацию по типам и видам заданий: типы - закрытые (задания с выбором верного ответа), открытые (задания со свободно конструированным ответом); виды – с выбором одного верного ответа, с выбором более одного верного ответа, на установление соответствия, на установление правильной последовательности, на дополнение с кратким ответом, на дополнение с развернутым ответом.
Одним из направлений модернизации образования является введение единого государственного экзамена (ЕГЭ). Хотя в среде педагогической общественности нет единой точки зрения, но все большее число педагогов и руководителей различных уровней признают, что ЕГЭ более надежный инструмент для оценки образовательных достижений школьников. Общероссийские тестовые баллы массового тестирования задают средние статистические нормы учебных достижений, относительно которых субъекты образовательного процесса могут самоидентифицироваться в едином контрольно-измерительном пространстве. Анализ успехов и недостатков требуется образовательным учреждениям, органам систем управления на всех иерархических уровнях для коррекции образовательного процесса. Так как экзамен по математике является обязательным для всех выпускников, то результаты ЕГЭ можно рассматривать как информационную основу для организации многоуровневого мониторинга. Особо подчеркнем, что вводимая независимая система оценивания, осуществляемая в рамках ЕГЭ, является мощным воспитывающим средством. Отсюда – воспитывающая функция мониторинга, которая проявляется опосредованно.
Одна из важных задач обучения - быстрая и надежная оценка знаний человека. Нами предпринимается попытка разработать систему измерителей качества знаний, которая бы выявляла условия повышения успеваемости учащихся, а также уровень целей и задач педагогического контроля.
Мы разработали подход к технологии конструирования тестовых измерителей в котором выделили четыре этапа: поисковый, моделирующий, формирующий, оценочный.
Поисковый этап. Чрезвычайно важно, чтобы оценочная деятельность педагогов была адекватной, справедливой и объективной. В связи с этим нами был организован поиск надежных и эффективных видов проверочных заданий, способов проверки с помощью технических средств и персональных компьютеров (ПК). Использование ПК позволяет перейти к контролю знаний на протяжении длительного периода времени.
На данном этапе определяется состояние знаний учащихся с применением тестовых измерителей. Тестирование является одной из наиболее технологичных форм проведения автоматизированного контроля с управляемыми параметрами качества. Выборочный метод при конструировании тестовых заданий дает возможность быстрее усваивать все виды явлений, лучше понимать их общие и отличительные качества, легче классифицировать конкретные явления, виды знаний.
Таким образом, тестирование, выполняя функцию контроля в ходе диагностирования образовательного процесса, используется одновременно как средство диагностики обученности учащихся. Диагностика рассматривается как точное определение результатов процесса обучения, обученность же – как достигнутый на момент диагностирования уровень (степень) реализации намеченной цели” (И.П. Подласый).
На данном же этапе выявляются основные проблемы при использовании тестов: качество и валидность содержания тестовых заданий, надежность результатов тестирования, недостатки обработки результатов по классической теории тестов, отсутствие использования современной теории обработки тестовых материалов с применением ПК. Недостаточное количество тематических тестов для текущего контроля знаний учащихся школ негативно отражается на обучении, препятствуя его индивидуализации в условиях массового учебного процесса. Поставленные задачи необходимо решать в рамках текущего и итогового тестирования учащихся.
Моделирующий этап. На втором этапе разрабатывается алгоритм обучающего цикла и концепция тестового контроля. Обучающий цикл должен обеспечивать последовательную ориентацию обучения на намеченные цели. Благодаря такому строению учебный процесс приобретает “блочный” характер. Блок – дидактическая инженерия знаний, позволяющая оформить сжатие учебной информации с использованием достижений теорий содержательного обобщения (В. В. Давыдов и его последователи), укрупнения дидактичесих единиц (П. М. Эрдниев), концепции формирования системности знаний (Л. Л. Зорина).
Составитель заданий к тестам не должен забывать, что тестовые задания по своей трудности есть нечто противоположное так называемым творческим, или «олимпиадным», заданиям. Если для «олимпиад» уместны трудные задания, позволяющие дифференцировать прежде всего лучших от самых лучших, то для тестов нужны элементарные задания, позволяющие скорее дифференцировать неподготовленных (худших) от умеренно подготовленных («середнячков»). Кроме того, следует учесть, что тесты даются с ограничением времени: на 20 заданий отводить целесообразно не более 10 минут. Лучший балл здесь показывает тот, кто уверенно и быстро применяет базовые знания, кто способен показать хороший умственный темп, высокую степень автоматизации основных навыков, «свернутость» понятий и умственных операций. Хороший ориентир в том, какой трудности должны быть тестовые заданий, может быть сформулирован так:
БЕЗ ОГРАНИЧЕНИЙ ВРЕМЕНИ ОТЛИЧНИК ДОЛЖЕН УМЕТЬ ОТВЕТИТЬ НА ВСЕ 100 ПРОЦЕНТОВ ТЕСТОВЫХ ЗАДАНИЙ, НО ПРИ ОГРАНИЧЕНИИ ВРЕМЕНИ ОТЛИЧНИК СО СРЕДНИМ УМСТВЕННЫМ ТЕМПОМ ДОЛЖЕН ОТВЕТИТЬ ТОЛЬКО НА 70-80 ПРОЦЕНТОВ ТЕСТОВЫХ ЗАДАНИЙ.
Самый эффективный метод выяснения трудности заданий - проведение пилотажного эксперимента. К этому эксперименту можно, например, привлекать учеников из более старшего класса, для которых он может стать хорошим поводом повторить материал и выяснить пробелы перед экзаменами.
Скорость ПИЛОТИРОВАНИЯ теста и расчета трудности заданий значительно возрастает, если учитель располагает компьютерным классом и специализированной программой для оперативного тестирования, такой, например, как ТЕСТАН («Гуманитарные технологии», МГУ). При помощи специализированного редактора-формуляра этой программы легко ввести в компьютер сами тексты заданий, тесты вариантов ответа, ключи, интерпретационные сообщения. Копирование с дискету на дискету (или встроенные диски компьютеров) - самый быстрый и доступный метод размножения теста. В любой момент после сбора группы протоколов можно включить режим обработки данных и расчета тестовых норм. Тренинговый режим программы позволяет тут же выдавать на экран объяснения для ученика, допустившего ошибку.
валидность . Для повышения качества тест-материалов, начиная с этапа их проектирования и разработки, уже используется экспертиза.Тестовые задания, удовлетворяющие "внешним" формальным требованиям (правильность формулировки, логическая непротиворечивость , адекватная форма и др.) не являются всегда качественными, позволяющими рассматривать такие задания априори или апостериори как эффективное средство оценки уровня подготовки обучаемых.
Тестовые задания (тесты) измеряют свойства тех или иных выборок потенциальных испытуемых. Экспертиза качества заданий и всего теста – это оценка не только каждого его элемента (дистракторы, их количество и др.), но и всего теста, его структуры, взаимоотношений с другими заданиями.
Качество профессионального образования – это и уровень, объем знаний, их системность, устойчивость , ценность, перспективность, фундаментальность, способность получать и строить новые знания, применять их для решения задач. Эффективное управление качеством образования также невозможно без релевантной и оперативной информации об уровне обученности. Необходимо применение качественных тестовых материалов, достоверно оценивающих учебные достижения.
Применение принципов и средств квалиметрии, системного анализа акцентирует на целостность , эмерджентность, совместимость, адаптивность и другие системные признаки тестов. Качество тестов оценивают мерой соответствия характеристик тестовых заданий и составленных на их основе вариантов тестов. Комплексной оценкой теста (испытания) в целом.
У тестовых заданий, всего теста есть структурные элементы, характеризуемые внутренними и внешними свойствами, своей структурой. На эти свойства влияют определяющим образом много факторов:
- генеральная совокупность и выборки испытуемых;
- показатели качества;
- особенности технологии тестирования;
- особенности обработки, анализа результатов тестирования (в частности, используемые математико-статистический аппарат и эвристические процедуры);
- квалификация экспертов и профессиональность экспертной группы;
- системный подход к проведению и анализу тестирования.
Полный учет свойств позволяет сконструировать "желаемые" тесты – тесты с наперед задаваемыми (согласно гипотезе тестирования) качествами, статистическими свойствами, например, "параллельные" тесты, субтесты и др. Нужно учитывать также меру дифференциации, способность заданий (тестов) дифференцировать тестируемых, например, способность дифференцировать относительно максимального или минимального уровня обучения.
Первостепенно важны для анализа такие характеристики, как трудность (сложность) задания и его различающая способность. Трудность задания отражает уровень ее выполнимости в данной статистической выборке (стандартной). Ее оценивают часто отношением количества правильно выполнивших задание к количеству выборки испытуемых.
Чем ближе этот показатель к 1, тем выше трудность задания, чем ближе к 0 – тем ниже его трудность.
В качестве показателя трудности задания теста используют индекс трудности U вычисляемый по формуле:
где n – количество правильно ответивших на задание, N – общее количество испытуемых (выборки).
При построении критериально-ориентированного теста, для повышения его трудности добавляют задания более высокой трудности, для понижения – включают больше заданий низкой трудности.
Трудность задания (теста) бывает:
- субъективная, связанная с обстоятельствами типа лимит времени, знание технологии, понимание условий (сформированность знаний, умений и навыков), психическая готовность и т.д.;
- объективная (статистическая), связанная с долей испытуемых из выборки, решивших задание (тест).
Трудность – относительная величина, зависящая от возрастных, профессиональных и иных различий испытуемых, поэтому эти особенности влияют на результаты тестирования, на надежность теста. Необходимы меры выравнивания условий (минимизации таких воздействия на тестируемых). Для этого используют направленное комплектование выборки, стандартизацию процедуры тестирования, т.е. необходима эффективная диагностическая методика, приводящая к "золотой середине", балансу трудных, среднего уровня и простых заданий.
Слишком трудные задания ухудшают статистические характеристики оценивания (мало решающих, неудача на трудном задании может повлиять на решение других заданий и т.п.). Слишком простые задания ведут к малоинформативным однообразным результатам, затрудняющим анализ качества обучения, вызывают негативное отношение испытуемых к тесту и тестированию.
Пример. Критериально-ориентированный тест должен быть полным, отражающим по содержанию весь объем знаний, планируемый к усвоению. Нормативно-ориентированный тест может содержать лишь те разделы , которые требуются для дифференциации по уровню учебных достижений обучаемых, например, 50-70% заданий средней трудности (рис. 4.1 , рис. 4.2).
В критериально-ориентированных аттестационных тестах основная часть заданий легче, что ограничивает процент неаттестованных студентов.
Пример. Если прогнозный процент неаттестованных должен быть не больше 10%, а критерий "неуспеваемости" – 70% (выполнившие лишь до 30% заданий – не аттестованы), в тест следует включить от 70% легких заданий, посильных 90% тестируемых (рис. 4.2).
Рис. 4.1.
Рис. 4.2.
Поэтому важно выбрать тест, оптимальный по сложности заданий, группам сложности, структуре теста. Если на вопрос правильно отвечает большинство испытуемых, его обычно помещают в начале теста, а остальные вопросы – по мере роста их трудности. Такое расположение заданий позволяет оценить приблизительно порог трудности для каждого испытуемого, его место в рейтинге.
Практическое тестирование свидетельствует: максимально отражается индивидуальный уровень знаний, навыков, умений испытуемых при использовании заданий средней трудности с включением небольшого количества остальных заданий.
Есть специальная характеристика, называемая различающей способностью заданий. Она показывает меру эффективности различения тестируемых на группы: овладевшие учебным материалом и не овладевшие им.
Чем ближе R к нулю, тем меньше различение заданием испытуемых, овладевших или не овладевших учебным материалом.
Чем ближе R к значению –1, тем также больше различение, но в инверсном порядке: испытуемые, овладевшие материалом, ответили неправильно, и наоборот. Это редкий случай, он свидетельствует, например, о пробелах в методике, спонтанности ее.