Способы обнаружения искажений
Критерий Хи-квадрат Критерий Хи-квадрат направлен на оценку того, различаются ли эксперты по уровню строгости. Нулевая гипотеза критерия хи-квадрат состоит в том, что эксперты не отличаются по уровню строгости. Значимый показатель хи-квадрат позволяет говорить о том, что как минимум два эксперта отличаются по уровню строгости. При этом, важно учитывать, что критерий хи-квадрат чувствителен… Читать ещё >
Способы обнаружения искажений (реферат, курсовая, диплом, контрольная)
В предыдущем разделе мы обозначили основные эффекты, которым могут быть подвержены эксперты при оценке респондентов, а также, в некоторых из них, обозначили принятые методы обнаружения и предотвращения. Однако, в большинстве случаев, применяются различные методы для разных эффектов, которые не позволяют определить (или заподозрить) наличие какого-либо эффекта по одному анализу. Для того, чтобы оптимизировать и упростить анализ деятельности экспертов применяется многопараметрический анализ в рамках моделей Раша (Myford, 2003). Такой анализ позволяет ответить на ряд важных вопросов: отличаются ли эксперты по уровню строгости, насколько эффективно эксперты разграничивают респондентов по характеристикам.
Кроме этого, такой анализ позволяет анализировать деятельность отдельных экспертов в рамках единой группы. Это позволяет не только определить наличие эффекта в группе, но и выделить эксперта, демонстрирующего этот эффект — определить более строгого эксперта, чем другие, найти эксперта, который использует шкалу оценки отлично от других, или эксперта, который не может эффективно разграничивать респондентов или критерии оценки.
Также важно учитывать, что анализ в рамках моделей Раша позволяет проанализировать различные уровни функционирования категорий и экспертов, так как для многих ситуаций можно индивидуально подобрать модель оценки. Это позволяет находить ответы на вопросы о том, инвариантна ли строгость эксперта во всех группах респондентов, на протяжении всего времени, во всех группах оценивающих, по всем основаниям.
Для анализа деятельности экспертов по оценке политомических заданий обычно применяют следующую модель (Myford, 2003, Карданова, 2004):
1. RSM для анализа деятельности экспертов где Pnilk — вероятность того, что испытуемый n получит k баллов за выполнение задания i при оценке экспертом l; Pnil (k-1) — вероятность того, что испытуемый n получит k-1 баллов за выполнение задания i при оценке экспертом l; иn — уровень подготовленности испытуемого n; дik— уровень трудности выполнения k-го шага в задании i; оl— уровень строгости эксперта l. В отечественных исследованиях эта модель применялась для анализа деятельности экспертов при оценивании заданий части С ЕГЭ (Карданова, 2005).
Для оценивания деятельности экспертов используется несколько статистик (эти статистики выдаются программами, позволяющими провести многопараметрический анализ, в частности, ConQuest и Facets). В данной работе мы будем проводить анализ искажений с использованием программы ConQuest, поэтому при описании способов выявления искажений мы будем акцентировать внимание на тех статистиках, которые вычисляет эта программа.
- · Оценка уровня строгости эксперта в логитах (Measure)
- · Статистики согласия экспертов с используемой моделью измерения.
Статистики согласия описывают степень согласия реальных данных с ожидаемыми модельными данными. Ожидаемый балл — это балл, предсказанный моделью на основании анализа уровня строгости эксперта, баллов других экспертов и т. д. Преимущественно для анализа деятельности экспертов используют статистику MNSQ (среднеквадратичный индекс) с математическим ожиданием 1 во взвешенном и невзвешенном вариантах. Значение статистики меньше 1 показывают сверхсогласие с моделью, недостаточную дисперсию, а больше 1 — недостаточное согласие с моделью. Приемлемые значения статистик не являются строго заданными, самые «мягкие» границы обозначены Линакром и составляют (0,6; 1,4). Чаще всего применяют достаточно строгие границы (0,8; 1,2), их мы и будем придерживаться в данной работе.
· Критерий Хи-квадрат Критерий Хи-квадрат направлен на оценку того, различаются ли эксперты по уровню строгости. Нулевая гипотеза критерия хи-квадрат состоит в том, что эксперты не отличаются по уровню строгости. Значимый показатель хи-квадрат позволяет говорить о том, что как минимум два эксперта отличаются по уровню строгости. При этом, важно учитывать, что критерий хи-квадрат чувствителен к объему выборки, и при большом количестве экспертов может показывать высокую значимость даже в том случае, когда различия в строгости невелики.
· Индекс Separation (его надежность в случае ConQuest).
Индекс Separation (индекс отделимости) представляет собой число статистически различных уровней выполнения задания (то есть, при индексе равном 3, можно говорить о том, что респондентов можно разделить на три группы по результатам). Индекс получается путем перевода показателя Separation по формуле: H = (4G+1)/3, где H — индекс отделимости, G — показатель отделимости.
ConQuest показывает только надежность этого индекса, которой, в целом, достаточно. Надежность предоставляет информацию о том, как четко отделены элементы внутри фасета для того, чтобы определить надежность фасета. Значение надежности, меньшее 0.5, говорит о том, что различия между мерами строгости экспертов не существенны, лежат в пределах погрешности измерения. Для экспертов высокая надежность отражает потенциально нежелательное разделение оценивающих по уровню строгости.
Эффект строгости/снисходительности Эффект строгости/снисходительности с точки зрения его проявления схож с эффектом ограничения спектра, так как он заключается в том, что эксперты склонны ставить более высокие или более низкие баллы, поэтому разграничить их часто бывает сложно. При этом, нужно учитывать, что эффект строгости не всегда является искажением, часто это просто склонность эксперта оценивать респондентов строже. Искажение в измерениях возникает, когда одного респондента оценивают, например, два строгих эксперта.
При наличии эффекта строгости у некоторых экспертов критерий хи-квадрат будет демонстрировать высокий уровень значимости и достаточно высокое значение. Надежность индекса separation будет больше 0,5, что будет говорить о том, что экспертов можно разделить на несколько категорий по строгости. Статистики согласия в данном случае, скорее всего, не будут демонстрировать отклонений от реальных данных, поэтому заключение о чрезмерной строгости эксперта должно делаться на основании групповых индикаторов, приведенных выше, и анализа уровня строгости (Measure).
Эффект центральной тенденции Статистические индикаторы на групповом уровне будут демонстрировать значения, схожие со значениями в случае эффекта строгости/снисходительности: критерий хи-квадрат будет демонстрировать высокий уровень значимости и достаточно высокое значение, надежность индекса separation будет больше 0,5. На индивидуальном уровне статистики согласия (как взвешенная, так и невзвешенная) будут демонстрировать значения значительно меньшие 1 (сверхсогласие с моделью, вариация меньше ожидаемой). При этом, сверхсогласие с моделью возможно также в том случае, если эксперт поставил нескольким респондентам очень сходные баллы по всем характеристикам, поэтому для выявления этого эффекта нужно дополнительно смотреть на ответы эксперта.
Эффект случайности При наличии эффекта случайности критерий хи-квадрат будет демонстрировать высокий уровень значимости и достаточно высокое значение, индекс separation будет демонстрировать достаточно низкое значение. Статистики согласия будут демонстрировать значение значительно больше 1 (недостаточное согласие с моделью, слишком высокая дисперсия баллов).
В качестве дополнительного средства анализа деятельности экспертов можно использовать графический анализ ответов экспертов, а также корреляционные исследования.
Обобщая результаты анализа, можно говорить о том, что значения обеих статистик согласия, меньшие 1, как правило, свидетельствуют о наличии у эксперта эффекта центральной тенденции. С другой стороны, значения обеих статистик, большие 1, как правило, свидетельствуют о наличии у эксперта эффекта случайности.
Выводы
Анализ литературы показал, что существуют разные способы использования экспертных оценок, однако, в случае с конструированием теста на основе имеющихся заданий, чаще всего используют те или иные программные решения, которые впоследствии подлежат дополнительному анализу с помощью экспертных оценок. Таким образом, можно предположить, что конструирование теста на основании одних экспертных оценок также может быть полезным и возможным, если понять, как можно диагностировать возможные искажения в экспертных оценках.