Как устроены тесты способностей: взгляд разработчика

Тесты когнитивных способностей – один из самых популярных и широко применяемых инструментов оценки персонала. Ежедневно тысячи компаний используют тесты для отбора и найма сотрудников, измеряя уровень различных способностей у кандидатов. В то же время далеко не каждый HR, применяющий тестирование в своей работе, имеет глубокое представление о том, как именно сконструированы тесты, каков процесс их создания, что помогает (а что мешает) этим инструментам эффективно оценивать интеллектуальные способности и прогнозировать их применение в рамках рабочей деятельности человека.

Чтобы разобраться с этими вопросами, предлагаем обратиться к помощи экспертов-разработчиков и заглянуть внутрь теста, подсветив те его компоненты, которые остаются невидимыми для обычного пользователя. Также попробуем определить, от каких именно условий зависит эффективность работы этого инструмента оценки.


Тест как он есть

Прежде всего давайте вспомним, как происходит тестирование кандидатов. Каждый участник получает сформированный набор заданий, которые ему предстоит решить. Полученные ответы по определенному алгоритму сравниваются с ответами других участников, собранными аналогичным образом (например, сравнивается только количество правильных ответов). Затем итоговый результат по тесту рассчитывается и отображается в стандартных шкалах

Чтобы обеспечить объективность процесса оценки, при тестировании задаются стандартные условия его проведения (например, одинаковое время прохождения теста или сравнимые по сложности задания). При этом стандартизация не всегда подразумевает идентичную ситуацию и одинаковое содержание теста для всех кандидатов: все зависит от подхода к тестированию. Например, семейство методологий Item Response Theory (IRT) позволяет учесть разную степень сложности заданий, которая, тем не менее, должна оставаться сопоставимой, а сами задания – однородными.

Организаторам отбора кандидатов важно знать, какие именно условия тестирования заданы. «Методология адаптивного тестирования CAT, например, позволяет некоторым участникам закончить процедуру раньше, если в процессе собрано достаточно информации об уровне способности, чтобы выдать достоверную оценку. Соответственно времени и заданий в этом случае потребуется меньше», – обращает внимание Максим Пескин, менеджер по разработке новых продуктов нашей компании.


Видимо-невидимо

Условия проведения теста, набор заданий и правила интерпретации результатов – это лишь видимая часть этого инструмента. Многие компоненты, составляющие внутреннюю сущность теста, остаются незаметными для пользователя. Это и механика выдачи заданий, и алгоритмы расчета результатов, и исследования, проводимые перед тем, как инструмент будет выпущен на рынок. Кроме того, это огромное количество отбракованных заданий, работа с которыми помогает привести инструмент к завершенному виду.

Концептуальной основой теста (и опорой для его заданий) являются конструкт и логика решений. Под термином «конструкт» часто понимают дизайн заданий, но подобная интерпретация не является корректной. Понятие «конструкт» значительно шире и глубже. И прежде всего оно означает конкретное прикладное проявление оцениваемой способности: то, как она должна выглядеть в жизни или в тесте. Иными словами, в основе теста лежит идея, заданная конструктом, то есть конкретное поведение, которое приводит к успешному решению определенного круга задач.

Один и тот же конструкт может раскрываться в тестах по-разному. Поэтому разработчикам необходимо учитывать не только предмет оценки – ту способность, которую в конечном счете нужно оценить с помощью этого инструмента, – но и ее проявление в конкретных условиях.  


Способность

Важно понимать, что оцениваемая способность может интерпретироваться очень широко. Например, вербальная способность связана с умением человека обрабатывать текстовую информацию. Однако такое определение не позволяет выяснить, имеет ли кандидат выраженную вербальную способность, а также не дает представление о том, как именно можно ее измерить. «Не хватает конкретики, которая позволила бы сформулировать критерии и провести эксперимент», – говорит Максим Пескин. Тест не может и не должен оценивать способность целиком. Задача разработчиков – придумать способ поставить задачу таким образом, чтобы проявить ту или иную способность у участника, дать возможность ее применить. «Способности – как и многие другие объекты измерения в психологии – это скорее латентная характеристика, которую сложно наблюдать и оценивать непосредственно. Поэтому нам нужны средства увидеть что-то, что позволит сделать выводы о ее уровне», – уточняет Максим.


Рабочие задачи и конструкт

Как известно, целью тестирования является прогноз эффективности рабочей деятельности человека. Это означает, что задания теста должны отражать процесс решения рабочих задач. В то же время полностью переносить рабочие функции в задания инструмента не стоит: в этом случае разработка может стать крайне дорогостоящей и лишит тест универсальности.

Тем не менее, при разработке или выборе конструкта эксперты могут отталкиваться от реальности рабочей деятельности сотрудников. Это не является обязательной частью процесса создания инструмента, но, безусловно, применяется как удобное прагматическое решение. Определенно лучше взять конструкт, схожий с задачами, которые встречаются в реальной жизни, чем придумывать что-то совершенно уникальное, а затем доказывать жизнеспособность этой идеи.

Например, если HR необходимо оценить вербальные способности кандидата, которому предстоит вести деловую переписку, то задача разработчиков – понять, что стоит за формулировкой «вести деловую переписку» (что именно должен уметь делать сотрудник). Ответ заказчика может звучать так: «Сотруднику важно понимать внутреннюю логику писем, находить важные аргументы «за» или «против», определять логические ошибки в рассуждениях, «слышать» в тексте действительно волнующие собеседника моменты и т.п.». «Все это связано не с содержанием письма как таковым, а скорее, с процессом деятельности: с логическими шагами и интеллектуальными операциями, которые необходимо осуществить в рамках решения задачи», – добавляет Максим Пескин.

Таким образом, один из конструктов, который можно выделить, рассуждая о том, как оценить вербальную способность, – это логический анализ текстовой информации, то есть способность человека установить в тексте логические взаимосвязи и сделать нужные выводы.


Операционализация конструкта

После описания теоретического конструкта следующим шагом будет его операционализация, то есть формулирование необходимых действий, операций и шагов на уровне, доступном для измерения и оценки. Если теоретический конструкт связан с применением способности для решения определенных рабочих задач, то операциональный конструкт «живет» в концептуальном пространстве самого теста, задавая поведение участника, необходимое для успешного решения заданий теста. Например, для оценки способности к анализу текстовой информации на логическом уровне стандартный вербальный тест может предлагать участнику оценить истинность утверждений на основании определенного отрывка текста.

Тем не менее, будет ошибкой утверждать, что теоретический конструкт отвечает за одну задачу, а операциональный – за другую. «В процессе создания теста происходит их интерактивное взаимодействие, но именно операциональный конструкт позволяет контролировать одномерность теста (его внутреннюю однородность, одинаковость заданий), управлять понятностью и сложностью заданий, сделать текст, утверждения и внутреннюю логику проще или, наоборот, запутаннее для участника, оценить масштабируемость и т.д.», – объясняет Максим Пескин.


Поиск баланса

То, что необходимо оценить с помощью тестов способностей, не всегда совпадает с тем, что было бы легко измерить. В процессе разработки теста необходимо сбалансировать теоретический конструкт и его операционализацию. В некоторых случаях теоретический конструкт «тянет за собой» операциональный, в других – появляется определенная свобода выбора операционализации. Если конструктом теста вербальных способностей является логический анализ, то его операционализацией может быть оценка истинности утверждения. Если же конструкт сформулирован как «понимание инструкций», то необходим другой подход и другой дизайн заданий: нужно показать текст, напоминающий руководства, своды правил и т.п., и задать вопросы, которые логично задавать к тексту инструкции. Но, даже оставаясь в рамках одного теоретического конструкта, можно предложить оценить его иначе (например, усложнив задачу). «Нам важно не просто придумать вопрос, а определить набор интеллектуальных операций, которые должны максимально глубоко и полно раскрыть конструкт», – говорит Максим Пескин. От того или иного набора мыслительных шагов будет зависеть, в частности, уровень сложности теста.

Еще одно требование – одномерность и однородность теста, то есть единство «языка», на котором тест «говорит» с участником в течение всего времени прохождения инструмента. Это означает, что предполагаемая логика и закономерности должны быть сопоставимыми для всех заданий. «Нельзя менять правила в процессе игры. Можно модифицировать отдельные обстоятельства применения этих правил, но важно сохранять единство принципиального подхода к решению задач, содержания теста, необходимых действий и ожиданий от участника», – уточняет Максим.


Универсальный алгоритм

Возвращаясь к устройству теста способности, при первом рассмотрении можно увидеть в нем 3 составляющих:

Перечисленные компоненты не объясняют, почему задания теста работают. В действительности, чтобы понять, как устроены задания теста, нужно задуматься о том, что любое задание побуждает человека совершать последовательность из 4 шагов, и этот алгоритм будет релевантным для самых разных тестов способностей. Именно в этой логике решения и заключается фундаментальная структура задания, а источник информации, вопрос и варианты ответа необходимы только как средство выполнения упражнения.

Каждое задание теста предлагает участнику:

  1. Выделить основные блоки данных.
  2. Сформулировать гипотезы о том, как эти блоки связаны между собой.
  3. Протестировать предположения (определить те решения, которые нужно отбросить, а также те, которые необходимо оставить).
  4. Применить гипотезы, ставшие доказанными закономерностями, для поиска ответа.

Таким образом, в процессе прохождения инструмента участник сначала выявляет определенные закономерности, а затем применяет их.

«Было бы заблуждением думать, что выявление закономерностей – это этап, который имеет место только при решении диаграмматических или абстрактно-логических тестов», – рассказывает Максим Пескин.  – «Несмотря на то, что участник не всегда успевает осознать, что занимается поиском взаимосвязей, на деле происходит именно это. Для решения задачи человеку нужно «вытащить логику на поверхность»: понять, как одно связано с другим, и затем воспользоваться этой находкой для решения поставленной задачи».


Хороший конструкт – продуманный конструкт

Выявляя взаимосвязи, участник совершает определенную последовательность шагов, которые можно описать через базовые интеллектуальные операции (анализ, синтез, обобщение, сопоставление и др.). «Надежный операциональный конструкт получается в том случае, когда мы понимаем, что именно делает участник, и можем примерно определить очередность операций, которые он совершает», – уточняет Максим Пескин.   

Чтобы тест способностей был эффективным и валидным, задания должны подталкивать участника не только к выявлению закономерностей, но и к их применению. Для чего это нужно?

В случае, когда задание ограничено только вопросом выявления взаимосвязей, возникают сомнения относительно качества таких заданий. Во-первых, может возрасти вероятность угадывания ответов. Во-вторых, существенно увеличиваются затраты на масштабирование инструмента и создание новых заданий, поскольку в этом случае необходимы более детальные варианты ответа.

Наконец, и это самое главное, возникает вопрос корректности выводов: трудно измерить уровень способности, если кандидат только определил закономерность, не подтвердив ее. Действительно ли он выявил эту закономерность или просто выбрал «самое красивое» описание? Помехой будет и то, что для выявления закономерностей важно подобрать одинаково понятные для всех формулировки и термины, что возможно далеко не всегда. Такой вариант мог бы стать рабочим, если бы речь шла не о выполнении теста, а о проведении интервью, когда есть возможность уточнить у участника, что именно он имеет в виду, попросить его описать закономерность своими словами и т.д.

Если же ограничиться только применением закономерности, не выявляя ее, то происходит заведомое искажение конструкта, поскольку существенно сокращается интеллектуальная компонента процесса решения. В этом случае любые задания сводятся к повторению определенных действий по шаблону. В некоторых ситуациях такая оценка может быть полезной, но, по большому счету, она не дает оснований судить об уровне способности в целом. «Теряя предмет оценки, мы в какой-то степени теряем и ее смысл. Если рабочая задача требует анализа ситуации или обстоятельств, то тест, состоящий только из применения заранее известных правил и закономерностей, перестает быть сколько-нибудь информативным», – обращает внимание Максим Пескин.


Миссия выполнима?

Итак, что же необходимо учесть в процессе разработки тестов способностей, чтобы обеспечить их надежность и валидность? Прежде всего, залогом успеха является применение итерационного подхода, состоящего из постоянных экспериментов и отбраковки неработающих заданий. Применяя такой подход, разработчикам постепенно удается уточнить задачу (четче определить теоретический конструкт) и сделать тест по-настоящему однородным (максимально точно обозначить, как именно конструкт будет операционализирован в этом тесте). «Итерационный подход – это не просто отбраковка заданий, а управляемая эволюция и обновление теста как единого целого и как полезного продукта», – говорит Максим Пескин.

Кроме того, нужна многократная и тщательная проверка заданий. Необходимо убедиться, что каждое задание соответствует конструкту. На этом этапе тестируется корректность логики, ведущей к правильному ответу, и несмотря на то, что   каждое отдельное задание требует своего собственного решения, общие контуры логики должны быть одинаковыми для всех заданий теста.

Ключевым моментом является проверка неправильных ответов (дистракторов). В хорошо продуманном тесте дистракторы не должны быть случайными: неправильный ответ – это не произвольный набор символов, а то решение, к которому участник может прийти, если допустит логические ошибки. Разработчики также устраняют вероятность возникновения тех случаев, когда человек может допустить ряд ошибок, которые, компенсируя друг друга, все же невольно приводят участника к правильному ответу. «Многократная проверка заданий помогает убедиться, что ошибочная логика ведет к неправильным ответам, а единственно верная логика – к правильному», – уточняет Максим Пескин.

Заключительным (и не менее важным) этапом разработки теста способности является его скрупулезная апробация перед запуском.

В целом, приступая к созданию теста способности, его разработчики, безусловно, видят общий образ результата, но едва ли могут точно определить, что именно получится в итоге. «В процессе разработки важно руководствоваться не столько нашими соображениями о прекрасном, сколько данными апробации, и не бояться отбрасывать то, что не работает», – обращает внимание Максим Пескин.