Государственный центр тестирования (ГЦТ) опубликовал своё видение изменений в систему тестовых испытаний для поступления в вузы страны. Предлагается, что абитуриенты, которым до сих пор необходимо было ответить на 90 заданий по 3 предметам в течение 3 часов, теперь будут отвечать на 105 заданий по 5 предметам за эти же 3 часа.

Все, независимо от будущей специализации, — гуманитарии, экономисты, технари, медики — должны будут за час решить 45 заданий в первом (обязательном) блоке, включающем родной язык, математику и историю Узбекистана. На второй блок, включающий 60 заданий по двум предметам, соответствующим выбранному направлению образования, будет отведено два часа. Интересно, что предметы в первом (обязательном) блоке и блоке по специальности могут повторяться.

Предложения ГЦТ крайне интересны и заслуживают пристального анализа, так как непосредственно влияют на дальнейшие действия нескольких сотен тысяч абитуриентов, их родителей и учителей, а через них — и на систему образования в целом (мы говорили, что в науке о тестах такое влияние называется «эффектом отлива»).

Коротко о предыстории вопроса. В марте текущего года ГЦТ разместил для обсуждения проект документа, предполагающего серьёзные изменения в действующую систему отбора абитуриентов в вузы. Среди предлагаемых изменений были: тестирование по пяти предметам, с обязательными для всех направлений тремя предметами; выдача по итогам тестирования сертификатов, действительных в течение трёх лет; разрешение абитуриенту участвовать в конкурсе по трём направлениям и взимание платы с абитуриентов, закончивших школу в предыдущие годы.

Необходимость увеличения количества предметов специалисты ГЦТ обосновывали «зарубежным опытом» и стремлением «расширить кругозор абитуриента, повысить уровень грамотности и знания своего прошлого, своей истории, процессов становления нации». Несмотря на весьма противоречивые мнения, высказанные в ходе обсуждения, увеличение количества тестируемых предметов до пяти, с обязательными для всех тремя предметами было закреплено в итоговом, утверждённом варианте документа.

Мы уже высказывали мнение, что, учитывая функцию проводимых ГЦТ тестов, а именно отбор в вузы, увеличение количества предметов не сделает тесты более валидными. Анализ предложенного ГЦТ порядка тестирования по пяти предметам вызывает ещё больше вопросов о валидности.

1. Количество тестовых заданий по обязательным предметам и время, отводимое на их решение

Предлагается, что в обязательный блок будут включены по 15 заданий по трём предметам (итого 45 заданий), и у абитуриента будет 1 час на решение этих заданий: по 1 минуте на родной язык и историю и до 1,5 минут на математику. Однако реально ли проверить уровень знаний абитуриента с помощью такого количества заданий и за такое время?

Как отмечают исследователи в области педагогических измерений, например, Светлана Воробьева и Марина Челышкова, одним из важных принципов, способствующих обеспечению валидности теста, является принцип репрезентативности. Согласно данному принципу, количество тестовых заданий в тесте должно быть достаточно для того, чтобы охватить материал предмета полностью и позволять делать выводы о знании или незнании предмета абитуриентом.

Одним из условий валидности в современной науке о тестах считается надёжность теста, т. е. стабильность результатов теста при разных его администрированиях. Западные исследователи считают, что длина теста (количество заданий в тесте) влияет на его надёжность — чем меньше количество вопросов, тем менее надёжен тест, и длина теста должна быть адекватной для охвата содержания предмета.

Что проверяем за 15 вопросов: знания или компетенции?

Возникает вопрос: как с помощью 15 заданий можно сделать вывод о знании или незнании предмета абитуриентом? К примеру, возьмём историю Узбекистана. В школах она изучается с 6-го по 11-й классы и охватывает огромнейший период от образования древних государственных образований на территории Узбекистана в VII—VI вв. до н. э. и кончая современной Республикой Узбекистан. За этот период возникали, достигали расцвета и гибли такие образования, как Хорезм, Согдиана, Бактрия, государство Эфталитов, Тюркский каганат, государства Саманидов, Газневидов, Караханидов, империи Чингисхана и Тимура, Бухарское, Хивинское и Кокандское ханства, Туркестанское генерал-губернаторство в составе Российской империи, Бухарская и Хивинская республики, ТАССР и Узбекская ССР в составе СССР…

Даже если всем этим важным вехам в истории посвятить по одному заданию, уже наберётся больше 15 заданий. Но ведь одно задание не даст никакого основания делать вывод о том, имеет ли абитуриент представление об исторических процессах в данном историческом отрезке или нет.

То же самое можно сказать о родном языке и математике. Как могут 15 заданий дать обоснованное представление о степени усвоения абитуриентом этих предметов, по которым за 7 лет обучения в средней школе (с 5-го по 11-й класс) набирается огромное количество разделов и тем?

Конечно, можно поставить целью тестирование основных компетенций, которыми, согласно государственным образовательным стандартам, должны овладеть школьники при изучении того или иного предмета. При таком подходе длина теста может быть ограничена 15 или даже меньшим количеством заданий. Но здесь возникает важное «но».

Компетенции относятся к верхним уровням таксономии образовательных целей Блума, а тесты, нацеленные на проверку когнитивных навыков более высокого уровня, как правило, состоят из последовательности заданий, предваряемых вводным материалом (текст, рисунок, карта, диаграмма и т. д.) из нового, незнакомого абитуриенту материала. На решение таких заданий необходимо больше времени, чем минута-полторы: за минуту можно вспомнить какой-то факт или правило из учебника, но никак не продемонстрировать наличие определённого умения или компетенции.

Быстрые вопросы и ответы за короткое время по разным отраслям знаний — это стиль, подходящий для игр на эрудицию и телевизионных шоу, но не для экзамена, где решается судьба абитуриента. А чтобы правильно вычислить время, необходимое на решение таких заданий, необходимо проводить апробации.

Кроме того, составлять задания, направленные на проверку компетенций, несомненно, сложнее, чем составлять задания на проверку памяти. Такой подход к составлению тестов требует от эксперта не только знания школьной программы и школьных учебников, но и определённых знаний и опыта в области тестологии: ведь нельзя будет просто открыть учебник и из любой информации, заложенной в учебнике, «высосать» вопрос.

До сих пор тестовые задания в основном были направлены на проверку степени запоминания любой значимой и незначимой информации, заложенной в учебниках. Даже среди образцов тестовых заданий по родному языку и истории, опубликованных в специальном журнале ГЦТ, невозможно найти задания на проверку компетенций: они в основном нацелены на проверку запоминания фактов или правил, в лучшем случае — на применение правил к отдельно взятым предложениям.

Но при таком подходе, как мы уже отметили выше, 15 заданий не дадут какой-либо объективной картины об уровне знаний тестируемого. А если всё-таки подход будет изменён и тесты будут направлены на проверку компетенций, то нет гарантии, что эксперты, привыкшие к составлению заданий «на память», смогут в одночасье составлять качественные задания на проверку компетенций.

Достаточна ли апробация?

Задания должны будут проходить весьма тщательную апробацию и полный цикл их валидизации (проверку на качество: валидность и надёжность) перед использованием на таком серьёзном мероприятии, как вступительные экзамены. И это займёт не один год.

ГЦТ объявил, что образцы тестовых заданий по обязательным предметам уже готовы и проводится их апробация в средних и средних специальных учебных заведениях. Когда на апробацию более 1000 тестовых заданий привлекаются 2600 будущих абитуриентов, невозможно получить какие-либо статистически значимые данные, по которым можно судить о степени качества заданий: ведь если один будущий абитуриент в среднем решает 100 заданий, то в апробации одного задания участвуют всего 260 человек. Да и представители ГЦТ признавали, что у них нет возможности проводить апробацию всей базы. Но апробация тестового задания на выборке 250−300 человек не даёт оснований судить не то что о качестве всей базы тестовых заданий, но даже о качестве самого задания, вынесенного на апробацию.

Продукция без рецептуры

Возникает ещё один вопрос: каким образом были подготовлены образцы тестовых заданий, если спецификации тестов не готовы? Спецификация теста — это нечто большее, чем перечень тем с указанием количества заданий по данной теме, и написание тестовых заданий без спецификации — это все равно что осознанно «ставить крест» на валидности. А если эти спецификации всё же имеются, почему они до сих не опубликованы ни для обсуждения, ни хотя бы для ознакомления? Ведь будущие абитуриенты уже начали готовиться к вступительным тестам, но до сих не знают, что их ожидает в «букете» из пяти предметов.

2. Цель тестирования и интерпретация результатов

Мы уже говорили, что валидность теста неразрывно связана его целью — с какой целью мы проводили тестирование и как мы будем интерпретировать результаты.

Целью тестов, проводимых ГЦТ, является не итоговая аттестация школьников и даже не проверка расплывчатого «кругозора», «уровня грамотности и знания своего прошлого». В данном случае стоит весьма конкретная цель — отбор абитуриентов для дальнейшего обучения в вузе. Значит, валидность тестов ГЦТ определяется в первую очередь их способностью определить, насколько готов абитуриент к обучению по выбранной им специализации. То есть, даже в блоке обязательных предметов проверяемые умения и компетенции должны быть связаны с будущей специализацией: показывать, например, каким образом будущий медик или инженер сможет использовать компетенции, полученные на уроках истории, а будущий переводчик или юрист — компетенции по математике в своей дальнейшей учебе. «Упрощённые, первой степени сложности задания, направленные на проверку грамотности и оценку базовых знаний абитуриентов», как это видят специалисты ГЦТ, не способствуют повышению валидности теста.

Сторонники увеличения количества предметов ссылаются на международный опыт: мол, в России, Германии и других странах сдают по 4−8 предметов, и математику, историю и родной язык сдают все.

Но российский ЕГЭ или Abitur в Германии — это не вступительные экзамены в вуз в нашем понимании. Это формы итоговой аттестации школьника, которые выполняют функцию «два в одном» — школьник сдает эти экзамены, чтобы получить аттестат, и результаты этих же экзаменов принимаются для поступления в вуз.

То есть «грамотность и базовые знания абитуриентов» проверяются до того, как школьнику давать аттестат, а не после того, как тот получил документ о среднем образовании и изъявил желание поступить в вуз. Мы уже высказывали мнение, что заставлять школьника пройти круг из десятка выпускных экзаменов в школе и пяти вступительных экзаменов в вуз за какие-то два месяца — это вотум недоверия системе образования и аттестатам, выданным от имени государства.

3. Отсутствие чёткости в формулировке «базовые знания абитуриентов»

Расплывчатая формулировка «базовые знания абитуриентов» открывает простор для различных субъективных толкований и опять-таки негативно влияет на валидность теста. Во многих странах учебные программы предполагают дифференцированное изучение разных предметов в зависимости от интересов школьника. В России, например, федеральные образовательные стандарты предлагают базовый и углубленный уровни по всем предметам, и соответственно, школьник выбирает — какой ЕГЭ ему сдавать (базовый или профильный).

Наши образовательные стандарты не предполагают дифференциацию образовательных программ и предъявляют одинаковые требования ко всем выпускникам школ. А кто и как будет определять, что входит в понятие «базовые знания»? Например, в математике производные, интегралы и тригонометрические функции — это базовые знания? Или классификация сложноподчиненных предложений или морфем в родном языке — это базовые знания? Или знание годов открытия комбинатов и ГРЭС в Узбекистане — это базовые знания?

Кто-то из составителей может считать, что, например, будущему историку не обязательно уметь решать тригонометрическую функцию или классифицировать морфемы по различным признакам, а другой посчитает, что раз уж это включено в школьную программу, то все обязаны это знать. И кто же в итоге будет прав?

Непонятна также формулировка «первой степени сложности». Существуют разные подходы к определению степени сложности тестовых заданий. Если ГЦТ имеет в виду априорную (теоретическую) сложность, то какая теоретическая модель или иерархия когнитивных действий берётся за основу?

Если имеется в виду фактическая (апостериорная) сложность, то там вообще нет понятия «первая степень», так как уровень сложности измеряется в шкале от 0 до 1. И потом, как её можно вычислить, не проводя апробацию всей базы заданий? Без какой-либо теоретической модели и апробации «первая степень сложности» превратится опять-таки в чисто субъективное понятие, целиком зависящее от мнения разработчика теста.

4. Сдача и обязательного блока, и блока по специальности

Во многих направлениях может оказаться, что предмет будет включен и в обязательный блок, и в блок по специальности. В таком случае предполагается, что в первом блоке абитуриента проверяют на наличие «базовых знаний» по предмету, а во втором блоке будут задания другой степени сложности.

Интересный подход, при котором валидность первого блока сводится на нет. Любой педагог знает, что нельзя научить сложным процессам без освоения простых. Если ученик умеет решать сложные алгебраические функции, то нет смысла проверять «базовые знания» по математике — без них он не смог бы решать сложные задачи. Если ученик умеет делать морфологический или синтаксический анализ предложений, то незачем проверять «базовые знания» по родному языку?

В той же России школьник, решивший сдавать профильный уровень ЕГЭ по предмету, не сдает базовый ЕГЭ по тому же предмету. Так какова же цель включения предмета в оба блока? И если по математике и родному языку можно попытаться разграничить «базовые знания» и «продвинутые знания», то по истории, где тестовые задания проверяют степень запоминания фактов и цифр из учебников, что будет в первом блоке и что во втором в тех направлениях, где история будет и там, и там? Какие цифры и факты будет отнесены к «базовым знаниям», а какие — нет?

Вопросов, как всегда, больше, чем ответов. И вопросы отнюдь не праздные: в науке о тестах доказано, что использование невалидных тестов для принятия важных решений приводит к отрицательному «эффекту отлива» как для участников системы, так и для системы и общества в целом.

Реальный пример «эффекта отлива», с которым ГЦТ уже столкнулся: после того, как несмотря на противоречивые мнения, решение о требовании сертификата уровня B2 для абитуриентов было принято, количество желающих иметь «национальный сертификат» снизилось в разы — от нескольких тысяч до нескольких сотен, как мы и предполагали.

В одном из популярных среди молодежи Телеграм-каналов был проведён опрос, и на вопрос «Как вы будете готовиться к тестам по пяти предметам?» самым популярным ответом был «Попробую уехать за рубеж для учебы».

Когда принимаются важные решения, касающиеся сотен тысяч учащихся, их родителей и учителей, следовало бы просчитывать их возможные эффекты и руководствоваться в первую очередь научным принципом валидности, а не принципом «а за рубежом вот так».

Мнение автора может не совпадать с мнением редакции.

Комил Джалилов является преподавателем Ташкентского государственного университета узбекского языка и литературы имени А. Навои. Проходил повышение квалификации в Колумбийском университете (Нью-Йорк, США) по направлению «Педагогическая психология и методика преподавания языков» и Международном Вестминстерском университете в Ташкенте по направлению «Теория и практика преподавания и обучения». Работал в Академическом лицее при УМЭД, Академическом лицее при МВУТ, Ташкентском филиале МГУ имени М. Ломоносова. Магистр Института образования Университетского колледжа Лондона по специальности «Разработка учебных программ, педагогика и педагогическое оценивание» по программе Chevening.