1_12. Быстро ли Вы читаете вслух?
3_5. Иногда Вы так настаиваете на чем-нибудь, что люди начинают терять терпение
2_18. Обычно я могу сосредоточенно работать, не обращая внимания на то, что люди вокруг меня очень шумят
1_26. Ваша речь обычно медленна и нетороплива?
2_17. Вечер, проведенный за любимым занятием, привлекает меня больше, чем оживленная вечеринка
2_15. Я делаю людям резкие критические замечания, если мне кажется, что они того заслуживают
1_4. Любите ли Вы игры в быстром темпе?
1_13. Если Вы обещали что-то сделать, всегда ли Вы выполняете свое обещание независимо от того, удобно это Вам или нет?
2_9. Я провожу много свободного времени, беседуя с друзьями о тех прежних событиях, которые мы вместе пережили когда-то.
2_6. Иногда у меня бывали огорчения из-за того, что люди говорили обо мне дурно за глаза без всяких на то оснований.
3_27. Вы часто испытываете тягу к новым впечатлениям, к тому, чтобы встряхнуться, испытать возбуждение.
2_23. Люди относятся ко мне менее благожелательно, чем я того заслуживаю своим добрым к ним отношением.
3_1. Часто ли Вы переходите на другую сторону улицы, чтобы не встречаться с кем нибудь из знакомых?
Для определения значимости субтестов теста было произведено вычисление средней значимости по вопросам каждого из них. Субтесты распределились в следующем порядке: наиболее значимый - 1-й, далее - 3-й и наименее значимый - 2-й. Данное распределение можно проиллюстрировать гистограммой (рис. 1). Для построения этой гистограммы все вопросы, отсортированные в порядке убывания значимости, были разбиты на девять десяток, а затем для каждой из них было подсчитано число вхождений вопросов, принадлежащих первому, второму и третьему субтесту.
|
Рис. 1. Диаграмма распределения вопросов теста по их значимости для предсказания статуса испытуемых. |
Для вопросов первого субтеста виден эксцесс распределения в сторону большей значимости, второго - в сторону меньшей, а вопросы третьего - относительно равномерно распределены по всему интервалу.
Была произведена серия экспериментов с целью выяснить достаточный для нейросети объем опросника. На каждом этапе исключалась половина из имеющихся вопросов опросника.
При исключении половины вопросов скользящий контроль консилиума сетей, обученных на выборке по всем группам, дал среднюю погрешность в 24%, при исключении трех четвертей вопросов - в 28% и, наконец, при исключении семи восьмых нейросети обучиться не смогли.
Таким образом, примерно половина вопросов и без того изначально минимизированного теста оказалась для нейросети избыточной, даже приводящей к ухудшению оценки качества предсказания. Оптимальным можно признать опросник из половины вопросов, максимальных по своей значимости для нейронной сети, поскольку результаты тестирования для него лучше чем для всех остальных вариантов, включая и полный набор вопросов.
3.6 Оценка оптимизации задачника нейросетью с позиций теории информации
Разницу между первоначальным (заданным психологом) и требуемым нейросети для успешного решения задачи объемом опросника можно оценить с позиций теории информации [95].
Начальное количество информации, содержащейся в тесте можно оценить исходя из того, что вопросы первого и третьего тестов бинарны (варианты ответов «Да» и «Нет», вероятность наступления каждого из них - 0.5), а ответы на вопросы второго - могут с равной вероятностью соответствовать наступлению одного из трех событий, которые будем считать равновероятными (варианты ответов «А», «Б» и «В», p=0.333). Тогда, исходя из формулы Шеннона
и учитывая, что количество вопросов в первом субтесте - 29, во втором - 25 и в третьем - 36 можем вычислить суммарное количество информации, содержащееся в ответах на вопрос теста:


