Summary
Ход работ и гипотезы
Несмотря на структуру отчета, реально был немного иной порядок — сначала я проверил, как исходная теоретическая модель подтверждается на данных (с помощью CFA). Когда получил не очень высокие метрики качества, стал пробовать разные варианты улучшения модели и в целом сделал разведочный анализ, как дексриптивный, так и факторный.
- попробовал спуститься на уровень субшкал (группировка c3), которых 30 для 8 компетенций.
- аналогично, попробовал подняться на уровень выше, на уровень макро-компетенций (5 макро-компетенций)
- разными способами пытался улучшить качество основной c2-модели:
- модель с удалением вопросов, не делающих значимый вклад
- модель с указанием кросс-факторных вкладов вопросов
- модель с удалением вопросов с высокими кросс-факторными нагрузками
- модель с удалением вопросов, которые в восьмифакторной EFA-модели имели низкие факторные нагрузки
- модель с коррекцией крупных шкал (удалением вопросов с низкой нагрузкой в факторы шкалы)
Также была гипотеза, что респонденты на таком большом массиве вопросов устают и начинают выбирать первый пункт во всех вопросах (т. е. снижается дисперсия ответов). Для проверки гипотезы я просто посмотрел вариативность вопросов в зависимости от порядкового номера вопроса. Гипотеза не подтвердилась, качество исходной модели низкое по каким-то иным причинам.
Помимо оценки модели и поиска вариантов новой структуры, я сделал еще оценку конвергентной валидности опросника (новых шкал, выделенных с помощью EFA). Даны таблицы значимых коэффициентов корреляций.
Результаты
Несмотря на попытки улучшить модель, метрики все равно остались недостаточно хороши. В результате кажется более осмысленным пересобрать набор компетенций с помощью эксплораторного факторного анализа.
По формальным показателям можно на текущем наборе вопросов выделить 13 или 14 факторов. Вопросы, исходные шкалы и моя интерпретация для 13-факторной модели здесь. Материалы по 14-ти факторной модели здесь.
Стоит учитывать, что качество этих решений все равно проходит по нижней границе приемлемости — CFA чуть выше 0.9, а общая объясненная дисперсия не выше 45% (т. е. больше половины вариативности вопросов объясняется иными факторами).
Какой вариант выбрать – вопрос открытый, надо ориентироваться на общую осмысленность получившихся факторов. А также на оценку их конвергентной валидности (корреляции с шкалами тестов MAAS, TIPI и SSPM). Однако в целом сами значения коэффициентов не очень высоки — выделенные шкалы слабо коррелируют с шкалами тестов MAAS, TIPI и SSPM.
Дальнейшие действия
- перепроверить, что я верно отметил вопросы с обратным порядком значений. На качество модели и или факторной структуры это не особо повлияет, но для описательных статистик, оценки конвергентной валидности и получения индивидуальных значений по выделенным факторам это важно. Табличка здесь.
- уточнить кодировку и ключи теста эмпатии Дэвиса, так как в описании методики используется униполярная шкала, а в опроснике – биполярная, плюс есть несколько обратных вопросов. В результате непонятно, как корректно вычислять значения по шкалам.
- в идеале было бы неплохо перепроверить, что я корректно применил ключи методик из описаний опросников (они местами весьма заковыристые, в частности SSPM).
- выбрать, какая факторная модель (на 13 или на 14 факторов) кажется более осмысленной.
- перечислить, если нужны, дополнительные гипотезы и исследования, которые касаются различий групп респондентов по выделенным шкалам (например по стажу / полу и т.д.)
- вопрос для отдельного брейншторма и в рамках текущей задачи может быть избыточным — почему в целом качество исходных моделей получилось не очень высоким.