Валидность психологического исследования

Понятие валидности было введено в широкое употребление в психологию Кэмпбеллом (Campbell) и Стэнли (Stanley) в 1960-е годы в отношении результатов исследования, точно репрезентирующих характеристики феномена, подлежащего описанию или объяснению. В общем плане валидность представляет собой соответствие результатов исследования тому, что изучалось в нем. Проблема соответствия изучаемого избранному исследовательскому и теоретическому инструментарию остается дискуссионной и сегодня в силу сложности и многогранности самого объекта - социальнопсихологической феноменологии. В социальной психологии представлены десятки определений валидности, часто пересекающихся с другим, не менее важным понятием, надежности, определяемой как точность исследовательского инструментария и его способность давать стабильные показатели. Также следует отметить, что проблема валидности чаще всего обсуждается в контексте экспериментальной социальной психологии.

Предложенное определение валидности относится к установлению научной строгости и обоснованности выводов исследования и подчеркивает относительный характер истинности знания в социальных науках. Как отмечает Элена Дзуки, в любом научном исследовании исследователь должен уметь находить ответы на, про крайней мере, следующие вопросы: 1)

существует ли зависимость между двумя переменными; 2)

носит ли эта зависимость причинный характер; 3)

является ли данная зависимость значимой; 4)

действительно ли процедуры измерения и наблюдения относятся к исследуемым конструктам; 5)

могут ли быть обобщены причинные зависимости, выявленные в ходе исследования (1997, с. 24).

Нахождение ответов на данные вопросы крайне важно, прежде всего, по той причине, что исследователь часто не задумывается над тем соответствуют ли избираемые им методы и процедуры особенностям изучаемого явления, можно ли говорить по полученным результатам о их адекватности и т.п. По отношению к поставленным вопросам можно говорить о нескольких типах валидности: внутренней и внешней валидности; валидности статистических выводов и процедур исследования; конструктной и экологической валидности. 5.

Внутренняя валидность.

Внутренняя валидность - степень, в которой результаты исследования позволяют сделать причинно-следственные выводы о влиянии одной переменной на другую. Большинство социальнопсихологических исследований эксперименталистского толка заинтересованы в выяснении того как социальные силы, воздействующие на индивида влияют на его социальное поведение и принятие решений. В этом аспекте одним из самых важных типов валидности, является определяющий отношения между зависимыми и независимыми переменными. Эта валидность связана с особым процедурами, которые позволяют определить, насколько выводы, сделанные в данном исследовании, достоверны. После того, как установлено существование зависимости между переменной X и переменной Y, необходимо решить, какая из переменных является причиной, а какая следствием, то есть определить направление данной взаимосвязи. Если Y наблюдается после X, то можно сказать, что X является причиной Y.

Однако может оказаться, что отношение зависимости между X и Y вызвано третьей переменной С. Для установления внутренней валидности необходимо рассмотреть все возможности влияния третьей переменной С на переменные X и Y и исключить их. Считается, что исследование обладает внутренней валидностью, если доказано, что существует зависимость причинно-следственного типа между зависимыми и независимыми переменными.

В отношении внутренней валидности часто возникает два вопроса:

Первый вопрос связан выяснением наличия реального влияния. Ответ на этот вопрос предполагает выяснение того, имеем ли мы основания для вывода о наличии различий в измерении зависимой переменной (т.е., существуют ли реальные статистические различия?).

Второй вопрос связан с выяснением того действительно ли эффект связан с влиянием данной переменной или чего-либо другого? Если различия принимаются как статистически значимые, то можно ли делать вывод о том, что они являются следствием прямого влияния исследуемой переменной.

Причины снижения внутренней валидности исследования: 1)

Смешение переменных. Это одна из наибольших опасностей для валидности эксперимента. Если в ходе эксперимента какой-либо случайный фактор (неэкспериментальная переменная) взаимодействует с зависимой переменной и это взаимодействие не может быть измерено отдельно от взаимодействия зависимой и независимой переменных, то влияние случайной и независимой переменных неразличимо. Проблема смешения переменных является особенно острой в тех исследованиях, где экспериментатор не может контролировать независимую переменную. 2)

Изменения, связанные с испытуемыми. При проверке зависимых переменных изменения, произошедшие между двумя моментами наблюдения, могут быть вызваны не независимыми переменными, а изменениями, произошедшими с самими испытуемыми (например, событиями личной жизни, изменением тех или иных свойств личности и т.д.), то есть факторами «зрелости» и «истории».

Под «зрелостью» понимаются изменения, которые произошли с испытуемым между моментом пред-теста и моментом пост-теста и которые не были связаны с влиянием независимых переменных. Например, в экспериментах по моторной координации у испытуемых может наблюдаться ее улучшение за счет тренировок в период между экспериментами. Данное влияние нельзя смешивать с влиянием независимой переменной. Под фактором «истории» подразумеваются события, которые произошли с испытуемыми и которые повлияли на результаты эксперимента. 1)

Влияние пред - теста. Пред-тест вызывает изменения у испытуемых, и, следовательно, результаты эксперимента в некоторых случаях могут в основном зависеть от него, а не от зависимой переменной. 2)

Изменение навыков исследователя. Например, исследователь, спустя некоторое время, может стать более опытным в наблюдениях и, следовательно, по- другому интерпретировать поведение испытуемых.

Кроме того, на исследователя могут влиять такие факторы, как усталость, что может привести к ошибкам в экспериментах. 3)

Регрессия к среднему. Это явление наблюдается тогда, когда индивиды подвергаются повторным испытаниям относительно одной и той же переменной. Установлено, что если испытуемые получили в первом испытании результаты, по величине близкие к высшим показателям шкалы, то при повторном эксперименте их результаты снижаются и становятся ближе к средним показателям, в то время как испытуемые, которые получили в первом испытании результаты, близкие к низшим, при повторном измерении достигают лучших показателей. Регрессия к среднему наблюдается также в случае ошибок, связанных с изменением переменной. 4)

Отсев. Известно, что в ходе исследования некоторые испытуемые покидают группу. Оставшиеся испытуемые, естественно, отличаются от выбывших.

Предположим, что исследуется два метода модификации поведения для контроля за весом тела. Группе 1 предписана диета. Кроме того, испытуемые первой группы должны ежедневно записывать в дневник все, что они едят, точно взвешивать все блюда и подсчитывать калорийность пищи. Группе 2 была просто предписана диета. Вполне обоснованно можно предположить, что некоторые испытуемые группы с более обременительным заданием выйдут из эксперимента. В конце эксперимента процент испытуемых с высокой мотивацией в этой группе будет больше. У испытуемых с более высокой мотивацией больше вероятность похудения. Поэтому исследователь может прийти к ошибочному выводу о том, что условия в первой группе более эффективны для похудения. 2.

Внешняя валидность.

Под внешней валидностью понимается возможность обобщения результатов исследования, то есть генерализации выводов, полученные на экспериментальной выборке, на всю генеральную совокупность. Социальные психологи стремятся к получению выводов, генерализируемых на очень широкую социальную общность, часто исходя из идеи о наличии универсальных закономерностей глобального характера. Результаты исследований с высокой степенью генерализируемости, соответственно, обладают и высоким уровнем внешней валидности. Внешняя валидность существенно зависит от способа формирования выборки.

Существует три основных типа выборки:

Случайная выборка. Например, результаты исследования группы подростков, сформированной случайным способом, будут справедливы с некоторой степенью вероятности для всех подростков данной национальности. Однако такое исследование может оказаться очень сложным и дорогостоящим, так как выборка должна быть многочисленной и однородной.

Гетерогенная (неоднородная) выборка. В

соответствии с целями исследования выделяются различные группы населения, на которых предполагается получить результаты исследования. Затем анализируется случайная выборка с тем, чтобы убедиться, что она содержит достаточное количество представителей каждой группы.

Выборка типичного случая. Например, дается определение среднего молодого белоруса. Для исследования используется выборка, состоящая из индивидов, удовлетворяющих этому определению. В этом случае, если проводится эксперимент со студентами университета, например, на способность к ведению переговоров, то нельзя рассчитывать на то, что полученные выводы будут применимы для глав государств. Тем не менее, в той же социальной психологии основные выводы получены именно на студенческих выборках, что создает основания для их критики.

Внешнюю валидность снижает также несоответствие между явлениями, наблюдаемыми в лаборатории, и явлениями в естественных условиях. Трудно определить, имеет ли место выявленная зависимость только в лаборатории или она наблюдается и вне лаборатории. Внешняя валидность обеспечивается неоднократным проведением эксперимента в гетерогенных условиях.

Можно говорить, как минимум, о четырех основных возможностях ограничений генерализации результатов исследований или внешней валидности: 1)

Случится ли то же самое с другими группами людей или со всеми людьми то что получено на экспериментальной выборке? 2)

Случится ли то же самое в других местах? 3)

Будет ли то же самое в другое время? 4)

Будет ли то же самое при других типах измерений?

Первый вопрос был связан Брахтом (Bracht) и Глассом (Glass) с популяционной, а второй с экологической валидностью к рассмотрению которых мы и приступим. 3.

Популяционная валидность.

Популяционная валидность обозначает степень генерализируемости результатов исследования на население. Вспомним как часто у нас вызывали состояние напряжения отдельные журнальные статьи о том, что повышенный радиационный фон таким-то образом отражается на новорожденных (приводя примеры детей-уродов и т.п.). точно такое же впечатление создавалось от отдельных экспериментальных «находок» в отношении той или иной биологической подоплеки криминальности, аддиктивности и т.п.

Кончено возможность широких обобщений варьируется от исследования к исследованию, но часто воспринимается как само собой разумеющееся присутствие того или иного признака у всего населения, что столь же часто противоречит реальным фактам и столкновением с очевидностью того, что не все лица «кавказской национальности» криминальны и социально опасны и т.п. безусловно, внешняя валидность крайне важна для прикладных исследований, направленных на выяснение того, как та или иная система воздействия «работает» в принципе и менее заинтересованных в выяснении того, как она реализуется в специфических условиях и в определенных субкультурах и контекстах. С определенной степенью уверенности можно говорить о том, что популяционная валидность становится особенно актуальной сегодня в связи с попытками нахождения оптимальной пропорции идиографии и номотетики или итики и имики, т.е. уникально-специфичного и общего для различных групп населения. По-крайней мере многими исследователями отмечается необходимость отхода от ориентации на выявление абсолютно универсальных закономерностей. Этот вопрос актуален и в контексте проблемы «оживления» социально-психологического знания, предполагающего его соотнесение с тем, что происходит в реальной жизни людей и связываемого с экологической валидностью 4.

Экологическая валидность.

Под экологической валидностью понимается соответствие результатов исследования и используемых процедур и инструментов изучению и объяснению феноменологии в реальных условиях ее существования. Большой проблемой лабораторных экспериментов является генерализируемость их результатов на обстоятельства реальной жизни, естественно происходящих в условиях повседневной практики человека.. исследование обладает высокой экологической валидностью если его результаты подтверждаются в полевых исследованиях. Но и это не дает гарантий для автоматического признания результатов экологически валидными, т.к. предполагает и генерализацию на другие обстоятельства и контексты. Обвинения в адрес многих исследований в низкой экологической валидности часто связаны с невозможностью их повторения в обстоятельствах реальной жизни. Карлсмит (Carlsmith) предложил обозначать высоко экологические исследования термином «мирской реализм», экспериментальные, т.е. проводимые в искусственных условиях, при помощи термина «экспериментальный реализм» (1976). Примерами такого рода исследований являются оригинальное лабораторное исследование конформности Соломона Аша и известные эксперименты Стэнли Милгрэма., вызвавшие целую бурю дискуссий по проблеме психологической этики. Следует отметить и то обстоятельство, что в определенных ситуациях люди ведут себя в реальных условиях так же, как и в лабораторных (например, новорожденные или пассажиры самолета), в то время как в других обстоятельствах они демонстрируют выраженные отличия. Точно так же как одни люди сохраняют постоянство и в реальной жизни и в лаборатории, в то время как другие, демонстрируют выраженные отличия. При всем критическом отношении к экологической валидности классических социально-психологических экспериментов у них нельзя отнять главного достоинства - объективности в ее классическом понимании, обеспечивающей как однозначность трактовок, так и воспроизводимость, т.е. подтверждаемость. Последняя непосредственно связана со статистической валидностью. 5.

Валидность статистических выводов.

Этот тип валидности соответствует проверке статистической значимости зависимости между двумя переменными. Такие выводы всегда являются вероятностными. Тем не менее, в обыденном сознании часто присутствует своеобразная идеализация статистического подтверждения. У исследователей формируется доминанта статистического подтверждения, начисто перекрывающая усилия по валидизации полученных данных.

Можно говорить о двух типах ошибок: выводе о том, что зависимость является значимой, в то время, когда это не соответствует действительности; или выводе о том, что значимая зависимость между переменными отсутствует, в случае когда она, наоборот, имеется.

Существуют некоторые факторы, которые могут снижать валидность статистических выводов: 1)

слабая чувствительность исследований, которая проявляется при недостаточной по численности выборке или при большой изменчивости в сравниваемых группах, то есть испытуемые являются слишком разными и сильно отличаются друг от друга относительно некоторых переменных; 2)

низкая надежность методик измерения или процедур манипулирования переменными, которые используются в исследовании; 3)

факторы помех, присутствующие в условиях эксперимента; 4)

нарушение принятых правил проведения и обработки, которые установлены для различных статистических методов.

Стратегия повышения валидности статистических выводов состоит в уменьшении вариативности ошибки путем применения, например, схемы исследования с повторными пробами или использования однородных групп. Более подробное рассмотрение схем исследования будет представлена в разделе, посвященном методу эксперимента. Статистическая состоятельность исследования может диагностироваться как на стадии проектирования исследования (например, проверка расчета величины выборки), так и после исследования для оценки его результатов. 6.

Валидность процедур.

Третий тип валидности - это валидность процедур, которые позволяют варьировать и измерять переменные. Даже необходимость определить в операциональных терминах концептуальные переменные, значимые для исследования, уже является источником риска. Действительно, «перевод» понятия на уровень конкретных операций может неадекватно отразить теоретические положения исследования.

Существуют так называемые «переменные-паразиты», которые могут активизировать изменения переменных. «Переменные-паразиты» бывают двух типов: 1)

«Переменные-паразиты» особого типа, то есть

переменные, связанные только с определенными

операциями, производимыми в данном исследовании. 2)

«Переменные-паразиты» общего типа, то есть

переменные, связанные с экспериментальными

условиями косвенно, например, с ожиданиями исследователя.

Часто исследователь неосознанно стимулирует ответ, который он ожидает получить. Избежать этого можно, используя стратегии невмешательства в исследования и соответствующие методы измерения. При этом испытуемые не должны знать, что за ними наблюдают, что позволяет снять нежелательную мотивировку по отношению к эксперименту.

2. Конструктная валидность.

Этот тип валидности подобен внутренней валидности и подразумевает соответствие между полученными результатами и теорией, которая лежит в основе исследования. Для того, чтобы оценить конструктную валидность, необходимо исключить другие возможные теоретические объяснения результатов. Если есть сомнения в том, насколько экспериментальные результаты соотносятся с теоретическими, необходимо спланировать новый эксперимент, который позволит выбрать одно из нескольких теоретических объяснений результатов. Этот тип валидности наиболее трудно получить, потому что имеются многочисленные теории, с помощью которых можно объяснить соотношение переменных, полученное в эксперименте.

Рассмотрим две причины снижения конструктной валидности. Первая - слабая связь между теорией и экспериментом. Действительно, во многих психологических исследованиях даются нечеткие операциональные определения теоретических понятий. Вторая причина определяется тем, что, во- первых, испытуемые очень часто начинают играть роль «хорошего» объекта исследования и ведут себя таким образом, чтобы «подыграть» экспериментатору, и во-вторых, тем, что у испытуемых, особенно в экспериментах, замеряющих их интеллектуальные способности или эмоциональную стабильность, развивается высокая тревожность в отношении ожидаемой оценки.

Необходимо решить, какой тип валидности является главным для данного исследования. Действительно, процедуры, используемые для повышения одного типа валидности, могут снижать другие типы валидности.

Например, для повышения валидности статистических выводов исследователь должен использовать максимально разнородные объекты, снижая таким образом возможность ошибки. При этом внешняя валидность уменьшается.

Тип приоритетной валидности зависит от типа проводимого исследования. Например, если в экспериментальном исследовании устанавливается причинно-следственная зависимость между переменными, то в этом случае внутренняя валидность является основной. Наоборот, при вычислении корреляционных связей между переменными невозможно установить направление причинно-следственных отношений, поэтому в данном случае внутренняя валидность не представляет интереса по сравнению с другими типами валидности.

С понятием валидности связано понятие контроля. Под контролем понимается любое средство, используемое для исключения возможности снижения валидности исследования. На практике исследователь проверяет, какие факторы могут снизить валидность исследования и какие методы могут быть использованы для нейтрализации этих факторов.

Различают шесть основных методов контроля. 1.

Одним из наиболее часто используемых методов контроля является проведение эксперимента с группой испытуемых, которые не подвержены влиянию исследуемой переменной и которые сравниваются с испытуемыми, подверженными этому влиянию. Например, исследуется две группы относительно независимой переменной. Группа 1 получает воздействие и называется экспериментальной. Группа 2 не получает воздействия и называется контрольной. Результаты экспериментальной группы сравниваются с результатами контрольной группы. Если две группы были одинаковыми до экспериментального воздействия, то любое различие между ними, зафиксированное после эксперимента, может быть отнесено за счет этого воздействия. Пред-тест Экспериментальное

воздействие Пост

тест Группа 1 (экспериментальная) Да Да Да Группа 2 (контрольная) Да Нет Да Таблица Х.Х. Эксперимент с контрольной группой.

В данной таблице представлена экспериментальная группа 1, в которой проводился пред-тест, то есть предварительное измерение. Затем осуществлялось экспериментальное воздействие

и, наконец, проводился пост-тест. Контрольная группа 2 подвергалась только пред-тесту и пост-тесту и не получала экспериментального воздействия.

Однако для некоторых измерений данная процедура не имеет смысла. Например, при исследовании двух методов преподавания можно использовать группу, которая посещает только лекции, и группу, которая посещает лекции и семинары. Это дает возможность определить, какой метод обучения лучше, не используя группу, которая никогда не посещала лекций. 2.

При втором методе контроля контрольная группа не используется, но имеются две группы испытуемых, которые подвергаются воздействиям, различным по форме или интенсивности. Таким образом, каждая группа используется в качестве контрольной для другой. Вместо того, чтобы группу 1 подвергать воздействию, а группу 2 использовать в качестве контрольной, обе группы подвергаются воздействиям, различным по форме и интенсивности, например, в них используются два различных метода преподавания (см. Табл. Х.Х.). Пред-

тест Экспериментальное

воздействие Пост

тест Группа 1 (экспериментальная) Да 1 Да Группа 2 (контрольная) Да 2 Да

Таблица Х.Х. Эксперимент с группами, подвергающимися воздействиям различной интенсивности. 3.

Третий метод контроля - каждый испытуемый подвергается всем экспериментальным воздействиям. В данном случае вместо контрольной группы имеется только контрольное воздействие, то есть испытуемые служат для контроля самих себя. Данные эксперименты проводятся на одном испытуемом. Третий тип контроля используется в некоторых областях психологии, например, в исследованиях ощущений и восприятия. 4.

Четвертый тип контроля - преобразование помех. Если факторы, которые мешают в эксперименте и влияют на результаты являются трудно устранимыми, то они могут рассматриваться экспериментатором как независимые переменные.

Например, при сравнении студентов-психологов дневного и вечернего обучения факторы, которые определяют разницу между этими группами (студенты вечернего отделения старше, относятся к социальной группе рабочих, устают и т. д.) могут рассматриваться как помехи. Однако эти факторы могут быть преобразованы экспериментатором в независимые переменные. 5.

Пятый способ контроля - статистический контроль. Существуют специальные процедуры статистического контроля, которые осуществляются в основном на уровне данных. 6.

Шестой метод контроля - метод повторения. Он заключается в повторном проведении эксперимента. Количество повторений определяется экспериментатором.

Повторение может быть непосредственным, то есть

эксперимент повторяется без изменений. Но такой тип контроля используется редко, так как является примитивным. Напротив, если повторный эксперимент проводится на испытуемых различного типа или в нем используются различные операциональные определения теоретических понятий, то такой эксперимент может рассматриваться как эффективный метод контроля. Совпадение результатов первого и последующих экспериментов позволяет утверждать, что эксперименты взаимно подтверждаются.

Способы сравнения измерений Имеется два основных способа сравнения. 1.

Сравнение внутри объекта исследования, когда различные испытуемые подвергаются воздействию различных значений независимой переменной, то есть двум различным воздействиям, или один испытуемый подвергается воздействию, а другой нет, и т.д. 2.

Сравнение между объектами исследования, когда одни и те же испытуемые подвергаются воздействию каждого из значений независимой переменной.

Начнем с рассмотрения первого типа, то есть сравнения внутри объекта исследования. В объекте выделяется несколько групп испытуемых. Разные группы подвергаются различным по величине значениям независимой переменной. Этот способ может использоваться как для экспериментальных, так и для корреляционных исследований. Данный подход создает проблемы для внутренней валидности. Действительно, спрашивается, можно ли изменение, которое наблюдается в независимой переменной отнести за счет самой переменной, или это изменение уже определяется существующими различиями в группах испытуемых. Тогда необходимо до манипуляции с независимой переменной сформировать группы испытуемых, которые максимально подобны между собой. Чтобы уменьшить разницу между группами испытуемых при сравнении внутри объектов исследования, то есть в подгруппах, используются три различных метода. 1.

Первый метод - это контроль посредством постоянства, который называется также К-методом. Выбирается только одна величина характеристики субъектов, и все группы имеют эту величину. Например, пол - решено провести исследование всех женщин, то есть выбирается одна величина одной или более характеристик. При этом существует уверенность, что все группы, все индивидуумы показывают эту величину. 2.

Второй метод - это контроль посредством каузальной вариации, так называемый R-метод. В данном случае меняются случайным образом характеристики субъектов, которые могли бы повлиять отрицательно на результаты. Посредством привлечения многочисленных субъектов можно постулировать, что характеристики субъектов распределяются внутри каждой группы согласно тому же самому распределению, которое наблюдается в генеральной совокупности. При достаточно большом количестве объектов исследования вполне вероятно, что вступает в действие закон нормального распределения. 3.

Третий метод - это метод парного контроля, или М- метод. В данном случае субъекты приписываются к различным группам согласно данным систематических изменений их характеристик. Речь идет о систематическом распределении субъектов по группам, при этом следят, чтобы испытуемый, обладающий определенной характеристикой, был представлен также в другой группе и т. д. Следовательно, испытуемые попарно объединены в двух группах или уравнены относительно переменной, которая, как считается, может повлиять на результаты. Таким образом, например, в эксперименте можно предположить, что уровень образования может повлиять на результаты, если в каждой группе будет одинаковое количество лиц с низким, средним и высоким уровнями образования. Таким образом, испытуемые выровнены относительно одной переменной (в данном случае уровня образования).

Второй способ сравнения измерений - сравнение между объектами исследования. Одни и те же испытуемые, как отмечалось выше, подвергаются воздействию каждого значения независимой переменной. Это более чувствительное измерение, потому что разница между независимой переменной не может быть отнесена за счет разницы между самими испытуемыми. Однако данный подход не может использоваться в следующих случаях: 1)

когда независимая переменная исследуется корреляционным методом, например, при установлении зависимости между полом испытуемых и их творческими способностями; 2)

когда при сравнении на всех уровнях имеется риск изменить ответ испытуемого по сравнению с тем, каким мог бы быть ответ, если бы испытуемый не был подвергнут другим воздействиям.

к содержанию

Источник: Янчук В.А., «Методология и методы психологического исследования в психологии и социальных науках. - Мн.: АПО\. - 376 с.» 2011

Валидность психологического исследования

А так же в разделе «Валидность психологического исследования »