Статистические выводы Проверка гипотез
Проверка гипотез — это метод, используемый статистиками и эпидемиологами, чтобы определить степень вероятности того, что наблюдаемые различия в данных обусловлены исключительно ошибкой выборочного обследования, а не различиями в исходной популяции. В этом процессе несомненную ценность представляет нулевая гипотеза, в соответствии с которой любые наблюдаемые различия объясняются исключительно ошибками выборочного обследования (т.е. случайностью).
Чтобы вычислить,’ с какой вероятностью различия (по крайней мере те, которые наблюдаются в имеющихся данных) будут случайными, прибегают к статистической формуле, основанной на предположениях относительно распределения данных в исходной популяции. Эта вероятность известна как величина “точка” Р. Низкое значение Р указывает на то, что различия (по крайней мере не меньше, чем наблюдаемые) являются случайными лишь в небольшом числе всех возможных выборок (равного объема). Эго принимается как свидетельство низкой вероятности (хотя и существующей) того, что наблюдаемые результаты обусловлены исключительно случайностью. Высокое значение Р указывает на то, что различия, равные наблюдаемым, будут случайными в большой доле возможных выборок, даже если “различия” в исходной популяции отсутствуют.
При испытании гипотез нулевая гипотеза либо принимается, либо отклоняется в зависимости от того, где находится “точка” Р — выше или ниже предопределенной точки отсечки,известной как уровень значимости теста. Если Р находится ниже точки отсечки, нулевая гипотеза отклоняется. Если Р находится выше точки отсечки или на ее уровне, то нулевая гипотеза принимается. При испытании нулевой гипотезы в качестве уровней значимости обычно выбирается значение 0,05 (5 %) либо 0,01 <1 %).
Приведем следующий пример. Предположим, что в какой-либо стране величины массы тела мальчиков при рождении имеют нормальное распределение со средним значением 3,3 кг и стандартным отклонением 0,5. Далее принимаем, что в случайной выборке, состоящей из 100 мальчиков, принадлежащих к определенной этнической подгруппе, средняя масса тела при рождении равна 3,2 кг. Нам надо установить,
отличается ли средняя масса тела при рождении в данной этнической подгруппе от аналогичною параметра для страныв делом. Согласно нулевой гипотезе, средняя масса тела мальчика при рождении в этой подгруппе будет 3,3 кг.
Построение _____________ предполагает, что если верна нулевая
гипотеза (т.е. величины массы тела при рождении в популяции, из которой составлена выборка, имеют нормальное распределение со средним значениеми стандартным отклонением о), то распределение статистики г по всем возможным выборкам объемом п будет приближаться к нормальному распределению со средним значением 0 и стандартным отклонением 1. Важное свойство такого распределения заключается в том, что мы можем интерпретировать площадь под нормальной кривой справа от линии (см. рис. 4.6) как вероятность, с которой значения г будут больше а. Точно так же площадь под кривой слева от линии соответствует вероятности, с которой значения г будут меньше - а. Поэтому величина Р, ассоциируемая с определенным значениемравна площади под нормальной кривой справа
отплюс площадь под кривой слева от
Относительно данного примера можно обратиться к соответствующим таблицам нормального распределения, имеющимсяво многих статистических справочниках (в них указаны значения Р для площадей под нормальной кривой, соответствующие каждому значению г). Из таблиц видно, что площадь под кривой слева от г - - 2 составляет 0,023. Соответственно, площадь под кривой справа от г = 2 составляет 0,023. Следовательно, величина Р, соответствующая этому значению г, составляет 0,046. Этот результат можно интерпретировать следующим образом: если верна нулевая гипотеза (т.е. величины массы тела новорожденных данной этнической подгруппы имеют нормальное распределение со средним значением 3,3 и стандартным отклонением 0,5), то только в 4,6 % от всех возможных выборок в составе 100 новорожденных величины средней массы тела будут отличаться от величины 3,3 кг на 100 г или более.
Если за уровень значимости статистического критерия мы принимаем 5 %, нам следует отклонить нулевую гипотезу и в качестве альтернативы принять, что среднее значение для популяции не равно 3,3. Однако, если бы мы приняли 1 % за уровень значимости, то мы должны были бы принять нулевую гипотезу. Мы применяем термин “статистически значимый”, чтобы показать, что результат привел к отказу от нулевой гипотезы. Важно помнить, что нулевая гипотеза никогда не может быть доказана как правильная или неправильная, она только принимается или отвергается при данном коэффициенте значимости. Значение Р зависит как от выраженности ассоциации, так и от объема выборки. Низкое значение Р может соответствовать слабой ассоциации, и различие между двумя группами может не быть статистически значимым, если объем выборки недостаточно велик (см. с. 71—72).
Многие статистические критерии включают сравнение двух величин (в приведенном выше примере среднее значение для выборки сравнивалось с известным средним значением по стране). Обычно статистический критерий предусматривает возможность различий в двух направлениях (любая из двух величин может превышать другую: среднее значение по стране могло быть больше или меньше среднего значения для выборки). В таком случае речь идет о двустороннем критерии.Как и в примере, приведенном выше, Р вычисляется на основе вероятностей на обеих сторонах выборочного распределения (так, в приведенном примере Р представляло собой сумму вероятностей z > +2 и z<-2).
Однако в некоторых ситуациях предметом анализа является различие только в одном направлении. Например, требуется выяснить, лучше ли определенный метод лечения, чем применение плацебо (случай, когда лечение хуже плацебо, интереса в данном контексте не представляет). В такой ситуации подходит односторонний критерий. В этом случае статистика вычисляется таким же способом, как и при двустороннем критерии. Различие между этими двумя критериями заключается в расчете Р. Односторонний критерий основан на вероятностях с одной стороны выборочного распределения, тогда как двусторонний критерий представлет сумму вероятностей с обеих сторон распределения. Поэтому значение Р, соответствующее одностороннему критерию, равно половине значения Р, соответствующему двустороннему критерию.
Существуют и другие ситуации, когда можно с достаточным основанием исходить из того, что одна величина больше другой. Например, при проведении исследования, касающегося какой-либо опасности вредного воздействия окружающей среды, благодаря имеющимся данным экспериментов на животных или анализа серии случаев заболевания уже могут быть известны возможные последствия воздействия этого фактора. Так, было показано, что воздействие метилртути на плод вызывает расстройства центральной нервной системы и нарушения развития у животных. Исследование на больных корковым параличом в Минамате, Япония, показало, что этот синдром часто наблюдался у детей, матери которых во время беременности потребляли рыбу, содержавшую большое количество метилртути (WHO, 1990). Поэтому при проведении будущих эпидемиологических исследований, касающихся воздействия метилртути на центральную нервную систему плода, можно с. полным основанием предположить, что такое воздействие окажется неблагоприятным для детей, и использовать односторонние статистические критерии.Односторонний критерий имеет преимущество перед двусторонним в том смысле, что требует меньший объем выборки для достижения той же точности результата. Однако односторонние критерии следует использовать только в тех случаях, когда мы интересуемся только различиями в одном направлении или когда мы заранее знаем, что различия наблюдаются только в одном направлении. Принимая определенный подход к критерию значимости, мы должны детально объяснить в плане исследования и регистрации результатов, какими методами и критериями мы будем пользоваться.
Статистические критерии, известные как ^критерии, особенно ценны в случаях малых выборок. Предположим, нам надо проверить гипотезу, заключающуюся в том, что среднее значение для популяции равно предопределенной величине ц, когда стандартное отклонение для исходной популяции неизвестно, но известно среднеквадратичное отклонение выборки. Для этого случая мы можем использовать формулу:
где
s — среднеквадратичное отклонение выборки,
t имеет п — 1 степеней свободы.
Этот критерий сходен с описанным выше г-критерием. Однако г-статистика используется в тех случаях, когда известно среднеквадратичное отклонение для популяции, а ^статистика, когда среднеквадратичное отклонение для популяции неизвестно и определяется по среднеквадратичному отклонению выборки.
Распределение Г можно также использовать для того, чтобы установить, существуют ли значимые различия между средними значениями двух независимых выборок. В таком случае предполагается, что обе выборки сформированы из одной популяции или из двух популяций с одинаковой дисперсией. Тогда статистика, лежащая в основе критерия, принимает вид:
юо
С помощью {-распределения можно также проверить, являются ли значимыми коэффициенты линейной регрессии и корреляции.
Чтобы вычислить,’ с какой вероятностью различия (по крайней мере те, которые наблюдаются в имеющихся данных) будут случайными, прибегают к статистической формуле, основанной на предположениях относительно распределения данных в исходной популяции. Эта вероятность известна как величина “точка” Р. Низкое значение Р указывает на то, что различия (по крайней мере не меньше, чем наблюдаемые) являются случайными лишь в небольшом числе всех возможных выборок (равного объема). Эго принимается как свидетельство низкой вероятности (хотя и существующей) того, что наблюдаемые результаты обусловлены исключительно случайностью. Высокое значение Р указывает на то, что различия, равные наблюдаемым, будут случайными в большой доле возможных выборок, даже если “различия” в исходной популяции отсутствуют.
При испытании гипотез нулевая гипотеза либо принимается, либо отклоняется в зависимости от того, где находится “точка” Р — выше или ниже предопределенной точки отсечки,известной как уровень значимости теста. Если Р находится ниже точки отсечки, нулевая гипотеза отклоняется. Если Р находится выше точки отсечки или на ее уровне, то нулевая гипотеза принимается. При испытании нулевой гипотезы в качестве уровней значимости обычно выбирается значение 0,05 (5 %) либо 0,01 <1 %).
Приведем следующий пример. Предположим, что в какой-либо стране величины массы тела мальчиков при рождении имеют нормальное распределение со средним значением 3,3 кг и стандартным отклонением 0,5. Далее принимаем, что в случайной выборке, состоящей из 100 мальчиков, принадлежащих к определенной этнической подгруппе, средняя масса тела при рождении равна 3,2 кг. Нам надо установить,
Рис. 4.6. Площади под нормальной кривой |
отличается ли средняя масса тела при рождении в данной этнической подгруппе от аналогичною параметра для страныв делом. Согласно нулевой гипотезе, средняя масса тела мальчика при рождении в этой подгруппе будет 3,3 кг.
Для данного примера подходящей статистикой (показателем), лежащей в основе критерия, является |
Построение _____________ предполагает, что если верна нулевая
гипотеза (т.е. величины массы тела при рождении в популяции, из которой составлена выборка, имеют нормальное распределение со средним значениеми стандартным отклонением о), то распределение статистики г по всем возможным выборкам объемом п будет приближаться к нормальному распределению со средним значением 0 и стандартным отклонением 1. Важное свойство такого распределения заключается в том, что мы можем интерпретировать площадь под нормальной кривой справа от линии (см. рис. 4.6) как вероятность, с которой значения г будут больше а. Точно так же площадь под кривой слева от линии соответствует вероятности, с которой значения г будут меньше - а. Поэтому величина Р, ассоциируемая с определенным значениемравна площади под нормальной кривой справа
отплюс площадь под кривой слева от
Относительно данного примера можно обратиться к соответствующим таблицам нормального распределения, имеющимсяво многих статистических справочниках (в них указаны значения Р для площадей под нормальной кривой, соответствующие каждому значению г). Из таблиц видно, что площадь под кривой слева от г - - 2 составляет 0,023. Соответственно, площадь под кривой справа от г = 2 составляет 0,023. Следовательно, величина Р, соответствующая этому значению г, составляет 0,046. Этот результат можно интерпретировать следующим образом: если верна нулевая гипотеза (т.е. величины массы тела новорожденных данной этнической подгруппы имеют нормальное распределение со средним значением 3,3 и стандартным отклонением 0,5), то только в 4,6 % от всех возможных выборок в составе 100 новорожденных величины средней массы тела будут отличаться от величины 3,3 кг на 100 г или более.
Если за уровень значимости статистического критерия мы принимаем 5 %, нам следует отклонить нулевую гипотезу и в качестве альтернативы принять, что среднее значение для популяции не равно 3,3. Однако, если бы мы приняли 1 % за уровень значимости, то мы должны были бы принять нулевую гипотезу. Мы применяем термин “статистически значимый”, чтобы показать, что результат привел к отказу от нулевой гипотезы. Важно помнить, что нулевая гипотеза никогда не может быть доказана как правильная или неправильная, она только принимается или отвергается при данном коэффициенте значимости. Значение Р зависит как от выраженности ассоциации, так и от объема выборки. Низкое значение Р может соответствовать слабой ассоциации, и различие между двумя группами может не быть статистически значимым, если объем выборки недостаточно велик (см. с. 71—72).
Многие статистические критерии включают сравнение двух величин (в приведенном выше примере среднее значение для выборки сравнивалось с известным средним значением по стране). Обычно статистический критерий предусматривает возможность различий в двух направлениях (любая из двух величин может превышать другую: среднее значение по стране могло быть больше или меньше среднего значения для выборки). В таком случае речь идет о двустороннем критерии.Как и в примере, приведенном выше, Р вычисляется на основе вероятностей на обеих сторонах выборочного распределения (так, в приведенном примере Р представляло собой сумму вероятностей z > +2 и z<-2).
Однако в некоторых ситуациях предметом анализа является различие только в одном направлении. Например, требуется выяснить, лучше ли определенный метод лечения, чем применение плацебо (случай, когда лечение хуже плацебо, интереса в данном контексте не представляет). В такой ситуации подходит односторонний критерий. В этом случае статистика вычисляется таким же способом, как и при двустороннем критерии. Различие между этими двумя критериями заключается в расчете Р. Односторонний критерий основан на вероятностях с одной стороны выборочного распределения, тогда как двусторонний критерий представлет сумму вероятностей с обеих сторон распределения. Поэтому значение Р, соответствующее одностороннему критерию, равно половине значения Р, соответствующему двустороннему критерию.
Существуют и другие ситуации, когда можно с достаточным основанием исходить из того, что одна величина больше другой. Например, при проведении исследования, касающегося какой-либо опасности вредного воздействия окружающей среды, благодаря имеющимся данным экспериментов на животных или анализа серии случаев заболевания уже могут быть известны возможные последствия воздействия этого фактора. Так, было показано, что воздействие метилртути на плод вызывает расстройства центральной нервной системы и нарушения развития у животных. Исследование на больных корковым параличом в Минамате, Япония, показало, что этот синдром часто наблюдался у детей, матери которых во время беременности потребляли рыбу, содержавшую большое количество метилртути (WHO, 1990). Поэтому при проведении будущих эпидемиологических исследований, касающихся воздействия метилртути на центральную нервную систему плода, можно с. полным основанием предположить, что такое воздействие окажется неблагоприятным для детей, и использовать односторонние статистические критерии.Односторонний критерий имеет преимущество перед двусторонним в том смысле, что требует меньший объем выборки для достижения той же точности результата. Однако односторонние критерии следует использовать только в тех случаях, когда мы интересуемся только различиями в одном направлении или когда мы заранее знаем, что различия наблюдаются только в одном направлении. Принимая определенный подход к критерию значимости, мы должны детально объяснить в плане исследования и регистрации результатов, какими методами и критериями мы будем пользоваться.
Статистические критерии, известные как ^критерии, особенно ценны в случаях малых выборок. Предположим, нам надо проверить гипотезу, заключающуюся в том, что среднее значение для популяции равно предопределенной величине ц, когда стандартное отклонение для исходной популяции неизвестно, но известно среднеквадратичное отклонение выборки. Для этого случая мы можем использовать формулу:
где
s — среднеквадратичное отклонение выборки,
t имеет п — 1 степеней свободы.
Этот критерий сходен с описанным выше г-критерием. Однако г-статистика используется в тех случаях, когда известно среднеквадратичное отклонение для популяции, а ^статистика, когда среднеквадратичное отклонение для популяции неизвестно и определяется по среднеквадратичному отклонению выборки.
Распределение Г можно также использовать для того, чтобы установить, существуют ли значимые различия между средними значениями двух независимых выборок. В таком случае предполагается, что обе выборки сформированы из одной популяции или из двух популяций с одинаковой дисперсией. Тогда статистика, лежащая в основе критерия, принимает вид:
юо
С помощью {-распределения можно также проверить, являются ли значимыми коэффициенты линейной регрессии и корреляции.
Источник: Бигпхоп Р., «Основы эпидемиологии» 1993
А так же в разделе «Статистические выводы Проверка гипотез »
- Наблюдения и эксперименты
- Эпидемиологические исследования, проводимые путем наблюдений Описательные исследования
- Экологические исследования
- Поперечные исследования
- Исследования типа случай — контроль
- Когортные исследования
- Экспериментальные эпидемиологические исследования
- Рандомизированные контролируемые испытания
- Полевые испытания
- Испытания на коммунальном уровне
- Потенциальные ошибки в эпидемиологических исследованиях
- Случайная ошибка
- Систематическая ошибка
- Достоверность
- Вопросы этики
- Глава 4 Основные статистические аспекты,
- Распределения и основные критерии Распределения
- Характеристика положения
- Нормальное и логарифмически нормальное распределения
- Оценка Популяции и выборки
- Доверительные интервалы
- Ошибки первого и второго рода
- Различия между статистической значимостью, значимостью в клиническом отношении и значимостью с точки зрения общественного здравоохранения
- Взаимосвязь двух переменных
- Критерий хи-квадрат
- Регрессия
- Глава 5 Причинная обусловленность болезней в эпидемиологии
- Единичные и множественные причины
- Взаимодействие причин
- Временная связь
- Убедительность ассоциации
- Последовательность выявления ассоциации
- Степень выраженности ассоциации
- Зависимость доза — ответ
- Организация исследования
- Вынесение суждений