Центр Статистических Технологий

Практическая статистика для аналитика - профессионально и просто

 

Знать, чтобы предвидеть. Предвидеть, чтобы действовать.
Огюст Конт

 
 
 
Главная
О компании
Репутация
Консалтинг
Тренинги и семинары
Статистическое программное обеспечение
Статьи
Хорошие книги

 

 

Яндекс.Метрика

    

   
Обучение

Обоснование размера выборки

Dell R. B., Holleran S., Ramakrishnan R. 2002. Sample Size Determination . ILAR Journal . V 43 (4).

Цель статьи систематизировать простые статистические подходы к обоснованию размера выборки и описать доступный механизм вычисления размера выборки для экспериментах на животных. Эта статься написана для работников служб по защите животных, ветеринаров и исследователей, которые заинтересованы в том, чтобы определить количество животных, требуемое для проведения эксперимента. Сложные статистические модели, которые способны дать результат с максимальной мощностью умышленно не рассматриваются в этой статье.

Определение необходимого количества животных статистическими методами возможно не для всех случаев. Для того чтобы выделить случаи, когда размер выборки вычисляем на практике, автор приводит классификацию экспериментов на следующие группы:

•  Опытные эксперименты (пилотные) ;

•  Исследовательские эксперименты;

•  Эксперименты, основанные на успехе или провале желаемой цели;

•  Эксперименты проверки формальной гипотезы .

Опытные эксперименты предполагают исследования в новых направлениях. Часто при этом отсутствует информации о предыдущих исследованиях в данной сфере. А, следовательно, определение размера статистическими методами невозможно ввиду отсутствия данных. Часто опытные эксперименты проводятся, чтобы определить оценимы ли с достаточной точностью интересующие переменные. Например, предположим, исследователь желает определить изменяется ли конкретный фактор Х в модели воспаления для животных. Исследователь предлагает оценку концентрации фактора Х у 10 мышей до и после возбуждения воспаления. В опытном эксперименте таком как этот, количество животных основано на личном опыте и догадках, в силу отсутствия предварительной информации. Эксперимент выполнен, чтобы сделать грубую предпосылку о стандартном отклонении и амплитуде размаха эффекта воспаления. Полученная в ходе опытных экспериментов информация в дальнейшем может быть задействована для определения размера выборки.

Иногда «исследовательские» эксперименты проводятся для формулирования новых гипотез, которые затем формально проверяются. В таких экспериментах исследователь ищет устоявшиеся закономерности в полученных данных. Проверка формальной гипотезы не имеет важности в этом типе экспериментов, потому что цель будет подтверждена любыми результатами дополнительных экспериментов. Обычно количество животных в таких экспериментах основано на догадках исходя из предыдущих экспериментов.

Эксперименты, основанные на успехе или провале желаемой цели, обладают большой изменчивостью шанса экспериментальной процедуры на успех. В связи с этим, определение размера выборки представляется крайне сложной задачей. Примером такого эксперимента может служить производство трансгенных животных с помощью ввода ген в оплодотворенное яйцо или эмбриональную клетку. Такая постановка требует очень большой размер выборки в силу двух причин:

•  Присутствует существенное изменение в пропорции успешных генов или слияния ДНК в геноме клетки;

•  Присутствует изменчивость в имплантации пересаженной клетки.

•  ДНК интегрируется в геном случайно, и воздействие сильно изменяется как функция объединения позиции и количества копий генной модификации.

Эксперименты проверки формальной гипотезы предполагают наличие информации о предшествующих экспериментах, на основании которых сделаны некоторые выводы и есть предположения, которые необходимо проверить с помощью очередного эксперимента. Этот тип эксперимента является единственным из всех перечисленных, при котором определение размера выборки статистическими методами реализуемо на практике. Методика определения размера выборки в этом случае зависит от шкалы, в которой измерены результаты эксперимента:

•  Данные в дихотомической шкале (номинальная шкала с двумя категориями);

•  Данные в количественной шкале ;

•  Данные о времени события.

Входной информацией для определения размера выборки служат:

•  Мощность критерия;

•  Уровень значимости;

•  Величина эффекта;

•  Стандартное отклонение.

Для мощности и уровня значимости существуют значения, выработанные в ходе успешной практики. Так мощность представляет собой вероятность выявления действительного воздействия фактора на результат. По сложившейся практике значения этого показателя обычно берут 0,8 или 0,9 (что соответствует 80% и 90% обнаружить воздействие фактора). В качестве уровня значимости принято устанавливать значения 0,05 и 0,01. Величина эффекта подразумевает уровень различия групп, который необходимо выявить. Этот показатель выбирается исследователем исходя из целей эксперимента и его теоретического обоснования. Стандартное отклонение определяется исходя из информации о предшествующих экспериментах в этой же сфере.

Данные в дихотомической шкале предполагают уровни или пропорции результатов, которые могут принимать только два значения. Например, возникла ли болезнь у животного, пережило ли животное эксперимент или умерло. В большинстве случаев, цель такого эксперимента сравнить пропорции в контрольной и экспериментальной группе. Если изучается более чем 2 группы, можно выбрать две переменные, сравнение которых имеет более высокую важность, или которые имеют наименьшие различия. Расчеты размера выборки для дихотомических переменных не требует знания стандартного отклонения. А, значит, для определения размера выборки необходимо знать мощность, уровень значимости и величину различий.

Вычислить размер выборки в этом случае относительно просто. Пусть будет количеством результата (результат – интересующее событие, такое как возникновение заболевания, смерть, или наличие особенности, такой как цвет кожи) в контрольной группе и результат в экспериментальной группе. Определим

и

Где количество событий и общее количество животных в контрольной группе. И , для экспериментальной группы.

Обычно исследователь знает или может оценить пропорцию контрольной группы. И может установить величину различий между контрольной и экспериментальной группой, которые он хочет выявить. Наименьшие различия, которые необходимо выявить, соответствуют наибольшему размеру выборки. Вычисление требуемого количества животных можно произвести по следующей формуле:

(1)

Где , , С – показатель, зависящий от выбранных значений мощности и уровня значимости. Значения С для наиболее распространенных значений уровня значимости и мощности приведены в следующей таблице:

Мощность Уровень значимости
0,05 0,01
0,8 7,85 11,68
0,9 10,51 14,88

Например, пусть по данным предшествующих экспериментов опухоли у старых крыс при определенной нагрузке спонтанно возникают в 20% случаев. Цель эксперимента - выяснить увеличивают ли химикаты возникновение опухоли, используя схожую нагрузку на крыс. Предположим что по мнению ученого если количество случаев возникновения увеличивается до 50%, он предпочтет 80% шанса выявления этого изменения. Выбранный уровень значимости 0,05. Используя уравнение 1, получаем, что эксперимент потребует 43,2 или округленно 45 крыс на группу (результаты вычислений по данному уравнению необходимо округлять в большую сторону). А, следовательно, 90 крыс для исследования в целом.

Следует учитывать, что уравнение дает размер выборки достаточный для того чтобы выявить увеличение или снижение переменной. Даже когда предполагается увеличение, статистическая значимость изменений в противоположном направлении вызывает интерес и может быть дополнительным преимуществом исследования. Также важно отметить, что уравнение содержит коррекцию того, что распределение дискретных данных было приближено непрерывным распределением. Некоторое программное обеспечение не включает коррекцию непрерывности и, следовательно, даст результат несколько меньший, чем значение размера выборки, полученное по данной формуле.

Если цель исследования определить произойдет ли событие (в т.ч. представлен ли в колонии животных патоген) тогда требуемое количество животных можно вычислить по следующей формуле:

(2)

Где , - пропорция животных в колонии, что не инфицированы. Например, если 30% животных инфицированы и исследователь желает шанс выявления инфекции 95%, тогда необходимое количество животных для выборки составит: животных.

Девять животных следует проверить, чтоб иметь 95% шанс выявления инфекции, которой подвержены 30% животных в колонии. Если распространенность инфекции ниже (т.е. 10%), тогда

Округленно 30 животных следует включить в выборку. Итого, требуется гораздо больше животных, если распространенность болезнетворного микроорганизма низкая.

Описанные выше результаты для случая, в котором наступление события у даже одного животного представляло интерес. В остальных одновыборочных экспериментах исследователь заинтересован в доказательстве того, что заявленная пропорция не равна нулю, или различиях от заранее заданных значений (известных из предыдущих экспериментов или из физиологических соображений). Количество животных, требуемое для таких экспериментов можно вычислить просто как половина числа получаемого с помощью уравнения 1. В этом случае - исследуемая пропорция, а равно 0 или заранее заданному числу.

В экспериментах с количественными данными оцениваются такие переменные, как концентрация субстанции в телесных флюидах или уровень кровотока. Для определения размера выборки в этом случае необходимо знать стандартное отклонение. Вычисления можно произвести по следующей несложной формуле:

(3)

Где - стандартное отклонение, MD – величина различий, С – показатель, зависящий от мощности и уровня значимости, получаемая аналогично с предыдущим случаем .

Предположим, что данным предыдущих экспериментов среднее значение веса крыс составляет 400г со стандартным отклонением 23г. Цель эксперимента выяснить повлияют ли на вес крыс химикаты, снижающие аппетит. Предположим, ученый желает выявлять 20-граммовое изменение веса между контрольными и экспериментальными крысами с мощностью 0,9 и уровнем значимости 0,05 используя двухвыборочный т-критерий для независимых выборок. В результате получим, что 28.8 крыс на группу или округленно 30 (60 всего) крыс требуется для полноценного эксперимента. Вычисление размера выборки для непрерывных переменных предполагает что переменные нормально распределены. (т.е. значения лежат на кривой нормального распределения). Небольшое отклонение от нормальности не слишком повлияет на тест. Однако если переменная имеет большой «хвост» в одном направлении (обычно вправо), то отклонение от нормальности становится важным. Общий метод приведения распределения к большей нормальности это использование логарифма или квадратного корня или иное степенное преобразование. Затем трансформированная переменная используется для расчетов размера выборки и для последующего статистического анализа.

Если две переменные оценены в одной группе, может возникнуть вопрос, значима ли их корреляция. Для коэффициента корреляции, можно рассчитать количество животных, необходимое для нахождения значимости корреляции.

Тогда мы получаем новый коэффициент корреляции r со стандартной ошибкой аппроксимации . При вычислении необходимо учитывать, что заявленный позитивный корреляции r отличается от заданного . Требуемый размер выборки можно получить по следующей формуле:

(4)

где С – показатель, зависящий от мощности и уровня значимости, рассмотренный выше.

– базовый коэффициент корреляции, относительно которого определяют статистическую значимость предполагаемого коэффициента корреляции (обычно принимают равным 0,0)

– предполагаемый коэффициент корреляции

Оценка требуемого размера выборки зависит от изменчивости популяции. Больше изменчивость - больше требуемый размер выборки. Один из статистических методов предполагает, что одни и те же животные наблюдаются два раза, до и после вмешательства в их организм. В этом случае, оценивается изменчивость различий. Такой эксперимент содержит парные выборки и, в случае нормального распределения и количественных шкал, анализируется парным t -критерием Стъюдента. Вычисления размера выборки можно осуществить по формуле:

(5)

Где - стандартное отклонение, MD – величина различий, С – показатель, зависящий от мощности и уровня значимости, рассмотренный выше.

Общий случай контроля изменений - перекрестное исследование, в котором разные группы животных могут иметь несколько разных признаков в случайном порядке. В таком случае, обоснование размера выборки лучше обосновывать оценками двух выбранных признаков.

Аналогично исследователь может оценить количественную переменную в одновыборочной группе. Требуемое количество животных просто половина числа получаемого уравнении 3. В этом случае MD разница между заранее указанным значением и предполагаемым средним значения эксперимента

Статистический анализ времени события содержит комплексные статистические модели. Однако существуют два простых подхода оценке размера выборки для этого типа переменной. Можно оценить размер выборки, используя пропорции в двух экспериментальных группах, показывающих событие в конкретное время. Этот метод пересчитывает время события в дихотомическую переменную, и размер выборки оценивается по уравнению 1. В общем случае этот подход дает размер, несколько больший, чем более строгие расчеты.

Второй подход заключается в том, чтобы представить время наступления как количественную переменную. Этот подход применим, только если все животные наблюдаются до наступления события (в т.ч. смерть или обнаружение симптомов болезни). И его нельзя использовать, если у некоторых животных события в течение всего исследования не происходит. В этом случае время события - количественная переменная и размер выборки можно вычислить, используя уравнение 3.

Посмотреть другие статьи

 
 
   
  Центр Статистических Технологий