Учебное пособие для студентов экономических факультетов Москва 2011



страница1/5
Дата21.10.2016
Размер0.93 Mb.
ТипУчебное пособие
  1   2   3   4   5
Дружининская И.М.

Решение задач математической статистики

по теме



«Проверка статистических гипотез»

Учебное пособие для студентов экономических факультетов

Москва - 2011
Аннотация

Цель пособия – показать, как следует решать некоторые типы задач математической статистики по проверке статистических гипотез. Подробный анализ процедуры решения примеров поможет студентам более глубоко разобраться в этом важном разделе математической статистики. Целесообразно напомнить, что методы проверки различных статистических гипотез широко используются в настоящее время аналитиками для получения обоснованных выводов при анализе практически значимых проблем экономической и социологической направленности,

В пособии не дается подробное теоретическое обоснование приемов решения задач, приведено лишь краткое теоретическое введение в тему и перед каждым рассмотренным типом задач дана компактная сводка используемых формул.

В пособии подобраны задачи экономической и социологической тематики. В частности, формулировки некоторых задач предложены студентами факультета менеджмента Национального исследовательского университета - Высшая школа экономики (ВШЭ), на котором автор пособия в течение ряда лет читал курсы по теории вероятностей и математической статистике. Данное пособие будет полезно студентам, изучающим математическую статистику на экономических, социологических и психологических факультетах вузов, в частности, при подготовке к выполнению домашних заданий, контрольных и курсовых работ.

В написании пособия творческое участие принял доцент кафедры высшей математики ВШЭ, канд.физ.-мат. наук Матвеев В.Ф., за что автор ему весьма признателен.
Содержание стр.


  1. Краткое обоснование алгоритма решения задач по проверке

статистических гипотез (теоретическое введение)……………………………4

  1. Проверка гипотезы о числовом значении математического

ожидания (о числовом значении генеральной средней)

нормально распределенной генеральной совокупности……………………..9



  1. Проверка гипотезы о числовом назначении вероятности

биноминального закона распределения (о числовом значении генеральной доли)……………...……………………………………..18

  1. Проверка гипотезы о равенстве математических ожиданий (о равенстве генеральных средних) двух нормально распределенных генеральных совокупностей…………………………………27

  2. Проверка гипотезы о равенстве вероятностей биномиального закона распределения (о равенстве долей признака) двух генеральных совокупностей…………………………………...31

  3. Проверка гипотезы о значимости выборочного коэффициента корреляции Пирсона……………………………………………………………..34

  4. Проверка гипотезы о значимости выборочного коэффициента корреляции Спирмена…………………………………………………………...39

  5. Критерий знаков………………………………………………………………….43

Приложение:

Таблица «Значения интеграла вероятностей»….………………………………57

Таблица «Критические точки распределения Стьюдента»…...………………58

Таблица «Критические точки распределения χ2 (или

распределения Пирсона)»…………………………...…...……………...………59

Список литературы………………………….….………………….…………….60


1. Краткое обоснование алгоритма решения задач по проверке статистических гипотез

(теоретическое введение)
Статистической называют гипотезу о виде неизвестного распределения или о параметрах изучаемого признака.

Примеры статистических гипотез:

  1. Математическое ожидание изучаемого нормально распределенного признака в генеральной совокупности равно 100 кг.

  2. Вероятность данного события равна 0.6.

  3. Изучаемый признак в генеральной совокупности имеет показательный закон распределения.

  4. Уровень производственного брака в данной партии товара ниже 0.05%.

Постановка задачи начинается с выдвижения основного утверждения (нулевой или основной гипотезы Н0), причем наряду с выдвинутой гипотезой всегда рассматривают и противоречащую ей гипотезу, которую называют конкурирующей или альтернативной гипотезой Н1.


Примеры: 1) Н0: р=0.7; 2) Н0: m=3;

Н1: р≠0.7 . Н1: m>3.

Здесь р – вероятность; m – математическое ожидание.

Далее на основе экспериментальной информации конструируется специально подобранная из разумных соображений случайная величина, являющаяся функцией от результатов наблюдений, распределение которой известно при выполнении гипотезы Н0. Именно эта случайная величина K, которую называют статистическим критерием или просто критерием служит для проверки справедливости нулевой гипотезы Н0.

После выбора определенного критерия K множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается на фоне сопутствующей конкурирующей гипотезы, а другое, при которых нулевая гипотеза отвергается, позволяя считать утверждение, высказанное в конкурирующей гипотезе, обоснованным.



Областью принятия гипотезы (областью допустимых значений критерия) называют совокупность значений критерия, при которых нулевую гипотезу принимают. Это такие значения критерия, которые характерны для известного при справедливости нулевой гипотезы распределения критерия K. Характерными или естественными будем называть значения критерия, которые характеризуются большой вероятностью появления. Величину этой вероятности обсудим ниже.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают в пользу конкурирующей гипотезы. Это такие значения критерия, которые не характерны для данного распределения, т.е. возникающие с малой вероятностью для этого распределения.

Критическими точками (границами упомянутых областей) Kкр называют точки, отделяющие критическую область от области принятия гипотезы.

Гипотеза называется параметрической, если речь идет об утверждении, связанном с каким-то конкретным параметром. В противном случае она называется непараметрической.

Гипотеза называется простой, если речь идет о том, что неизвестный параметр принимает какое-то конкретное значение. Если речь идет о многих значениях параметра, то она называется сложной (см. вышеприведенные примеры: Н0: р=0,7 - это пример простой гипотезы; Н1: m>3 – это пример сложной гипотезы).
Процедура проверки простой параметрической гипотезы выглядит так:


  1. Формируют нулевую гипотезу Н0 и альтернативную гипотезу Н1 на основе выборочных данных.

  2. Конструируют, исходя из логики задачи, случайную величину на основе результатов выборки, которую в данном разделе называют критерием; распределение критерия в случае истинности гипотезы Н0 должно быть известно.

  3. Вся область возможных значений критерия разбивается на две подобласти (или два подмножества).

Одно подмножество – это совокупность естественных (правдоподобных), т.е. наиболее вероятных для данного распределения значений. В это подмножество критерий попадает с высокой вероятностью g. Эта вероятность задается в условиях задачи. Она носит название «доверительная вероятность» (иначе «уровень доверия»). Обычно для g задают следующие стандартные значения: g = 0.90; 0.95; 0.99. Если значение доверительной вероятности взять равным 1, то в этом случае область естественных значений параметра становится бесконечно большой, при этом алгоритм проверки статистической гипотезы разрушается.

Другое подмножество – это область редко возникающих для данного закона распределения (неправдоподобных) значений критерия, которые однако характерны для значений критерия, если справедливой является конкурирующая гипотеза. Вероятность попадания критерия K в эту область мала и равна a = 1-g; a носит название «уровень значимости». Для a задают такие стандартные значения: a = 0.10; 0.05; 0.01; понятно, что достаточно задать либо значение доверительной вероятности, либо значение уровня значимости. Критерий K принято обозначать через t.

4. На основе выборочных значений изучаемого признака вычисляют значение критерия Kнабл (или tнабл ). Его называют «наблюдаемое значение критерия»; при критерии стоит индекс «набл». Если значение Kнабл попадает в область правдоподобных значений для данного закона распределения, то с вероятностью g утверждают, что гипотеза Н0 не противоречит экспериментальным данным на фоне конкурирующей гипотезы, а поэтому принимают именно основную гипотезу. Если значение Kнабл попадает в область неправдоподобных для данного закона распределения значений, то гипотезу Н0 отвергают и принимают, следовательно, альтернативную гипотезу Н1 .


  1. Если при проверке гипотезы Н0 эта нулевая гипотеза принимается, то данный факт не означает, что высказанное в нулевой гипотезе утверждение является единственно верным. Просто утверждение нулевой гипотезы не противоречит имеющимся выборочным данным. Возможно, что и другое утверждение также не будет противоречить выборочным данным.

6. Не вдаваясь в более сложные и тонкие утверждения, связанные с принятием нулевой гипотезы или же альтернативной гипотезы, отметим лишь следующее. Если наблюдаемое значение критерия Kнабл попадает в область неестественных значений и мы, следовательно, отвергаем гипотезу Н0 и принимаем гипотезу Н1, то не можем ли мы при этом совершить ошибку - отвергнуть верную гипотезу Н0 и принять ложную гипотезу Н1? Да, можем, но вероятность этой ошибки мала. В связи со сказанным отметим смысл ранее введенного понятия уровня значимости a – это вероятность отклонить нулевую гипотезу в пользу альтернативной гипотезы при условии, что в действительности верна нулевая гипотеза (иначе: Р (Н1/ Н0) = a).
Вид альтернативной гипотезы

(для исходной простой параметрической гипотезы Н0 : q = q0) может быть таким:




  1. Н1: qq0

g +a=1





  1. Н1: q <q0

g +a=1



  1. Н1: q >q0

g +a=1

Как ясно из приведенных выше графиков вид альтернативной гипотезы рождает ту или иную конфигурацию критической области (двустороннюю, левостороннюю, правостороннюю).

В пособии не вводятся понятия ошибок первого и второго рода, мощности критерия. Это сделано осознанно с тем, чтобы основное внимание студентов сосредоточить на реализации стратегической идеи метода, без какой-либо более глубокой и усложняющей идею метода детализации. Более подробное знакомство с теоретическим фундаментом, лежащим в основании проверок статистических гипотез, можно осуществить с помощью, в частности, книг [1] - [6].

В пособии рассмотрены только некоторые, наиболее распространенные типы задач по проверке статистических гипотез. В литературе их можно найти неизмеримо больше. Могут быть, например, отмечены публикации [5], [7], [8], в которых рассмотрены приложения метода проверки статистических гипотез в психологических, социологических и экономических исследованиях.

Отметим, что некоторые задачи, приведенные в пособии, были предложены и решены студентами факультета менеджмента ВШЭ в процессе изучения или курса математической статистики..

Статистические таблицы, применяемые для решения задач, даны в приложении в самом конце пособия.

Объяснения того, почему в определенных типах задач рассматриваются приведенные формулы для вычисления критерия и почему для критерия характерен указанный закон распределения, в пособии опущены. Здесь можно отослать заинтересованных студентов, например, к упомянутым выше литературным источникам или ко многим другим учебникам по математической статистике. В рамках данного пособия, нацеленного на помощь студентам в решении основных, наиболее часто встречающихся типов задач по проверке статистических гипотез, перед каждым типом задач дается лишь набор готовых формул без объяснения того, как они были получены, почему именно их следует использовать в решении.

2. Проверка гипотезы о числовом значении математического ожидания (числовом значении генеральной средней) нормально распределенной генеральной совокупности

Будем обозначать математическое ожидание (истинное значение параметра) символом m, а генеральную среднюю символом ; смысл этих параметров идентичен – это числовая константа, вокруг которой располагаются значения изучаемого признака в генеральной совокупности. Введение разных символов обусловлено лишь различиями в акцентах при постановке задачи, когда суть задачи более точно передается термином «математическое ожидание», а в других задачах более приемлем термин «генеральная средняя».


Постановка задачи:

Н0: m = m0;

Н1: mm0 …. (1); m< m0 или m> m0 …………..(2);

здесь m0 – заданное условием задачи число.

Вводим критерий

В этом выражении - среднее арифметическое, вычисленное на основе выборки (выборочное среднее арифметическое); n - объем выборки; S - выборочное стандартное отклонение:





  1. Если объем выборки n мал (n≤30), то при справедливости нулевой гипотезы можно считать, что случайная величина t имеет распределение Стьюдента с k = n-1 степенями свободы. Находим tкр (по значениям k и a) на основе таблицы «Критические точки распределения Стьюдента» (эта таблица находится в Приложении), причем для альтернативной гипотезы вида (1) используем двустороннюю критическую область, а для альтернативной гипотезы вида (2) используем одностороннюю критическую область;

  2. Если объем выборки n велик (n>30), то можно приближенно считать, что случайная величина t имеет стандартный нормальный закон распределения, поэтому находим tкр по таблице интеграла вероятностей на основе решения

Соответствующая таблица значений интеграла вероятностей Ф0 находится в Приложении.



  1. Для повышения точности вычислений переход от одного закона распределения (Стьюдента) к другому закону распределения (стандартному нормальному) следует делать не при объеме выборки, равном 30 (n=30), а при объеме выборки, равном 120 (n=120).

В данном пособии переход от закона Стьюдента к стандартному нормальному закону распределения будем совершать, когда объем выборки превзойдет значение 30.

Рассмотрим реализацию приведенного ранее алгоритма проверки статистических гипотез и случая, рассматриваемого в данном разделе, на конкретных примерах.



Пример:

Менеджер отдела сбыта гипермаркета АШАН отслеживает изменение покупательных возможностей посетителей АШАНА. С этой целью он анализирует сумму денег, которую тратит покупатель за одно посещение гипермаркета в течение последнего полугодия. Изучение ситуации полгода тому назад показало, что покупатель АШАНА в среднем за одно посещение гипермаркета осуществляет покупки на сумму 956 руб. В данный момент на основе случайной выборки 76 посетителей АШАНА было найдено, что в среднем покупатель при одном посещении магазина делает покупки на сумму 1021 руб., причем стандартное отклонение для одного покупателя составляет 427 руб. Можно ли на основе этой информации сделать вывод о том, что за полгода среднее количество денег, которые тратит за одно посещение АШАНА покупатель, фактически не изменилось? Принять уровень значимости 5%. (Полагаем, что сумма покупок меняется по нормальному закону распределения).

Решение:

Постановка задачи:

В данном примере целесообразно говорить в постановке задаче о задании в нулевой гипотезе значения генерального среднего, понимая под этим значением среднюю сумму денег, которую оставляет посетитель АШАНА в магазине при одном его посещении и которая характеризует всю генеральную совокупность покупателей АШАНА.

Введем критерий

В этой формуле - средняя сумма денег, которую оставляет покупатель за одно посещение АШАНА, вычисленная на основе выборки; S – стандартное отклонение для суммы денег при одном посещении гипермаркета для одного покупателя; n - количество покупателей АШАНА, случайно выбранных для исследования (объем выборки).

Условием задачи заданы следующие экспериментальные значения:

.

При справедливости нулевой гипотезы поведение этого критерия можно приближенно описать стандартным нормальным законом распределения. Вычислим наблюдаемое значение критерия на основе экспериментальных значений:



Далее следует определить границы двусторонней критической области на основе табличного решения следующего уравнения. Здесь пользуемся тем, что выборка велика (n больше 30), тогда

Отсюда на основе таблицы интеграла вероятностей Ф0, приведенной в Приложении, по значению функции Ф0 находим значении аргумента: tкр=1.96.

Изобразим имеющие результаты графически, используя график плотности стандартного нормального закона распределения:



Поскольку наблюдаемое значение критерия попало в область естественных значений критерия, т.е. тех значений критерия, при которых нулевая гипотеза принимается как не противоречащая экспериментальным данным, то в результате решения задачи следует сделать такой вывод: принимаем с уровнем доверия в 95% утверждение о том, что средняя сумма денег, которую оставляет в АШАНЕ покупатель за одно посещение гипермаркета, значимо не изменилась за полгода. Таким образом, следует принять как верное то утверждение, которое было сформулировано в нулевой гипотезе (говорят: принимаем нулевую гипотезу).

Покажем, как изменилось бы решение задачи, если бы мы альтернативную гипотезу поставили другую.

Иная постановка задачи:

(более того, отметим, что именно такая постановка задачи представляется более естественной в данном случае, поскольку экспериментальные данные показали повышение величины средней суммы денег, оставляемой в магазине покупателем):



Изменение в решении задачи касаются только вида критической области. В этом случае следует использовать правостороннюю критическую область, при этом значение границы критической области изменится.

Теперь границу критической области следует искать на основе табличного решения другого уравнения

По таблице интеграла вероятностей Ф0 находим tкр ≈ 1.65. Снова покажем полученные результаты на графике плотности стандартного нормального закона распределения:

Поскольку по-прежнему наблюдаемое значение критерия попало в область принятия нулевой гипотезы, то ранее полученный вывод не изменился, т.е. мы принимаем нулевую гипотезу об отсутствии значимых изменений в той сумме денег, которую в среднем тратит покупатель за одно посещение АШАНА.



Замечание: Следует отметить, что в тех случаях, когда наблюдаемое значение параметра оказывается вблизи границы критической области, вывод в результате решения задачи может быть изменен на противоположный в том случае, когда от двусторонней критической области переходим к односторонней критической области, или же в том случае, когда задаем другой уровень значимости (другой уровень доверия).

Решим аналогичную задачу в ситуации, когда для получения выводов используется выборка малого объема (объем выборки не превосходит 30).

Сохраним те же исходные данные, что и в предшествующих двух вариантах за исключением величины объема выборки. Итак, пусть по случайной выборке было найдено, что в среднем покупатель при одном посещении магазина тратит 1021 руб. со стандартным отклонением 427 руб. Сохраним также уровень значимости. Пусть теперь объем выборки равен 15 покупателям.
Постановка задачи:

Критерий t определяется той же самой формулой, но в случае выборок малого объема при справедливости нулевой гипотезы критерий t подчиняется распределению Стьюдента с числом степеней свободы k = n - 1. Поэтому при определении границ критической области следует пользоваться таблицей критических точек распределения Стьюдента для односторонней (при данной альтернативной гипотезе) критической области. Эту границу мы найдем на основе числа степеней свободы и на основе заданного уровня значимости a = 0.05 (в данном случае нужно выбирать уровень значимости в нижней строке таблицы). Соответствующая таблица находится в Приложении. Находим по k=14 и a=0,05 значение tкр =1.76.

Вычислим наблюдаемое значение критерия

Отметим, что внешне график плотности закона распределения Стьюдента похож на график плотности стандартного нормального закона распределения, только линия плотности для него идет более полого по сравнению с графиком плотности стандартного нормального закона распределения (меньше подъем графика в центральной его части и дальше отстоят периферийные части графика от горизонтальной оси). Чтобы подчеркнуть, что в данном случае речь идет об ином графике по отношении к графику плотности стандартного нормального закона распределения, вертикальную ось графика обозначим f(t) вместо ᵩ (t):

На основе сравнения положений критического и наблюдаемого значений критерия делаем вывод о том, что следует принять нулевую гипотезу с уровнем доверия в 95% как не противоречащую экспериментальным данным, т.е. в данном случае вывод по задаче не изменился.

Замечание:

Тот же самый первый вариант задачи можно было бы решить иначе, с привлечением понятия доверительного интервала. Смысл такого подхода к решению задачи основан на следующем утверждении:

Если заданное в условии задачи значение параметра m0 попадает в доверительный интервал, соответствующий заданному уровню значимости, то утверждение нулевой гипотезы принимается с тем же уровнем значимости. Если же заданное значение m0 оказывается вне доверительного интервала, то следует отвергнуть нулевую гипотезу в пользу альтернативной гипотезы. Обоснование данного подхода к решению задачи заключено в том факте, что при построении доверительного интервала и при выстраивании критической области выполняются аналогичные преобразования, которые приводят к одинаковым формулам.

Напомним формулу, по которой находится двусторонний доверительный интервал для математического ожидания (генерального среднего) нормально распределенной генеральной совокупности:



Решим вариант данной задачи в первоначальной постановке на основе применения доверительного интервала.



Постановка задачи:

Будем использовать прежние экспериментальные значения в вычислениях:

Используем прежний уровень значимости =5%, для которого было найдено критическое значение параметра tкр=1.96.

Вычислим доверительный интервал на основе исходных значений:

Поскольку значение m0 = 956 попадает в найденный доверительный интервал, то утверждение, составляющее содержание нулевой гипотезы, следует принять с уровнем доверия в 95%. Естественно, что получен тот же вывод, который получили при первоначальном способе решения этой задачи.

Из данного способа решения также совершенно очевидным является и другой вывод:

Утверждение, составляющее содержание нулевой гипотезы, не является единственно верным. Можно было бы изменить содержание нулевой гипотезы и вместо

ранее заданного значения m0 = 956 в нулевой гипотезе задать, например, значение m0 =1100. Это значение также попадает в доверительный интервал и, следовательно, не противоречит экспериментальным данным, поэтому и значение m0 =1100 также могло служить содержанием утверждения нулевой гипотезы. Мы должны были бы принять новое значение m0 =1100 как не противоречащее экспериментальным данным, причем это значение мы также приняли бы с тем же уровнем доверия.


Каталог: data -> 2011
2011 -> 1. Технические спецификации как средство ограничения конкуренции на рынке государственных закупок
2011 -> Программа дисциплины Экономические аспекты строительства вооружённых сил зарубежных стран для направления 030700. 62 Международные отношения
2011 -> Программа 20 апреля 2011 г. 10-30 11-00 Кофе-старт 11-00 12-30
2011 -> Программа дисциплины История петербургского предпринимательства  для направления 080500. 62 «Менеджмент» подготовки бакалавра
2011 -> Программа дисциплины «Экспериментально-фонетический анализ речи»
2011 -> Программа дисциплины «Теория языка. Фонетика и фонология»
2011 -> 1. азиатский способ производства и античное рабство
2011 -> Программа дисциплины Стратегическое управление портфелем проектов и программой для направления 080500. 68 «Менеджмент»
2011 -> Программа дисциплины «Управление портфелем проектов предприятия»
2011 -> Доклад рабочей группы «Сокращение неравенства и преодоление бедности»


Поделитесь с Вашими друзьями:
  1   2   3   4   5


База данных защищена авторским правом ©grazit.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал