Дипломная работа по специальности 230401. 65 «Прикладная математика»



Скачать 351,97 Kb.
страница1/4
Дата21.10.2016
Размер351,97 Kb.
  1   2   3   4

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ



Федеральное государственное автономное образовательное учреждение
высшего профессионального образования


Национальный исследовательский университет
«Высшая школа экономики»


Московский институт электроники и математики
Факультет Прикладной математики и кибернетики

Кафедра Высшая математика

Дипломная работа

по специальности 230401.65 «Прикладная математика»

Биномиальная модель: вероятностные и статистические вопросы ее анализа

Студент группы М105 Лаврентьев А.А.


Руководитель профессор Ивченко Г.И.
Зав. Кафедрой доцент Кузьмина Л.И.

Москва 2014


Оглавление


Аннотация 3

Аннотация на английском 4

Введение 5

Основные понятия и теоретические сведения 5

Биномиальная модель 20

Определение и вероятностные свойства 20

Асимптотические результаты и приближения 34

Исторические ремарки и история происхождения 45

Обобщённое биномиальное распределение 45

Статистические выводы 50

Моделирование 61

Заключение 62

Литература 63



Аннотация


Случайные величины играют огромную роль во всех современных областях знания и практической деятельности человека. Они измеряются и анализируются в терминах их вероятностных и статистических свойств, главным выразителем которых является функция распределения. Хотя число потенциально возможных моделей распределения чрезвычайно велико, практически относительно небольшое их число занимает особое положение – либо потому, что они обладают хорошими математическими свойствами, либо потому, что достаточно адекватно описывают соответствующую область действительности, либо в силу обеих этих причин. Замечательным фактом при этом является то, что существует несколько распределений большой общности, встречающихся в самых разнообразных задачах теории вероятностей и математической статистики и значение которых для приложений трудно переоценить. К числу таковых относится и биномиальное распределение, которому посвящена настоящая работа. Следует отметить, что за последние десятилетия для этого распределения получено большое число новых результатов, существенно дополняющих и развивающих в самых различных направлениях классические достижения, поэтому их систематизация и единообразное изложение представляется актуальным и полезным для их практического использования.

В работе с единых позиций и с использованием единых терминологии и символики детально излагаются известные к настоящему времени вероятностные и статистические свойства биномиального распределения, и ее целью является удовлетворение потребности в быстром получении соответствующей информации о свойствах этого распределения, которая обычно разбросана по многочисленным и часто трудно доступным источникам.

При выполнении работы использовались как оригинальные публикации, так и различная монографическая и учебная литература по теории вероятностей и математической статистике.

Аннотация на английском

Random variables play huge role in all modern areas of knowledge and practical activities of the person. They are measured and analyzed in terms of their probabilistic and statistical properties which main spokesman is distribution function. Though the number of potentially possible models of distribution is extremely great, practically relatively their small number holds special position – or because they possess good mathematical properties or because rather adequately describe untrue area, or owing to both of these reasons. The remarkable fact thus is that there are some distributions of a big community meeting in the most various problems of probability theory and mathematical statistics and which value for appendices it is difficult to overestimate. Binomial distribution to which the real work is devoted is among those also. It should be noted that for the last decades for this distribution the large number of the new results significantly supplementing and developing in the most various directions classical achievements therefore their systematization and a uniform statement is represented actual and useful to their practical use is received.

In work from uniform positions and with use of uniform terminology and symbolics known so far probabilistic and statistical properties of binomial distribution are in details stated, and its purpose is the satisfaction of requirement for fast receiving the relevant information on properties of this distribution which is usually scattered on numerous and it is often difficult for available sources.

When performing work were used both original publications, and various monographic and educational literature on probability theory and mathematical statistics.



Введение




Основные понятия и теоретические сведения

1. Вероятностно-статистические модели. Математические модели случайных явлений, изучаемых в теории вероятностей и математической статистике, основываются на понятии вероятностного пространства , где – непустое множество, называемое пространством элементарных событий (множество всех возможных исходов изучаемого случайного явления), -алгебра его подмножеств и вероятностная мера на ней. Случайная же величина – это функция, отображающая пространство элементарных событий в множество действительных чисел (её можно понимать как некоторую числовую характеристику эксперимента (опыта) со случайным исходом). Случайную величину мы будем обозначать символом Х = Х (это может быть число или вектор некоторой размерности), а её реализацию – соответствующей строчной буквой х (используются также и другие символы: , и т.д.). Совокупность всех возможных реализаций случайной величины обозначается ={х} и называется её областью значений. В данном пособии мы ограничиваемся рассмотрением случайных величин лишь дискретного типа, когда состоит из конечного или счётного числа точек (без точек накопления); в этом случае распределение случайной величины Х, обозначаемое символом (Х) (–law (закон)), задаётся вероятностями отдельных её реализаций



Функцию мы будем называть (для краткости) плотностью; в дальнейшем для неё используются и другие обозначения, связанные со спецификой конкретных распределений и традиционно используемые в математической литературе.

Частным случаем дискретных распределений являются решётчатые распределения и, в частности, распределения, сосредоточенные на множестве целых чисел или его подмножествах.

Если плотность из каких-то соображений задана, то говорят, что задана вероятностная модель эксперимента. В вероятностных задачах плотность наблюдаемой (изучаемой) случайной величины полностью известна, в статистических же – она известна лишь с той или иной степенью неопределённости. Часто при этом предполагается, что плотность задана с точностью до значений тех или иных параметров, от которых зависит функция , – в таких случаях говорят о параметрических статистических моделях. В теории вероятностей наиболее часто встречающиеся распределения (модели) имеют общепринятое наименование и обозначение – этот «язык» переносится и на соответствующие статистические модели. Вместе с тем в статистике используется и специфическая терминология: наблюдаемая в эксперименте случайная величина Х называется выборкой (синоним термина статистические данные), а множество её возможных реализаций ={х} – выборочным пространством.

На практике часто встречаются ситуации, когда эксперимент состоит в проведении серии повторных независимых наблюдений над некоторой случайной величиной . Если проводится n наблюдений, то выборка Х =

(Х1,…,Хn) представляет собой n независимых копий величины , т. е. является n-мерным случайным вектором с независимыми и одинаково распределёнными компонентами. В этом случае плотность выборки Х=(Х1,…,Хn) имеет вид , т. е. полностью определяется плотностью наблюдаемой случайной величиной , и говорят, что Х=(Х1,…, Хn) есть случайная выборка объёма n из распределения (). Случайная выборка является математической моделью независимых измерений, проводимых в одинаковых условиях, и именно такие модели чаще всего применяются на практике и будут в основном рассматриваться в последующем. В общем случае параметрическая статистическая модель случайной выборки задаётся классом допустимых плотностей наблюдаемой случайной величиной (индекс случайной величины у плотности обычно опускается, если это не приводит к недоразумениям), т. е. плотность задаётся с точностью до значений некоторого параметра с областью возможных значений . Говорят, что в этом случае известен тип распределения наблюдаемой случайной величины, а неизвестен только параметр, от которого зависит распределение. Параметр может быть как скалярным, так и векторным, область (множество) его допустимых значений называется параметрическим множеством модели.

Для удобства дальнейшего изложения напомним также определения моментов случайных величин и основные соотношения между моментами различных видов.

Если для случайной величиной существует абсолютный момент порядка , то существуют и все обычные моменты , а также центральные моменты , при ; при этом первый момент называется математическим ожиданием или средним значением случайной величины , а второй центральный момент – её дисперсией.

Обычные и центральные моменты связаны соотношениями


где , – биномиальный коэффициент, для которого используется также обозначение

Факториальные и биномиальные моменты определяются соответственно равенствами

где .

Имеют место следующие соотношения:


где и есть числа Стирлинга первого и второго рода соответственно, определяемые как коэффициенты разложений


.

Пусть – целочисленная неотрицательная случайная величина и



есть её производящая и характеристическая функции.

Введём также производящие функции моментов:


Тогда имеют место соотношения


.
Используются также семиинварианты, или кумулянты, представляющие собой коэффициенты разложения в ряд Тейлора логарифма характеристической функции:
,

в частности, .

Важную роль играют также следующие моментные характеристики случайной величины : коэффициенты вариации , асимметрии , эксцесса и среднее отклонение .
Одной из важных характеристик распределения (случайной величины) является интенсивность отказов (failure rate)
.

Для многомерных случайных величин определяются также смешанные моменты и кумулянты. В частности, смешанный центральный момент второго порядка двух случайных величин и называется их ковариацией: , а величина


коэффициентом корреляции.
Оценивание
В статистических задачах рассматриваются различные функции от выборки Х=(Х1,…,Хn), сами являющиеся случайными величинами (т. е. для которых при всех t определены вероятности (функция распределения) ). Если при этом функция не зависит от неизвестного параметра модели, то её принято называть статистикой. В статистических задачах речь идёт либо об оценивании по наблюдениям Х=(Х1,…,Хn) той или иной характеристики наблюдаемой случайной величиной , которая в параметрической модели всегда является некоторой функцией от неизвестного параметра (такие функции называются параметрическими), либо о проверке тех или иных статистических гипотез о законе распределения (о параметре – в случае параметрической модели).

Если для оценивания параметрической функции используется некоторая статистика , то она называется оценкой (для ). Обычно в качестве меры точности оценки используют среднеквадратическую ошибку , и среди всех возможных оценок ищут такую, для которой среднеквадратическая ошибка минимальна. При этом часто ограничиваются лишь несмещёнными оценками, т. е. такими оценками, для которых выполняется условие несмещённости:


.

Функция , для которой это уравнение имеет решение, называется оцениваемой. Для несмещённой оценки среднеквадратическая ошибка совпадает с её дисперсией, следовательно, оптимальной оценкой является оценка с минимальной дисперсией, для неё используется обозначение . Оптимальная оценка (в заданной модели и для заданной параметрической функции ) существует не всегда, но в тех случаях, когда она существует, она единственна.

Обязательным для любого правила оценивания является свойство состоятельности, означающее сходимость по вероятности оценки к оцениваемой характеристике при неограниченном возрастании объёма выборки n.

Для удобства дальнейшего изложения напомним кратко некоторые дополнительные факты из теории статистического вывода.

1. Если в параметрической модели наблюдается случайная выборка Х=(Х1,…,Хn), то функцией правдоподобия данных называется . Если при этом плотность при всех х и , дважды дифференцируема по , и существует второй момент

называемый функцией информации, то модель называется регулярной (большинство рассматриваемых ниже моделей являются таковыми).

Для регулярной модели любая несмещённая оценка дифференцируемой функции удовлетворяет неравенству Рао-Крамера


.
Оценка , для которой эта нижняя граница достигается, называется эффективной (она и является оптимальной оценкой ).

2. Пусть модель обладает полной достаточной статистикой , т. е. имеет место факторизация



где множитель может зависеть от а от зависит лишь через а множитель от параметра не зависит, и при этом уравнение

имеет единственное решение . Тогда всякая функция от является оптимальной оценкой своего среднего – этот факт во многих случаях даёт эффективный способ отыскания оптимальных оценок.

3. Одним из наиболее универсальных методов оценивания неизвестных параметров распределений является метод максимального правдоподобия. По этому методу оценкой максимального правдоподобия (далее кратко – ОМП) по выборке Х=(Х1,…,Хn) является такая точка параметрического множества , в которой функция правдоподобия достигает максимума.

Для произвольной параметрической функции её ОМП находится по правилу .

Для регулярных моделей оценки максимального правдоподобия обладают свойствами состоятельности, асимптотической нормальности и асимптотической эффективности. Это даёт возможность строить приближённые доверительные интервалы как для самого параметра : такой интервал (при больших значениях объёма выборки n и доверительном уровне ) имеет вид


,
так и для любой непрерывно дифференцируемой параметрической функции : соответствующий доверительный интервал имеет вид
,
где и – стандартная нормальная функция распределения.

4. При байесовском подходе предполагается, что параметр – это случайная величина с некоторым (априорным) распределением (), а о качестве оценки судят обычно по величине квадратичной функции риска



:
статистика , минимизирующая байесовский риск , называется байесовской оценкой, а минимизирующая максимальный риск минимаксной оценкой. В ряде случаев при отыскании таких оценок можно руководствоваться следующим принципом: находится такое априорное распределение (), для которого соответствующая байесовская оценка имеет постоянный риск: (его называют наименее благоприятным априорным распределением), тогда является также и минимаксной оценкой.

При построении байесовских оценок важную роль играют сопряжённые априорные распределения, т.е. такие, для которых апостериорное распределение () принадлежит тому же семейству, что и априорное распределение (), – обычно наименее благоприятное априорное распределение находится в этом семействе.

Проверка статистических гипотез

Напомним кратко общую схему постановки задач и принципов их решения в теории проверки статистических гипотез. В случае параметрической модели статистические гипотезы формулируются в терминах параметра , и в общем случае основная (нулевая) гипотеза имеет вид утверждения : при задании соответствующего подмножества , альтернатива же в этом случае имеет вид . При заданном уровне значимости (вероятности ошибочно отвергнуть гипотезу , когда она верна, или, что то же, вероятности ошибки первого рода) соответствующий тест имеет вид


отвергается ,
где критическое множество выбирается так, чтобы вероятность указанного события при гипотезе не превосходила :
.
Такой тест кратко называют критерием и его качество оценивают величиной его мощности

среди всех критериев с уровнем значимости наилучшим считается такой, для которого мощность максимальна. Если такой критерий существует (тогда он обозначается символом ), то он называется оптимальным или равномерно наиболее мощным (сокращённо – р.н.м.).

В основе большинства способов построения оптимальных критериев лежит фундаментальный результат (Ю.Нейман и Э.Пирсон) о существовании наиболее мощного критерия в задаче проверки простой гипотезы : при простой же альтернативе : такой критерий всегда существует и задаётся критическим множеством


.
Такой же вид имеет оптимальный критерий и при сложных односторонних альтернативах или (здесь – скалярный параметр), если модель обладает свойством монотонности отношения правдоподобия, т. е. когда имеется достаточная статистика и функция в монотонно зависит от . Таким свойством обладают, в частности, экспоненциальные модели, т. е. когда плотность имеет вид

и при этом функция строго монотонна (большинство рассматриваемых ниже моделей этим свойством обладают).

Более того, для таких моделей наиболее мощный критерий в задаче (: , ) является одновременно наиболее мощным критерием и в задаче (: , ) при том же уровне значимости (аналогичное утверждение справедливо и для двойственной проблемы проверки гипотезы : против альтернативы ).

При проверке простой гипотезы : против двусторонней альтернативы используется приём объединения двух односторонних критических областей соответственно для альтернатив и , т. е. используют критерий


при .

Одним из наиболее универсальных методов построения критериев проверки сложных параметрических гипотез является метод отношения правдоподобия. Общий вид критерия отношения правдоподобия (кратко – КОП) для проверки гипотезы : таков:


,
где граница выбирается из условия

.

Во многих случаях такой подход приводит к удовлетворительным решениям. Кроме того, при соответствующих условиях КОП обладает свойством асимптотической оптимальности для больших выборок (т. е. при ). В последнем случае для регулярных моделей типичный вид асимптотического варианта КОП таков:








Поделитесь с Вашими друзьями:
  1   2   3   4


База данных защищена авторским правом ©grazit.ru 2017
обратиться к администрации

    Главная страница