«Построение хранилища данных для анализа авиаперевозок на территории России»



страница1/2
Дата29.10.2016
Размер0,5 Mb.
  1   2
Правительство Российской Федерации
Федеральное государственное автономное

Образовательное учреждение

высшего профессионального образования
«Национальный исследовательский университет

«Высшая школа экономики»


Факультет бизнес-информатики


Кафедра бизнес-аналитики

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

На тему


«Построение хранилища данных для анализа

авиаперевозок на территории России»

Студент группы № 473

Смоленцев А. И.


Научный руководитель

к.т.н., доцент Герасимов Н. А.

Рецензент

преподаватель, Периков Ю. А.

Москва, 2013



ОГЛАВЛЕНИЕ
Введение 4

Глава 1. Анализ проблем авиатранспортной отрасли России 7



  1. Комплексный анализ положения авиатранспортной отрасли России 7

  2. Формулировка основных задач работы 10

  3. Анализ инструментария для достижения цели работы 11

Глава 2. Сбор данных для разрабатываемой системы 15

  1. Определение модели предметной области 15

  2. Поиск данных в различных источниках 18

  3. Моделирование данных для разрабатываемой системы 22

Глава 3. Проектирование хранилища данных

и инструментов анализа данных 24

  1. Создание модели хранилища данных 24

  2. Применение ETL-инструмента 30

  3. Применение BI-приложения и моделей data mining 38

Заключение 47

Список использованной литературы 50

Приложение 1 52

Приложение 2 53



Аннотация.
В данной выпускной квалификационной работе проиллюстрировано построение и применение аналитической системы на базе многомерного хранилища данных для анализа проблем и прогнозирования развития авиатранспортной системы в России. В работе был осуществлен сбор данных; затем была спроектирована структура хранилища данных, в которое затем при помощи ETL-инструментов были загружены собранные данные. В конечном итоге система произвела анализ данных по авиаперевозкам, благодаря чему были сделаны некоторые выводы.

Структура работы представлена вводной частью, тремя главами по три параграфа в каждой, заключением, списком использованной литературы и двумя приложениями.

Данная работа будет интересна как специалистам, которые занимаются бизнес-аналитикой, так и другим людям интересующимся развитием и проблемами российской экономики, в частности в авиатранспортной отрасли.

Введение.

Особенностью Российской Федерации является резкое различие уровня развития регионов в зависимости от их территориальной принадлежности. Регионы центральной России, такие как Москва и Московская область, наиболее развиты, в то время как уральские, дальневосточные и южные субъекты федерации обладают гораздо меньшими экономическими возможностями и в большинстве случаев развиваются (если развиваются вообще) довольно медленными темпами. Такое положение вещей накладывает свой отпечаток на производственные и коммерческие сферы деятельности, в том числе на систему и структуру авиаперевозок в России. Авиатранспортная сеть страны покрывает огромную территорию и включает в себя более 125 функционирующих аэропортов. Бóльшая доля потоков в этой отрасли проходит через московский транспортный узел (МТУ), что указывает на централизованное развитие структуры транспортных маршрутов. Примерные соотношения средних исходящих грузовых потоков за месяц для десяти лидирующих по этому показателю городов России (2010-2011 гг., по данным ТКП) представлены на иллюстрации ниже [12].




Иллюстрация : Среднемесячный исходящий грузопоток, тонн

По данным наглядно видно, что Москва обгоняет ближайшего преследователя (Санкт-Петербург) более чем в 10 раз. Таким образом, на базе МТУ сформировался торгово-распределительный центр для всей страны. Для такой большой страны, какой является Россия, такое несбалансированное распределение мощностей играет неблагоприятную роль и является серьезной структурной проблемой.

Очевидно, что тема развития или же реструктуризации авиатранспортной отрасли Российской Федерации заслуживает внимания. В данной работе предпринимается попытка решить проблемы, имеющие место в данной отрасли.

Основная цель работы заключается в построении хранилища данных, благодаря которому будет возможно проанализировать развитие авиаперевозок в России за некоторый период времени, спрогнозировать их объемы в будущем, а самое главное — предложить альтернативную структуру авиатранспортной сети.

В качестве инструментария для выполнения этой задачи в работе предлагается использование технологий Data Warehousing / Business Intelligence (DWH/BI).

Данная работа предполагает следующий поток выполнения работ для достижения поставленной цели:



  1. Комплексный анализ положения авиационной отрасли для выявления особенностей моделирования предметной области для исследования.

  2. Формулировка конкретной задачи и формирование четкого плана выполнения работ в разрезе информационных технологий.

  3. Анализ программных средств, имеющихся на рынке, для каждого из этапов реализации технологий BI/DWH, а именно: этап «проектирование хранилища данных на основе определенной СУБД (системы управления базами данных)», этап «извлечение данных из источников в хранилище данных», этап «реализация инструментов анализа и визуализации данных».

  4. Создание абстрактной модели предметной области с учетом проанализированной информации на этапе комплексного анализа авиатранспортной отрасли.

  5. Определение источников информации об авиационной отрасли и извлечение данных из этих источников.

  6. Моделирование недостающих данных из-за их отсутствия в открытом доступе на основе других немаловажных факторов регионального развития с учетом сезонности авиаперевозок.

  7. Проецирование модели предметной области на модель хранилища данных, имеющего форму «Звезда» (Star-Schema) с учетом особенностей СУБД.

  8. Реализация механизма extract-transform-load (ETL) для переноса данных из различных источников в хранилище данных.

  9. Применение инструментов интеллектуального анализа и моделей data mining на основе хранилища данных для получения выводов и заключений по проблеме работы.


Глава 1. Анализ проблем авиатранспортной отрасли России

      1. Комплексный анализ положения авиатранспортной отрасли России.

Как отмечалось во вводной части данной работы, авиатранспортная сеть в России является централизованной и несбалансированной. Эта ситуация неблагоприятна для экономики как отдельных регионов, так и страны в целом.

Вопрос несовершенности авиатранспортной структуры уже поднимался неоднократно, причем доклады, исследования и предложения звучали как со стороны государственных органов, так и со стороны коммерческих организаций, являющихся участниками рынка авиаперевозок. Также интерес к проблеме проявляет академическая среда, и даже коммерческий сектор экономики, никак напрямую не увязанный с авиаперевозками. Все эти стороны рассматривают и анализируют проблему с разных точек зрения, что позволяет получить целостную картину происходящего в отрасли.

В докладе «Некоторые аспекты региональных авиаперевозок» [12] генерального директора авиакомпании «Полет» на Международном Авиатранспортном Форуме автор демонстрирует, насколько велик дисбаланс грузоперевозок между МТУ и другими регионами. Также докладчик акцентируется на односторонности потоков грузов, на очень маленьких объемах грузопотоков между отдельными регионами, на высокой конкуренции авиационного транспорта с другими видами — автомобильным и железнодорожным. Также автор ссылается на данные по плотности населения по федеральным округам, данные по количеству складских площадей в регионах, а также на данные по входящим и исходящим грузопотокам в разных городах России. Один из выводов доклада говорит о том, что в ближайшее время не ожидается перераспределения потоков и уменьшения дисбаланса между потреблением в центральной части России (особенно в столице) и в восточных регионах.

Взгляд на проблему с точки зрения академической среды проиллюстрирован в работе «Анализ состояния и развития авиатранспортной системы (в России)» [11]. Автор работы неоднократно указывает на плачевность состояния аэродромной сети в России, приводя ряд интересных статистических данных, например «количество действующих аэропортов на территории Российской Федерации, начиная с 1991 года по настоящее время, сократилось с 1450 до 351» или «в целом износ основных фондов аэродромной сети приблизился к 80%» (касательно только региональных аэропортов). Среди выводов в работе фигурирует идея о том, что именно государство должно заниматься решением проблемы, в том числе бороться с инфраструктурной непригодностью региональных аэропортов.

На государственном уровне проблема также рассматривается, причем уже есть некоторые результаты. Министерство транспорта РФ внесло в правительство проект «дорожной карты» [13] развития региональных авиаперевозок до 2030 года, что позволило бы решить множество проблем в отрасли. В задачи проекта входит, например: финансовое обеспечение аэропортов, разработка стандарта минимальной транспортной доступности, совершенствование государственного регулирования, а также снижение стоимости региональных авиаперевозок. В целом, задачи проекта очень актуальны для отрасли. Вопрос в том, будут ли они реализованы в полной мере, и в какие сроки все это будет сделано.

Также нужно отметить статью «Бизнес-модель развития грузовых авиаперевозок в Российской Федерации» [10], авторы которой акцентируются на транспортных взаимоотношениях с другими странами. В статье говорится о потенциальных возможностях российской авиационной структуры по отношению к зарубежным перевозчикам, то есть о транзитных взаимоотношениях. Авторы пишут, что для реализации такого потенциала необходимо внедрение стандарта e-freight, а также усовершенствование (расширение) аэродромной сети, упрощение процедур приема и изменение нормативно-правовой базы по данному вопросу. Центральным аспектом является как раз расширение аэродромной сети России, другими словами — переход от централизованной системы к распределенной: с несколькими «хабами» для более эффективной работы сети.

Из всей приведенной выше информации можно сделать вывод о том, что на сегодняшний день аэропортная сеть в России представляет собой централизованную структуру с серединой в московском транспортном узле, в то время как региональные аэропорты и аэродромы в большинстве случаев характеризуются неразвитостью, отсутствием надлежащей инфраструктуры и чрезвычайно сильным износов оборудования. Также нужно отметить, что больше половины транспортных потоков по воздуху проходят через МТУ, причем товарные потоки между регионами несоизмеримо малы. Если учитывать территориальную обширность России, то такая несбалансированная ситуация в отрасли недопустима. Абстрактно ситуация может быть представлена, как показано на иллюстрации ниже.


Иллюстрация : Абстрактная схема текущей структуры авиаперевозок России





      1. Формулировка основных задач работы.

В данной работе лишь предпринимается попытка проанализировать авиатранспортную отрасль России в разрезе авиатранспортных потоков при помощи изученных инструментов анализа данных, относящихся к концепции Business Intelligence.

К сожалению, очень малая доля информации относительно авиатранспортных потоков находится в открытом доступе, особенно в разрезе временной динамики и в разрезе территориальной принадлежности. Поэтому, разрабатываемая система будет реализована на смоделированных данных, основанных на реальных экономических показателях. Сбору и моделированию данных в данной работе будет посвящена отдельная часть.

Из комплексного анализа проблемы следует то, что в первую очередь необходимо сфокусироваться на определении доли московского транспортного узла в общем объеме авиатранспортных перевозок по России. Первая важная задача в работе — это определение этой доли и динамики её изменения за определенный период времени.

Также было бы интересно узнать, какая динамика развития отрасли будет наблюдаться в будущем. Из этого вытекает вторая важная задача работы — прогнозирование объемов авиатранспортных потоков в будущем.

Немаловажно также сделать попытку предложить вариант решения проблемы несбалансированности авиатранспортной системы в России. Решение этой проблемы является третьей важной задачей работы.

Как было отмечено выше, попытка решения всех важных задач работы должна быть реализована при помощи инструментов анализа данных, существующих на сегодняшний день на рынке IT-решений.



      1. Анализ инструментария для достижения цели работы.

Так как в цели работы входит построение хранилища данных для анализа авиатранспортной системы России, то в первую очередь необходимо произвести обследование рынка компонентов хранилищ данных для более эффективной и удобной работы в процессе исследования.

Концепция BI/DWH, которая будет применяться в работе, предполагает наличие нескольких компонентов:



  • Внешние источники данных. В качестве внешних источников в работе будут выступать файлы различных форматов, содержащие в себе собранную и смоделированную информацию по авиатранспортной отрасли России.

  • ETL-инструмент, который поддерживает процедуры извлечения данных из внешних источников, их преобразования и дальнейшей загрузки в хранилище данных.

  • Хранилище данных, в которое производится загрузка данных из внешних источников при помощи ETL процедур. Хранилище представляет собой предметно-ориентированную информационную базу данных, специально разработанную и предназначенную для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Хранилище данных реализуется в системе управления базами данных (СУБД).

  • Инструменты интеллектуального анализа. Они обеспечивают анализ данных, хранящихся в хранилище данных. Основная цель интеллектуального анализа данных состоит в обеспечении необходимой информацией того круга лиц, которому эта информация необходима для принятия важных управленческих решений или для решения других важных задач. Информация может быть представлена в форме отчетов, информационных панелей, визуализированных данных и т. д.

Обобщенная схема концепции представлена на иллюстрации 3:


Иллюстрация : Общая схема Business Intelligence

В данном параграфе будет сделан обзор инструментов по 3 направлениям:



  • ETL;

  • СУБД;

  • Инструменты анализа.

На рынке существует большое количество как платных, так и бесплатных ETL-инструментов и инструментов интеграции данных. Ниже будут рассмотрены 3 решения: Microsoft SQL Server Integration Services (MSSIS), Oracle Warehouse Builder (OWB) и Pentaho Data Integration (PDI).

OWB [18] входит в семейство продуктов Oracle Developer Suite и представляет собой интегрированную CASE-среду, предназначенную для разработки и развертывания хранилищ и витрин данных. Средствами этого продукта можно проектировать, создавать и администрировать хранилища и витрины данных, разрабатывать и генерировать процедуры извлечения, преобразования и загрузки данных из различных источников, управлять метаданными. Плюсы: наглядность проектирования, стандартизованность, мультиплатформенность, управляемость компонентами хранилища данных, многофункциональность. Минусы: сложность при установке системы, возможна несовместимость с некоторыми программами, высокие системные требования.

Службы Integration Services [17] представляют собой платформу для построения высокопроизводительных решений интеграции данных и решений потока операций, включая операции извлечения, преобразования и загрузки (ETL) для хранилищ данных. Плюсы: большой объем документации, поддержка продукта, относительно небольшая цена, визуальные средства разработки. Минусы: возможна сложность в организации логики ETL процесса, продукт ориентирован только на одну.

PDI - это компонент комплекса Pentaho [19] отвечающий за процессы Извлечения, Преобразования и Загрузки данных в целевую систему (ETL). Несмотря на то, что использовать системы ETL предполагается в рамках комплекса хранения данных, средства PDI могут быть применены и для других целей: обмена данными между приложениями или базами данных, экспорта данных из таблиц баз данных в файлы, загрузки массивов данных в базы данных, обработки данных, интеграции в приложения. Плюсы: бесплатная система, понятный графический интерфейс (именуемый Spoon), многофункциональность, мультиплатформенность, легкость в инсталляции. Минусы: в системе есть недостатки, связанные с тем, что продукт является open source.

В данной работе будет использоваться инструмент Pentaho Data Integration, т. к. он является бесплатным и наиболее понятным в использовании. К тому же в отличие от SSIS в PDI имеются возможности предварительного просмотра объектов в источнике данных, прогона трансформаций в тестовом режиме, а также вывода системных уведомлений. К тому же SSIS не располагает такими возможностями как PDI при извлечении информации из файлов различных типов. Функционал этого продукта достаточен для реализации задач, поставленных в работе.

При выборе СУБД рассматривались 3 варианта. Это Microsoft Sql Server 2008, MySQL и Oracle 11g. Несмотря на то, что Microsoft Sql Server [17] работает только под операционной системой Windows, выбор пал именно на этот продукт. Это обуславливается тем, что СУБД от Microsoft с одной стороны обеспечивает наибольшую надежность и безопасность, что особо заметно при сравнении с MySQL, а с другой стороны MS Sql Server не настолько дорогая, как Oracle. К тому же СУБД от Microsoft обладает таким функционалом, который является достаточным для решения поставленной в работе задачи. Также, что немаловажно, эта СУБД тесно интегрируется с продуктами Microsoft Office. Другой отличительной чертой MS Sql Server является собственная разработка всей линейки продуктов в отличие от компании Oracle, линейка продуктов которой была создана путем приобретения, что требует усилий по интеграции всех компонентов в одну систему.

Поскольку в качестве СУБД была выбрана разработка компании Microsoft, то интеллектуальный анализ данных было решено проводить на базе продуктов от этой компании. Это обуславливается тем, что MS Sql Server прекрасно интегрируется с продуктами для бизнес-анализа от Microsoft, а также функции, которые реализуются в данных продуктах, соответствуют задачам работы. В инструменте предусмотрены встроенные модели data mining [9], которые позволят проводить прогнозный анализ по авиатранспортной отрасли, а также реализовывать другие требуемые задачи.

Итак, в качестве ETL-системы был выбран продукт Pentaho Data Integration, в качестве СУБД — MS Sql Server 2008, а в качестве инструментов анализа — MS Sql Server Analysis Services.


Глава 2. Сбор данных для разрабатываемой системы

      1. Определение модели предметной области.

В данной части работы предполагается создание абстрактной модели предметной области с учетом проанализированной информации на этапе комплексного анализа авиатранспортной отрасли.

Как отмечалось ранее, авиатранспортная сеть России представляет собой несбалансированную структуру с центром в МТУ. Также отмечалось, что наблюдается тенденция ежегодного увеличения доли МТУ в общем авиатранспортном трафике по России. Из всего этого следует, что разрабатываемый комплекс должен учитывать изменения объемов авиатранспортных потоков, как минимум, в разрезах «территориальная принадлежность» и «время». Таким образом, можно абстрагироваться от описания конкретных аэропортов, а взять Регион за базовую единицу разреза «территориальная принадлежность», например, Омская область. Из анализа данных по регионам будет нагляднее понятно, какие территории претендуют на развитие в крупных городах «распределительных узлов» или, другими словами, «хабов». Родительским элементом для объекта «Регион» является «Федеральный округ», который включает в себя несколько регионов. Также у каждого региона есть свой региональный центр.

Отчетность по объемам перевозок происходит поквартально. Это тоже важно учитывать при проектировании хранилища данных в будущем.

Ключевым объектом в предметной области является «Авиаперевозки для региона», который, в свою очередь, подразделяется на Входящий поток и Исходящий поток. Каждый экземпляр этого абстрактного объекта имеет территориальную принадлежность и временную отметку, объем перевозки. Также не стоит забывать о таком понятии, как Авиакомпания. В проектируемой предметной области оно есть. Также стоит разделять перевозки на Пассажирские, Грузовые и Перевозки почты.



По данному описанию в предметной области можно выделить следующие сущности:

  1. Авиаперевозки для региона (с типом перевозки, временной отметкой и направлением авиационного потока)

  2. Федеральный округ

  3. Регион

  4. Авиакомпания

В таблице 1 представлены сущности и их атрибуты:

Таблица : Описание сущностей и их признаков

Имя сущности

Признаки

Авиаперевозка

Дата, тип перевозки, направление (вход/выход), регион, авиакомпания, объем перевозки

Авиакомпания

Название, другие особенности

Федеральный округ

Наименование, федеральный центр

Регион

Принадлежность к федеральному округу, наименование, региональный центр

В таблице ниже представлены отношения сущностей:

Таблица : Описание отношений между сущностями

Сущность №1

отношение

действие

Сущность №2

Федеральный округ

1 : M

Включает в себя

Регионы

Авиакомпании

М : М

Совершают рейсы по различным

Регионам

Авиакомпания

1 : М

Имеет много

Авиаперевозок

Авиаперевозки

М : 1

Принадлежат к определенному

Региону

В разрабатываемой системе не ставится задача рассмотреть авиаперевозки в разрезе авиакомпаний. Но такая сущность вносится в систему для возможного дальнейшего развития проектируемого аналитического программного комплекса. Также необходимо отметить, что в системе фигурируют только Грузовые авиаперевозки. Разделение на виды перевозок также вводится в систему с перспективой на дальнейшее развитие.

      1. Поиск данных в различных источниках.

Коллекционирование данных является основой любого исследования. В данном исследовании необходима информация, в первую очередь, об объемах входящих и исходящих авиаперевозок в регионах России за 2005-2011 годы. Эта информация не доступна в открытых источниках, следовательно, эти данные будут смоделированы на основе других показателей развития в регионах России. В качестве таких показателей были взяты:

  1. численность населения;

  2. валовый региональный продукт (ВРП);

  3. уровень экономической активности населения.

Эти данные были собраны для 32 крупнейших городов из 29 различных регионов за период с 2005 по 2011 год. Ниже представлен перечень регионов, по которым собирались данные:

Таблица : Рассматриваемые в системе регионы

Московский регион*

свердловская область

Ленинградский регион*

ханты-мансийский а. округ (Югра)

хабаровский край

тюменская область

приморский край

республика Дагестан

красноярский край

ростовская область

ярославская область

ивановская область

новосибирская область

алтайский край

иркутская область

пермский край

камчатский край

самарская область

сахалинская область

республика Башкортостан

краснодарский край

нижегородская область

республика Саха (Якутия)

республика Татарстан

магаданская область

омская область




челябинская область




волгоградская область




воронежская область

* Примечание. Московский регион объединяет в себе федеральные субъекты «Москва» и «Московская область». Аналогично и с ленинградским регионом.

Также важно отметить, что некоторые значения коэффициентов и параметров, введенные в данной главе, не являются результатом применения математических моделей. Они предлагаются исходя из разумных предположений. Данное допущение возможно, т. к. в работе предполагается построение системы анализа авиаперевозок, которая в свою очередь не нуждается в высокой достоверности данных, потому что является всего лишь инструментом исследования.

Регионы отбирались по следующему принципу: во-первых, были взяты регионы, на территории которых есть города-миллионники. Во-вторых, брались регионы с максимальным исходящим авиационным грузопотоком в 2011 году по статистике Торговой Клиринговой Палаты (ТКП, www.tch.ru) [16].

Для каждого из вышеперечисленных регионов были найдены различные экономические показатели за период с 2005 по 2011 год. Чтобы как-то диверсифицировать данные показатели по значимости, были предположено, что каждому показателю соответствует определенный коэффициент. Сумма коэффициентов получается равной единице. Данные коэффициенты не рассчитывались при помощи математических или экономических моделей; они были предложены автором работы из соображений здравого смысла.

Во-первых, была собрана статистика по численности населения за указанный период. Источником послужили базы Федеральной службы государственной статистики (www.gks.ru) [15]. Численность населения — это важнейший показатель экономического развития страны. Поэтому данному фактору присвоен коэффициент значимости 0,4 из 1.



Примечание. Коэффициенты значимости будут использоваться при моделировании данных.

Вторым, не менее важным показателем развития в регионах, данные по которому были собраны в рамках исследования, это региональный валовый продукт. Валовой региональный продукт представляет сумму валовой добавленной стоимости, созданной всеми институциональными единицами-резидентами на экономической территории региона (без учёта чистых налогов на продукты). Уровень значимости для исследования — 0,4 из 1. Источник — www.gks.ru [15].

Третья величина, от которой в некоторой степени зависит развитие региона, - это уровень экономической активности населения. Этот показатель представляет собой процент активного населения от общей численности региона. Например, в 2011 году в Московском регионе этот показатель составил 72,2. Значимость этого показателя не так велика, как значимость предыдущих двух показателей. Поэтому коэффициент значимости был взят равным 0,2 из 1. Источник — www.gks.ru. [15]

Также была собрана информация о суммарном внутреннем авиатранспортном грузовом обороте за 2005-2011 годы. Источник — ТКП [16]. В таблице 4 представлены собранные по этому пункту данные:



Таблица : Ежегодный объем авиатранспортных потоков в России

2005

2006

2007

2008

2009

2010

2011




197,19

202,94

231,67

245,08

224,01

291,02

306,34

тыс. тонн

Дополнительно были введены коэффициенты оттока и притока грузов для каждого региона. Они нужны для того, чтобы при моделировании распределить общий грузооборот в регионе на исходящие и входящие грузопотоки. Например, если в регионе за 2005 год общий оборот грузов равняется 10 тыс. тонн, а коэффициент оттока товаров равняется 60%, то исходящий грузопоток получается равным 6 тыс. тонн, а входящий — 4 тыс. тонн. Эта величина введена на основе приблизительных предположений, и, так как в исследовании не важна высокая точность и правдоподобность данных, её использование вполне оправдано для получения нужной информации.

Помимо данных, которые необходимы для формирования объемов авиатранспортных потоков, была собрана контекстная информация, которая будет отражена в разрабатываемой системе. В таблице ниже приведен перечень блоков собранных данных с указанием файлов, в которые эти данные были сохранены.

Таблица : Соответствие блоков данных файлам

Наименование блока данных

Имя файла

Перечень регионов с указанием регионального центра и федерального округа

Места.csv

Виды авиатранспортных перевозок

DirAndType.xls

Направления авиатранспортных перевозок

DirAndType.xls

Перечень авиакомпаний

Авиакомпании.txt

Особенности использования перечисленной информации будут отражены в последующих главах.

Следующим этапом работы является моделирование необходимых для исследования данных на базе собранных реальных показателей. Смоделированные данные будут записаны в файл Объемы_перевозок.xlsx.


      1. Моделирование данных для разрабатываемой системы

Этот этап полностью посвящен моделированию данных о поквартальном объеме входящего и исходящего авиатранспортного грузопотока для 29 регионов России за период с 2005 по 2011 годы.

Весь процесс моделирования можно разбить на 3 этапа: 1 — вычисление общих коэффициентов для регионов, 2 — вычисление объемов грузопотоков, 3 — разбиение данных в зависимости от сезонных (квартальных) особенностей.


(1) Вычисление общих коэффициентов. На данном этапе использовались коэффициенты значимости факторов и значения ранее найденных факторов для регионов. Формула вычисления общего коэффициента выглядит следующим образом:
коэфф(m, n)=0,4*(доля региона m в общей численности населения за год n)+0,4*(доля региона m в суммарном ВРП за год n)

+0,2*(долевой уровень активности населения в регионе m за год n)
В результате получилась таблица [M x N], где в строках находятся данные по определенному региону за период с 2005 по 2011 год, а в столбцах — коэффициенты за определенный год относительно всех регионов. В общем счете таблица содержит 203 значения коэффициента. Эта таблица будет использована на 2 этапе моделирования — вычислении объемов грузопотоков.
(2) Вычисление объемов грузопотоков. Этот этап основан на созданной на предыдущем этапе таблице основных коэффициентов, а также на коэффициентах оттока и притока грузов и на значениях общего внутреннего авиатранспортного грузооборота. Расчёт производился по следующей формуле:

грузооборот(i/o, m, n)=коэффициент oттока/притока(i/o)

* общий коэффициент для региона m за год n

* общий внутренний авиатранспортный грузооборот за год n
В результате получается таблица размером [M x (N*2)], то есть содержащая 406 значений входящего и исходящего авиационного грузового трафика для каждого региона за время в интервале с 2005 по 2011 год.

(3) Разбиение данных в зависимости от квартальных особенностей. На данном этапе данные были преобразованы в более детальную форму. При этом использовались данные о сезонности, взятые из отчета ТКП [16]. Эти данные представлены в таблице 6:



Таблица : Сезонные коэффициенты




Сезонность













1 квартал

2 квартал

3 квартал

4 квартал

2005

0,17

0,25

0,36

0,22

2006

0,17

0,25

0,35

0,22

2007

0,17

0,25

0,35

0,23

2008

0,19

0,27

0,34

0,2

2009

0,17

0,25

0,35

0,24

2010

0,18

0,25

0,34

0,23

2011

0,18

0,24

0,34

0,24

С учетом этих значений объем модельных данных вырос в 4 раза и составил 1624 значения.

В итоге процесса моделирования были сформирована ненормализованная таблица со следующими заголовками:



Таблица : Макет таблицы для данных

Регион

Федеральный

округ


Год

(7 столбцов для 2005-2011 годов)









1 квартал

2 квартал

3 квартал

4 квартал







Вход.

Исход.

Вход.

Исход.

Вход.

Исход.

Вход.

Исход.































Данная таблица содержит 2+7*(4*2)=58 столбцов. Далее вся смоделированная информация обрабатывается и сохраняется в файле Объемы_перевозок.xlsx.



Поделитесь с Вашими друзьями:
  1   2


База данных защищена авторским правом ©grazit.ru 2017
обратиться к администрации

    Главная страница