Дипломная работа идентификация дикторов с помощью деревьев решений работа завершена



страница1/6
Дата21.08.2017
Размер1 Mb.
  1   2   3   4   5   6
Министерство образования и науки РФ

Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Казанский (Приволжский) федеральный университет»

ИНСТИТУТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

КАФЕДРА СИСТЕМНОГО АНАЛИЗА И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

10.03.01 – Информационная безопасность

Профиль – Математические и программные средства защиты информации

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

Дипломная работа

ИДЕНТИФИКАЦИЯ ДИКТОРОВ С ПОМОЩЬЮ ДЕРЕВЬЕВ РЕШЕНИЙ

Работа завершена:

"___"_________ 2016 г. __________________ (С.И.Сафина)



Работа допущена к защите:

Научный руководитель

ассистент кафедры САИТ

"___"_________ 2016 г. __________________ (Р.Р.Нигматуллин)

Заведующий кафедрой САИТ,

д.т.н., профессор

"___"_________ 2016 г. _________________ (Р.Х.Латыпов)

Казань – 2016


ВВЕДЕНИЕ……………………………………………………………………3

1.АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ…………………………………….4

1.1. Описание классификатора……………………………………………….4

1.2. Описание векторов признаков…………………………………………..5

1.2.1. Вычисление MFCC………………..…………………………………....5

1.2.2. Вычисление FFT………………………………………………………..6

1.2.3. Вычисление LPC ..…..…………………………………………….…...6

1.2.4 Критерий Стьюдента для оценки результатов…………………….…7

2. ЭКСПЕРИМЕНТЫ……………………………………………………..….9

2.1. Общие параметры………………………………………………….….…9

2.2. Реализация в среде разработки…………………………………………9

2.3. Промежуточные результаты…………………………………………….9

3. АНАЛИЗ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ……………………………24

4. ЗАКЛЮЧЕНИЕ……………………………………………………………26

СПИСОК ЛИТЕРАТУРЫ……………………………………………………27

ПРИЛОЖЕНИЕ…………………………………………………………….....28

ВВЕДЕНИЕ

Развитие информационных технологий повлекло за собой развитие такой сферы, как обработка сигналов. Цифровая обработка сигналов является основным инструментом обработки звука и изображений.

Сегодня речевые технологии развиваются с большой скоростью. Технология распознавания диктора позволяет использовать голос диктора для его идентификации, например для предоставления доступа к услугам. Сюда же можно отнести: управление удаленным доступом компьютера, голосовая почта, управление личным счетом, покупки по телефону, доступ к конфиденциальной базе данных. Эта новая технология безопасности. Идентификация диктора способна заменить пароли, кодовые фразы, ключи, то есть все то, что может быть потеряно.

Для того чтобы идентифицировать диктора важной задачей является то, что система должна находить неизменные особенности голоса. Сравнение голоса с исходным на прямую не дает точных результатов, поэтому будут использоваться векторы признаков. В этой работе будет рассмотрены три вида коэффициентов и для каждого коэффициента будет определена точность идентификации.

Идентификация диктора — процесс определения личности говорящего по образцу голоса путём сравнения данного образца с шаблонами, занесенными в базу данных.

Целью работы является построение алгоритма идентификации дикторов на основе деревьев решений (CART). Должно быть определено исследование достоверности алгоритма в зависимости от параметров классификатора, длины и типа входных файлов. По результатам исследования будут даны рекомендации по использованию предложенного алгоритма.

1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ

1.1. Описание классификаторa

В качестве классификатора использовались деревья решений CART[1],[2] (Classification and Regression Tree). Идея алгоритма заключается в построении двоичного дерева решений [4]. На каждом шаге при построении дерева правило, которое формируется в узле, разделяет все заданное множество на две части: right и left, причем только в первом случае правило выполняется.

Рассмотрим правила разбиения. Алгоритм основывается на уменьшении неопределенности в узле, это формализовано в индексе Gini [10]. Gini определяется следующим образом: если набор данных M содержит данные n классов, то

Gini(M) = 1 - pi2, (1)

где pi - вероятность или относительная частота класса i в M. Если набор M разбивается на части М1 и М2, то наилучший вариант ветвления (разбиение в узле) тот, при котором максимально уменьшается значение Ginisplit(T):

Ginisplit(T) = Gini(T1)+ Gini(T2) (2)

Стандартные настройки классификатора следующие (далее базовые настройки)[7],[8]:



  1. Критерий качества разбиения «Gini»;

  2. Стратегия выбора в каждом узле «Best»;

  3. Количество функций при поиске «None».

В работе будут использоваться для сравнения настройки (далее измененные настройки):

1. Критерий качества разбиения «Entropy»;

2. Стратегия выбора в каждом узле «Best»;


  1. Количество функций при поиске «sqrt».

1.2. Описание векторов признаков

1.2.1.Вычисление MFCC

Исходный речевой сигнал записывается в дискретном виде так[11]:



x[n], 0 ≤ n < N (3)

Применим к нему преобразование Фурье:



Xa[k] = , 0 ≤ k < N (4)

Составляем гребенку фильтров, используя оконную функцию:



Hm = (5)

Для которой частоты f[m] получили из равенства:



f[m] =()B-1 (B(f1)+m) (6)

B(b) – преобразование значения частоты в мел-шкалу. Соответственно:



B-1(b) = 700(exp(b/1125) - 1) (7)

Вычисляем энергию для каждого окна:



S[m] = ln|Xa[k]|2Hm[k]), 0 ≤ m < M (8)

Применим дискретное косинус-преобразование:



c[n] = S[m]cos(), 0 ≤ n < M (9)

Таким образом, получается набор MFCC.



1.2.2. Вычисление FFT

Преобразование Фурье [5], [9] для дискретного случая записывается следующим образом:



(10)

Введем обозначение



Обратимся к алгоритму вычисления быстрого преобразования Фурье:

  • Если текущий массив имеет длину 1, то возвращаем сам массив.

  • Массив разбивается на два подмассива. В первом будут элементы с нечетными индексами, во втором - с четными индексами.

  • Запускаем рекурсивно алгоритм для каждого из подмассивов.

  • Пусть - коэффициенты Фурье первого подмассива, - коэффициенты Фурье второго подмассива.

  • Коэффициенты Фурье исходного массива вычисляются с помощью формулы [3]:

, для (11)

, для (12)

1.2.3. Вычисление LPC

Основной идеей линейного предсказания является то, что текущий образец речи может быть приближен как линейное сочетание последних образцов, т.е.:



x[n] = akx(n-k), (13)

при некотором значении p, ak [13]



В общем случае линейное предсказание представляет собой следующую систему [5]:

š (n) = aks(n-k) P(z) =akz-1=(14)



Рис.1. Схема вычисления линейного предсказания

Ошибка предсказания вычисляется следующим образом:

e(n) = s(n) – š(n) = s(n) - s(n-k) (15)

Ошибка предсказания является выходом системы с передаточной функцией



A(z)==1 – P(z) = 1 - kz-1 (16)

Причем параметры ak подбираются так, чтобы функция среднеквадратичной ошибки En принимала минимальное значение. Для этого применяют метод наименьших квадратов.



En = e2(m) = 2= akv(m-k)]2 = min (17)

1.2.4. Критерий Стьюдента для оценки результатов


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6


База данных защищена авторским правом ©grazit.ru 2017
обратиться к администрации

    Главная страница