Задача классификации текстов



Скачать 51,17 Kb.
Дата29.10.2016
Размер51,17 Kb.
Разработка и реализация быстрых алгоритмов классификации текстов опубликованных online.
Задача классификации текстов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Задача классификации документов является подзадачей задачи Data Mining. Data Mining (добыча данных, интеллектуальный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Определения классификации:

Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.

Классификация - упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.

Существующие алгоритмы классификации текстов, которые чаще всего используются:



  • Ранжирование и четкая классификация;

  • Метод Роше (Rocchio method);

  • Деревья решений (Decision Tree);

  • Метод опорных векторов (Support Vector Machine, SVM);

  • Метод k-ближайших соседей (k-Nearest Neighbors, k-NN);

  • Метод «случайный лес» (Random Forest);

  • Метод Байеса (Naive Bayes).

Для решения задачи классификации текстов был выбран метод частотного анализа. Частотный анализ основывается на предположении о существовании нетривиального статистического распределения отдельных слов и их последовательностей в тексте. Частотный анализ предполагает, что частота появления заданного слова алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка.

Постановка задачи.



  • Существует множество категорий;

  • Существует множества текстов по каждой категории;

  • Имеется текстовый файл;

  • Необходимо определить категорию текстового файла.


Определение категорий

В качестве категорий выступают 16 основных направлений деятельности Правительства Российской Федерации:



  • Здравоохранение;

  • Культура ;

  • Природные ресурсы и экология;

  • Внутренние дела (МВД);

  • Иностранные дела (МИД);

  • Образование и наука;

  • Промышленность и торговля;

  • Спорт;

  • Связь и массовые коммуникации;

  • Энергетика;

  • Финансы;

  • Транспорт;

  • Труд и социальная защита;

  • Сельское хозяйство;

  • Оборона;

  • Экономическое развитие.

В качестве текстов, определяющих категории, используются нормативно-правовые акты Российской Федерации, регулирующие отношения в соответствующем направлении деятельности.

Таким образом, построение категорий происходит на основании нормативно-правовых актов Российской Федерации.



Нормативно-правовой акт.

  • официальный документ установленной формы, принятый в пределах компетенции уполномоченного государственного органа  с соблюдением установленной законодательством процедуры, содержащий общеобязательные правила поведения, рассчитанные на неопределённый круг лиц и неоднократное применение;

  • имеют определённый вид и облекаются в документальную форму;

  • составляются по правилам юридической техники;

  • нормативные правовые акты, действующие в стране, образуют единую систему.

Определение категорий происходит в соответствии с выборкой нормативно-правовых актов, относящихся к соответствующим категориям.


Анализ входящего текста

  • Исключение частиц, предлогов, местоимений и слов длинной менее трех символов

  • Нормализация слов

  • Определение частоты появления каждого слова в тексте

Сравнение

  • Используется метод частотного анализа;

  • Каждая категория – список слов с соответствующими частотами вхождения;

  • Определяется вес каждого слова во входящем текстовом файле;

  • Сравнение происходит при совпадении более пяти слов.



Алгоритм сравнения





Используемые средства

  • В качестве программных средств для решения задачи были выбраны язык Java и средства разработки Eclipse;

  • Для хранения и обработки текстовой информации необходимы база данных и СУБД. База данных MySQL имеет хорошие показатели быстродействия, но ограничена в создании очень больших БД. Поскольку потенциально объём словарей лингвистической БД может быть очень большим, была выбрана СУБД MS SQL Server.


Список литературы

  • Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft

  • Chisholm E., Kolda T. G. New term weighting formulas for the vector space method in information retrieval. Technical Report Number ORNL-TM-13756, Oak Ridge National Laboratory, Oak Ridge, TN, March 1999

  • Lan M. (2007) A New Term Weighting Method for Text Categorization. PhD Theses

  • F. Sebastiani. Machine Learning in Automated Text Categorization

  • Дюк В., Самойленко А. Data Mining

  • Lancaster, F. W. (2003). Indexing and abstracting in theory and practice. Library Association, London

  •  Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques

  • Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations

  • Large Scale Hierarchical Text classification (LSHTC) Pascal Challenge http://lshtc.iit.demokritos.gr/

  • Xiao-Lin Wang, Bao-Liang Lu. Improved Hierarchical SVMs for Large-scale Hierarchical Text Classification Challenge

  • Masand B., Linoff G., Waltz D. Classifying news stories using memory-based reasoning. Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval, Copenhagen, Denmark, 1992, pp. 59–65

  • Salton G., Buckley C. (1988), Term-weighting approaches in automatic text retrieval, Information Processing & Management, Vol. 24, no. 5, pp. 513–523

  • Дунаев Е. В. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой / Е. В. Дунаев, А. А. Шелестов // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 382-398

  • Dumais S., Platt J,, Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization. // In Proc. Int. Conf. on Inform. and Knowledge Manage., 1998


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©grazit.ru 2017
обратиться к администрации

    Главная страница