Academic Journal

Алгоритм распознавания веб-страницы, оценивающий когерентность размещенного на ней текста

Bibliographic Details
Title: Алгоритм распознавания веб-страницы, оценивающий когерентность размещенного на ней текста
Source: Интернет-журнал Науковедение.
Publisher Information: Общество с ограниченной ответственностью «Издательский центр «Науковедение», 2015.
Publication Year: 2015
Subject Terms: ВЕБ-СТРАНИЦА, РАСПОЗНАВАНИЕ, МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ, ПАРАМЕТРЫ ТЕКСТА, КОГЕРЕНТНОСТЬ, МАЖОРИТАРНЫЙ СПОСОБ ПРИНЯТИЯ РЕШЕНИЯ, ДИВЕРСИФИКАЦИЯ РИСКА, 0211 other engineering and technologies, 0202 electrical engineering, electronic engineering, information engineering, 02 engineering and technology
Description: В настоящей статье приводится описание алгоритма распознавания веб-страницы, оценивающего когерентность размещенного на ней текста. В статье обосновывается актуальность разработки такого алгоритма, раскрывается содержание основных процедур, приводятся практические результаты распознавания веб-страниц тестовой выборки. Работа алгоритма строится на представлении объекта распознавания его математической моделью: в виде набора параметров текста веб-страницы, статистический анализ которых позволяет количественно оценить свойство когерентности текста и определить классовую принадлежность рассматриваемой веб-страницы. Алгоритм предполагает последовательную реализацию двух этапов: этапа обучения классификаторов и этапа распознавания веб-страницы с помощью обученных классификаторов. В целях диверсификации риска ошибочного принятия решения в результате распознавания веб-страницы только одним обученным классификатором, классификация объекта распознавания в предлагаемом алгоритме осуществляется тремя классификаторами разного типа. Итоговое решение о классовой принадлежности объекта выносится на основе частных решений классификаторов по мажоритарному способу. Основываясь на практических результатах исследования и наборе достоинств, которыми обладает алгоритм, авторы делают вывод о его пригодности для решения задач, связанных с разработкой эффективных систем автоматического поиска сетевой информации, способных устойчиво работать в условиях изменения элементов оформления текста на веб-страницах информационных порталов.
This paper describes web-page recognition algorithm estimating text coherence. It grounds actuality of algorithm design, describes main procedures and shows test results of web-page recognition. The algorithm uses mathematical model of the object recognition. The mathematical model of the object recognition is a set of web-page text parameters used for the text coherence estimating and web-page classification. The algorithm is made up of two consecutive stages. The first stage is the training classifiers. The second one is the web-page recognition by means of trained classifiers. The algorithm uses three different classifiers for risk diversification of wrong make-decision. The final decision is adopted by majority voted system. With the results of survey the authors draw a conclusion that the described algorithm may be implemented in the up-to-date systems aimed at gathering text information in Internet. It is noted that the described algorithm keeps its workability even through changing of web-page design.
Document Type: Article
File Description: text/html
Language: Russian
ISSN: 2223-5167
Access URL: http://cyberleninka.ru/article/n/algoritm-raspoznavaniya-veb-stranitsy-otsenivayuschiy-kogerentnost-razmeschennogo-na-ney-teksta
http://cyberleninka.ru/article_covers/15845964.png
Accession Number: edsair.od......2806..d15f3be7b14293f75874cbbdff3da83d
Database: OpenAIRE
Description
ISSN:22235167