Сетевой научный журнал "Философские проблемы
информационных технологий
и киберпространства" (ISSN:2305-3763)

Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата

DOI: 10.17726/philIT.2015.10.2.004.89

Автор: Комарницкая О.И., Комарницкая И.И.

Аннотация: В статье проанализированы известные системы анализа текстов на наличие плагиата. Предложен новый метод лингвистического анализа, который определяет латентные ассоциативно-семантические зависимости во множестве документов. Данный метод позволяет: частично устранять омонимию, полисемию и синонимию; исправлять слова, написанные с орфографическими и техническими ошибками; учитывать синтаксические отношения, логику построения терм в контексте предметной сферы. Разработанный алгоритм семантического сравнения нечеткой текстовой информации (исходный текст, представленный для проверки на естественном языке в произвольной форме, с вариантами текстов, имеющихся в локальных базах данных, и контентом Интернета) предусматривает автоматическую конвертацию исходного текста на естественном языке к внутрисистемному виду, экстракцию лексических единиц текста с последующим осуществлением морфологического, синтаксического, семантического и прагматического анализа. Применение разработанного алгоритма позволяет устранять ошибки, которые могут быть в исходном тексте (неправильные окончания, нестандартные сокращения и т.д.), определять принадлежность исходного текста к определенной предметной области, выявлять степень семантического сходства исходного текста, формировать общую оценку степени сходства текстов по комплексному показателю. Применение такого подхода будет повышать достоверность и обоснованность вывода о наличии плагиата в документах.

Ключевые слова: анализ; антиплагиат; лингвистический анализ; метод; плагиат; семантический анализ; сервис; система.

Ссылка: Комарницкая, О.И.; Комарницкая, И.И. Метод семантического сравнения нечеткой информации при проверке текстов на наличие плагиата [Text] // Философские проблемы информационных технологий и киберпространства, 2015. № 2, vol. 10. – 127–140. DOI 10.17726/philIT.2015.10.2.004.89.

BibTeX

Полный текст статьи



Method of the semantic comparison of fuzzy information on text plagiarism

Abstract: Famous systems of text analysis on the presence of plagiarism have been analyzed in the article. A new method of linguistic analysis has been proposed, which determines the latent and semantic associative dependencies in the set of documents; partially eliminates homonymy, polysemy and synonymy; corrects the words written with spelling and technical mistakes; takes into account the syntactic relations, logic of the term building in the context of the subjective area. The developed algorithm of the semantic comparison of fuzzy text information (the original text submitted for testing in natural language in any form, with text versions available in the local databases and content on the Internet) assumes automatic conversion of the original natural language text into the intra-system form, extraction of the text lexical units followed by the implementation of morphological, syntactic, semantic and pragmatic analysis. The use of the algorithm makes it possible to eliminate errors that may be in the source text (the wrong endings, unusual shortenings, etc.) to determine the source text belonging to a particular subject area, to identify the degree of semantic similarity of the source text, to form an overall assessment of the degree of similarity of texts by complex indicator. The usage of this approach will increase the conclusion’s reliability and validity on the presence of plagiarism in documents.

Keywords: analysis; anti-plagiarism; linguistic analysis; method; plagiarism; semantic analysis; service; system.

Reference: Komarnytska, O.; Komarnytska, I. Method of the semantic comparison of fuzzy information on text plagiarism [Text] // Philosophical Problems of Information Technologies and Cyberspace, 2015. № 2, vol. 10. DOI 10.17726/philIT.2015.10.2.004.89.



← Назад в выпуск