Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

О. Ю. Бахтеев; М. В. Кузнецова; А. В. Романов; Ю. В. Чехович

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

О. Ю. Бахтеев, М. В. Кузнецова, А. В. Романов, Ю. В. Чехович

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.

Ключевые слова

обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов

Об авторах

О. Ю. Бахтеев

Компания «Антиплагиат» (115093
Россия

М. В. Кузнецова

Компания «Антиплагиат» (115093
Россия

А. В. Романов

Компания «Антиплагиат» (115093
Россия

Ю. В. Чехович

Компания «Антиплагиат» (115093
Россия

Список литературы

1. Arase Y., Zhou M. Machine Translation Detection from Monolingual Web-Text // ACL (1). 2013. P. 1597–1607.

2. Labbé C., Labbé D. Duplicate and fake publications in the scientific literature: how many SCIgen papers in computer science? //Scientometrics. 2013. V. 94, No 1. P. 379–396.

3. Van Noorden R. Publishers withdraw more than 120 gibberish papers //Nature. 2014. V. 24.

4. Гречников Е. А. и др. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. С. 306–308.

Рецензия

Для цитирования:

Бахтеев О.Ю., Кузнецова М.В., Романов А.В., Чехович Ю.В. Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов. Электронные библиотеки. 2017;20(5):298-304.

For citation:

, , , A method for detecting artificial and non-scientific texts in the collection of documents. Russian Digital Libraries Journal. 2017;20(5):298-304. (In Russ.)

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1562-5419 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Электронные библиотеки

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов