Preview

Электронные библиотеки

Расширенный поиск

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Аннотация

Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.

Об авторах

О. Ю. Бахтеев
Компания «Антиплагиат» (115093
Россия


М. В. Кузнецова
Компания «Антиплагиат» (115093
Россия


А. В. Романов
Компания «Антиплагиат» (115093
Россия


Ю. В. Чехович
Компания «Антиплагиат» (115093
Россия


Список литературы

1. Arase Y., Zhou M. Machine Translation Detection from Monolingual Web-Text // ACL (1). 2013. P. 1597–1607.

2. Labbé C., Labbé D. Duplicate and fake publications in the scientific literature: how many SCIgen papers in computer science? //Scientometrics. 2013. V. 94, No 1. P. 379–396.

3. Van Noorden R. Publishers withdraw more than 120 gibberish papers //Nature. 2014. V. 24.

4. Гречников Е. А. и др. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. С. 306–308.


Рецензия

Для цитирования:


Бахтеев О.Ю., Кузнецова М.В., Романов А.В., Чехович Ю.В. Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов. Электронные библиотеки. 2017;20(5):298-304.

For citation:


 ,  ,  ,   A method for detecting artificial and non-scientific texts in the collection of documents. Russian Digital Libraries Journal. 2017;20(5):298-304. (In Russ.)

Просмотров: 32


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)