Идентификация авторов в рамках предметной области в семантической библиотеке
https://doi.org/10.26907/1562-5419-2021-24-2-198-217
Аннотация
Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.
Список литературы
1. Krämer T., Momeni F., Mayr P. Coverage of Author Identifiers in Web of Science and Scopus. – arXiv preprint arXiv:1703.01319, 2017 – arxiv.org.
2. Clement T.P. Authorship Matrix: A Rational Approach to Quantify Individual Contributions and Responsibilities in Multi-Author Scientific Articles // Science and Engineering Ethics. 2014. V. 20. P. 345–361.
3. https://doi.org/10.1007/s11948-013-9454-3.
4. Frische S. It is time for full disclosure of author contributions// Nature. 2012. P. 489.
5. URL: http://www.nature.com/news/it-is-time-for-full-disclosure-of-author-contributions-1.11475.3.
6. Cozzarelli N.R. Responsible authorship of papers in PNAS // Proceedings of the National Academy of Sciences of the United States of America. 2004. V. 101, No. 29. P. 10495.
7. URL: http://www.loc.gov/marc/marcdocz.html.
8. Шрейдер Ю.А. Тезаурусы в информатике и теоретической семантике // Научно-техническая информация. Сер. 2. 1971. № З. С. 21–24.
9. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2000. 384 с.
10. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во МГУ, 2011. 495 с.
11. Муромский А.А., Тучкова Н.П. Об онтологии адресата в математической предметной области // Электронные библиотеки. 2018. Т. 21, № 6. С. 506–533.
12. Борисов Л.А., Орлов Ю.Н., Осминин К.П. Идентификация автора текста по распределению частот буквосочетаний // Препринты ИПМ им. М.В. Келдыша. 2013. № 27. 26 с.
13. URL: http://library.keldysh.ru/preprint.asp?id=2013-27.
14. URL: http://neon.niederlandistik.fu-berlin.de/textstat/.
15. Mohsen A.M., El-Makky N.M., Ghanem N. Author Identification Using Deep Learning, 2016 15th IEEE International Conference on Machine Learning and Applications (ICMLA), Anaheim, CA, 2016. P. 898–903.
16. URL: https://doi.org/10.1109/ICMLA.2016.0161.
17. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. 2011.
18. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // Proceedings of Workshop at ICLR, 2013.
19. Mikolov T., Yih W.T., Zweig C. Linguistic Regularities in Continuous Space Word Representations // Proceedings of NAACL HLT, 2013.
20. Le Q., Mikolov T. Distributed Representations of Sentences and Documents // International Conference on Machine Learning, 2014. P. 1188–1196.
21. Strange K. Authorship: Why not just toss a coin? // American Journal of Physiology-Cell Physiology. 2008. V. 295, No. 3. P. 567–575. URL: https://doi.org/10.1152/ajpcell.00208.2008.
22. Meli D.B. Equivalence and Priority: Newton versus Leibniz: Including Leibniz's Unpublished Manuscripts on the Principia. Clarendon Press, 1993. P. 318.
Рецензия
Для цитирования:
Атаева О.М., Серебряков В.А., Тучкова Н.П. Идентификация авторов в рамках предметной области в семантической библиотеке. Электронные библиотеки. 2021;24(2):198-217. https://doi.org/10.26907/1562-5419-2021-24-2-198-217
For citation:
Ataeva O.M., Serebriakov V.A., Tuchkova N.P. Authors Identification within the Subject Area in the Semantic Library . Russian Digital Libraries Journal. 2021;24(2):198-217. (In Russ.) https://doi.org/10.26907/1562-5419-2021-24-2-198-217