Preview

Электронные библиотеки

Расширенный поиск

Идентификация авторов в рамках предметной области в семантической библиотеке

https://doi.org/10.26907/1562-5419-2021-24-2-198-217

Аннотация


Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Об авторах

О. М. Атаева

Россия


В. А. Серебряков

Россия


Н. П. Тучкова

Россия


Список литературы

1. Krämer T., Momeni F., Mayr P. Coverage of Author Identifiers in Web of Science and Scopus. – arXiv preprint arXiv:1703.01319, 2017 – arxiv.org.

2. Clement T.P. Authorship Matrix: A Rational Approach to Quantify Individual Contributions and Responsibilities in Multi-Author Scientific Articles // Science and Engineering Ethics. 2014. V. 20. P. 345–361.

3. https://doi.org/10.1007/s11948-013-9454-3.

4. Frische S. It is time for full disclosure of author contributions// Nature. 2012. P. 489.

5. URL: http://www.nature.com/news/it-is-time-for-full-disclosure-of-author-contributions-1.11475.3.

6. Cozzarelli N.R. Responsible authorship of papers in PNAS // Proceedings of the National Academy of Sciences of the United States of America. 2004. V. 101, No. 29. P. 10495.

7. URL: http://www.loc.gov/marc/marcdocz.html.

8. Шрейдер Ю.А. Тезаурусы в информатике и теоретической семантике // Научно-техническая информация. Сер. 2. 1971. № З. С. 21–24.

9. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2000. 384 с.

10. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во МГУ, 2011. 495 с.

11. Муромский А.А., Тучкова Н.П. Об онтологии адресата в математической предметной области // Электронные библиотеки. 2018. Т. 21, № 6. С. 506–533.

12. Борисов Л.А., Орлов Ю.Н., Осминин К.П. Идентификация автора текста по распределению частот буквосочетаний // Препринты ИПМ им. М.В. Келдыша. 2013. № 27. 26 с.

13. URL: http://library.keldysh.ru/preprint.asp?id=2013-27.

14. URL: http://neon.niederlandistik.fu-berlin.de/textstat/.

15. Mohsen A.M., El-Makky N.M., Ghanem N. Author Identification Using Deep Learning, 2016 15th IEEE International Conference on Machine Learning and Applications (ICMLA), Anaheim, CA, 2016. P. 898–903.

16. URL: https://doi.org/10.1109/ICMLA.2016.0161.

17. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. 2011.

18. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // Proceedings of Workshop at ICLR, 2013.

19. Mikolov T., Yih W.T., Zweig C. Linguistic Regularities in Continuous Space Word Representations // Proceedings of NAACL HLT, 2013.

20. Le Q., Mikolov T. Distributed Representations of Sentences and Documents // International Conference on Machine Learning, 2014. P. 1188–1196.

21. Strange K. Authorship: Why not just toss a coin? // American Journal of Physiology-Cell Physiology. 2008. V. 295, No. 3. P. 567–575. URL: https://doi.org/10.1152/ajpcell.00208.2008.

22. Meli D.B. Equivalence and Priority: Newton versus Leibniz: Including Leibniz's Unpublished Manuscripts on the Principia. Clarendon Press, 1993. P. 318.


Рецензия

Для цитирования:


Атаева О.М., Серебряков В.А., Тучкова Н.П. Идентификация авторов в рамках предметной области в семантической библиотеке. Электронные библиотеки. 2021;24(2):198-217. https://doi.org/10.26907/1562-5419-2021-24-2-198-217

For citation:


Ataeva O.M., Serebriakov V.A., Tuchkova N.P. Authors Identification within the Subject Area in the Semantic Library . Russian Digital Libraries Journal. 2021;24(2):198-217. (In Russ.) https://doi.org/10.26907/1562-5419-2021-24-2-198-217

Просмотров: 17


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)