Preview

Электронные библиотеки

Расширенный поиск

Автоматическое аннотирование html-документов по стандарту Microdata

https://doi.org/10.26907/1562-5419-2024-27-5-730-744

Аннотация


Описана разработка на основе методов машинного обучения приложения для автоматического аннотирования веб-страниц по стандарту Microdata с возможностью расширения для других стандартов и с внедрением данных в JSX-файлы. Собраны и подготовлены датасеты для обучения моделей Machine Learning (ML). Собраны и проанализированы метрики модели ML.

Об авторах

Тимур Фердинандович Ибрагимов
Казанский (Приволжский) федеральный университет
Россия


Александр Андреевич Ференец
Казанский (Приволжский) федеральный университет
Россия


Список литературы

1. HTML5 (HyperText Markup Language). URL: https://html.spec.whatwg.org/multipage/introduction.html.

2. JSX. URL: https://www.typescriptlang.org/docs/handbook/jsx.html.

3. Microdata. URL: https://html.spec.whatwg.org/multipage/microdata.html.

4. JSON-LD. URL: https://json-ld.org.

5. Brinkmann A., Primpeli A., Bizer Ch. The Web Data Commons Schema.org Data Set Series. URL: https://www.uni-mannheim.de/media/Einrichtungen/dws/Files_Research/Web-based_Systems/pub/Brinkmann-etal-TheWDCSchemaorgDataSetSeries-WWW2023.pdf.

6. Schemas. URL: https://schema.org/docs/schemas.html.

7. RDFa. URL: https://www.w3.org/TR/html-rdfa.

8. Microformats. URL: https://microformats.org.

9. Local Business Schema Generator – MicroData & JSON-LD. URL: https://microdatagenerator.org/localbusiness-microdata-generator.

10. Structured Data Markup Helper. URL: https://www.google.com/webmasters/markup-helper/u/0.

11. Entity SEO Tools. URL: https://inlinks.com/.

12. Web-segment. URL: https://github.com/liaocyintl/web-segment.

13. Utiu N., Ionescu V.-S. Learning Web Content Extraction with DOM Features. URL: http://dx.doi.org/10.1109/ICCP.2018.8516632.

14. Peters M. E., Lecocq D. Content extraction using diverse feature sets // WWW '13 Companion: Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, May 13–17, 2013. Association for Computing Machinery, New York, NY, United States: 2013, pages 89–90.

15. Gongqing Wu, Li Li, Xuegang Hu, Xindong Wu Web news extraction via path ratios. URL: https://dl.acm.org/doi/abs/10.1145/2505515.2505558.

16. Vadrevu S., Gelgi F., Davulcu H. Semantic partitioning of web pages // Web Information Systems Engineering–WISE 2005: 6th International Conference on Web Information Systems Engineering, New York, NY, USA, November 20–22, 2005. Proceedings 6. – Springer Berlin Heidelberg, 2005. P. 107–118.

17. Extraction Results from the October 2022 Common Crawl Corpus. URL: https://webdatacommons.org/structureddata/#results-2022-1.

18. Common Crawl September/October 2022 Crawl Archive (CC-MAIN-2022-40). URL: https://data.commoncrawl.org/crawl-data/CC-MAIN-2022-40/index.html.

19. SPARQL Query Language. URL: https://www.w3.org/TR/sparql11-query.

20. BERT: https://arxiv.org/abs/1810.04805.

21. Babel. URL: https://babeljs.io/.

22. TypeScript. URL: https://www.typescriptlang.org/.


Рецензия

Для цитирования:


Ибрагимов Т.Ф., Ференец А.А. Автоматическое аннотирование html-документов по стандарту Microdata. Электронные библиотеки. 2024;27(5):730-744. https://doi.org/10.26907/1562-5419-2024-27-5-730-744

For citation:


Ibragimov T.F., Ferenets A.A. Automatic Annotation of HTML Documents using the Microdata Standard. Russian Digital Libraries Journal. 2024;27(5):730-744. (In Russ.) https://doi.org/10.26907/1562-5419-2024-27-5-730-744

Просмотров: 0


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)