Разработка cистемы поиска и индексирования контента аудиозаписей
https://doi.org/10.26907/1562-5419-2023-26-4-483-497
Аннотация
Статья посвящена разработке системы поиска и индексации аудиофайлов с использованием автоматического распознавания речи (ASR) и Elasticsearch. Проанализированы актуальные системы транскрибирования аудиофайлов на русском языке и выбрана система whisper как лучшая. Создан алгоритм оптимизации скорости транскрибирования с помощью параллелизации процессов обработки файла, продемонстрирована его эффективность. Построена система на микросервисной архитектуре, способная индексировать контент аудиофайлов и их мета-данные для поиска. Результаты исследования показали, что предложенный подход может быть применен для создания эффективных и гибких систем поиска и аналитики аудиоинформации.
Об авторах
Р. А. КлимовРоссия
А. Ш. Якупов
Россия
Список литературы
1. AWS Kendra Transcribe Media Search. URL: https://github.com/aws-samples/aws-kendra-transcribe-media-search
2. Noor J., Rownak A., Ratul R., Mondal J. Sherlok in OSS: A Novel Approach of Content-Based Searching on Object Storage System. 2023. URL: https://arxiv.org/pdf/2303.02105.pdf.
3. Swift Object Storage. URL: https://www.openstack.org/software/releases/zed/components/swift
4. Adrakatti A., Mulia K.R. Research Challenges of Library and Information Science in retrieving content based Multimedia Information. 2023. URL:https://www.researchgate.net/publication/361107734_Research_Challenges_of_Library_and_Information_Science_in_retrieving_content_based_Multimedia_Information.
5. Google Speech. URL: https://console.cloud.google.com/speech/overview.
6. Vosk. URL: https://github.com/alphacep/vosk.
7. Yandex SpeechKit. URL: https://cloud.yandex.com/en/services/speechkit.
8. Whisper. URL: https://github.com/openai/whisper.
9. Подопригорова Н. С., Подопригорова С. С., Кан А. Д. Автоматическое распознавание речи в системе информационного поиска по аудио // Искусственный интеллект в автоматизированных системах управления и обработки данных, Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет). 2022. Т. 2. С. 339–345.
10. Morris A., Maier V., Green P. From WER and RIL to MER and WIL. 2004. URL:https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2004/i04_2765.pdf.
11. JiWER: A Simple and Fast Python Package to Evaluate an Automatic Speech Recognition System. URL: https://github.com/jitsi/jiwer
12. Whisper.cpp. URL: https://github.com/ggerganov/whisper.cpp
13. Faster-whisper. URL: https://github.com/guillaumekln/faster-whisper
14. CTranslate2. URL: https://github.com/OpenNMT/CTranslate2/
15. Prompt vs prefix in DecodingOptions. URL: https://github.com/openai/whisper/discussions/117
16. FFmpeg. URL: https://ffmpeg.org/
17. ElasticSearch. URL: https://www.elastic.co/
18. ElasticSearch More like this query URL: https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-mlt-query.html
Рецензия
Для цитирования:
Климов Р.А., Якупов А.Ш. Разработка cистемы поиска и индексирования контента аудиозаписей. Электронные библиотеки. 2023;26(4):483-497. https://doi.org/10.26907/1562-5419-2023-26-4-483-497
For citation:
Klimov R.A., Yakupov A.S. Development of a System for Searching and Indexing the Content of Audio Recordings. Russian Digital Libraries Journal. 2023;26(4):483-497. (In Russ.) https://doi.org/10.26907/1562-5419-2023-26-4-483-497