Academic Journal

METHOD OF PARALLEL HYBRID SEARCH FOR LARGE-SCALE CODE REPOSITORIES

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος: METHOD OF PARALLEL HYBRID SEARCH FOR LARGE-SCALE CODE REPOSITORIES
Πηγή: Radio Electronics, Computer Science, Control; No. 3 (2025): Radio Electronics, Computer Science, Control; 52-63
Радиоэлектроника, информатика, управление; № 3 (2025): Радиоэлектроника, информатика, управление; 52-63
Радіоелектроніка, iнформатика, управління; № 3 (2025): Радіоелектроніка, інформатика, управління; 52-63
Στοιχεία εκδότη: National University "Zaporizhzhia Polytechnic", 2025.
Έτος έκδοσης: 2025
Θεματικοί όροι: семантичні вбудовування, метадані, гібридний пошук коду, сумаризація коду, code summarization, hybrid code search, пошук класів та методів, косинусна схожість, class-based indexing, текстова релевантність, векторний пошук, semantic embeddings, cosine similarity, vector search, LLM-generated metadata, textual relevance, class and method retrieval, згенеровані LLM, індексування на основі класів, інженерія програмного забезпечення, software engineering
Περιγραφή: Актуальність. Сучасні програмні системи містять великі кодові бази, що робить пошук коду критично важливим завданням для розробників програмного забезпечення. Традиційні методи пошуку коду спираються на співставлення за ключовими словами або структурний аналіз, але часто не здатні відобразити семантичний зміст запитів користувачів або мають проблеми з неструктурованим та непослідовно задокументованим кодом. Останнім часом семантичний векторний пошук і великі мовні моделі (LLM) показали перспективи в покращенні розуміння коду. Проблема полягає в розробці масштабованого, точного та гібридного методу пошуку коду, здатного знаходити відповідні фрагменти коду на основі як текстових запитів, так і семантичного контексту, при цьому підтримуючи паралельну обробку та пошуку на основі метаданих.Мета роботи – розробка гібридного методу семантичного пошуку коду шляхом комбінування фільтрації за ключовими словами та пошуку на основі вбудованих представлень, доповненого сумаризацією та семантичними тегами, згенерованими за допомогою LLM для підвищення точності та ефективності пошуку відповідних елементів коду у великих кодових репозиторіях.Метод. Для досягнення мети дослідження розроблено метод пошуку з двома шляхами з пост-обробкою, де пошук за текстовими ключовими словами та пошук на основі вбудовуваних семантичних представлень виконуються паралельно. Блоки коду попередньо обробляються за допомогою GPT-4o моделі для генерування сумаризації та семантичних тегів.Результати. Метод реалізовано та перевірено на кодовій базі .NET, що продемонструвало покращену точність при знаходженні семантично релевантних методів. Комбінація паралельних шляхів пошуку та метаданих, згенерованих LLM, покращила якість результатів. Для підвищення релевантності було застосовано LLM-постобробку яка виконується над найбільш релевантними результатами, що дозволяє точніше локалізувати потрібні рядки коду в межах знайдених фрагментів. Інші результати можуть бути оброблені на вимогу користувача.Висновки. Експериментальні результати підтвердили працездатність та практичну застосовність запропонованої гібридної системи пошуку коду. Модульна архітектура системи підтримує робочі процеси розробників в реальному часі, а її розширюваність дозволяє впроваджувати майбутні покращення через активне навчання та зворотний зв’язок від користувачів. Подальші дослідження можуть бути спрямовані на оптимізацію стратегій вибору вбудованих представлень, інтеграцію автоматичного переформатування запитів та масштабування у багатомовних кодових середовищах
Актуальність. Сучасні програмні системи містять великі кодові бази, що робить пошук коду критично важливим завданням для розробників програмного забезпечення. Традиційні методи пошуку коду спираються на співставлення за ключовими словами або структурний аналіз, але часто не здатні відобразити семантичний зміст запитів користувачів або мають проблеми з неструктурованим та непослідовно задокументованим кодом. Останнім часом семантичний векторний пошук і великі мовні моделі (LLM) показали перспективи в покращенні розуміння коду. Проблема полягає в розробці масштабованого, точного та гібридного методу пошуку коду, здатного знаходити відповідні фрагменти коду на основі як текстових запитів, так і семантичного контексту, при цьому підтримуючи паралельну обробку та пошуку на основі метаданих.Мета роботи – розробка гібридного методу семантичного пошуку коду шляхом комбінування фільтрації за ключовимисловами та пошуку на основі вбудованих представлень, доповненого сумаризацією та семантичними тегами, згенерованими за допомогою LLM для підвищення точності та ефективності пошуку відповідних елементів коду у великих кодових репозиторіях.Метод. Для досягнення мети дослідження розроблено метод пошуку з двома шляхами з пост-обробкою, де пошук за текстовими ключовими словами та пошук на основі вбудовуваних семантичних представлень виконуються паралельно. Блоки коду попередньо обробляються за допомогою GPT-4o моделі для генерування сумаризації та семантичних тегів.Результати. Метод реалізовано та перевірено на кодовій базі .NET, що продемонструвало покращену точність при знаходженні семантично релевантних методів. Комбінація паралельних шляхів пошуку та метаданих, згенерованих LLM, покращила якість результатів. Для підвищення релевантності було застосовано LLM-постобробку яка виконується наднайбільш релевантними результатами, що дозволяє точніше локалізувати потрібні рядки коду в межах знайденихфрагментів. Інші результати можуть бути оброблені на вимогу користувача.Висновки. Експериментальні результати підтвердили працездатність та практичну застосовність запропонованої гібридної системи пошуку коду. Модульна архітектура системи підтримує робочі процеси розробників в реальному часі, а її розширюваність дозволяє впроваджувати майбутні покращення через активне навчання та зворотний зв’язок від користувачів. Подальші дослідження можуть бути спрямовані на оптимізацію стратегій вибору вбудованих представлень, інтеграцію автоматичного переформатування запитів та масштабування у багатомовних кодових середовищах
Context. Modern software systems contain extensive and growing codebases, making code retrieval a critical task for software engineers. Traditional code search methods rely on keyword-based matching or structural analysis but often fail to capture the semantic intent of user queries or struggle with unstructured and inconsistently documented code. Recently, semantic vector search and large language models (LLMs) have shown promise in enhancing code understanding. The problem – is designing a scalable, accurate, and hybrid code search method capable of retrieving relevant code snippets based on both textual queries and semantic context, while supporting parallel processing and metadata enrichment.Objective. The goal of the study is to develop a hybrid method for semantic code search by combining keyword-based filtering and embedding-based retrieval enhanced with LLM-generated summaries and semantic tags. The aim is to improve accuracy and efficiency in locating relevant code elements across large code repositories.Method. A two-path search method with post-processing is proposed, where textual keyword search and embedding-based semantic search are executed in parallel. Code blocks are preprocessed using GPT-4o model to generate natural-language summaries and semantic tags.Results. The method has been implemented and validated on a .NET codebase, demonstrating improved precision in retrieving semantically relevant methods. The combination of parallel search paths and LLM generated metadata enhanced both result quality and responsiveness. Additionally, LLM-post-processing was applied to the top-most relevant results, enabling more precise identification of code lines matching the query within retrieved snippets. Other results can be further refined on-demand.Conclusions. Experimental findings confirm the operability and practical applicability of the proposed hybrid code search framework. The system’s modular architecture supports real-time developer workflows, and its extensibility enables future improvements through active learning and user feedback. Further research may focus on optimizing embedding selection strategies, integrating automatic query rewriting, and scaling across polyglot code environments
Τύπος εγγράφου: Article
Περιγραφή αρχείου: application/pdf
Γλώσσα: English
ISSN: 1607-3274
2313-688X
Σύνδεσμος πρόσβασης: https://ric.zp.edu.ua/article/view/339142
Rights: CC BY SA
Αριθμός Καταχώρησης: edsair.scientific.p..fe2f2da880b6552afefc955a61b98c75
Βάση Δεδομένων: OpenAIRE