Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра
| Title: | Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра |
|---|---|
| Publisher Information: | Санкт-Петербургский политехнический университет Петра Великого, 2025. |
| Publication Year: | 2025 |
| Subject Terms: | семантическое соответствие, argument extraction, semantic similarity evaluation, token classification, code review, аргументативный анализ, извлечение аргументов, argument mining, автоматизация оценивания, code-review, automated assessment, semantic correspondence, оценка смысловой близости, токен-классификация |
| Description: | В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных. This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume. |
| Document Type: | Other literature type |
| Language: | Russian |
| DOI: | 10.18720/spbpu/3/2025/vr/vr25-4005 |
| Accession Number: | edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e |
| Database: | OpenAIRE |
| FullText | Text: Availability: 0 |
|---|---|
| Header | DbId: edsair DbLabel: OpenAIRE An: edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e RelevancyScore: 887 AccessLevel: 3 PubType: PubTypeId: unknown PreciseRelevancyScore: 886.736389160156 |
| IllustrationInfo | |
| Items | – Name: Title Label: Title Group: Ti Data: Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра – Name: Publisher Label: Publisher Information Group: PubInfo Data: Санкт-Петербургский политехнический университет Петра Великого, 2025. – Name: DatePubCY Label: Publication Year Group: Date Data: 2025 – Name: Subject Label: Subject Terms Group: Su Data: <searchLink fieldCode="DE" term="%22семантическое+соответствие%22">семантическое соответствие</searchLink><br /><searchLink fieldCode="DE" term="%22argument+extraction%22">argument extraction</searchLink><br /><searchLink fieldCode="DE" term="%22semantic+similarity+evaluation%22">semantic similarity evaluation</searchLink><br /><searchLink fieldCode="DE" term="%22token+classification%22">token classification</searchLink><br /><searchLink fieldCode="DE" term="%22code+review%22">code review</searchLink><br /><searchLink fieldCode="DE" term="%22аргументативный+анализ%22">аргументативный анализ</searchLink><br /><searchLink fieldCode="DE" term="%22извлечение+аргументов%22">извлечение аргументов</searchLink><br /><searchLink fieldCode="DE" term="%22argument+mining%22">argument mining</searchLink><br /><searchLink fieldCode="DE" term="%22автоматизация+оценивания%22">автоматизация оценивания</searchLink><br /><searchLink fieldCode="DE" term="%22code-review%22">code-review</searchLink><br /><searchLink fieldCode="DE" term="%22automated+assessment%22">automated assessment</searchLink><br /><searchLink fieldCode="DE" term="%22semantic+correspondence%22">semantic correspondence</searchLink><br /><searchLink fieldCode="DE" term="%22оценка+смысловой+близости%22">оценка смысловой близости</searchLink><br /><searchLink fieldCode="DE" term="%22токен-классификация%22">токен-классификация</searchLink> – Name: Abstract Label: Description Group: Ab Data: В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных.<br />This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume. – Name: TypeDocument Label: Document Type Group: TypDoc Data: Other literature type – Name: Language Label: Language Group: Lang Data: Russian – Name: DOI Label: DOI Group: ID Data: 10.18720/spbpu/3/2025/vr/vr25-4005 – Name: AN Label: Accession Number Group: ID Data: edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e |
| PLink | https://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsair&AN=edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e |
| RecordInfo | BibRecord: BibEntity: Identifiers: – Type: doi Value: 10.18720/spbpu/3/2025/vr/vr25-4005 Languages: – Text: Russian Subjects: – SubjectFull: семантическое соответствие Type: general – SubjectFull: argument extraction Type: general – SubjectFull: semantic similarity evaluation Type: general – SubjectFull: token classification Type: general – SubjectFull: code review Type: general – SubjectFull: аргументативный анализ Type: general – SubjectFull: извлечение аргументов Type: general – SubjectFull: argument mining Type: general – SubjectFull: автоматизация оценивания Type: general – SubjectFull: code-review Type: general – SubjectFull: automated assessment Type: general – SubjectFull: semantic correspondence Type: general – SubjectFull: оценка смысловой близости Type: general – SubjectFull: токен-классификация Type: general Titles: – TitleFull: Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра Type: main BibRelationships: IsPartOfRelationships: – BibEntity: Dates: – D: 01 M: 01 Type: published Y: 2025 Identifiers: – Type: issn-locals Value: edsair |
| ResultId | 1 |