Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра

Bibliographic Details
Title: Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра
Publisher Information: Санкт-Петербургский политехнический университет Петра Великого, 2025.
Publication Year: 2025
Subject Terms: семантическое соответствие, argument extraction, semantic similarity evaluation, token classification, code review, аргументативный анализ, извлечение аргументов, argument mining, автоматизация оценивания, code-review, automated assessment, semantic correspondence, оценка смысловой близости, токен-классификация
Description: В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных.
This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume.
Document Type: Other literature type
Language: Russian
DOI: 10.18720/spbpu/3/2025/vr/vr25-4005
Accession Number: edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e
Database: OpenAIRE
FullText Text:
  Availability: 0
Header DbId: edsair
DbLabel: OpenAIRE
An: edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e
RelevancyScore: 887
AccessLevel: 3
PubType:
PubTypeId: unknown
PreciseRelevancyScore: 886.736389160156
IllustrationInfo
Items – Name: Title
  Label: Title
  Group: Ti
  Data: Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра
– Name: Publisher
  Label: Publisher Information
  Group: PubInfo
  Data: Санкт-Петербургский политехнический университет Петра Великого, 2025.
– Name: DatePubCY
  Label: Publication Year
  Group: Date
  Data: 2025
– Name: Subject
  Label: Subject Terms
  Group: Su
  Data: <searchLink fieldCode="DE" term="%22семантическое+соответствие%22">семантическое соответствие</searchLink><br /><searchLink fieldCode="DE" term="%22argument+extraction%22">argument extraction</searchLink><br /><searchLink fieldCode="DE" term="%22semantic+similarity+evaluation%22">semantic similarity evaluation</searchLink><br /><searchLink fieldCode="DE" term="%22token+classification%22">token classification</searchLink><br /><searchLink fieldCode="DE" term="%22code+review%22">code review</searchLink><br /><searchLink fieldCode="DE" term="%22аргументативный+анализ%22">аргументативный анализ</searchLink><br /><searchLink fieldCode="DE" term="%22извлечение+аргументов%22">извлечение аргументов</searchLink><br /><searchLink fieldCode="DE" term="%22argument+mining%22">argument mining</searchLink><br /><searchLink fieldCode="DE" term="%22автоматизация+оценивания%22">автоматизация оценивания</searchLink><br /><searchLink fieldCode="DE" term="%22code-review%22">code-review</searchLink><br /><searchLink fieldCode="DE" term="%22automated+assessment%22">automated assessment</searchLink><br /><searchLink fieldCode="DE" term="%22semantic+correspondence%22">semantic correspondence</searchLink><br /><searchLink fieldCode="DE" term="%22оценка+смысловой+близости%22">оценка смысловой близости</searchLink><br /><searchLink fieldCode="DE" term="%22токен-классификация%22">токен-классификация</searchLink>
– Name: Abstract
  Label: Description
  Group: Ab
  Data: В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных.<br />This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume.
– Name: TypeDocument
  Label: Document Type
  Group: TypDoc
  Data: Other literature type
– Name: Language
  Label: Language
  Group: Lang
  Data: Russian
– Name: DOI
  Label: DOI
  Group: ID
  Data: 10.18720/spbpu/3/2025/vr/vr25-4005
– Name: AN
  Label: Accession Number
  Group: ID
  Data: edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e
PLink https://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsair&AN=edsair.doi...........dc9e82a747d1ed15acf9f1489c8fdf2e
RecordInfo BibRecord:
  BibEntity:
    Identifiers:
      – Type: doi
        Value: 10.18720/spbpu/3/2025/vr/vr25-4005
    Languages:
      – Text: Russian
    Subjects:
      – SubjectFull: семантическое соответствие
        Type: general
      – SubjectFull: argument extraction
        Type: general
      – SubjectFull: semantic similarity evaluation
        Type: general
      – SubjectFull: token classification
        Type: general
      – SubjectFull: code review
        Type: general
      – SubjectFull: аргументативный анализ
        Type: general
      – SubjectFull: извлечение аргументов
        Type: general
      – SubjectFull: argument mining
        Type: general
      – SubjectFull: автоматизация оценивания
        Type: general
      – SubjectFull: code-review
        Type: general
      – SubjectFull: automated assessment
        Type: general
      – SubjectFull: semantic correspondence
        Type: general
      – SubjectFull: оценка смысловой близости
        Type: general
      – SubjectFull: токен-классификация
        Type: general
    Titles:
      – TitleFull: Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра
        Type: main
  BibRelationships:
    IsPartOfRelationships:
      – BibEntity:
          Dates:
            – D: 01
              M: 01
              Type: published
              Y: 2025
          Identifiers:
            – Type: issn-locals
              Value: edsair
ResultId 1