Academic Journal
Семантические кластеры патентных документов и генератор наборов данных для машинного обучения
| Title: | Семантические кластеры патентных документов и генератор наборов данных для машинного обучения |
|---|---|
| Publisher Information: | ООО Цифра, 2025. |
| Publication Year: | 2025 |
| Subject Terms: | test collection, search quality assessment, collection generator, semantic cluster, машинное обучение, тестовая коллекция, патентный поиск, уровень техники, набор данных, генератор коллекций, machine learning, релевантность, dataset, patent search, relevance, семантический кластер, prior art, датасет, оценка качества поиска |
| Description: | Современные успехи в развитии методов и средств искусственного интеллекта привели и к новым попыткам создать систему автоматического поиска уровня техники в заданной предметной области. Ключом к успеху здесь является создание и обеспечение доступности наборов данных большого объема для машинного обучения. Также важным для эффективного машинного обучения является определение достаточно просто вычисляемого критерия качества автоматического поиска уровня техники в заданной предметной области.Настоящая работа посвящена комплексному решению этих двух ключевых задач на основе создания инфраструктуры для исследований в данной области. Предложенная инфраструктура включает средства для формирования и использования наборов данных семантических кластеров патентных документов двух типов — наборы данных для машинного обучения систем патентного поиска и наборы данных для тестирования и оценки качества патентного поиска уровня техники, а также программная утилита оценки качества автоматического патентного поиска.В статье рассматривается предложенная авторами концепция семантических кластеров патентных документов, определяющих уровень техники в заданной предметной области. Приведено определение таких семантических кластеров. Предложено рассматривать поиск уровня техники как задачу определения элементов семантического кластера патентных документов.Описан генератор конфигурируемых пользователем наборов данных для машинного обучения на основе коллекции патентных документов США. Генератор датасетов сначала создает базу данных ссылок на документы семантических кластеров. Затем по определенным пользователем параметрам формирует набор размеченных данных для машинного обучения.Заключительная стадия работы с генератором включает формирование тестового набора данных, предоставляемого для проведения автоматического поиска уровня техники, получение результатов поиска тестируемых систем и вычисление оценок качества поиска с использованием утилиты оценки качества поиска документов уровня техники. Modern advances in the development of methods and tools of artificial intelligence have also led to new attempts to create a system for automatic search of the state of the art in a given subject area. The key to success here is the creation and availability of large data sets for machine learning. Defining a sufficiently easy to compute quality criterion for automatic prior art search in a given subject area is also important for effective machine learning. The present work is devoted to a holistic solution to these two key problems by creating an infrastructure for research in this area. The proposed infrastructure includes tools for generating and using datasets of semantic clusters of patent documents of two types — datasets for machine learning of patent search systems and datasets for testing and evaluating the quality of prior art patent search, as well as a software utility for evaluating the quality of automatic patent search.The article examines the concept of semantic clusters of patent documents defining the state of the art in a given subject area, proposed by the authors. The definition of such semantic clusters is presented. It is suggested to regard the search for the prior art as a task of determining the elements of the semantic cluster of patent documents.A generator of user-configurable datasets for machine learning based on a collection of US patent documents is described. The dataset generator first creates a database of semantic cluster document references. Then, based on user-defined parameters, it generates a set of marked-up datasets for machine learning.The final stage of the generator operation involves forming a test dataset provided for performing automated prior art searches, obtaining search results for the systems under test, and calculating search quality scores using a prior art document search quality score utility. Международный научно-исследовательский журнал, Выпуск 7 (157) 2025 |
| Document Type: | Article |
| Language: | Russian |
| DOI: | 10.60797/irj.2025.157.2 |
| Rights: | CC BY |
| Accession Number: | edsair.doi...........c90983ee6ed7c9ef8ccf36efad6fc92a |
| Database: | OpenAIRE |
| DOI: | 10.60797/irj.2025.157.2 |
|---|