RU2667030C1 - System and method of intellectual automatic selection of perfomers of translation - Google Patents
System and method of intellectual automatic selection of perfomers of translation Download PDFInfo
- Publication number
- RU2667030C1 RU2667030C1 RU2017130676A RU2017130676A RU2667030C1 RU 2667030 C1 RU2667030 C1 RU 2667030C1 RU 2017130676 A RU2017130676 A RU 2017130676A RU 2017130676 A RU2017130676 A RU 2017130676A RU 2667030 C1 RU2667030 C1 RU 2667030C1
- Authority
- RU
- Russia
- Prior art keywords
- translation
- module
- source file
- terminology
- performers
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
ОБЛАСТЬ ИЗОБРЕТЕНИЯFIELD OF THE INVENTION
Настоящее изобретение описывает систему и метод интеллектуального автоматического выбора исполнителей перевода.The present invention describes a system and method for intelligent automatic selection of translators.
УРОВЕНЬ ТЕХНИКИBACKGROUND
Сбор и обмен информацией с любой научной, коммерческой, политической или социальной целью зачастую требует быстрого и эффективного перевода текста, чтобы множество знаний и идей стали полезны в глобальном масштабе. Компьютерные программы, которые переводят автоматически с одного языка на другой ("программы машинного перевода"), в принципе могут удовлетворить данную потребность, и такие программы были разработаны и продолжают разрабатываться для множества языков. Для формального стиля изложения на глубоко исследованных языках (в отличие от неформального, идиоматического или разговорного стиля), такие программы машинного перевода демонстрируют достаточно адекватное качество перевода. Для менее формального стиля изложения качество машинного перевода по-прежнему остается недостаточным для полноценного понимания смысла текстов. Для более трудных или менее исследованных языков (например, арабского языка), существующие программы машинного перевода не работают хорошо даже для формального общения (например, Современного Стандартного Арабского языка), и они особенно слабы в случае неформального, разговорного и идиоматического общения.The collection and exchange of information for any scientific, commercial, political or social purpose often requires a quick and effective translation of the text so that a lot of knowledge and ideas become useful on a global scale. Computer programs that automatically translate from one language to another ("machine translation programs") can, in principle, satisfy this need, and such programs have been developed and continue to be developed for many languages. For a formal presentation style in deeply studied languages (as opposed to an informal, idiomatic or colloquial style), such machine translation programs demonstrate a fairly adequate translation quality. For a less formal presentation style, the quality of machine translation is still insufficient for a full understanding of the meaning of the texts. For more difficult or less studied languages (e.g., Arabic), existing machine translation programs do not work well even for formal communication (e.g., Modern Standard Arabic), and they are especially weak in the case of informal, conversational, and idiomatic communication.
Аналогично, там, где требуется качественный точный перевод, машинного перевода самого по себе становится недостаточно даже для хорошо исследованных языков (например, английского, французского, испанского, немецкого и других языков).Similarly, where high-quality accurate translation is required, machine translation alone is not enough even for well-studied languages (for example, English, French, Spanish, German and other languages).
Профессиональные переводчики способны обеспечивать качественные переводы для трудных языков и неформальных коммуникаций, но Интернет-приложения требуют постоянной доступности и оперативного реагирования, что не может быть гарантировано в случае использования существующих подходов к организации работы профессиональных переводчиков. Из уровня техники известна заявка US 2015/0120273 (A1) «NETWORKED LANGUAGE TRANSLATION SYSTEM AND METHOD», опубл. 30.04.2015. В данной заявке описывается технология автоматизированной работы переводчиков в распределенной системе, в которой осуществляют перевод исходного файла множеством переводчиков, подключенных к облачному серверу, также описан лексический, морфологический и синтаксический анализ логических сегментов, на которые разбивают исходный файл, и используют память переводов (translation memory) и модуль глоссариев для хранения терминов перевода.Professional translators are able to provide high-quality translations for difficult languages and informal communications, but Internet applications require constant availability and prompt response, which cannot be guaranteed if existing approaches to organizing the work of professional translators are used. The prior art application US 2015/0120273 (A1) "NETWORKED LANGUAGE TRANSLATION SYSTEM AND METHOD", publ. 04/30/2015. This application describes the technology of automated work of translators in a distributed system, in which the source file is translated by many translators connected to the cloud server, the lexical, morphological and syntactic analysis of logical segments into which the source file is divided is described, and translation memory is used (translation memory ) and a glossary module for storing translation terms.
Существенным недостатком данного технического решения является то, что в нем не обеспечивается возможность полностью автоматического подбора исполнителей для перевода.A significant drawback of this technical solution is that it does not provide the possibility of fully automatic selection of performers for translation.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Данное техническое решение направлено на устранение недостатков, присущих существующим решениям из уровня техники. Данное техническое решение направлено на расширение арсенала технических средств определенного назначения, в нашем случае - расширение арсенала технических средств интеллектуального автоматического выбора исполнителей перевода, а в качестве технического результата, достигаемого заявленным решением, может быть реализация заявленным изобретением указанного назначения, а именно, реализация интеллектуального автоматического выбора исполнителей перевода.This technical solution is aimed at eliminating the disadvantages inherent in existing solutions from the prior art. This technical solution is aimed at expanding the arsenal of technical means of a specific purpose, in our case, expanding the arsenal of technical means of intelligent automatic selection of translators, and as a technical result achieved by the claimed solution, the claimed invention may implement the specified purpose, namely, the implementation of intelligent automatic selection of translators.
Данный технический результат достигается благодаря системе интеллектуального автоматического выбора исполнителей перевода, состоящая из:This technical result is achieved thanks to a system of intelligent automatic selection of translators, consisting of:
облачного сетевого сервера, обеспечивающего доступ для множества исполнителей и множества заказчиков перевода, подключающихся к серверу посредством сети Интернет;a cloud network server that provides access for many performers and many translation customers connecting to the server via the Internet;
пользовательского интерфейса, позволяющего множеству заказчиков перевода загружать исходные файлы на перевод в систему интеллектуального автоматического выбора исполнителей перевода и получать информацию о предлагаемых исполнителях перевода;a user interface that allows many translation customers to upload source files for translation into the system of intelligent automatic selection of translation performers and receive information about proposed translation performers;
базы памяти переводов, хранящей переведенные ранее тексты всех исполнителей в системе с выделенными в этих текстах ключевыми терминами; общего модуля глоссариев, выполненного в виде пронумерованных кластеров, в каждом из которых находятся выделенные в переведенных текстах ключевые термины, схожие по смыслу и, соответственно, близкие по тематике, при этом каждому термину присваивается номер кластера, которому он принадлежит;translation memory database storing previously translated texts of all artists in the system with key terms highlighted in these texts; the general glossary module, made in the form of numbered clusters, each of which contains key terms highlighted in the translated texts that are similar in meaning and, accordingly, related to the topic, with each term being assigned the cluster number to which it belongs;
индивидуальных модулей глоссариев для каждого исполнителя перевода, с указанием конкретной тематики в какой работает тот или иной исполнитель; модуля автоматического сопоставления терминологии переводимых исполнителями ранее текстов с терминологией исходного файла на перевод, при этом для терминов, выделенных из исходного файла на перевод, вычисляется, сколько раз каждый термин встретился в нем, таким образом, вычисляется терминологический вектор частот;individual glossary modules for each translator, indicating the specific topic in which one or another artist works; a module for automatically matching the terminology of texts previously translated by the performers with the terminology of the source file for translation, while for terms extracted from the source file for translation, it is calculated how many times each term appears in it, thus, the terminological frequency vector is calculated;
модуля расчета для каждого исполнителя перевода числовой характеристики близости терминологии исходного файла и терминологии исполнителя перевода и, выполняющего ранжирование по этой числовой характеристике исполнителей перевода;a calculation module for each translation executor of a numerical characteristic of the closeness of the terminology of the source file and the terminology of the translation executor and ranking the translation executors by this numerical characteristic;
модуля автоматической оценки и прогноза качества перевода исходного файла исполнителями перевода с учетом тематики документа;a module for automatic assessment and forecast of the quality of the translation of the source file by the translators, taking into account the subject of the document;
модуля автоматического расчета скорости работы каждого исполнителя, выполняющего расчет количества переводимых слов в час; модуля автоматического ведения календаря работы исполнителей перевода, позволяющего в режиме реального времени анализировать доступность исполнителя перевода для работы, учитывать фактор его занятости при поиске исполнителя перевода;a module for automatically calculating the speed of each artist performing the calculation of the number of words translated per hour; a module for automatically maintaining the calendar of work of translation artists, which allows real-time analysis of the availability of a translation artist for work, taking into account the factor of its employment when searching for a translation artist;
модуль автоматического расчета стоимости перевода исходного файла и подбор исполнителей с учетом, указанной ими ставки в профиле;a module for automatically calculating the cost of translating the source file and selecting artists based on the rate specified by them in the profile;
модуля автоматической оптимизации выбора наиболее подходящих исполнителей перевода на основе перечисленных выше критериев.module for automatic optimization of the selection of the most suitable translators based on the above criteria.
Данный технический результат достигается так же благодаря способу интеллектуального автоматического выбора исполнителей перевода, состоящий из следующих этапов:This technical result is also achieved thanks to the method of intelligent automatic selection of translators, consisting of the following steps:
получение запроса на перевод исходного файла в распределенной сетевой системе;receiving a request to translate the source file in a distributed network system;
выделение ключевой терминологии из исходного файла;extraction of key terminology from the source file;
поиск сходной терминологии в общем глоссарии, состоящем в виде пронумерованных кластеров, в каждом из которых находятся выделенные в переведенных текстах ключевые термины, схожие по смыслу и, соответственно, близкие по тематике, при этом каждому термину присваивается номер кластера, которому он принадлежит; иsearch for similar terminology in the general glossary, consisting of numbered clusters, each of which contains key terms highlighted in the translated texts that are similar in meaning and, accordingly, related in topic, with each term being assigned the cluster number to which it belongs; and
поиск сходной терминологии в индивидуальных глоссариях каждого переводчика, в которых указано в какой конкретно тематике работает тот или иной исполнитель;search for similar terminology in the individual glossaries of each translator, which indicate in which specific topic a particular artist works;
сопоставление терминологии исполнителей с терминологией исходного файла на перевод, при этом для терминов, выделенных из исходного файла на перевод, вычисляется, сколько раз каждый термин встретился в нем, таким образом, вычисляется терминологический вектор частот; на основе этого сопоставления осуществление отбора исполнителей, работающих в тематике исходного файла;comparing the terminology of the performers with the terminology of the source file for translation, while for terms extracted from the source file for translation, it is calculated how many times each term appears in it, thus, the terminological vector of frequencies is calculated; based on this comparison, the selection of artists working in the subject of the source file;
автоматического анализа качества ранее переведенных текстов отобранных исполнителей;automatic analysis of the quality of previously translated texts of selected artists;
автоматический расчет скорости работы каждого отобранного исполнителя;automatic calculation of the speed of each selected artist;
анализ в режиме реального времени доступности отобранных для перевода исполнителей;real-time analysis of the availability of selected artists for translation;
автоматический расчет стоимости перевода исходного файла у каждого отобранного исполнителя; иautomatic calculation of the cost of translating the source file for each selected artist; and
на основе указанных выше этапов осуществление автоматического выбора наиболее подходящих исполнителей перевода.based on the above steps, the automatic selection of the most suitable translators.
В некоторых вариантах осуществления технического решения дополнительно осуществляют отбор исполнителей по языковой паре.In some embodiments, the implementation of the technical solution additionally carry out the selection of performers for a language pair.
В некоторых вариантах осуществления технического решения система дополнительно содержит модуль синтаксической, морфологической и лингвистической фильтрация текста.In some embodiments of the technical solution, the system further comprises a module for syntactic, morphological and linguistic text filtering.
В некоторых вариантах осуществления технического решения глоссарии пополняются новыми терминами в ходе работы исполнителей по мере накопления ими новых переведенных текстов.In some embodiments of the technical solution, the glossaries are replenished with new terms during the work of the performers as they accumulate new translated texts.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The implementation of the invention will be described hereinafter in accordance with the accompanying drawings, which are presented to illustrate the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:
Фиг. 1 - изображает поиск исполнителей, работающих в тематике исходного документа на перевод;FIG. 1 - depicts the search for artists working in the subject of the source document for translation;
Фиг. 2 - изображает задачу подбора близких по тематике текстов для учета специфики задач перевода;FIG. 2 - depicts the task of selecting related texts on the subject to take into account the specifics of translation tasks;
Фиг. 3 - отображает построение математических моделей построения оценки и прогнозирования качества переводов;FIG. 3 - displays the construction of mathematical models for constructing estimates and forecasting the quality of translations;
Фиг. 4 - отображает автоматический подбор исполнителей перевода соответствующих заданным критериям.FIG. 4 - displays the automatic selection of translators matching the specified criteria.
Фиг. 5 - представлен общий вид системы интеллектуального автоматического выбора исполнителей перевода, реализующей заявленный способ.FIG. 5 - presents a General view of the system of intelligent automatic selection of translators that implements the claimed method.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
Перевод - это интеллектуальная деятельность, требующая высокой квалификации исполнителей, для ее качественного выполнения переводчику необходимо понять текст на языке оригинала и суметь его адекватно сформулировать на языке перевода в соответствии с нормами языка перевода. В практике реальной работы это означает, что переводчики - это крайне неоднородный ресурс, например, переводчик, выполняющий качественные литературные переводы, скорее всего, не сможет выполнить перевод технического или медицинского текста.Translation is an intellectual activity that requires highly qualified performers, for its high-quality implementation, the translator needs to understand the text in the original language and be able to adequately formulate it in the target language in accordance with the norms of the target language. In the practice of real work, this means that translators are an extremely heterogeneous resource, for example, a translator who performs high-quality literary translations is most likely not able to translate a technical or medical text.
Подбор исполнителей и организация работы над проектом перевода является актуальнейшим вопросом на рынке лингвистических услуг. По всем же возможным тематикам и языковым парам оценить перевод не сможет ни один сотрудник компании.The selection of performers and the organization of work on the translation project is a topical issue in the linguistic services market. For all possible topics and language pairs, not a single employee of the company will be able to evaluate the translation.
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения. Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, to a person skilled in the art, it will be apparent how the present invention can be used, both with and without implementation details. In other instances, well-known methods, procedures, and components have not been described in detail so as not to obscure the understanding of the features of the present invention. In addition, from the foregoing it will be clear that the invention is not limited to the above implementation. Numerous possible modifications, changes, variations and replacements preserving the essence and form of the present invention will be apparent to those skilled in the subject field.
Настоящее изобретение направлено на обеспечение системы и метода интеллектуального автоматического выбора исполнителей перевода. Заявленные система и метод интеллектуального автоматического выбора исполнителей перевода используют облачный сетевой сервер и распределенную сетевую систему языкового перевода - это распределенная сеть профессиональных переводчиков и инструментов для профессионального перевода (память переводов, системы машинного перевода и др.), которые взаимодействуют через программные и пользовательские интерфейсы системы и выполняют совместно в режиме реального времени перевод текстов, для которых недостаточно применения исключительно машинного перевода или традиционно организованного профессионального перевода, включая перевод динамических коммуникаций и других текстов создаваемых в различных информационных средах.The present invention is directed to providing a system and method for intelligent automatic selection of translators. The claimed system and method of intelligent automatic selection of translators use a cloud network server and a distributed network language translation system - this is a distributed network of professional translators and professional translation tools (translation memory, machine translation systems, etc.) that interact through the program and user interfaces of the system and together they perform real-time translation of texts for which the use of exclusively typewriter is not enough translation or traditionally organized professional translation, including translation of dynamic communications and other texts created in various information environments.
Распределенная сетевая система языкового перевода обеспечивает инструментарий для агрегирования ресурсов большого числа переводчиков, с разными режимами доступности, с различными профессиональными навыками, как профессиональных переводчиков, так и компьютерных систем машинного перевода, для эффективного выполнения высококачественных переводов в режиме реального времени.The distributed network language translation system provides tools for aggregating the resources of a large number of translators, with different access modes, with various professional skills, both professional translators and computer-based machine translation systems, for efficiently performing high-quality translations in real time.
Для поиска исполнителей перевода, из которых впоследствии будут отбираться оптимальные исполнители перевода для проекта, применяется алгоритм, состоящий из следующих шагов:To search for translators, from which the optimal translators for the project will subsequently be selected, an algorithm is used consisting of the following steps:
Выделение ключевой терминологии из всех текстов всех переводчиков в системе и составление общего модуля глоссариев на основе данной терминологии и индивидуальных глоссариев для каждого переводчика, с указанием конкретной тематики в какой работает тот или иной исполнитель. Это необходимо для уменьшения объема анализируемых данных, а также для разработки критерия подбора переводчика на основе его умения работать с конкретной терминологией.The selection of key terminology from all texts of all translators in the system and the compilation of a common module of glossaries based on this terminology and individual glossaries for each translator, indicating the specific subject in which one or another artist works. This is necessary to reduce the amount of data analyzed, as well as to develop a selection criterion for a translator based on his ability to work with specific terminology.
Разбиение извлеченной терминологии всех исполнителей на классы. Классы определяются автоматически путем кластеризации с помощью машинного обучения.Partitioning the extracted terminology of all performers into classes. Classes are determined automatically by clustering using machine learning.
Примером реализации такого алгоритма кластеризации можно использовать алгоритм K-means (алгоритм K-средних). Этот алгоритм работает по принципу максимизации расстояния между финальными кластерами. Этот алгоритм относится к классу алгоритмов квадратичной ошибки, поскольку конечной целью алгоритма является минимизировать среднеквадратическую ошибку разбиения, вычисляемую по формуле:An example of the implementation of such a clustering algorithm, you can use the K-means algorithm (K-means algorithm). This algorithm works on the principle of maximizing the distance between the final clusters. This algorithm belongs to the class of quadratic error algorithms, since the ultimate goal of the algorithm is to minimize the mean square error of the partition calculated by the formula:
где X - совокупность данных, которые надо разбить на кластеры,where X is the aggregate of data to be divided into clusters,
K - количество кластеров,K is the number of clusters,
nj - количество элементов, попавших в кластер с номером j,n j - number of elements belonging to a cluster with index j,
- i-тый элемент кластера с номером j, - i-th element of the cluster with number j,
||a-b|| расстояние от элемента а до элемента b в метрическом пространстве.|| a-b || distance from element a to element b in metric space.
Задача данного алгоритма заключается в минимизации суммы квадратов расстояний от всех элементов, подлежащих кластеризации, до центров кластеров, которым они принадлежат. После применения кластеризации, полученные кластеры нумеруются и каждому термину из глоссария присваивается номер кластера, которому он принадлежит. Каждый отдельный кластер далее называется обобщенной тематикой (квазитематикой). Всем корпусам текстов всех исполнителей ставятся в соответствие вектора тематик. Для этого для каждого текста переводчиков из общего корпуса системы вычисляются частоты попадания терминов в тот или иной кластер. Таким образом, каждый текст представлен в виде вектора с размерностью, равной количеству кластеров (точкой в многомерном пространстве), и про него известно, какому переводчику он принадлежит. Аналогичным способом вычисляется вектор тематик нового текста на перевод.The objective of this algorithm is to minimize the sum of squared distances from all elements to be clustered to the centers of the clusters to which they belong. After applying clustering, the resulting clusters are numbered and each term from the glossary is assigned the number of the cluster to which it belongs. Each individual cluster is hereinafter referred to as generalized topics (quasithematics). All corpses of texts of all performers are assigned vector themes. To do this, for each text of translators from the general system case, the frequencies of terms falling into one or another cluster are calculated. Thus, each text is presented as a vector with a dimension equal to the number of clusters (a point in a multidimensional space), and it is known about which translator it belongs to. In a similar way, the vector of topics of the new text for translation is calculated.
На основе детального сопоставления терминологии переводимых переводчиками ранее текстов осуществляют сравнение этой терминологии с терминологией файла, который необходимо перевести. Для терминов, выделенных из исходного текста на перевод, вычисляется, сколько раз каждый термин встретился в нем, таким образом, получается терминологический вектор частот (a i,…,а k).On the basis of a detailed comparison of the terminology of texts previously translated by translators, this terminology is compared with the terminology of the file to be translated. For the terms extracted from the source text for translation, it is calculated how many times each term appears in it, thus, a terminological frequency vector ( a i , ..., a k ) is obtained.
Для каждого переводчика вычисляется числовая характеристика близости текста и исполнителя: For each translator, a numerical characteristic of the proximity of the text and the artist is calculated:
где wi - частота данного термина в текстах подбираемого исполнителя (Т).where w i - the frequency of this term in the texts of the selected artist (T).
Далее из рассмотрения исключаются те переводчики, чьи тематические векторы имеют тематики, далекие от тематики исходного файла, который необходимо перевести, что позволяет сузить пространство переводчиков и уменьшить вычислительную нагрузку на систему.Further, those translators whose thematic vectors have topics that are far from the topics of the source file that needs to be translated are excluded from consideration, which allows to narrow the space of translators and reduce the computational load on the system.
Далее переводчики ранжируются по этой числовой характеристике и после чего на следующих этапах проходят дополнительный отбор на основе ограничений по качеству, стоимости и срокам, заданных клиентом.Next, the translators are ranked by this numerical characteristic and then at the next stages pass an additional selection based on restrictions on quality, cost and terms set by the client.
После этого система переходит к автоматической оценки и прогноза качества перевода исходного файла исполнителями перевода. Для этого используется следующая информация:After that, the system proceeds to the automatic assessment and prediction of the quality of the translation of the source file by the translators. The following information is used for this:
- Анализ низкоуровневых данных по сегментам перевода - время, проведенное в сегменте, количество действий исполнителя, количество и тип правок между этапами работы (например, правки редактора после переводчика, правки клиента после редактора), нажатие определенных клавиш, использование элементов интерфейса, служебных сочетаний клавиш.- Analysis of low-level data on translation segments - time spent in the segment, number of actions of the executor, number and type of edits between the stages of work (for example, editing the editor after the translator, editing the client after the editor), pressing certain keys, using interface elements, service shortcut keys .
- Анализ соответствия перевода терминологии документа глоссарию проекта или автоматически созданной терминологии на этапе анализа тематик; если термины присутствуют в глоссарии проекта, но были неверно переведены в тексте - это классифицируется как серьезная ошибка. Если какие-то термины не присутствуют в глоссарии, но являются дескриптивными, то анализируется, как именно эти термины переводятся в других документах, попадающих в тот же тематический кластер, что и данный документ. Если в пределах кластера данные термины переводятся достаточно единообразно, т.е. существует статистически предпочтительный вариант перевода (один или несколько) для данной тематики, и перевод термина в документе не совпадает с ним, ошибка классифицируется как серьезная.- Analysis of the compliance of the translation of the terminology of the document with the glossary of the project or automatically created terminology at the stage of analysis of topics; if the terms are present in the project glossary, but were incorrectly translated in the text, this is classified as a serious mistake. If some terms are not present in the glossary, but are descriptive, then it is analyzed how these terms are translated in other documents falling into the same thematic cluster as this document. If within the cluster these terms are translated quite uniformly, i.e. There is a statistically preferred translation option (one or several) for this topic, and the translation of the term in the document does not coincide with it, the error is classified as serious.
- Результаты автоматических проверок: правописание, грамматика, пунктуация, сохранение структуры и порядка тегов сегмента, сохранение плейсхолдеров, наличие лишних и двойных пробелов, контроль контекстных совпадений, сохранение дат и других числовых параметров, соблюдение регистра слов, наличие одинаковых переводов для разных исходных сегментов, и наоборот - разных переводов для одинаковых исходных сегментов, ошибочные повторы слов, сочетание латиницы и кириллицы в одном слове.- The results of automatic checks: spelling, grammar, punctuation, preserving the structure and order of segment tags, saving placeholders, the presence of extra and double spaces, controlling context matches, keeping dates and other numerical parameters, keeping the case of words, having the same translations for different source segments, and vice versa - different translations for the same source segments, erroneous repetitions of words, a combination of Latin and Cyrillic letters in one word.
- Набор различных лингвистических дескрипторов (таких как средняя длина предложения, богатство лексики, сложность текста и пр.)- A set of various linguistic descriptors (such as the average length of a sentence, a wealth of vocabulary, text complexity, etc.)
- Оценки экспертов (как интегральные согласно единому индексу качества, так и детальные, с классификацией ошибок).- Expert assessments (both integral according to a single quality index, and detailed, with classification of errors).
Для построения автоматической оценки качества используются различные модели машинного обучения. Для этого:To build an automatic quality assessment, various machine learning models are used. For this:
- Строится модель корреляции между автоматически измеряемыми параметрами и правками (их объем и суть) на этапе редактуры.- A correlation model is being built between automatically measured parameters and edits (their volume and essence) at the editing stage.
- Строится модель корреляции между правками на этапе редактуры и человеческой (ручной оценкой) качества перевода.- A correlation model is being built between edits at the editing stage and the human (manual assessment) translation quality.
- Проводится валидация и уточнение построенных моделей на фиксированных тестовых заданиях и результатах проверок по формальной процедуре с типизацией ошибок.- Validation and refinement of the constructed models are carried out on fixed test tasks and the results of checks according to the formal procedure with typification of errors.
- Строится финальная модель корреляции между автоматически измеряемыми параметрами и конечной человеческой оценкой.- The final model of the correlation between automatically measured parameters and the final human assessment is under construction.
Далее построенная математическая модель используется для оценки и прогнозирования качества для всех выполненных переводов, включая те, в которых отсутствуют правки на этапе редактуры. Модель итерационно перестраивается по мере накопления новых данных (оценок, правок и т.д.) для повышения точности работы алгоритма.Further, the constructed mathematical model is used to assess and predict the quality of all translations performed, including those in which there are no corrections at the editing stage. The model is iteratively rebuilt with the accumulation of new data (estimates, corrections, etc.) to increase the accuracy of the algorithm.
Важным фактором при подборе исполнителей их готовность к выполнению задачи. Наиболее востребованные исполнители, как правило, более загружены работой. В продукте вся информация о каждом исполнителе доступна для анализа - текущие и планируемые проекты, данные о средней скорости работы. Это позволяет создать автоматический календарь работы исполнителя и дополнительно учитывать фактор его занятости при поиске. Учитывая фактор занятости переводчиков при построении процесса перевода, система помогает найти скрытые резервы, позволяя переводчику увеличить его заработок.An important factor in the selection of performers is their willingness to complete the task. The most sought-after performers, as a rule, are more loaded with work. In the product, all information about each artist is available for analysis - current and planned projects, data on the average speed of work. This allows you to create an automatic calendar of work of the contractor and additionally take into account the factor of his employment during the search. Given the employment factor of translators when building the translation process, the system helps to find hidden reserves, allowing the translator to increase his earnings.
Кроме того, важным фактором при подборе исполнителей является скорость, при этом скорость работы исполнителя определяется автоматически на основе анализа количества переводимых слов в час.In addition, speed is an important factor in selecting artists, and the speed of the artist’s work is determined automatically based on an analysis of the number of words translated per hour.
Также с помощью модуля автоматического расчета стоимости перевода исходного файла осуществляют подбор исполнителей с учетом, указанной ими ставки в профиле, если эта ставка попадает под указанную заказчиком сумму, которую он готов потратить за перевод.Also, using the module for automatic calculation of the cost of the translation of the source file, artists are selected taking into account the rate indicated by them in the profile, if this rate falls under the amount indicated by the customer that he is willing to spend on the transfer.
На основе указанных выше этапов и критериев отбора осуществляется автоматический выбор наиболее подходящих исполнителей перевода исходного файла.Based on the above steps and selection criteria, the most suitable translators of the source file are automatically selected.
После чего, отобранным исполнителям система направляет уведомления о приглашении к участию в проекте перевода, каждый соответствующий исполнитель подтверждает либо отклоняет данное приглашение. После подтверждения участия, назначенный исполнитель входит в систему и посредством пользовательского веб-интерфейса приступает к работе над переводом документа.After that, the system sends out notifications of the invitation to participate in the translation project to the selected performers, each respective artist confirms or rejects this invitation. After confirmation of participation, the designated contractor enters the system and, through the web-based user interface, starts work on the translation of the document.
Переведенный документ затем автоматически передается заказчику перевода посредством пользовательского веб-интерфейса, из которого заказчик выгружает переведенный файл. Если исходные файлы поступили из некой внешней информационной системы, то переведенные файлы могут быть помещены в эту же систему посредством программных API интерфейсов, содержащихся в слое интеграции.The translated document is then automatically transmitted to the translation customer via the web user interface from which the customer downloads the translated file. If the source files came from a certain external information system, then the translated files can be placed into the same system using the program APIs of the interfaces contained in the integration layer.
Кроме того, возможно дополнительно применить синтаксическую и морфологическую фильтрацию текста, например, очистка текста от метаинформации, тегов и форматирования, разметка частями речи, приведение слов к основной форме), а также лингвистическую фильтрацию.In addition, it is possible to additionally apply syntactic and morphological filtering of the text, for example, cleaning text from meta-information, tags and formatting, marking up with parts of speech, converting words to the main form), as well as linguistic filtering.
Данное изобретение в различных своих вариантах осуществления выполнено в виде системы и способа, реализуемых на компьютере.The present invention in its various embodiments is implemented as a system and method implemented on a computer.
На Фиг. 5 представлен общий вид системы (100), реализующей заявленный способ.In FIG. 5 shows a General view of the system (100) that implements the claimed method.
Система интеллектуального автоматического выбора исполнителей перевода (100) может выполняться на базе широкого спектра электронно-вычислительных устройств, например, персонального компьютера, ноутбука, серверного кластера и т.п.The system of intelligent automatic selection of translation executors (100) can be performed on the basis of a wide range of electronic computing devices, for example, a personal computer, laptop, server cluster, etc.
В общем случае система (100) содержит один или более процессоров (101), выполняющих основную вычислительную работу при реализации этапов способа.In the General case, the system (100) contains one or more processors (101) that perform the main computing work when implementing the steps of the method.
Оперативную память (ОЗУ) (102), предназначенную для оперативного хранения команд, исполняемых одним или более процессорами (101). Средство хранения данных (103) может представлять собой жесткий диск (HDD), твердотельный накопитель (SSD), флэш-память (NAND-flash, EEPROM, Secure Digital и т.п.), оптический диск (CD, DVD, Blue Ray), мини диск или их совокупности.Random access memory (RAM) (102), designed for online storage of instructions executed by one or more processors (101). The storage medium (103) can be a hard disk (HDD), solid-state drive (SSD), flash memory (NAND-flash, EEPROM, Secure Digital, etc.), an optical disk (CD, DVD, Blue Ray) , mini disk or their combination.
Интерфейсы ввода/вывода (В/В) (104) представляют собой стандартные порты и средства сопряжения устройств и передачи данных, выбираемые исходя из необходимой конфигурации исполнения системы (100), в частности: USB (2.0, 3.0, USB-C, micro, mini), Ethernet, PCI, AGP, COM, LPT, PS/2, SATA, Fire Wire, Lightning и т.п.Input / output (I / O) interfaces (104) are standard ports and devices for pairing devices and transmitting data, selected based on the required configuration of the system (100), in particular: USB (2.0, 3.0, USB-C, micro, mini), Ethernet, PCI, AGP, COM, LPT, PS / 2, SATA, Fire Wire, Lightning, etc.
Средства В/В (105) также выбираются из известного спектра различных устройств, например, клавиатура, тачпад, сенсорный дисплей, монитор, проектор, манипулятор мышь, джойстик, трекбол, световое перо, стилус, устройства вывода звука (колонки, наушники, встроенные динамики, зуммер) и т.п.I / O facilities (105) are also selected from a well-known range of different devices, for example, a keyboard, touchpad, touch display, monitor, projector, mouse, joystick, trackball, light pen, stylus, sound output devices (speakers, headphones, built-in speakers buzzer) etc.
Средства передачи данных (106) выбираются из устройств, предназначенных для реализации процесса коммуникации между различными устройствами посредством проводной и/или беспроводной связи, в частности, таким устройствами могут быть: GSM модем, Wi-Fi приемопередатчик, Bluetooth или BLE модуль, GPS модуль, Глонасс модуль, NFC, Ethernet модуль и т.п. Компоненты системы (100) сопряжены посредством общей шины передачи данных (110).Data transmission means (106) are selected from devices designed to implement the communication process between different devices via wired and / or wireless communication, in particular, such devices can be: GSM modem, Wi-Fi transceiver, Bluetooth or BLE module, GPS module, Glonass module, NFC, Ethernet module, etc. System components (100) are interfaced via a common data bus (110).
Модификации и улучшения вышеописанных вариантов осуществления настоящей технологии будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящей технологии ограничен только объемом прилагаемой формулы изобретения.Modifications and improvements to the above-described embodiments of the present technology will be apparent to those skilled in the art. The preceding description is provided as an example only and is not subject to any restrictions. Thus, the scope of the present technology is limited only by the scope of the attached claims.
Claims (28)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017130676A RU2667030C1 (en) | 2017-10-04 | 2017-10-04 | System and method of intellectual automatic selection of perfomers of translation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017130676A RU2667030C1 (en) | 2017-10-04 | 2017-10-04 | System and method of intellectual automatic selection of perfomers of translation |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2667030C1 true RU2667030C1 (en) | 2018-09-13 |
Family
ID=63580322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017130676A RU2667030C1 (en) | 2017-10-04 | 2017-10-04 | System and method of intellectual automatic selection of perfomers of translation |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2667030C1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294076A1 (en) * | 2005-12-12 | 2007-12-20 | John Shore | Language translation using a hybrid network of human and machine translators |
US20090119091A1 (en) * | 2007-11-01 | 2009-05-07 | Eitan Chaim Sarig | Automated pattern based human assisted computerized translation network systems |
US20100223048A1 (en) * | 2009-02-27 | 2010-09-02 | Andrew Nelthropp Lauder | Language translation employing a combination of machine and human translations |
US20130124185A1 (en) * | 2011-11-14 | 2013-05-16 | Amadou Sarr | Collaborative Language Translation System |
CN103218354A (en) * | 2013-03-28 | 2013-07-24 | 曾立人 | On-line translation memory exchange method and system |
RU2546064C1 (en) * | 2013-11-12 | 2015-04-10 | Общество с ограниченной ответственностью "Технологии управления переводом" | Distributed system and method of language translation |
US20150120273A1 (en) * | 2013-10-28 | 2015-04-30 | Translation Management Systems Ltd. | Networked language translation system and method |
US20160162478A1 (en) * | 2014-11-25 | 2016-06-09 | Lionbridge Techologies, Inc. | Information technology platform for language translation and task management |
-
2017
- 2017-10-04 RU RU2017130676A patent/RU2667030C1/en active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294076A1 (en) * | 2005-12-12 | 2007-12-20 | John Shore | Language translation using a hybrid network of human and machine translators |
US20090119091A1 (en) * | 2007-11-01 | 2009-05-07 | Eitan Chaim Sarig | Automated pattern based human assisted computerized translation network systems |
US20100223048A1 (en) * | 2009-02-27 | 2010-09-02 | Andrew Nelthropp Lauder | Language translation employing a combination of machine and human translations |
US20130124185A1 (en) * | 2011-11-14 | 2013-05-16 | Amadou Sarr | Collaborative Language Translation System |
CN103218354A (en) * | 2013-03-28 | 2013-07-24 | 曾立人 | On-line translation memory exchange method and system |
US20150120273A1 (en) * | 2013-10-28 | 2015-04-30 | Translation Management Systems Ltd. | Networked language translation system and method |
RU2546064C1 (en) * | 2013-11-12 | 2015-04-10 | Общество с ограниченной ответственностью "Технологии управления переводом" | Distributed system and method of language translation |
US20160162478A1 (en) * | 2014-11-25 | 2016-06-09 | Lionbridge Techologies, Inc. | Information technology platform for language translation and task management |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Suhaili et al. | Service chatbots: A systematic review | |
US20210150153A1 (en) | Using communicative discourse trees to detect a request for an explanation | |
CN110692050B (en) | Adaptive Evaluation of Meta-Relationships in Semantic Graphs | |
RU2607416C2 (en) | Crowd-sourcing vocabulary teaching systems | |
CA3129745A1 (en) | Neural network system for text classification | |
CN112106056A (en) | Constructing fictitious utterance trees to improve the ability to answer convergent questions | |
US20200372218A1 (en) | Data-driven automated selection of profiles of translation professionals for translation tasks | |
CN111149100A (en) | Determining thesaurus interrelationships across documents based on named entity parsing and recognition | |
Fu | Natural language processing in urban planning: A research agenda | |
US10437233B2 (en) | Determination of task automation using natural language processing | |
US12326895B2 (en) | Enabling an efficient understanding of contents of a large document without structuring or consuming the large document | |
Asscher | The explanatory power of descriptive translation studies in the machine translation era | |
US12242797B2 (en) | Corpus quality processing for a specified task | |
RU2546064C1 (en) | Distributed system and method of language translation | |
Zhao et al. | A literature review of literature reviews in pattern analysis and machine intelligence | |
Ouali et al. | Arabic chatbots challenges and solutions: a systematic literature review | |
Baghdasaryan et al. | Knowledge retrieval and diagnostics in cloud services with large language models | |
US20200173889A1 (en) | Component testing plan considering distinguishable and undistinguishable components | |
RU2667030C1 (en) | System and method of intellectual automatic selection of perfomers of translation | |
Lugo et al. | Modeling user search tasks with a language-agnostic unsupervised approach | |
Santy et al. | A discussion on building practical NLP leaderboards: the case of machine translation | |
CN114722827A (en) | Model training method, device and equipment of task processing model and storage medium | |
CN110249326A (en) | Natural language contents generator | |
Adewumi | Vector representations of idioms in data-driven chatbots for robust assistance | |
Chraibi et al. | MSAPersonality: a modern standard Arabic dataset for personality recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD4A | Correction of name of patent owner |