DE102023132751A1

DE102023132751A1 - Method for operating a speech dialogue system and speech dialogue system

Info

Publication number: DE102023132751A1
Application number: DE102023132751.8A
Authority: DE
Inventors: Andreja JANEZIC; Lubos Zvada
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2025-05-28

Abstract

Die Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems. Zunächst wird eine Anfrage (1) eines Nutzers (6) über eine Schnittstelle des Sprachdialogsystems erfasst. Dann wird eine Domänenerkennungseinheit (8) durch eine Steuerungslogik (7) des Sprachdialogsystems aktiviert, welche konfiguriert ist, die erfasste Anfrage (1) zumindest einer Domäne (24) zuzuweisen, wobei die Anfrage (1) mittels einer Domänenerkennung zumindest einer Domäne (24) zugewiesen wird. Anschließend wird die zumindest eine Domäne (24) mit zumindest einem Sprachmodell (5) innerhalb des Sprachdialogsystems unter Verwendung einer Entscheidungsmatrix (3) der Steuerungslogik (7) assoziiert, wobei jede Domäne (24) mit zumindest einem Sprachmodell (5) assoziiert ist. Die Anfrage (1) wird als nächstes an das zumindest eine entsprechende Sprachmodell (5) weitergeleitet, wobei eine Rückmeldung (9) zu der Anfrage (1) basierend auf Informationen, die im zumindest einem ausgewählten Sprachmodell (5) gespeichert sind, generiert wird. Diese Rückmeldung (9) wird dann an den Nutzer (6) ausgegeben.

The invention relates to a method for operating a speech dialogue system. First, a request (1) from a user (6) is detected via an interface of the speech dialogue system. Then, a domain recognition unit (8) is activated by a control logic (7) of the speech dialogue system, which is configured to assign the detected request (1) to at least one domain (24), wherein the request (1) is assigned to at least one domain (24) by means of domain recognition. Subsequently, the at least one domain (24) is associated with at least one language model (5) within the speech dialogue system using a decision matrix (3) of the control logic (7), wherein each domain (24) is associated with at least one language model (5). The request (1) is next forwarded to the at least one corresponding language model (5), wherein a feedback message (9) regarding the request (1) is generated based on information stored in the at least one selected language model (5). This feedback message (9) is then output to the user (6).

Description

Die Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems. Des Weiteren betrifft die Erfindung ein Sprachdialogsystem, das dazu ausgebildet ist, das Verfahren durchzuführen.The invention relates to a method for operating a speech dialogue system. Furthermore, the invention relates to a speech dialogue system configured to implement the method.

In aktuellen Fahrzeugen unterschiedlichster Hersteller ist oftmals im Fahrzeug-Infotainmentsystem nur ein regelbasiertes Sprachdialogsystem (SDS) oder ein Sprachassistent für die Sprachbedienung verfügbar. Das Sprachdialogsystem ist für die Umsetzung der Befehle über die Spracheingabe zuständig. Von der Funktion und vom Wissen ist ein solcher Sprachassistent oft sehr eingeschränkt. Damit neue Inhalte oder Wissen abgefragt werden können, muss das Sprachdialogsystem aufwändig weiterentwickelt werden und in einer neuen Fahrzeuggeneration oder in einem Update veröffentlicht werden. Dabei muss eine Spracherkennung (Natural Language Understanding), sowie Informationen zum Durchführen von Dialogen oder Interaktionen mit einem Nutzer neu aufgesetzt oder angepasst werden.In current vehicles from a wide range of manufacturers, the vehicle infotainment system often only offers a rule-based speech dialogue system (SDS) or a voice assistant for voice control. The speech dialogue system is responsible for implementing commands via voice input. Such a voice assistant is often very limited in terms of functionality and knowledge. In order to retrieve new content or knowledge, the speech dialogue system must be extensively developed and released in a new vehicle generation or as an update. This requires speech recognition (natural language understanding) and information for conducting dialogues or interactions with a user to be newly implemented or adapted.

So ein Sprachdialogsystem kann also nur eine bestimmte Art an Anfragen ausführen oder online auswerten und beantworten. Auf viele Anfragen kann dann keine oder nur eine unzureichende Rückmeldung geliefert werden. Eine komplexe oder aus mehreren Fragen oder Anweisungen bestehende Anfrage bleibt somit unbeantwortet. Für eine Anfrage, die keiner eindeutigen Domäne zugeordnet werden kann, wird auch online oft keine korrekte Rückmeldung generiert. Komplexe Fragestellungen oder Aufgaben, wie z. B. Logikfragen oder Zusammenfassungen oder eine aus mehreren Domänen bestehende Anfrage kann damit nur unzureichend oder gar nicht beantwortet werden.Such a speech dialogue system can therefore only execute a specific type of query or evaluate and answer it online. For many queries, no or only inadequate feedback can be provided. A complex query or a query consisting of multiple questions or instructions thus remains unanswered. For a query that cannot be clearly assigned to a domain, correct feedback is often not generated, even online. Complex questions or tasks, such as logic questions or summaries, or queries consisting of multiple domains, can thus only be answered inadequately or not at all.

Die WO 2022/115839 A1 offenbart eine kontextbasierte Auswahl von Maschinenlernmodellen. Tragbare Geräte, wie beispielsweise Mobilfunktelefone oder Nachttischlampen, können hierbei mit einem Sprachmodell ausgestattet werden, damit entsprechende Funktionen per Sprache bedient werden können. Dabei werden Hardwaregegebenheiten dieser Geräte, wie beispielsweise ein Speicher, berücksichtigt.The WO 2022/115839 A1 reveals a context-based selection of machine learning models. Wearable devices, such as mobile phones or bedside lamps, can be equipped with a language model so that corresponding functions can be controlled by voice. Hardware features of these devices, such as memory, are taken into account.

Die WO 2021/252181 A1 offenbart eine Orchestrierung mehrerer Modelle künstlicher Intelligenz. Das Verfahren beruht darauf, dass die Modelle dazu trainiert werden Entscheidungen zu treffen.The WO 2021/252181 A1 reveals an orchestration of multiple artificial intelligence models. The method is based on training the models to make decisions.

Nachteilhaft bei diesen Verfahren ist, dass die Qualität der Antworten und Entscheidungen dieser Modelle in verschiedenen Situationen stark variieren können, was zu inkonsistenten oder unvorhersehbaren Ergebnissen führen kann.The disadvantage of these methods is that the quality of the answers and decisions of these models can vary greatly in different situations, which can lead to inconsistent or unpredictable results.

Der Erfindung liegt die Aufgabe zugrunde, eine Unvorhersehbarkeit der Qualität bei Ausgabe einer Rückmeldung eines Sprachdialogsystems zu reduzieren.The invention is based on the object of reducing the unpredictability of the quality when outputting feedback from a speech dialogue system.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren beschrieben.The object is achieved by the subject matter of the independent patent claims. Advantageous developments of the invention are described by the dependent patent claims, the following description, and the figures.

Durch die Erfindung ist ein Verfahren zum Betreiben eines Sprachdialogsystems bereitgestellt. Das Verfahren wird durch die folgenden Schritte realisiert.The invention provides a method for operating a speech dialogue system. The method is implemented by the following steps.

In einem Schritt a) wird eine Anfrage eines Nutzers über eine Schnittstelle des Sprachdialogsystems erfasst. Mit einer solchen Schnittstelle kann ein Mikrofon gemeint sein, das die Sprache des Nutzers erfasst und an das Sprachdialogsystem weiterleitet. Mit „Anfrage“ kann ein Aufruf nach Informationen oder einer Aktion gemeint sein. Beispielsweise kann der Nutzer das Sprachdialogsystem fragen, wie das Wetter morgen wird.In step a), a user request is recorded via an interface of the speech dialog system. Such an interface can be a microphone that captures the user's speech and forwards it to the speech dialog system. A "request" can refer to a request for information or an action. For example, the user can ask the speech dialog system what the weather will be like tomorrow.

In einem Schritt b) wird durch eine Steuerungslogik des Sprachdialogsystems eine Domänenerkennungseinheit aktiviert, welche konfiguriert ist, die erfasste Anfrage zumindest einer Domäne zuzuweisen, wobei die Anfrage der zumindest einen Domäne mittels einer Domänenerkennung zugewiesen wird. Diese Domänenerkennung kann beinhalten, dass ein Clustering, z.B. mittels eines k-Means-Algorithmus oder eines Topic Spottings, insbesondere z.B. durch Latent Dirichlet Allocation (LDA) durchgeführt wird, um eine jeweilige Domäne zu ermitteln. Die Steuerungslogik beinhaltet insbesondere Entscheidungsstrukturen, z. B. If-else-Anweisungen, und/oder Schleifensteuerung und/oder eine Fehlerbehandlungslogik. Das Sprachdialogsystem kann z.B. ein Programmmodul einer Bedienvorrichtung eines Infotainmentsystems sein. Im oben genannten Beispiel kann der Anfrage z. B. die Domäne „Wetter“ zugewiesen werden.In step b), a control logic of the speech dialog system activates a domain recognition unit that is configured to assign the detected request to at least one domain, wherein the request is assigned to the at least one domain by means of domain recognition. This domain recognition can include clustering, e.g., using a k-means algorithm or topic spotting, in particular, e.g., using Latent Dirichlet Allocation (LDA), in order to determine a respective domain. The control logic includes, in particular, decision structures, e.g., if-else statements, and/or loop control and/or error handling logic. The speech dialog system can, for example, be a program module of an operating device of an infotainment system. In the above example, the request can, for example, be assigned the domain "weather."

In einem Schritt c) wird der zumindest einen ermittelten Domäne zumindest ein Sprachmodell innerhalb des Sprachdialogsystems unter Verwendung einer Entscheidungsmatrix der Steuerungslogik zugeordnet. Die zumindest eine Domäne wird also mit zumindest einem Sprachmodell assoziiert. So ein Sprachmodell ist insbesondere ein bereits trainiertes, also fertiges Sprachmodell, wie beispielsweise Chat-GPT und/oder Bing und/oder Llama.In step c), at least one language model within the speech dialog system is assigned to the at least one determined domain using a decision matrix of the control logic. The at least one domain is thus associated with at least one language model. Such a language model is, in particular, a pre-trained, i.e., finished language model, such as Chat-GPT and/or Bing and/or Llama.

Die Anfrage wird dann an das zumindest eine assoziierte Sprachmodell geroutet oder weitergeleitet.The request is then routed or forwarded to at least one associated language model.

In einem Schritt e) wird eine Rückmeldung zu der Anfrage basierend auf Informationen, die im zumindest einem assoziierten Sprachmodell gespeichert sind, generiert, wobei diese Rückmeldung an den Nutzer ausgegeben wird. Die Informationen beziehen sich auf das Wissen und/oder die Daten und/oder die Fähigkeiten des Sprachmodells. In Bezug auf das oben genannte Beispiel kann die Rückmeldung Informationen für eine Wettervorhersage beinhalten. In step e), feedback on the query is generated based on information stored in at least one associated language model, and this feedback is provided to the user. The information relates to the knowledge and/or data and/or capabilities of the language model. With reference to the above example, the feedback may include information for a weather forecast.

Ein Vorteil der Erfindung liegt in erster Linie bei der Unabhängigkeit des Sprachdialogsystems. Durch Verwendung der verschiedenen (domänenspezifischen) Sprachmodelle kann eine Rückmeldung gemäß der Anfrage wahrscheinlicher relevante Informationen beinhalten. Des Weiteren können dadurch inhaltliche oder semantische Mehrdeutigkeiten und/oder Fehler bei Ausgabe der Rückmeldung reduziert werden. Zudem ergibt sich ein semantisches Routen von Anfragedaten.A primary advantage of the invention lies in the independence of the speech dialogue system. By using different (domain-specific) language models, feedback based on the query is more likely to contain relevant information. Furthermore, this can reduce content or semantic ambiguities and/or errors in the output of the feedback. Furthermore, semantic routing of query data is achieved.

Zu der Erfindung gehören auch Ausführungsformen, durch die sich zusätzliche Vorteile ergeben.The invention also includes embodiments which provide additional advantages.

Eine Ausführungsform sieht vor, dass die Anfrage durch die Domänenerkennungseinheit z. B. einer Keyword-Extraktion unterzogen wird, und eine Zuordnungseinheit eine Zuordnung vorgegebener Keywords zu Domänen durchführt, wodurch die Anfrage zumindest einer Domäne zugewiesen wird. Diese Keyword-Extraktion kann z.B. durch eine Term Frequency, also eine Termfrequenz, und/oder Term Frequency Inverse Document Frequency (TF-IDF) realisiert werden. Zusätzlich oder alternativ kann beispielsweise hierzu Word2vec und/oder Fast Text verwendet werden. Die vorgegebenen Keywords können also zumindest einer Domäne zugeordnet sein, wodurch die Anfrage dann derjenigen zumindest einen Domäne zugeordnet wird. Beispielsweise können die vorgegebenen Keywords „Wetter“, „Regen“ und/oder „kalt“ mit der Domäne „Wetter“ zugeordnet sein. Das Ausgeben einer für den Nutzer relevanten Rückmeldung kann hierdurch wahrscheinlicher realisiert werden.One embodiment provides that the query is subjected to keyword extraction by the domain recognition unit, for example, and that an assignment unit performs an assignment of predefined keywords to domains, whereby the query is assigned to at least one domain. This keyword extraction can be implemented, for example, using a term frequency and/or term frequency inverse document frequency (TF-IDF). Additionally or alternatively, Word2vec and/or Fast Text can be used for this purpose. The predefined keywords can therefore be assigned to at least one domain, whereby the query is then assigned to that at least one domain. For example, the predefined keywords "weather", "rain" and/or "cold" can be assigned to the domain "weather". This makes it more likely that feedback relevant to the user will be output.

Eine Ausführungsform sieht vor, dass die Entscheidungsmatrix in Abhängigkeit von zumindest einem der folgenden Parameter und/oder Einstellungen das zumindest eine Sprachmodell zum Generieren der Rückmeldung ansteuert, wobei die Sprachmodelle anhand der Parameter und/oder der Einstellungen pro Domäne priorisiert werden. Hierzu können als Parameter und/oder Einstellungen zumindest eine der folgenden hinzugezogen werden: One embodiment provides that the decision matrix controls the at least one language model for generating the feedback depending on at least one of the following parameters and/or settings, whereby the language models are prioritized based on the parameters and/or settings per domain. For this purpose, at least one of the following parameters and/or settings can be used:

Die Größe oder die Datenmenge und/oder die Typologie der Trainingsdaten des Sprachmodells und/oder eine Gewichtung des Sprachmodells in Abhängigkeit zu zumindest einer assoziierten Domäne und/oder ein voraussichtlicher Datenverbrauch und/oder eine voraussichtliche Verarbeitungszeit bei Verwendung eines jeweiligen Sprachmodells. Mit Gewichtung des Sprachmodells in Abhängigkeit zu zumindest einer assoziierten Domäne ist gemeint, dass ein Wert festgelegt werden kann, zu wie viel Prozent z. B. ein Sprachmodell eine Domäne abdeckt und/oder beinhaltet. Zusätzlich oder alternativ kann eingestellt werden, ob bei einem Sprachmodell oder einer ermittelten Domäne eine sequenzielle und/oder parallele Abfrage durchgeführt werden soll. Diese werden in den Ausführungsformen weiter unten detaillierter beschrieben. Des Weiteren kann ein voraussichtlicher Datenverbrauch eingestellt werden, d.h. der Nutzer kann beispielsweise einen Grenzwert eingeben, wobei dieser Grenzwert einen Maximalwert an zu erzeugenden Datenkosten beschreibt. Das zumindest eine Sprachmodell kann also auch außerhalb des Kraftfahrzeugs über eine Funkverbindung, wie z. B. WLAN (Wireless Local Area Network) und/oder LTE (Long Term Evolution) angebunden sein. Hierdurch ergibt sich der Vorteil eines strukturierten Entscheidungsprozesses. Durch die Entscheidungsmatrix kann eine systematische Bewertung realisiert werden, wodurch es einfacher wird, das für den Nutzer gemäß seiner Anfrage relevanteste Sprachmodell und/oder zumindest eine relevante Sprachmodell auszuwählen.The size or the amount of data and/or the typology of the training data of the language model and/or a weighting of the language model depending on at least one associated domain and/or an expected data consumption and/or an expected processing time when using a respective language model. Weighting of the language model depending on at least one associated domain means that a value can be specified, e.g., to what percentage a language model covers and/or contains a domain. Additionally or alternatively, it can be set whether a sequential and/or parallel query should be performed on a language model or a determined domain. These are described in more detail in the embodiments below. Furthermore, an expected data consumption can be set, i.e., the user can, for example, enter a limit value, whereby this limit value describes a maximum value of the data costs to be generated. The at least one language model can therefore also be connected outside the motor vehicle via a radio connection, such as WLAN (Wireless Local Area Network) and/or LTE (Long Term Evolution). This provides the advantage of a structured decision-making process. The decision matrix enables a systematic evaluation, making it easier to select the most relevant language model and/or at least one relevant language model for the user's query.

Diese Entscheidungsmatrix kann zusätzlich oder alternativ als Dokumentation des Entscheidungsprozesses dienen. Dies kann für zukünftige Überprüfungen und/oder zum Verstehen einer Entscheidung, also warum ein jeweiliges Sprachmodell bei einer bestimmten Anfrage angesteuert wurde, relevant sein. Eine Transparenz des Entscheidungsprozesses kann hierdurch gewährleistet werden. In der Entscheidungsmatrix sind also die „Spielregeln“ der Steuerungslogik festgelegt. Die Entscheidungsmatrix definiert zu welcher Domäne welches Sprachmodell in welcher Reihenfolge angefragt und/oder wie die Rückmeldungen bewertet werden. Die Entscheidungsmatrix ist also ein tabellarisches Werkzeug, welche eben als eine Tabelle realisiert werden kann.This decision matrix can additionally or alternatively serve as documentation of the decision-making process. This can be relevant for future reviews and/or for understanding a decision, i.e., why a particular language model was triggered for a specific query. This can ensure transparency of the decision-making process. The decision matrix thus defines the "rules of the game" of the control logic. The decision matrix defines which language model is queried for which domain, in which order, and/or how the responses are evaluated. The decision matrix is therefore a tabular tool that can be implemented as a table.

Eine Ausführungsform sieht vor, dass die Entscheidungsmatrix dynamisch um neue Sprachmodelle erweitert wird, wenn neue Sprachmodelle mit ihren Parametern bereitgestellt werden. Die Entscheidungsmatrix kann in einer zentralisierten Datenstruktur wie z.B. einer Datenbank gespeichert sein, wodurch ein Hinzufügen und/oder Aktualisieren und/oder Löschen von Einträgen der Entscheidungsmatrix erleichtert wird. Die Steuerungslogik kann so konfiguriert sein, dass sie regelmäßig bestimmte Speicherorte und/oder Verzeichnisse und/oder Repositorys überprüft, in denen neue Sprachmodelle bereitgestellt werden. Das Überprüfen kann mittels der Komponente „FileSystemWatcher“ realisiert werden. Diese ermöglicht es Aktivitäten in einem Dateisystem in Echtzeit zu überwachen. Zusätzlich oder alternativ kann eine solche Überprüfung über ein Backend-System und/oder einen Cloud-Server des Kraftfahrzeugs, z. B. beim Einschalten, durchgeführt werden. Hierdurch ergibt sich der Vorteil, dass das Sprachdialogsystem mit neuen, weiteren Sprachmodellen erweitert werden kann.One embodiment provides that the decision matrix is dynamically expanded with new language models when new language models with their parameters are provided. The decision matrix can be stored in a centralized data structure, such as a database, which facilitates adding and/or updating and/or deleting entries of the decision matrix. The control logic can be configured to regularly check certain storage locations and/or directories and/or repositories in which new language models are provided. The checking can be performed by means of The "FileSystemWatcher" component enables real-time monitoring of file system activities. Additionally or alternatively, such a check can be performed via a backend system and/or a cloud server of the vehicle, e.g., upon startup. This offers the advantage that the speech dialog system can be expanded with new, additional language models.

Eine Ausführungsform sieht vor, dass falls eine Konfidenz der Rückmeldung zu der Anfrage unter einem vorgegebenen Schwellwert liegt und/oder falls mehrere Sprachmodelle eine selbe Priorisierung aufweisen die Anfrage in einer Abfrage-Kaskade, also sequenziell, an zumindest ein weiteres gemäß der Entscheidungsmatrix nachfolgendes Sprachmodell weitergeleitet wird, bis ein Vollständigkeitskriterium erreicht ist. Mit Konfidenz der Rückmeldung ist gemeint, dass eine interne Berechnung der Entscheidungsmatrix (siehe Figurenbeschreibung) einen Wert unter einem vorgegebenen Schwellwert beinhaltet. Hierdurch kann sichergestellt werden, dass der Nutzer zumindest eine für ihn relevante Rückmeldung erhält.One embodiment provides that if the confidence of the response to the query is below a predefined threshold and/or if multiple language models have the same prioritization, the query is forwarded in a query cascade, i.e., sequentially, to at least one further language model following the decision matrix until a completeness criterion is met. Confidence of the response means that an internal calculation of the decision matrix (see figure description) contains a value below a predefined threshold. This ensures that the user receives at least relevant feedback.

Eine Ausführungsform sieht vor, dass das Vollständigkeitskriterium umfasst, dass die Konfidenz der Rückmeldung einen vorgegebenen Schwellwert übersteigt oder genau diesem entspricht und/oder die Anfrage an eine vorgegebene Anzahl an Sprachmodellen weitergeleitet wurde und/oder ein Abbruch des Verfahrens manuelle veranlasst wird. Ein solcher Schwellwert kann beispielsweise 80% in Prozentpunkten oder 80 bis 90% sein. Eine vorgegebene Anzahl kann beispielsweise 5 oder in einem Bereich von 5 bis 10 liegen. Mit einem manuellen Abbruch kann gemeint sein, dass der Nutzer z. B. mittels einer Bedientaste der Bedienvorrichtung das Verfahren deaktiviert.One embodiment provides that the completeness criterion includes the confidence of the feedback exceeding or exactly matching a predefined threshold and/or the query being forwarded to a predefined number of language models and/or a manual termination of the process. Such a threshold can be, for example, 80% in percentage points or 80 to 90%. A predefined number can be, for example, 5 or in a range from 5 to 10. A manual termination can mean that the user deactivates the process, for example, using a control button on the control device.

Eine Ausführungsform sieht vor, dass die Anfrage an zumindest zwei Sprachmodelle parallel weitergleitet wird, falls die zumindest eine Domäne der Anfrage nicht eindeutig ermittelt wird. Damit kann gemeint sein, dass eine zu ermittelnde Domäne keiner der bereits in der Entscheidungsmatrix vorhandenen Domänen zugeordnet werden kann. Mit „eindeutig“ kann also gemeint sein, dass die zumindest eine Domäne der Anfrage mit einer Konfidenz von 70% in Prozentpunkten oder 70% bis 90% ermittelt wird. Dies kann die Laufzeiten des Sprachdialogsystems verringern, da mehrere Sprachmodelle gleichzeitig oder parallel angefragt werden. Hierzu kann eingestellt sein, dass mehrere Rückmeldungen nacheinander ausgegeben werden oder nur die Rückmeldung ausgegeben wird, die die höchste Konfidenz aufweist.One embodiment provides that the request is forwarded to at least two language models in parallel if the at least one domain of the request cannot be clearly determined. This can mean that a domain to be determined cannot be assigned to any of the domains already present in the decision matrix. "Clearly" can therefore mean that the at least one domain of the request is determined with a confidence of 70% in percentage points or 70% to 90%. This can reduce the runtimes of the speech dialog system because multiple language models are queried simultaneously or in parallel. For this purpose, it can be set so that several responses are output one after the other or only the response with the highest confidence is output.

Eine Weiterbildung sieht vor, dass das Sprachdialogsystem die Rückmeldung zusammenfasst, also mit weniger schriftlichen Worten wiedergibt als Worte gesprochen wurden. Durch die Zusammenfassung der Rückmeldung kann das Sprachdialogsystem eine kompakte Darstellung des semantischen Inhalts, wie z. B. der sprachlichen Äußerung, ermöglichen. Anstatt also die gesamte Rückmeldung im Detail wiederzugeben, extrahiert das Sprachdialogsystem z. B. mittels NLP (Natural Language Processing)-Methoden und/oder Deep Learning-Methoden, die wichtigen Kernpunkte und/oder fasst sie zusammen. Dadurch kann eine wiederzugebende Rückmeldung schnell bereitgestellt werden. Die Zusammenfassung der Rückmeldung hilft dabei, irrelevante und/oder redundante Informationen zu reduzieren. Das Sprachdialogsystem identifiziert also die Schlüsselaspekte der Rückmeldung und/oder liefert eine prägnante Darstellung, die nur die wesentlichen Informationen dieser enthält. Dies kann Zeit und/oder Aufmerksamkeit für den Nutzer sparen.One further development involves the speech dialogue system summarizing the feedback, i.e., reproducing it using fewer written words than the spoken words. By summarizing the feedback, the speech dialogue system can provide a compact representation of the semantic content, such as the linguistic utterance. Instead of reproducing the entire feedback in detail, the speech dialogue system extracts the important key points and/or summarizes them, for example using NLP (natural language processing) and/or deep learning methods. This allows the feedback to be reproduced to be provided quickly. Summarizing the feedback helps to reduce irrelevant and/or redundant information. The speech dialogue system thus identifies the key aspects of the feedback and/or provides a concise representation that contains only the essential information. This can save the user time and/or attention.

Das Sprachdialogsystem kann gemäß einer Weiterbildung die Rückmeldung über eine Sprachsynthese bereitstellen. Die Verwendung von Sprachsynthese kann eine natürliche und/oder verständliche Wiedergabe der Rückmeldung. Die Rückmeldung kann dabei in eine menschenähnliche Stimme umgewandelt werden, wodurch eine angenehme Hörerfahrung für den Nutzer entstehen kann. Die Stimme und/oder ein Tempo können konfiguriert werden, um eine optimale Verständlichkeit und/oder Hörkomfort zu gewährleisten. Die Sprachsynthese kann also z. B. die Möglichkeit bereitstellen, verschiedene Stimmen und/oder Sprachstile auszuwählen. Der Nutzer kann diejenige wählen, die ihm am besten gefällt und/oder die seinen individuellen Präferenzen entspricht, was zu einer angenehmen und/oder persönlich zugeschnittenen Kommunikationserfahrung führt.According to a further development, the speech dialogue system can provide feedback via speech synthesis. The use of speech synthesis can ensure a natural and/or understandable reproduction of the feedback. The feedback can be converted into a human-like voice, creating a pleasant listening experience for the user. The voice and/or tempo can be configured to ensure optimal intelligibility and/or listening comfort. The speech synthesis can therefore, for example, provide the option of selecting different voices and/or speech styles. The user can choose the one they like best and/or that matches their individual preferences, resulting in a pleasant and/or personally tailored communication experience.

Das Sprachdialogsystem und/oder das zumindest eine Sprachmodell kann im Kraftfahrzeug und/oder in einem stationären Server des Internets betrieben werden.The speech dialogue system and/or the at least one language model can be operated in the motor vehicle and/or in a stationary Internet server.

Das Sprachdialogsystem kann eine Applikation und/oder z. B. Teil eines Smartphones und/oder eines Infotainmentsystems z. B. eines Kraftfahrzeugs sein. Das erfindungsgemäße Sprachdialogsystem ist also auf jegliche Hardware- und/oder Softwaresysteme anwendbar.The speech dialogue system can be an application and/or, for example, part of a smartphone and/or an infotainment system, e.g., of a motor vehicle. The speech dialogue system according to the invention is therefore applicable to any hardware and/or software system.

Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.For use cases or application situations that may arise during the procedure and which are not explicitly described here, it may be provided that, in accordance with the procedure, an error message and/or a request for user feedback is issued and/or which sets a default setting and/or a predetermined initial state.

Zu der Erfindung gehört auch die Steuervorrichtung für das Kraftfahrzeug und/oder für das Sprachdialogsystem. Die Steuervorrichtung kann eine Datenverarbeitungsvorrichtung oder eine Prozessoreinrichtung aufweisen, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Als Mikroprozessor kann insbesondere jeweils eine CPU (Central Processing Unit), eine GPU (Graphical Processing Unit) oder eine NPU (Neural Processing Unit) verwendet werden. Des Weiteren kann die Prozessoreinrichtung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein. Die Prozessoreinrichtung kann z.B. auf zum indest einer Schaltungsplatine und/oder auf zum indest einem SoC (System on Chip) basieren.The invention also includes the control device for the motor vehicle and/or for the speech dialogue system. The control device can have a data processing device or a processor device configured to carry out an embodiment of the method according to the invention. For this purpose, the processor device can have at least one microprocessor and/or at least one microcontroller and/or at least one FPGA (Field Programmable Gate Array) and/or at least one DSP (Digital Signal Processor). In particular, a CPU (Central Processing Unit), a GPU (Graphical Processing Unit), or an NPU (Neural Processing Unit) can be used as the microprocessor. Furthermore, the processor device can have program code configured to carry out the embodiment of the method according to the invention when executed by the processor device. The program code can be stored in a data memory of the processor device. The processor device can, for example, be based on at least a circuit board and/or at least an SoC (System on Chip).

Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Sprachdialogsystems und/oder Kraftfahrzeugs, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Verfahrens beschrieben worden sind. Aus diesem Grund sind die entsprechenden Weiterbildungen hier nicht noch einmal beschrieben.The invention also includes further developments of the speech dialogue system and/or motor vehicle according to the invention, which have features as already described in connection with the further developments of the method according to the invention. For this reason, the corresponding further developments are not described again here.

Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als Personenbus oder Motorrad ausgestaltet.The motor vehicle according to the invention is preferably designed as a motor vehicle, in particular as a passenger car or truck, or as a passenger bus or motorcycle.

Als eine weitere Lösung umfasst die Erfindung auch ein computerlesbares Speichermedium, umfassend Programmcode, der bei der Ausführung durch einen Computer oder einen Computerverbund diesen veranlasst, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann zumindest teilweise als ein nicht-flüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) bereitgestellt sein. Das Speichermedium kann in dem Computer oder Computerverbund angeordnet sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server und/oder Cloud-Server im Internet betrieben sein. Durch den Computer oder Computerverbund kann eine Prozessorschaltung mit beispielsweise zumindest einem Mikroprozessor bereitgestellt sein. Der Programmcode kann als Binärcode und/oder als Assembler-Code und/oder als Quellcode einer Programmiersprache (z.B. C) und/oder als Programmskript (z.B. Python) bereitgestellt sein.As a further solution, the invention also encompasses a computer-readable storage medium comprising program code which, when executed by a computer or computer network, causes the computer or computer network to execute an embodiment of the method according to the invention. The storage medium can be provided at least partially as a non-volatile data memory (e.g., as a flash memory and/or as an SSD - solid state drive) and/or at least partially as a volatile data memory (e.g., as a RAM - random access memory). The storage medium can be arranged in the computer or computer network. However, the storage medium can also be operated, for example, as a so-called app store server and/or cloud server on the Internet. The computer or computer network can provide a processor circuit with, for example, at least one microprocessor. The program code can be provided as binary code and/or as assembly code and/or as source code of a programming language (e.g., C) and/or as a program script (e.g., Python).

Die Erfindung schließt ebenfalls die Kombinationen der Merkmale aus den beschriebenen Ausführungsformen ein. Somit umfasst die Erfindung auch Realisierungen, die jeweils eine Mischung der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern diese Ausführungsformen nicht als inkompatibel miteinander beschrieben wurden.The invention also includes combinations of features from the described embodiments. Thus, the invention also encompasses implementations that each have a combination of features from several of the described embodiments, unless these embodiments have been described as incompatible with one another.

Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:

1 ein Diagramm einer Ausführungsform des erfindungsgemäßen Verfahrens;
2 eine beispielhafte Darstellung einer internen Verarbeitung einer Datenarchitektur gemäß des erfindungsgemäßen Verfahrens; und
3 eine schematische Darstellung einer Entscheidungsmatrix gemäß des erfindungsgemäßen Verfahrens.

Exemplary embodiments of the invention are described below. Shown are:

1 a diagram of an embodiment of the method according to the invention;
2 an exemplary representation of an internal processing of a data architecture according to the method according to the invention; and
3 a schematic representation of a decision matrix according to the method according to the invention.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the described components of the embodiments each represent individual features of the invention that can be considered independently of one another, each of which also develops the invention independently of one another. Therefore, the disclosure is intended to encompass combinations of the features of the embodiments other than those shown. Furthermore, the described embodiments can also be supplemented by further features of the invention already described.

In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.In the figures, the same reference symbols denote elements with the same function.

1 zeigt eine Ausführungsform gemäß der Idee. Dargestellt sind ein Nutzer 6, eine Anfrage 1, eine Steuerungslogik 7, aufweisend eine Domänenerkennungseinheit 8, eine Entscheidungsmatrix 3, Sprachmodelle 5, wobei die Sprachmodelle 5 symbolisch einmal sequentiell 2 und einmal parallel 4 angefragt werden. Zudem ist eine Rückmeldung 9 gezeigt. Ein Sprachdialogsystem gemäß der Idee kann die Entscheidungsmatrix 3, die Steuerungslogik 7 mitsamt der Domänenerkennungseinheit 8 sowie die Sprachmodelle 5 aufweisen. Die Entscheidungsmatrix 3 und/oder die Domänenerkennungseinheit 8 können Teil der Steuerungslogik 7 sein oder unabhängig von dieser angeordnet sein. 1 shows an embodiment according to the concept. Shown are a user 6, a request 1, a control logic 7 comprising a domain recognition unit 8, a decision matrix 3, and language models 5, wherein the language models 5 are symbolically requested once sequentially 2 and once in parallel 4. A feedback 9 is also shown. A speech dialogue system according to the concept can comprise the decision matrix 3, the control logic 7 together with the domain recognition unit 8, and the language models 5. The decision matrix 3 and/or the domain recognition unit 8 can be part of the control logic 7 or arranged independently of it.

Zunächst kann eine Anfrage 1 des Nutzers 6 über eine Schnittstelle des Sprachdialogsystems erfasst werden. Dann kann eine Domänenerkennungseinheit 8 durch eine Steuerungslogik 7 des Sprachdialogsystems aktiviert werden, welche konfiguriert ist, die erfasste Anfrage 1 zumindest einer Domäne 24 zuzuweisen, wobei die Anfrage 1 mittels einer Domänenerkennung zumindest einer Domäne 24 zugewiesen wird. Die Domänenerkennungseinheit 8 kann zusätzlich oder alternativ eine Apriori-Erkennung durchführen und/oder einen Apriori-Algorithmus aufweisen. Anschließend kann die zumindest eine Domäne 24 mit zumindest einem Sprachmodell 5 innerhalb des Sprachdialogsystems unter Verwendung einer Entscheidungsmatrix 3 der Steuerungslogik 7 assoziiert werden, wobei jede Domäne 24 mit zumindest einem Sprachmodell 5 assoziiert ist. Die Anfrage 1 kann als nächstes an das zumindest eine entsprechende Sprachmodell 5 weitergeleitet werden, wobei eine Rückmeldung 9 zu der Anfrage 1 basierend auf Informationen, die im zumindest einem ausgewählten Sprachmodell 5 gespeichert sind, generiert wird. Diese Rückmeldung 9 kann dann an den Nutzer 6 ausgegeben werden.First, a request 1 from the user 6 can be captured via an interface of the speech dialogue system. Then, a domain recognition unit 8 can be activated by a control logic 7 of the speech dialogue system, which is configured to assign the captured request 1 to at least one domain 24, wherein the request 1 is assigned to at least one domain 24 by means of domain recognition. The domain recognition unit 8 can additionally or alternatively perform an a priori recognition and/or have an a priori algorithm. Subsequently, the at least one domain 24 can be associated with at least one language model 5 within the speech dialogue system using a decision matrix 3 of the control logic 7, wherein each domain 24 is associated with at least one language model 5. The request 1 can next be forwarded to the at least one corresponding language model 5, wherein a feedback 9 regarding the request 1 is generated based on information stored in the at least one selected language model 5. This feedback 9 can then be output to user 6.

Falls eine Konfidenz der Rückmeldung 9 zu der Anfrage 1 unter einem vorgegebenen Schwellwert liegt und/oder falls mehrere Sprachmodelle 5 eine selbe Priorisierung aufweisen, kann die Anfrage 1 in einer Abfrage-Kaskade oder sequentiell 2 an zumindest ein weiteres gemäß der Entscheidungsmatrix 3 nachfolgendes Sprachmodell 5 weitergeleitet werden, bis ein Vollständigkeitskriterium erreicht ist.If a confidence of the feedback 9 to the query 1 is below a predetermined threshold and/or if several language models 5 have the same prioritization, the query 1 can be forwarded in a query cascade or sequentially 2 to at least one further language model 5 following according to the decision matrix 3 until a completeness criterion is reached.

Mit Vollständigkeitskriterium kann gemeint sein, dass die Konfidenz der Rückmeldung 9 einen vorgegebenen Schwellwert übersteigt oder genau diesem entspricht und/oder die Anfrage 1 an eine vorgegebene Anzahl an Sprachmodellen 5 weitergeleitet wurde und/oder ein Abbruch des Verfahrens manuell veranlasst wird.The completeness criterion can mean that the confidence of the feedback 9 exceeds or exactly corresponds to a specified threshold and/or the request 1 has been forwarded to a specified number of language models 5 and/or the procedure is manually aborted.

Die Anfrage 1 kann zusätzlich oder alternativ an zumindest zwei Sprachmodelle 5 parallel 4 weitergeleitet werden, falls die zumindest eine Domäne 24 der Anfrage 1 nicht zuverlässig ermittelt wird.The request 1 can additionally or alternatively be forwarded to at least two language models 5 in parallel 4 if the at least one domain 24 of the request 1 is not reliably determined.

2 zeigt eine beispielhafte Darstellung einer internen Verarbeitung einer Datenarchitektur gemäß einer Ausführungsform der Idee. Diese Verarbeitung kann in zwei Komponenten aufgeteilt werden, wobei die eine Komponente einen Indexierungsprozess 12 beinhaltet und die andere Komponente eine Anfrageverarbeitung 13 aufweist. Wie bereits erwähnt kann das Sprachdialogsystem gemäß der Idee mit weiteren Sprachmodellen 5 angereichert werden. Zusätzlich oder alternativ kann vorgesehen sein, dass nicht nur neue bereits trainierte Sprachmodelle 5 eingebettet werden, sondern, dass insgesamt weitere Daten 19 hinzugefügt werden. Diese Daten 19 können beispielsweise weitere domänenspezifische Informationen für bereits vorhandene Sprachmodelle 5 sein, z. B. entnommen aus Handbüchern und/oder Benutzeranleitungen und/oder Bestellkatalogen und/oder aktuellen Infoschreiben. Die Daten 19 können dann einer Datenvorverarbeitung, insbesondere einer Tokenisierung 20, unterzogen werden. Die Tokenisierung 20 von Daten 19 ist der Prozess, bei dem ein Text oder eine Sequenz in kleinere Einheiten, sogenannte „Tokens“, aufgeteilt wird. Diese Tokens können Wörter, Buchstaben, Symbole oder andere Teile des Textes sein, abhängig von der spezifischen Tokenisierungsmethode. Die Tokenisierung 20 ist eine grundlegende Aufgabe im Bereich der natürlichen Sprachverarbeitung (NLP) und dient dazu, Text in eine für Computer verständlichere Form umzuwandeln. Jedes Token repräsentiert eine diskrete Einheit im Text, was es erleichtert, Textdaten zu analysieren, zu verarbeiten und maschinell zu verstehen. Die Tokens können dann in numerische Repräsentationen umgewandelt werden, um in NLP-Anwendungen wie maschinellem Lernen und/oder Textanalyse verwendet zu werden. Durch die Tokenisierung 20 können Embeddings 21 erstellt werden, wobei die Embeddings 21 als ein Trainingsdatensatz erachtet werden können. Der Trainingsdatensatz kann in mehrere Abschnitte unterteilt werden, also in eine Anzahl von Trainingsdatenabschnitten 22 oder sogenannten „chunks“. Die Trainingsdatenabschnitte 22 können dann einer semantischen Indexierung 23 unterzogen werden. Mit anderen Worten können hierdurch Informationen der Trainingsdatenabschnitte 22 kategorisiert und/oder zumindest einer Domäne 24 zugeordnet werden. Diese kategorisierten Trainingsdatenabschnitte 22 können dann in einer Wissensdatenbank 16 gespeichert werden. Die Wissensdatenbank 16 kann Teil der Steuerungslogik 7 sein und/oder mit der Entscheidungsmatrix 3 verbunden sein. 2 shows an exemplary representation of internal processing of a data architecture according to one embodiment of the concept. This processing can be divided into two components, one component containing an indexing process 12 and the other component having query processing 13. As already mentioned, the speech dialogue system according to the concept can be enriched with additional language models 5. Additionally or alternatively, it can be provided that not only new, already trained language models 5 are embedded, but that additional data 19 is added overall. This data 19 can, for example, be further domain-specific information for already existing language models 5, e.g., taken from manuals and/or user guides and/or order catalogs and/or current information letters. The data 19 can then be subjected to data preprocessing, in particular tokenization 20. The tokenization 20 of data 19 is the process by which a text or sequence is divided into smaller units, so-called "tokens." These tokens can be words, letters, symbols, or other parts of the text, depending on the specific tokenization method. Tokenization 20 is a fundamental task in the field of natural language processing (NLP) and serves to convert text into a form more understandable by computers. Each token represents a discrete unit in the text, making it easier to analyze, process, and understand text data. The tokens can then be converted into numerical representations for use in NLP applications such as machine learning and/or text analysis. Through tokenization 20, embeddings 21 can be created, whereby the embeddings 21 can be considered a training dataset. The training dataset can be divided into several sections, i.e., into a number of training data chunks 22 or so-called "chunks." The training data chunks 22 can then be subjected to semantic indexing 23. In other words, information from the training data sections 22 can be categorized and/or assigned to at least one domain 24. These categorized training data sections 22 can then be stored in a knowledge database 16. The knowledge database 16 can be part of the control logic 7 and/or connected to the decision matrix 3.

Falls also ein neues Sprachmodell 5, z. B. vom selben Hersteller, verfügbar ist, kann nach dieser Figur eine Wissensdatenbank 16 aufgebaut werden.Therefore, if a new language model 5 is available, e.g. from the same manufacturer, a knowledge database 16 can be built according to this figure.

Wird also eine Anfrage 1 erfasst und/oder empfangen, so kann die Anfrage 1 in der Komponente Anfrageverarbeitung 13 verarbeitet werden. Dazu wird die erfasste Anfrage 1 einem sogenannten Query Embedding 14 unterzogen. „Query Embedding“ 14 bezieht sich auf den Prozess, eine Anfrage 1 in einen Vektorraum zu transformieren, wobei dieser Vektorraum eine dichte, oft niedrigdimensionale Repräsentation der ursprünglichen Anfrage 1 darstellt. Hieraus kann eine semantische Suche 15 erfolgen, wobei in der Wissensdatenbank 16 nach semantisch ähnlichen Trainingsdatenabschnitten 22 gesucht wird. Daraus kann ein Ranking 17 erfolgen. Die Anzahl der wahrscheinlichsten Suchergebnisse 18, also die m semantisch ähnlichsten Trainingsdatenabschnitte, können dann für ein oder mehrere Sprachmodelle 5 bereitgestellt werden. Hier kann die Entscheidungsmatrix 3 mittels bereits z. B. einer oder mehrerer erfasster Domänen 24 aus den Suchergebnissen 18, ein oder mehrere Sprachmodelle 5 ansteuern, sodass eine Rückmeldung 9 an den Nutzer 6 ausgegeben wird.If a query 1 is captured and/or received, the query 1 can be processed in the query processing component 13. For this purpose, the captured query 1 is subjected to a so-called query embedding 14. "Query embedding" 14 refers to the process of transforming a query 1 into a vector space, whereby this vector space represents a dense, often low-dimensional representation of the original query 1. From this, a semantic search 15 can be performed, whereby the knowledge database 16 is searched for semantically similar training data sections 22. This can then be used to create a ranking 17. The number of most probable search results 18, i.e., the m semantically most similar training data segments, can then be provided for one or more language models 5. Here, the decision matrix 3 can control one or more language models 5 using, for example, one or more recorded domains 24 from the search results 18, so that feedback 9 is output to the user 6.

3 zeigt eine schematische Darstellung der Entscheidungsmatrix 3 gemäß der Idee. In den Spalten der Entscheidungsmatrix 3 sind verschiedene Elemente dargestellt, darunter eine Domäne 24 und/oder ein Sprachmodelltyp 27 und/oder ein Sprachmodell 5 und/oder ein erster Gewichtungsfaktor 31 und/oder Konfidenzrechner 26 und/oder ein zweiter Gewichtungsfaktor 32 und/oder eine Funktion 25 und/oder ein Ergebnis 33. Beispielhaft sind in der Spalte Domäne 24 in den Zellen darunter eine Domäne 24 „Wetter“ 28 und/oder eine Domäne 24 „Wissen“ 29 und/oder eine Domäne 24 „Unbekannt“ 30 und/oder weitere Domänen 24 symbolisch repräsentiert. 3 shows a schematic representation of the decision matrix 3 according to the idea. Various elements are shown in the columns of the decision matrix 3, including a domain 24 and/or a language model type 27 and/or a language model 5 and/or a first weighting factor 31 and/or confidence calculator 26 and/or a second weighting factor 32 and/or a function 25 and/or a result 33. By way of example, in the cells below the column "Domain 24", a domain 24 "Weather" 28 and/or a domain 24 "Knowledge" 29 and/or a domain 24 "Unknown" 30 and/or further domains 24 are symbolically represented.

In der Spalte „Sprachmodelltyp“ 27 kann eingestellt werden, ob bei Zuweisen der Anfrage 1 zumindest einer Domäne 24 mehrere Sprachmodelle 5 sequentiell 2 (CA, cascade) oder parallel 4 (PA, parallel) angefragt werden sollen.. Unter der Spalte „Sprachmodell“ 5 können die jeweiligen Sprachmodelle 5, wie z. B. ChatGPT und/oder LLama, aufgelistet sein. Der erste Gewichtungsfaktor 31 kann z. B. eine Gewichtung für die jeweiligen Sprachmodelle 5 in Abhängigkeit ihrer bisherigen Relevanz und/oder Verwendung aufweisen. Mit anderen Worten kann der erste Gewichtungsfaktor 31 eine Apriori-Bewertung repräsentieren, die eine Relevanz in Abhängigkeit einer Domäne 24 aufzeigt. Der zweite Gewichtungsfaktor 32 kann z. B. einen Faktor basierend auf der Größe und/oder der Typologie der Trainingsdatenabschnitte 22 und/oder der Trainingsdaten 19 repräsentieren, also eine Relevanz in Abhängigkeit zu der aufzuweisenden Datenqualität der Trainingsdaten 19 aufweisen.. Zusätzlich oder alternativ kann so ein Gewichtungsfaktor 31, 32 dahingehend eingestellt sein, dass z .B. geringe Datenkosten und/oder eine geringe Verarbeitungszeit durch ein jeweiliges Sprachmodell 5 erzeugt wird, was durch einen jeweiligen Gewichtungsfaktor 31, 32 entsprechend repräsentiert wird. Die Funktion 25 kann z. B: eine Anzahl an Embeddings 21 angeben, in Abhängigkeit der Anzahl n der im Sprachmodell 5 verwendeten Trainingsdaten. Der Konfidenzrechner 26 kann das Maximum aller in der Entscheidungsmatrix 3 zurückgegebener Konfidenzen berechnen. Mit anderen Worten berechnet der Konfidenzrechner 26 für alle Zellen der Tabelle, z. B. durch Addition oder Multiplikation jeweils die maximale Konfidenz, welche dann in der Spalte „Ergebnis“ 33 angezeigt werden kann.In the “Language Model Type” column 27, it can be set whether, when the query 1 is assigned to at least one domain 24, several language models 5 should be queried sequentially 2 (CA, cascade) or in parallel 4 (PA, parallel). The respective language models 5, such as ChatGPT and/or LLama, can be listed under the “Language Model” column 5. The first weighting factor 31 can, for example, have a weighting for the respective language models 5 depending on their previous relevance and/or use. In other words, the first weighting factor 31 can represent an a priori assessment that shows a relevance depending on a domain 24. The second weighting factor 32 can, for example, B. represent a factor based on the size and/or typology of the training data sections 22 and/or the training data 19, i.e., have a relevance depending on the data quality to be exhibited by the training data 19. Additionally or alternatively, a weighting factor 31, 32 can be set such that, for example, low data costs and/or a short processing time are generated by a respective language model 5, which is correspondingly represented by a respective weighting factor 31, 32. The function 25 can, for example, specify a number of embeddings 21 depending on the number n of training data used in the language model 5. The confidence calculator 26 can calculate the maximum of all confidences returned in the decision matrix 3. In other words, the confidence calculator 26 calculates the maximum confidence for all cells of the table, e.g., by addition or multiplication, which can then be displayed in the "Result" column 33.

Die Idee beinhaltet also insgesamt eine Erweiterung und Anbindung (an/in das im Kraftfahrzeug vorhandenen Sprachdialogsystem) von mehreren generativen KI-Integrationen oder Sprachmodellen 5, um möglichst alle Anfragen 1, z. B. bestehend aus Wissensfragen, Aufgaben, Unterhaltungen möglichst präzise, beantworten zu können. Dabei können wie bereits erwähnt allgemeine KI-LLM Modelle oder Sprachmodelle 5 wie ChatGPT, Llama und/oder Open Source Projekte integriert werden, aber auch auf bestimmte Aufgaben spezialisierte KI-Modelle integriert werden.The overall idea involves an extension and connection (to/into the existing speech dialogue system in the vehicle) of several generative AI integrations or language models 5 in order to be able to answer all queries 1, e.g., consisting of knowledge questions, tasks, conversations, as precisely as possible. As already mentioned, general AI-LLM models or language models 5 such as ChatGPT, Llama, and/or open source projects can be integrated, but AI models specialized for specific tasks can also be integrated.

Der Schwerpunkt liegt außerdem in Sprachmodellen 5 (generative Al-Embeddings), die mit eigenen Informationen erweitert werden können. Das könnten wie bereits beschrieben z.B. Handbücher, Benutzeranleitungen, Bestellkataloge oder aktuelle Infoschreiben sein. So kann der Nutzer 6 nicht nur eine Anfrage 1 in Form einer allgemeinen Wissens-Frage stellen, sondern sich zusätzlich unterhalten lassen und/oder Aufgaben lösen lassen, und/oder Details zu Fahrzeugfunktionen, Ausstattungen, oder Informationen zu Events rund um sein Kraftfahrzeug anfragen.The focus is also on language models 5 (generative AI embeddings), which can be expanded with custom information. As already described, these could be, for example, manuals, user guides, order catalogs, or current information letters. This allows the user 6 to not only ask a query 1 in the form of a general knowledge question, but also to be entertained and/or have tasks solved, and/or request details about vehicle functions, equipment, or information about events related to their vehicle.

Kernstück der Idee ist die Entwicklung der Steuerungslogik 7, auch genannt „Dialogconductor“, der die Anbindung des Sprachdialogsystems an die unterschiedlichen Anbieter der KI- und LLM-Modelle oder Sprachmodelle 5 realisiert. Der Dialogconductor entscheidet welche Anfrage 1 an welche Sprachmodelle 5 verteilt werden, bewertet (arbitriert) die Rückmeldung 9 der Sprachmodelle 5, sortiert die beste Rückmeldung 9 aus und übergibt diese dem Sprachdialogsystem zum Vorlesen oder Ausgeben. Bildlich betrachtet ist es ein Dirigent, der ein Orchester unterschiedlichster Sprachmodelle 5 orchestriert.The core of the idea is the development of the control logic 7, also called the "dialog conductor," which connects the speech dialog system to the various providers of AI and LLM models or language models 5. The dialog conductor decides which request 1 is distributed to which language models 5, evaluates (arbitrates) the feedback 9 from the language models 5, selects the best feedback 9, and passes it on to the speech dialog system for reading aloud or output. Figuratively speaking, it is a conductor who orchestrates an orchestra of diverse language models 5.

Das aktuelle Konzept sieht vor, den Sprachassistenten hauptsächlich für LLM-Leveraging-Zwecke zu verwenden, also für die Absichtserkennung zwischen verschiedenen sogenannten semantischen Domänen 24 (z.B Wissen, Bord, Buch, Wetter 28, POI-Suche). Jede definierte semantische Domäne 24 würde dann vollständig von einem generativen KI-Modell oder einem Sprachmodell 5 mit einer eigenen Worteinbettung oder Embedding 21 - einer eigenen semantischen Suche 15 - unterstützt. Die erste Phase des Erkennungsprozesses läuft über die Steuerungslogik 7, wo sie mithilfe ihres Apriori-Wissens orchestriert, an welche(s) LLM(s) 5 die Anfrage 1 wahrscheinlich weitergeleitet werden soll. Das Konzept basiert auf dem Apriori-Wissen der Steuerungslogik 7 in Bezug auf verschiedene semantische Domänen 24, wo die Steuerungslogik 7 zwischen verschiedenen eingebetteten LLMs 5 interagieren muss. Jede Einbettung 21 ermöglicht eine semantische Suche 15 in ihrer Wissensdatenbank 16 unter Verwendung der Anfrage 1, die zuvor von der Steuerungslogik 7 extrahiert wurde. Im Wesentlichen wird der Wissensgraph der Steuerungslogik 7 durch die Verbindung mehrerer Sprachmodelle 5 von Natur aus erweitert, ohne dass eine Natural Language Generation (NLG)-Dialogbearbeitung oder zusätzliche Anbieterinhalte erforderlich sind. Ein sehr einfaches Beispiel für eine Anwendung dieser Architektur im Automobilbereich, sind trainierte Sprachmodelle 5 mit OEM-Bordbüchern, Herstellerbroschüren, aktuellen Händler-Aktionen oder -Angeboten. In diesem Fall erfolgt die Auswahl einer bestimmten KI-Einbettung, also einer Einbettung eines Sprachmodells 5, durch die Steuerungslogik 7 anhand der Entscheidungsmatrix 3.The current concept envisions using the voice assistant primarily for LLM leverage purposes, i.e., for intent recognition between different so-called semantic domains 24 (e.g., knowledge, board, book, weather 28, POI search). Each defined semantic domain 24 would then be fully supported by a generative AI model or a language model 5 with its own word embedding 21—its own semantic search 15. The first phase of the recognition process runs via the control logic 7, where it uses its a priori knowledge to orchestrate which LLM(s) 5 the request 1 should likely be forwarded to. The concept is based on the a priori knowledge of the control logic 7 regarding different semantic domains 24, where the control logic 7 must interact between different embedded LLMs 5. Each embedding 21 enables a semantic search 15 in its knowledge base 16 using the query 1 previously was extracted by control logic 7. Essentially, the knowledge graph of control logic 7 is inherently enhanced by connecting multiple language models 5, without the need for Natural Language Generation (NLG) dialog processing or additional vendor content. A very simple example of an application of this architecture in the automotive sector is trained language models 5 with OEM vehicle manuals, manufacturer brochures, current dealer promotions, or offers. In this case, the selection of a specific AI embedding, i.e., an embedding of a language model 5, is made by control logic 7 based on decision matrix 3.

Aufgrund dieser Architektur kann es also vorkommen, dass bei einer ersten Anfrage 1 (A), anhand der Regel in der Entscheidungsmatrix 3, nur ein LLM 5 angefragt wird, bei einer anderen Anfrage 1 (B) aber eine ganze Kaskade an LLMs 5 nacheinander, also sequentiell 2, abgefragt werden und bei einer weiteren Anfrage 1 (C) mehrere LLMs 5 parallel 4 angefragt werden könnten. Due to this architecture, it can happen that in a first request 1 (A), based on the rule in the decision matrix 3, only one LLM 5 is requested, but in another request 1 (B) a whole cascade of LLMs 5 are queried one after the other, i.e. sequentially 2, and in a further request 1 (C) several LLMs 5 could be queried in parallel 4.

Die Rückmeldungen 9 der LLMs 5 werden mit einer Konfidenz versehen sein, sodass anhand der definierten Elemente in der Entscheidungsmatrix 3, einer Formel zur Berechnung des besten Ergebnisses 33 ausgerechnet werden kann.The feedback 9 of the LLMs 5 will be provided with a confidence so that, based on the defined elements in the decision matrix 3, a formula for calculating the best result 33 can be calculated.

Insgesamt zeigen die Beispiele, wie eine Nutzung generativer KI-Integration für einen Automobil-Sprachassistenten bereitgestellt werden kann.Overall, the examples show how generative AI integration can be deployed for an automotive voice assistant.

BezugszeichenlisteList of reference symbols

11: AnfrageInquiry
22: sequentiellsequential
33: EntscheidungsmatrixDecision matrix
44: parallelparallel
55: SprachmodellLanguage model
66: NutzerUsers
77: SteuerungslogikControl logic
88: DomänenerkennungseinheitDomain recognition unit
99: RückmeldungReturn message
1212: IndexierungsprozessIndexing process
1313: AnfrageverarbeitungRequest processing
1414: Query EmbeddingQuery Embedding
1515: semantische Suchesemantic search
1616: WissensdatenbankKnowledge base
1717: RankingRanking
1818: SuchergebnisseSearch results
1919: DatenData
2020: TokenisierungTokenization
2121: EmbeddingEmbedding
2222: TraingsdatenabschnitteTraining data sections
2323: semantische Indexierungsemantic indexing
2424: Domänedomain
2525: Funktionfunction
2626: KonfidenzrechnerConfidence calculator
2727: SprachmodelltypLanguage model type
2828: WetterWeather
2929: WissenTo know
3030: UnbekanntUnknown
3131: erster Gewichtsfaktorfirst weight factor
3232: zweiter Gewichtsfaktorsecond weight factor
3333: ErgebnisResult

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES CONTAINED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents submitted by the applicant was generated automatically and is included solely for the convenience of the reader. This list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

WO 2022/115839 A1 [0004]
WO 2021/252181 A1 [0005]

Claims

A method for operating a speech dialogue system, comprising the following steps: a) detecting a request (1) from a user (6) via an interface of the speech dialogue system, b) activating a domain recognition unit (8) by a control logic (7) of the speech dialogue system, wherein the domain recognition unit (8) is configured to assign the detected request (1) to at least one domain (24), and assigning the request (1) to the at least one domain (24) by means of a domain recognition of the domain recognition unit (8), c) associating the at least one domain (24) with at least one language model (5) within the speech dialogue system using a decision matrix (3) of the control logic (7), wherein each domain (24) is associated with at least one language model (5), d) routing the request (1) to the at least one associated language model (5), e) generating feedback (9) for the request (1) based on information that stored in at least one associated language model (5) and outputting this feedback (9) to the user (6).

Procedure according to Claim 1 , wherein the query (1) is subjected to keyword extraction by the domain recognition unit (8), and an assignment unit carries out an assignment of predetermined keywords to domains (24), whereby the query (1) is assigned to at least one domain (24).

Method according to one of the preceding claims, wherein the decision matrix (3) controls the at least one language model (5) for generating the feedback (9) depending on at least one of the following parameters and/or settings, wherein the language models (5) are preferably prioritized based on the parameters and/or settings per domain (24): i) data volume of the training data (19) of the language model (5) and/or ii) typology of the training data (19) of the language model (5) and/or iii) weighting of the language model (5) depending on at least one associated domain (24) and/or iv) expected data consumption and/or v) expected processing time.

Method according to one of the preceding claims, wherein the decision matrix (3) is dynamically extended by new language models (5) when new language models (5) with their parameters are provided.

Method according to one of the preceding claims, wherein in the event that a confidence of the feedback (9) for the query (1) is below a predetermined threshold value and/or several language models (5) have the same prioritization: forwarding the query (1) in a query cascade (2) to at least one further language model (5) following according to the decision matrix (3) until a completeness criterion is reached.

Procedure according to Claim 5 , wherein the completeness criterion comprises that: - the confidence of the feedback (9) exceeds or exactly corresponds to a predetermined threshold value and/or - the request (1) has been forwarded to a predetermined number of language models (5) and/or - an abort of the process is initiated manually.

Method according to one of the preceding claims, wherein the request (1) is forwarded to at least two language models (5) in parallel (4) if the at least one domain (24) of the request (1) is not clearly determined.

Method according to one of the preceding claims, wherein the feedback (9) is reproduced in summary form.

Method according to one of the preceding claims, wherein the feedback (9) is provided as a speech synthesis.

A speech dialogue system comprising a processor device having program instructions which, when executed by the processor device, cause it to carry out a method according to one of the preceding method claims.

Motor vehicle, comprising a speech dialogue system according to Claim 10 .