DE102023132751A1 - Method for operating a speech dialogue system and speech dialogue system - Google Patents
Method for operating a speech dialogue system and speech dialogue system Download PDFInfo
- Publication number
- DE102023132751A1 DE102023132751A1 DE102023132751.8A DE102023132751A DE102023132751A1 DE 102023132751 A1 DE102023132751 A1 DE 102023132751A1 DE 102023132751 A DE102023132751 A DE 102023132751A DE 102023132751 A1 DE102023132751 A1 DE 102023132751A1
- Authority
- DE
- Germany
- Prior art keywords
- domain
- request
- language model
- dialogue system
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/10—Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/20—Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
- B60K35/26—Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using acoustic output
- B60K35/265—Voice
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K2360/00—Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
- B60K2360/148—Instrument input by voice
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Transportation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Combustion & Propulsion (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems. Zunächst wird eine Anfrage (1) eines Nutzers (6) über eine Schnittstelle des Sprachdialogsystems erfasst. Dann wird eine Domänenerkennungseinheit (8) durch eine Steuerungslogik (7) des Sprachdialogsystems aktiviert, welche konfiguriert ist, die erfasste Anfrage (1) zumindest einer Domäne (24) zuzuweisen, wobei die Anfrage (1) mittels einer Domänenerkennung zumindest einer Domäne (24) zugewiesen wird. Anschließend wird die zumindest eine Domäne (24) mit zumindest einem Sprachmodell (5) innerhalb des Sprachdialogsystems unter Verwendung einer Entscheidungsmatrix (3) der Steuerungslogik (7) assoziiert, wobei jede Domäne (24) mit zumindest einem Sprachmodell (5) assoziiert ist. Die Anfrage (1) wird als nächstes an das zumindest eine entsprechende Sprachmodell (5) weitergeleitet, wobei eine Rückmeldung (9) zu der Anfrage (1) basierend auf Informationen, die im zumindest einem ausgewählten Sprachmodell (5) gespeichert sind, generiert wird. Diese Rückmeldung (9) wird dann an den Nutzer (6) ausgegeben. The invention relates to a method for operating a speech dialogue system. First, a request (1) from a user (6) is detected via an interface of the speech dialogue system. Then, a domain recognition unit (8) is activated by a control logic (7) of the speech dialogue system, which is configured to assign the detected request (1) to at least one domain (24), wherein the request (1) is assigned to at least one domain (24) by means of domain recognition. Subsequently, the at least one domain (24) is associated with at least one language model (5) within the speech dialogue system using a decision matrix (3) of the control logic (7), wherein each domain (24) is associated with at least one language model (5). The request (1) is next forwarded to the at least one corresponding language model (5), wherein a feedback message (9) regarding the request (1) is generated based on information stored in the at least one selected language model (5). This feedback message (9) is then output to the user (6).
Description
Die Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems. Des Weiteren betrifft die Erfindung ein Sprachdialogsystem, das dazu ausgebildet ist, das Verfahren durchzuführen.The invention relates to a method for operating a speech dialogue system. Furthermore, the invention relates to a speech dialogue system configured to implement the method.
In aktuellen Fahrzeugen unterschiedlichster Hersteller ist oftmals im Fahrzeug-Infotainmentsystem nur ein regelbasiertes Sprachdialogsystem (SDS) oder ein Sprachassistent für die Sprachbedienung verfügbar. Das Sprachdialogsystem ist für die Umsetzung der Befehle über die Spracheingabe zuständig. Von der Funktion und vom Wissen ist ein solcher Sprachassistent oft sehr eingeschränkt. Damit neue Inhalte oder Wissen abgefragt werden können, muss das Sprachdialogsystem aufwändig weiterentwickelt werden und in einer neuen Fahrzeuggeneration oder in einem Update veröffentlicht werden. Dabei muss eine Spracherkennung (Natural Language Understanding), sowie Informationen zum Durchführen von Dialogen oder Interaktionen mit einem Nutzer neu aufgesetzt oder angepasst werden.In current vehicles from a wide range of manufacturers, the vehicle infotainment system often only offers a rule-based speech dialogue system (SDS) or a voice assistant for voice control. The speech dialogue system is responsible for implementing commands via voice input. Such a voice assistant is often very limited in terms of functionality and knowledge. In order to retrieve new content or knowledge, the speech dialogue system must be extensively developed and released in a new vehicle generation or as an update. This requires speech recognition (natural language understanding) and information for conducting dialogues or interactions with a user to be newly implemented or adapted.
So ein Sprachdialogsystem kann also nur eine bestimmte Art an Anfragen ausführen oder online auswerten und beantworten. Auf viele Anfragen kann dann keine oder nur eine unzureichende Rückmeldung geliefert werden. Eine komplexe oder aus mehreren Fragen oder Anweisungen bestehende Anfrage bleibt somit unbeantwortet. Für eine Anfrage, die keiner eindeutigen Domäne zugeordnet werden kann, wird auch online oft keine korrekte Rückmeldung generiert. Komplexe Fragestellungen oder Aufgaben, wie z. B. Logikfragen oder Zusammenfassungen oder eine aus mehreren Domänen bestehende Anfrage kann damit nur unzureichend oder gar nicht beantwortet werden.Such a speech dialogue system can therefore only execute a specific type of query or evaluate and answer it online. For many queries, no or only inadequate feedback can be provided. A complex query or a query consisting of multiple questions or instructions thus remains unanswered. For a query that cannot be clearly assigned to a domain, correct feedback is often not generated, even online. Complex questions or tasks, such as logic questions or summaries, or queries consisting of multiple domains, can thus only be answered inadequately or not at all.
Die
Die
Nachteilhaft bei diesen Verfahren ist, dass die Qualität der Antworten und Entscheidungen dieser Modelle in verschiedenen Situationen stark variieren können, was zu inkonsistenten oder unvorhersehbaren Ergebnissen führen kann.The disadvantage of these methods is that the quality of the answers and decisions of these models can vary greatly in different situations, which can lead to inconsistent or unpredictable results.
Der Erfindung liegt die Aufgabe zugrunde, eine Unvorhersehbarkeit der Qualität bei Ausgabe einer Rückmeldung eines Sprachdialogsystems zu reduzieren.The invention is based on the object of reducing the unpredictability of the quality when outputting feedback from a speech dialogue system.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren beschrieben.The object is achieved by the subject matter of the independent patent claims. Advantageous developments of the invention are described by the dependent patent claims, the following description, and the figures.
Durch die Erfindung ist ein Verfahren zum Betreiben eines Sprachdialogsystems bereitgestellt. Das Verfahren wird durch die folgenden Schritte realisiert.The invention provides a method for operating a speech dialogue system. The method is implemented by the following steps.
In einem Schritt a) wird eine Anfrage eines Nutzers über eine Schnittstelle des Sprachdialogsystems erfasst. Mit einer solchen Schnittstelle kann ein Mikrofon gemeint sein, das die Sprache des Nutzers erfasst und an das Sprachdialogsystem weiterleitet. Mit „Anfrage“ kann ein Aufruf nach Informationen oder einer Aktion gemeint sein. Beispielsweise kann der Nutzer das Sprachdialogsystem fragen, wie das Wetter morgen wird.In step a), a user request is recorded via an interface of the speech dialog system. Such an interface can be a microphone that captures the user's speech and forwards it to the speech dialog system. A "request" can refer to a request for information or an action. For example, the user can ask the speech dialog system what the weather will be like tomorrow.
In einem Schritt b) wird durch eine Steuerungslogik des Sprachdialogsystems eine Domänenerkennungseinheit aktiviert, welche konfiguriert ist, die erfasste Anfrage zumindest einer Domäne zuzuweisen, wobei die Anfrage der zumindest einen Domäne mittels einer Domänenerkennung zugewiesen wird. Diese Domänenerkennung kann beinhalten, dass ein Clustering, z.B. mittels eines k-Means-Algorithmus oder eines Topic Spottings, insbesondere z.B. durch Latent Dirichlet Allocation (LDA) durchgeführt wird, um eine jeweilige Domäne zu ermitteln. Die Steuerungslogik beinhaltet insbesondere Entscheidungsstrukturen, z. B. If-else-Anweisungen, und/oder Schleifensteuerung und/oder eine Fehlerbehandlungslogik. Das Sprachdialogsystem kann z.B. ein Programmmodul einer Bedienvorrichtung eines Infotainmentsystems sein. Im oben genannten Beispiel kann der Anfrage z. B. die Domäne „Wetter“ zugewiesen werden.In step b), a control logic of the speech dialog system activates a domain recognition unit that is configured to assign the detected request to at least one domain, wherein the request is assigned to the at least one domain by means of domain recognition. This domain recognition can include clustering, e.g., using a k-means algorithm or topic spotting, in particular, e.g., using Latent Dirichlet Allocation (LDA), in order to determine a respective domain. The control logic includes, in particular, decision structures, e.g., if-else statements, and/or loop control and/or error handling logic. The speech dialog system can, for example, be a program module of an operating device of an infotainment system. In the above example, the request can, for example, be assigned the domain "weather."
In einem Schritt c) wird der zumindest einen ermittelten Domäne zumindest ein Sprachmodell innerhalb des Sprachdialogsystems unter Verwendung einer Entscheidungsmatrix der Steuerungslogik zugeordnet. Die zumindest eine Domäne wird also mit zumindest einem Sprachmodell assoziiert. So ein Sprachmodell ist insbesondere ein bereits trainiertes, also fertiges Sprachmodell, wie beispielsweise Chat-GPT und/oder Bing und/oder Llama.In step c), at least one language model within the speech dialog system is assigned to the at least one determined domain using a decision matrix of the control logic. The at least one domain is thus associated with at least one language model. Such a language model is, in particular, a pre-trained, i.e., finished language model, such as Chat-GPT and/or Bing and/or Llama.
Die Anfrage wird dann an das zumindest eine assoziierte Sprachmodell geroutet oder weitergeleitet.The request is then routed or forwarded to at least one associated language model.
In einem Schritt e) wird eine Rückmeldung zu der Anfrage basierend auf Informationen, die im zumindest einem assoziierten Sprachmodell gespeichert sind, generiert, wobei diese Rückmeldung an den Nutzer ausgegeben wird. Die Informationen beziehen sich auf das Wissen und/oder die Daten und/oder die Fähigkeiten des Sprachmodells. In Bezug auf das oben genannte Beispiel kann die Rückmeldung Informationen für eine Wettervorhersage beinhalten. In step e), feedback on the query is generated based on information stored in at least one associated language model, and this feedback is provided to the user. The information relates to the knowledge and/or data and/or capabilities of the language model. With reference to the above example, the feedback may include information for a weather forecast.
Ein Vorteil der Erfindung liegt in erster Linie bei der Unabhängigkeit des Sprachdialogsystems. Durch Verwendung der verschiedenen (domänenspezifischen) Sprachmodelle kann eine Rückmeldung gemäß der Anfrage wahrscheinlicher relevante Informationen beinhalten. Des Weiteren können dadurch inhaltliche oder semantische Mehrdeutigkeiten und/oder Fehler bei Ausgabe der Rückmeldung reduziert werden. Zudem ergibt sich ein semantisches Routen von Anfragedaten.A primary advantage of the invention lies in the independence of the speech dialogue system. By using different (domain-specific) language models, feedback based on the query is more likely to contain relevant information. Furthermore, this can reduce content or semantic ambiguities and/or errors in the output of the feedback. Furthermore, semantic routing of query data is achieved.
Zu der Erfindung gehören auch Ausführungsformen, durch die sich zusätzliche Vorteile ergeben.The invention also includes embodiments which provide additional advantages.
Eine Ausführungsform sieht vor, dass die Anfrage durch die Domänenerkennungseinheit z. B. einer Keyword-Extraktion unterzogen wird, und eine Zuordnungseinheit eine Zuordnung vorgegebener Keywords zu Domänen durchführt, wodurch die Anfrage zumindest einer Domäne zugewiesen wird. Diese Keyword-Extraktion kann z.B. durch eine Term Frequency, also eine Termfrequenz, und/oder Term Frequency Inverse Document Frequency (TF-IDF) realisiert werden. Zusätzlich oder alternativ kann beispielsweise hierzu Word2vec und/oder Fast Text verwendet werden. Die vorgegebenen Keywords können also zumindest einer Domäne zugeordnet sein, wodurch die Anfrage dann derjenigen zumindest einen Domäne zugeordnet wird. Beispielsweise können die vorgegebenen Keywords „Wetter“, „Regen“ und/oder „kalt“ mit der Domäne „Wetter“ zugeordnet sein. Das Ausgeben einer für den Nutzer relevanten Rückmeldung kann hierdurch wahrscheinlicher realisiert werden.One embodiment provides that the query is subjected to keyword extraction by the domain recognition unit, for example, and that an assignment unit performs an assignment of predefined keywords to domains, whereby the query is assigned to at least one domain. This keyword extraction can be implemented, for example, using a term frequency and/or term frequency inverse document frequency (TF-IDF). Additionally or alternatively, Word2vec and/or Fast Text can be used for this purpose. The predefined keywords can therefore be assigned to at least one domain, whereby the query is then assigned to that at least one domain. For example, the predefined keywords "weather", "rain" and/or "cold" can be assigned to the domain "weather". This makes it more likely that feedback relevant to the user will be output.
Eine Ausführungsform sieht vor, dass die Entscheidungsmatrix in Abhängigkeit von zumindest einem der folgenden Parameter und/oder Einstellungen das zumindest eine Sprachmodell zum Generieren der Rückmeldung ansteuert, wobei die Sprachmodelle anhand der Parameter und/oder der Einstellungen pro Domäne priorisiert werden. Hierzu können als Parameter und/oder Einstellungen zumindest eine der folgenden hinzugezogen werden: One embodiment provides that the decision matrix controls the at least one language model for generating the feedback depending on at least one of the following parameters and/or settings, whereby the language models are prioritized based on the parameters and/or settings per domain. For this purpose, at least one of the following parameters and/or settings can be used:
Die Größe oder die Datenmenge und/oder die Typologie der Trainingsdaten des Sprachmodells und/oder eine Gewichtung des Sprachmodells in Abhängigkeit zu zumindest einer assoziierten Domäne und/oder ein voraussichtlicher Datenverbrauch und/oder eine voraussichtliche Verarbeitungszeit bei Verwendung eines jeweiligen Sprachmodells. Mit Gewichtung des Sprachmodells in Abhängigkeit zu zumindest einer assoziierten Domäne ist gemeint, dass ein Wert festgelegt werden kann, zu wie viel Prozent z. B. ein Sprachmodell eine Domäne abdeckt und/oder beinhaltet. Zusätzlich oder alternativ kann eingestellt werden, ob bei einem Sprachmodell oder einer ermittelten Domäne eine sequenzielle und/oder parallele Abfrage durchgeführt werden soll. Diese werden in den Ausführungsformen weiter unten detaillierter beschrieben. Des Weiteren kann ein voraussichtlicher Datenverbrauch eingestellt werden, d.h. der Nutzer kann beispielsweise einen Grenzwert eingeben, wobei dieser Grenzwert einen Maximalwert an zu erzeugenden Datenkosten beschreibt. Das zumindest eine Sprachmodell kann also auch außerhalb des Kraftfahrzeugs über eine Funkverbindung, wie z. B. WLAN (Wireless Local Area Network) und/oder LTE (Long Term Evolution) angebunden sein. Hierdurch ergibt sich der Vorteil eines strukturierten Entscheidungsprozesses. Durch die Entscheidungsmatrix kann eine systematische Bewertung realisiert werden, wodurch es einfacher wird, das für den Nutzer gemäß seiner Anfrage relevanteste Sprachmodell und/oder zumindest eine relevante Sprachmodell auszuwählen.The size or the amount of data and/or the typology of the training data of the language model and/or a weighting of the language model depending on at least one associated domain and/or an expected data consumption and/or an expected processing time when using a respective language model. Weighting of the language model depending on at least one associated domain means that a value can be specified, e.g., to what percentage a language model covers and/or contains a domain. Additionally or alternatively, it can be set whether a sequential and/or parallel query should be performed on a language model or a determined domain. These are described in more detail in the embodiments below. Furthermore, an expected data consumption can be set, i.e., the user can, for example, enter a limit value, whereby this limit value describes a maximum value of the data costs to be generated. The at least one language model can therefore also be connected outside the motor vehicle via a radio connection, such as WLAN (Wireless Local Area Network) and/or LTE (Long Term Evolution). This provides the advantage of a structured decision-making process. The decision matrix enables a systematic evaluation, making it easier to select the most relevant language model and/or at least one relevant language model for the user's query.
Diese Entscheidungsmatrix kann zusätzlich oder alternativ als Dokumentation des Entscheidungsprozesses dienen. Dies kann für zukünftige Überprüfungen und/oder zum Verstehen einer Entscheidung, also warum ein jeweiliges Sprachmodell bei einer bestimmten Anfrage angesteuert wurde, relevant sein. Eine Transparenz des Entscheidungsprozesses kann hierdurch gewährleistet werden. In der Entscheidungsmatrix sind also die „Spielregeln“ der Steuerungslogik festgelegt. Die Entscheidungsmatrix definiert zu welcher Domäne welches Sprachmodell in welcher Reihenfolge angefragt und/oder wie die Rückmeldungen bewertet werden. Die Entscheidungsmatrix ist also ein tabellarisches Werkzeug, welche eben als eine Tabelle realisiert werden kann.This decision matrix can additionally or alternatively serve as documentation of the decision-making process. This can be relevant for future reviews and/or for understanding a decision, i.e., why a particular language model was triggered for a specific query. This can ensure transparency of the decision-making process. The decision matrix thus defines the "rules of the game" of the control logic. The decision matrix defines which language model is queried for which domain, in which order, and/or how the responses are evaluated. The decision matrix is therefore a tabular tool that can be implemented as a table.
Eine Ausführungsform sieht vor, dass die Entscheidungsmatrix dynamisch um neue Sprachmodelle erweitert wird, wenn neue Sprachmodelle mit ihren Parametern bereitgestellt werden. Die Entscheidungsmatrix kann in einer zentralisierten Datenstruktur wie z.B. einer Datenbank gespeichert sein, wodurch ein Hinzufügen und/oder Aktualisieren und/oder Löschen von Einträgen der Entscheidungsmatrix erleichtert wird. Die Steuerungslogik kann so konfiguriert sein, dass sie regelmäßig bestimmte Speicherorte und/oder Verzeichnisse und/oder Repositorys überprüft, in denen neue Sprachmodelle bereitgestellt werden. Das Überprüfen kann mittels der Komponente „FileSystemWatcher“ realisiert werden. Diese ermöglicht es Aktivitäten in einem Dateisystem in Echtzeit zu überwachen. Zusätzlich oder alternativ kann eine solche Überprüfung über ein Backend-System und/oder einen Cloud-Server des Kraftfahrzeugs, z. B. beim Einschalten, durchgeführt werden. Hierdurch ergibt sich der Vorteil, dass das Sprachdialogsystem mit neuen, weiteren Sprachmodellen erweitert werden kann.One embodiment provides that the decision matrix is dynamically expanded with new language models when new language models with their parameters are provided. The decision matrix can be stored in a centralized data structure, such as a database, which facilitates adding and/or updating and/or deleting entries of the decision matrix. The control logic can be configured to regularly check certain storage locations and/or directories and/or repositories in which new language models are provided. The checking can be performed by means of The "FileSystemWatcher" component enables real-time monitoring of file system activities. Additionally or alternatively, such a check can be performed via a backend system and/or a cloud server of the vehicle, e.g., upon startup. This offers the advantage that the speech dialog system can be expanded with new, additional language models.
Eine Ausführungsform sieht vor, dass falls eine Konfidenz der Rückmeldung zu der Anfrage unter einem vorgegebenen Schwellwert liegt und/oder falls mehrere Sprachmodelle eine selbe Priorisierung aufweisen die Anfrage in einer Abfrage-Kaskade, also sequenziell, an zumindest ein weiteres gemäß der Entscheidungsmatrix nachfolgendes Sprachmodell weitergeleitet wird, bis ein Vollständigkeitskriterium erreicht ist. Mit Konfidenz der Rückmeldung ist gemeint, dass eine interne Berechnung der Entscheidungsmatrix (siehe Figurenbeschreibung) einen Wert unter einem vorgegebenen Schwellwert beinhaltet. Hierdurch kann sichergestellt werden, dass der Nutzer zumindest eine für ihn relevante Rückmeldung erhält.One embodiment provides that if the confidence of the response to the query is below a predefined threshold and/or if multiple language models have the same prioritization, the query is forwarded in a query cascade, i.e., sequentially, to at least one further language model following the decision matrix until a completeness criterion is met. Confidence of the response means that an internal calculation of the decision matrix (see figure description) contains a value below a predefined threshold. This ensures that the user receives at least relevant feedback.
Eine Ausführungsform sieht vor, dass das Vollständigkeitskriterium umfasst, dass die Konfidenz der Rückmeldung einen vorgegebenen Schwellwert übersteigt oder genau diesem entspricht und/oder die Anfrage an eine vorgegebene Anzahl an Sprachmodellen weitergeleitet wurde und/oder ein Abbruch des Verfahrens manuelle veranlasst wird. Ein solcher Schwellwert kann beispielsweise 80% in Prozentpunkten oder 80 bis 90% sein. Eine vorgegebene Anzahl kann beispielsweise 5 oder in einem Bereich von 5 bis 10 liegen. Mit einem manuellen Abbruch kann gemeint sein, dass der Nutzer z. B. mittels einer Bedientaste der Bedienvorrichtung das Verfahren deaktiviert.One embodiment provides that the completeness criterion includes the confidence of the feedback exceeding or exactly matching a predefined threshold and/or the query being forwarded to a predefined number of language models and/or a manual termination of the process. Such a threshold can be, for example, 80% in percentage points or 80 to 90%. A predefined number can be, for example, 5 or in a range from 5 to 10. A manual termination can mean that the user deactivates the process, for example, using a control button on the control device.
Eine Ausführungsform sieht vor, dass die Anfrage an zumindest zwei Sprachmodelle parallel weitergleitet wird, falls die zumindest eine Domäne der Anfrage nicht eindeutig ermittelt wird. Damit kann gemeint sein, dass eine zu ermittelnde Domäne keiner der bereits in der Entscheidungsmatrix vorhandenen Domänen zugeordnet werden kann. Mit „eindeutig“ kann also gemeint sein, dass die zumindest eine Domäne der Anfrage mit einer Konfidenz von 70% in Prozentpunkten oder 70% bis 90% ermittelt wird. Dies kann die Laufzeiten des Sprachdialogsystems verringern, da mehrere Sprachmodelle gleichzeitig oder parallel angefragt werden. Hierzu kann eingestellt sein, dass mehrere Rückmeldungen nacheinander ausgegeben werden oder nur die Rückmeldung ausgegeben wird, die die höchste Konfidenz aufweist.One embodiment provides that the request is forwarded to at least two language models in parallel if the at least one domain of the request cannot be clearly determined. This can mean that a domain to be determined cannot be assigned to any of the domains already present in the decision matrix. "Clearly" can therefore mean that the at least one domain of the request is determined with a confidence of 70% in percentage points or 70% to 90%. This can reduce the runtimes of the speech dialog system because multiple language models are queried simultaneously or in parallel. For this purpose, it can be set so that several responses are output one after the other or only the response with the highest confidence is output.
Eine Weiterbildung sieht vor, dass das Sprachdialogsystem die Rückmeldung zusammenfasst, also mit weniger schriftlichen Worten wiedergibt als Worte gesprochen wurden. Durch die Zusammenfassung der Rückmeldung kann das Sprachdialogsystem eine kompakte Darstellung des semantischen Inhalts, wie z. B. der sprachlichen Äußerung, ermöglichen. Anstatt also die gesamte Rückmeldung im Detail wiederzugeben, extrahiert das Sprachdialogsystem z. B. mittels NLP (Natural Language Processing)-Methoden und/oder Deep Learning-Methoden, die wichtigen Kernpunkte und/oder fasst sie zusammen. Dadurch kann eine wiederzugebende Rückmeldung schnell bereitgestellt werden. Die Zusammenfassung der Rückmeldung hilft dabei, irrelevante und/oder redundante Informationen zu reduzieren. Das Sprachdialogsystem identifiziert also die Schlüsselaspekte der Rückmeldung und/oder liefert eine prägnante Darstellung, die nur die wesentlichen Informationen dieser enthält. Dies kann Zeit und/oder Aufmerksamkeit für den Nutzer sparen.One further development involves the speech dialogue system summarizing the feedback, i.e., reproducing it using fewer written words than the spoken words. By summarizing the feedback, the speech dialogue system can provide a compact representation of the semantic content, such as the linguistic utterance. Instead of reproducing the entire feedback in detail, the speech dialogue system extracts the important key points and/or summarizes them, for example using NLP (natural language processing) and/or deep learning methods. This allows the feedback to be reproduced to be provided quickly. Summarizing the feedback helps to reduce irrelevant and/or redundant information. The speech dialogue system thus identifies the key aspects of the feedback and/or provides a concise representation that contains only the essential information. This can save the user time and/or attention.
Das Sprachdialogsystem kann gemäß einer Weiterbildung die Rückmeldung über eine Sprachsynthese bereitstellen. Die Verwendung von Sprachsynthese kann eine natürliche und/oder verständliche Wiedergabe der Rückmeldung. Die Rückmeldung kann dabei in eine menschenähnliche Stimme umgewandelt werden, wodurch eine angenehme Hörerfahrung für den Nutzer entstehen kann. Die Stimme und/oder ein Tempo können konfiguriert werden, um eine optimale Verständlichkeit und/oder Hörkomfort zu gewährleisten. Die Sprachsynthese kann also z. B. die Möglichkeit bereitstellen, verschiedene Stimmen und/oder Sprachstile auszuwählen. Der Nutzer kann diejenige wählen, die ihm am besten gefällt und/oder die seinen individuellen Präferenzen entspricht, was zu einer angenehmen und/oder persönlich zugeschnittenen Kommunikationserfahrung führt.According to a further development, the speech dialogue system can provide feedback via speech synthesis. The use of speech synthesis can ensure a natural and/or understandable reproduction of the feedback. The feedback can be converted into a human-like voice, creating a pleasant listening experience for the user. The voice and/or tempo can be configured to ensure optimal intelligibility and/or listening comfort. The speech synthesis can therefore, for example, provide the option of selecting different voices and/or speech styles. The user can choose the one they like best and/or that matches their individual preferences, resulting in a pleasant and/or personally tailored communication experience.
Das Sprachdialogsystem und/oder das zumindest eine Sprachmodell kann im Kraftfahrzeug und/oder in einem stationären Server des Internets betrieben werden.The speech dialogue system and/or the at least one language model can be operated in the motor vehicle and/or in a stationary Internet server.
Das Sprachdialogsystem kann eine Applikation und/oder z. B. Teil eines Smartphones und/oder eines Infotainmentsystems z. B. eines Kraftfahrzeugs sein. Das erfindungsgemäße Sprachdialogsystem ist also auf jegliche Hardware- und/oder Softwaresysteme anwendbar.The speech dialogue system can be an application and/or, for example, part of a smartphone and/or an infotainment system, e.g., of a motor vehicle. The speech dialogue system according to the invention is therefore applicable to any hardware and/or software system.
Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.For use cases or application situations that may arise during the procedure and which are not explicitly described here, it may be provided that, in accordance with the procedure, an error message and/or a request for user feedback is issued and/or which sets a default setting and/or a predetermined initial state.
Zu der Erfindung gehört auch die Steuervorrichtung für das Kraftfahrzeug und/oder für das Sprachdialogsystem. Die Steuervorrichtung kann eine Datenverarbeitungsvorrichtung oder eine Prozessoreinrichtung aufweisen, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Als Mikroprozessor kann insbesondere jeweils eine CPU (Central Processing Unit), eine GPU (Graphical Processing Unit) oder eine NPU (Neural Processing Unit) verwendet werden. Des Weiteren kann die Prozessoreinrichtung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein. Die Prozessoreinrichtung kann z.B. auf zum indest einer Schaltungsplatine und/oder auf zum indest einem SoC (System on Chip) basieren.The invention also includes the control device for the motor vehicle and/or for the speech dialogue system. The control device can have a data processing device or a processor device configured to carry out an embodiment of the method according to the invention. For this purpose, the processor device can have at least one microprocessor and/or at least one microcontroller and/or at least one FPGA (Field Programmable Gate Array) and/or at least one DSP (Digital Signal Processor). In particular, a CPU (Central Processing Unit), a GPU (Graphical Processing Unit), or an NPU (Neural Processing Unit) can be used as the microprocessor. Furthermore, the processor device can have program code configured to carry out the embodiment of the method according to the invention when executed by the processor device. The program code can be stored in a data memory of the processor device. The processor device can, for example, be based on at least a circuit board and/or at least an SoC (System on Chip).
Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Sprachdialogsystems und/oder Kraftfahrzeugs, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Verfahrens beschrieben worden sind. Aus diesem Grund sind die entsprechenden Weiterbildungen hier nicht noch einmal beschrieben.The invention also includes further developments of the speech dialogue system and/or motor vehicle according to the invention, which have features as already described in connection with the further developments of the method according to the invention. For this reason, the corresponding further developments are not described again here.
Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als Personenbus oder Motorrad ausgestaltet.The motor vehicle according to the invention is preferably designed as a motor vehicle, in particular as a passenger car or truck, or as a passenger bus or motorcycle.
Als eine weitere Lösung umfasst die Erfindung auch ein computerlesbares Speichermedium, umfassend Programmcode, der bei der Ausführung durch einen Computer oder einen Computerverbund diesen veranlasst, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann zumindest teilweise als ein nicht-flüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) bereitgestellt sein. Das Speichermedium kann in dem Computer oder Computerverbund angeordnet sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server und/oder Cloud-Server im Internet betrieben sein. Durch den Computer oder Computerverbund kann eine Prozessorschaltung mit beispielsweise zumindest einem Mikroprozessor bereitgestellt sein. Der Programmcode kann als Binärcode und/oder als Assembler-Code und/oder als Quellcode einer Programmiersprache (z.B. C) und/oder als Programmskript (z.B. Python) bereitgestellt sein.As a further solution, the invention also encompasses a computer-readable storage medium comprising program code which, when executed by a computer or computer network, causes the computer or computer network to execute an embodiment of the method according to the invention. The storage medium can be provided at least partially as a non-volatile data memory (e.g., as a flash memory and/or as an SSD - solid state drive) and/or at least partially as a volatile data memory (e.g., as a RAM - random access memory). The storage medium can be arranged in the computer or computer network. However, the storage medium can also be operated, for example, as a so-called app store server and/or cloud server on the Internet. The computer or computer network can provide a processor circuit with, for example, at least one microprocessor. The program code can be provided as binary code and/or as assembly code and/or as source code of a programming language (e.g., C) and/or as a program script (e.g., Python).
Die Erfindung schließt ebenfalls die Kombinationen der Merkmale aus den beschriebenen Ausführungsformen ein. Somit umfasst die Erfindung auch Realisierungen, die jeweils eine Mischung der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern diese Ausführungsformen nicht als inkompatibel miteinander beschrieben wurden.The invention also includes combinations of features from the described embodiments. Thus, the invention also encompasses implementations that each have a combination of features from several of the described embodiments, unless these embodiments have been described as incompatible with one another.
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:
-
1 ein Diagramm einer Ausführungsform des erfindungsgemäßen Verfahrens; -
2 eine beispielhafte Darstellung einer internen Verarbeitung einer Datenarchitektur gemäß des erfindungsgemäßen Verfahrens; und -
3 eine schematische Darstellung einer Entscheidungsmatrix gemäß des erfindungsgemäßen Verfahrens.
-
1 a diagram of an embodiment of the method according to the invention; -
2 an exemplary representation of an internal processing of a data architecture according to the method according to the invention; and -
3 a schematic representation of a decision matrix according to the method according to the invention.
Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the described components of the embodiments each represent individual features of the invention that can be considered independently of one another, each of which also develops the invention independently of one another. Therefore, the disclosure is intended to encompass combinations of the features of the embodiments other than those shown. Furthermore, the described embodiments can also be supplemented by further features of the invention already described.
In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.In the figures, the same reference symbols denote elements with the same function.
Zunächst kann eine Anfrage 1 des Nutzers 6 über eine Schnittstelle des Sprachdialogsystems erfasst werden. Dann kann eine Domänenerkennungseinheit 8 durch eine Steuerungslogik 7 des Sprachdialogsystems aktiviert werden, welche konfiguriert ist, die erfasste Anfrage 1 zumindest einer Domäne 24 zuzuweisen, wobei die Anfrage 1 mittels einer Domänenerkennung zumindest einer Domäne 24 zugewiesen wird. Die Domänenerkennungseinheit 8 kann zusätzlich oder alternativ eine Apriori-Erkennung durchführen und/oder einen Apriori-Algorithmus aufweisen. Anschließend kann die zumindest eine Domäne 24 mit zumindest einem Sprachmodell 5 innerhalb des Sprachdialogsystems unter Verwendung einer Entscheidungsmatrix 3 der Steuerungslogik 7 assoziiert werden, wobei jede Domäne 24 mit zumindest einem Sprachmodell 5 assoziiert ist. Die Anfrage 1 kann als nächstes an das zumindest eine entsprechende Sprachmodell 5 weitergeleitet werden, wobei eine Rückmeldung 9 zu der Anfrage 1 basierend auf Informationen, die im zumindest einem ausgewählten Sprachmodell 5 gespeichert sind, generiert wird. Diese Rückmeldung 9 kann dann an den Nutzer 6 ausgegeben werden.First, a
Falls eine Konfidenz der Rückmeldung 9 zu der Anfrage 1 unter einem vorgegebenen Schwellwert liegt und/oder falls mehrere Sprachmodelle 5 eine selbe Priorisierung aufweisen, kann die Anfrage 1 in einer Abfrage-Kaskade oder sequentiell 2 an zumindest ein weiteres gemäß der Entscheidungsmatrix 3 nachfolgendes Sprachmodell 5 weitergeleitet werden, bis ein Vollständigkeitskriterium erreicht ist.If a confidence of the
Mit Vollständigkeitskriterium kann gemeint sein, dass die Konfidenz der Rückmeldung 9 einen vorgegebenen Schwellwert übersteigt oder genau diesem entspricht und/oder die Anfrage 1 an eine vorgegebene Anzahl an Sprachmodellen 5 weitergeleitet wurde und/oder ein Abbruch des Verfahrens manuell veranlasst wird.The completeness criterion can mean that the confidence of the
Die Anfrage 1 kann zusätzlich oder alternativ an zumindest zwei Sprachmodelle 5 parallel 4 weitergeleitet werden, falls die zumindest eine Domäne 24 der Anfrage 1 nicht zuverlässig ermittelt wird.The
Falls also ein neues Sprachmodell 5, z. B. vom selben Hersteller, verfügbar ist, kann nach dieser Figur eine Wissensdatenbank 16 aufgebaut werden.Therefore, if a
Wird also eine Anfrage 1 erfasst und/oder empfangen, so kann die Anfrage 1 in der Komponente Anfrageverarbeitung 13 verarbeitet werden. Dazu wird die erfasste Anfrage 1 einem sogenannten Query Embedding 14 unterzogen. „Query Embedding“ 14 bezieht sich auf den Prozess, eine Anfrage 1 in einen Vektorraum zu transformieren, wobei dieser Vektorraum eine dichte, oft niedrigdimensionale Repräsentation der ursprünglichen Anfrage 1 darstellt. Hieraus kann eine semantische Suche 15 erfolgen, wobei in der Wissensdatenbank 16 nach semantisch ähnlichen Trainingsdatenabschnitten 22 gesucht wird. Daraus kann ein Ranking 17 erfolgen. Die Anzahl der wahrscheinlichsten Suchergebnisse 18, also die m semantisch ähnlichsten Trainingsdatenabschnitte, können dann für ein oder mehrere Sprachmodelle 5 bereitgestellt werden. Hier kann die Entscheidungsmatrix 3 mittels bereits z. B. einer oder mehrerer erfasster Domänen 24 aus den Suchergebnissen 18, ein oder mehrere Sprachmodelle 5 ansteuern, sodass eine Rückmeldung 9 an den Nutzer 6 ausgegeben wird.If a
In der Spalte „Sprachmodelltyp“ 27 kann eingestellt werden, ob bei Zuweisen der Anfrage 1 zumindest einer Domäne 24 mehrere Sprachmodelle 5 sequentiell 2 (CA, cascade) oder parallel 4 (PA, parallel) angefragt werden sollen.. Unter der Spalte „Sprachmodell“ 5 können die jeweiligen Sprachmodelle 5, wie z. B. ChatGPT und/oder LLama, aufgelistet sein. Der erste Gewichtungsfaktor 31 kann z. B. eine Gewichtung für die jeweiligen Sprachmodelle 5 in Abhängigkeit ihrer bisherigen Relevanz und/oder Verwendung aufweisen. Mit anderen Worten kann der erste Gewichtungsfaktor 31 eine Apriori-Bewertung repräsentieren, die eine Relevanz in Abhängigkeit einer Domäne 24 aufzeigt. Der zweite Gewichtungsfaktor 32 kann z. B. einen Faktor basierend auf der Größe und/oder der Typologie der Trainingsdatenabschnitte 22 und/oder der Trainingsdaten 19 repräsentieren, also eine Relevanz in Abhängigkeit zu der aufzuweisenden Datenqualität der Trainingsdaten 19 aufweisen.. Zusätzlich oder alternativ kann so ein Gewichtungsfaktor 31, 32 dahingehend eingestellt sein, dass z .B. geringe Datenkosten und/oder eine geringe Verarbeitungszeit durch ein jeweiliges Sprachmodell 5 erzeugt wird, was durch einen jeweiligen Gewichtungsfaktor 31, 32 entsprechend repräsentiert wird. Die Funktion 25 kann z. B: eine Anzahl an Embeddings 21 angeben, in Abhängigkeit der Anzahl n der im Sprachmodell 5 verwendeten Trainingsdaten. Der Konfidenzrechner 26 kann das Maximum aller in der Entscheidungsmatrix 3 zurückgegebener Konfidenzen berechnen. Mit anderen Worten berechnet der Konfidenzrechner 26 für alle Zellen der Tabelle, z. B. durch Addition oder Multiplikation jeweils die maximale Konfidenz, welche dann in der Spalte „Ergebnis“ 33 angezeigt werden kann.In the “Language Model Type”
Die Idee beinhaltet also insgesamt eine Erweiterung und Anbindung (an/in das im Kraftfahrzeug vorhandenen Sprachdialogsystem) von mehreren generativen KI-Integrationen oder Sprachmodellen 5, um möglichst alle Anfragen 1, z. B. bestehend aus Wissensfragen, Aufgaben, Unterhaltungen möglichst präzise, beantworten zu können. Dabei können wie bereits erwähnt allgemeine KI-LLM Modelle oder Sprachmodelle 5 wie ChatGPT, Llama und/oder Open Source Projekte integriert werden, aber auch auf bestimmte Aufgaben spezialisierte KI-Modelle integriert werden.The overall idea involves an extension and connection (to/into the existing speech dialogue system in the vehicle) of several generative AI integrations or
Der Schwerpunkt liegt außerdem in Sprachmodellen 5 (generative Al-Embeddings), die mit eigenen Informationen erweitert werden können. Das könnten wie bereits beschrieben z.B. Handbücher, Benutzeranleitungen, Bestellkataloge oder aktuelle Infoschreiben sein. So kann der Nutzer 6 nicht nur eine Anfrage 1 in Form einer allgemeinen Wissens-Frage stellen, sondern sich zusätzlich unterhalten lassen und/oder Aufgaben lösen lassen, und/oder Details zu Fahrzeugfunktionen, Ausstattungen, oder Informationen zu Events rund um sein Kraftfahrzeug anfragen.The focus is also on language models 5 (generative AI embeddings), which can be expanded with custom information. As already described, these could be, for example, manuals, user guides, order catalogs, or current information letters. This allows the
Kernstück der Idee ist die Entwicklung der Steuerungslogik 7, auch genannt „Dialogconductor“, der die Anbindung des Sprachdialogsystems an die unterschiedlichen Anbieter der KI- und LLM-Modelle oder Sprachmodelle 5 realisiert. Der Dialogconductor entscheidet welche Anfrage 1 an welche Sprachmodelle 5 verteilt werden, bewertet (arbitriert) die Rückmeldung 9 der Sprachmodelle 5, sortiert die beste Rückmeldung 9 aus und übergibt diese dem Sprachdialogsystem zum Vorlesen oder Ausgeben. Bildlich betrachtet ist es ein Dirigent, der ein Orchester unterschiedlichster Sprachmodelle 5 orchestriert.The core of the idea is the development of the control logic 7, also called the "dialog conductor," which connects the speech dialog system to the various providers of AI and LLM models or
Das aktuelle Konzept sieht vor, den Sprachassistenten hauptsächlich für LLM-Leveraging-Zwecke zu verwenden, also für die Absichtserkennung zwischen verschiedenen sogenannten semantischen Domänen 24 (z.B Wissen, Bord, Buch, Wetter 28, POI-Suche). Jede definierte semantische Domäne 24 würde dann vollständig von einem generativen KI-Modell oder einem Sprachmodell 5 mit einer eigenen Worteinbettung oder Embedding 21 - einer eigenen semantischen Suche 15 - unterstützt. Die erste Phase des Erkennungsprozesses läuft über die Steuerungslogik 7, wo sie mithilfe ihres Apriori-Wissens orchestriert, an welche(s) LLM(s) 5 die Anfrage 1 wahrscheinlich weitergeleitet werden soll. Das Konzept basiert auf dem Apriori-Wissen der Steuerungslogik 7 in Bezug auf verschiedene semantische Domänen 24, wo die Steuerungslogik 7 zwischen verschiedenen eingebetteten LLMs 5 interagieren muss. Jede Einbettung 21 ermöglicht eine semantische Suche 15 in ihrer Wissensdatenbank 16 unter Verwendung der Anfrage 1, die zuvor von der Steuerungslogik 7 extrahiert wurde. Im Wesentlichen wird der Wissensgraph der Steuerungslogik 7 durch die Verbindung mehrerer Sprachmodelle 5 von Natur aus erweitert, ohne dass eine Natural Language Generation (NLG)-Dialogbearbeitung oder zusätzliche Anbieterinhalte erforderlich sind. Ein sehr einfaches Beispiel für eine Anwendung dieser Architektur im Automobilbereich, sind trainierte Sprachmodelle 5 mit OEM-Bordbüchern, Herstellerbroschüren, aktuellen Händler-Aktionen oder -Angeboten. In diesem Fall erfolgt die Auswahl einer bestimmten KI-Einbettung, also einer Einbettung eines Sprachmodells 5, durch die Steuerungslogik 7 anhand der Entscheidungsmatrix 3.The current concept envisions using the voice assistant primarily for LLM leverage purposes, i.e., for intent recognition between different so-called semantic domains 24 (e.g., knowledge, board, book,
Aufgrund dieser Architektur kann es also vorkommen, dass bei einer ersten Anfrage 1 (A), anhand der Regel in der Entscheidungsmatrix 3, nur ein LLM 5 angefragt wird, bei einer anderen Anfrage 1 (B) aber eine ganze Kaskade an LLMs 5 nacheinander, also sequentiell 2, abgefragt werden und bei einer weiteren Anfrage 1 (C) mehrere LLMs 5 parallel 4 angefragt werden könnten. Due to this architecture, it can happen that in a first request 1 (A), based on the rule in the
Die Rückmeldungen 9 der LLMs 5 werden mit einer Konfidenz versehen sein, sodass anhand der definierten Elemente in der Entscheidungsmatrix 3, einer Formel zur Berechnung des besten Ergebnisses 33 ausgerechnet werden kann.The
Insgesamt zeigen die Beispiele, wie eine Nutzung generativer KI-Integration für einen Automobil-Sprachassistenten bereitgestellt werden kann.Overall, the examples show how generative AI integration can be deployed for an automotive voice assistant.
BezugszeichenlisteList of reference symbols
- 11
- AnfrageInquiry
- 22
- sequentiellsequential
- 33
- EntscheidungsmatrixDecision matrix
- 44
- parallelparallel
- 55
- SprachmodellLanguage model
- 66
- NutzerUsers
- 77
- SteuerungslogikControl logic
- 88
- DomänenerkennungseinheitDomain recognition unit
- 99
- RückmeldungReturn message
- 1212
- IndexierungsprozessIndexing process
- 1313
- AnfrageverarbeitungRequest processing
- 1414
- Query EmbeddingQuery Embedding
- 1515
- semantische Suchesemantic search
- 1616
- WissensdatenbankKnowledge base
- 1717
- RankingRanking
- 1818
- SuchergebnisseSearch results
- 1919
- DatenData
- 2020
- TokenisierungTokenization
- 2121
- EmbeddingEmbedding
- 2222
- TraingsdatenabschnitteTraining data sections
- 2323
- semantische Indexierungsemantic indexing
- 2424
- Domänedomain
- 2525
- Funktionfunction
- 2626
- KonfidenzrechnerConfidence calculator
- 2727
- SprachmodelltypLanguage model type
- 2828
- WetterWeather
- 2929
- WissenTo know
- 3030
- UnbekanntUnknown
- 3131
- erster Gewichtsfaktorfirst weight factor
- 3232
- zweiter Gewichtsfaktorsecond weight factor
- 3333
- ErgebnisResult
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES CONTAINED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents submitted by the applicant was generated automatically and is included solely for the convenience of the reader. This list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- WO 2022/115839 A1 [0004]WO 2022/115839 A1 [0004]
- WO 2021/252181 A1 [0005]WO 2021/252181 A1 [0005]
Claims (11)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102023132751.8A DE102023132751A1 (en) | 2023-11-23 | 2023-11-23 | Method for operating a speech dialogue system and speech dialogue system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102023132751.8A DE102023132751A1 (en) | 2023-11-23 | 2023-11-23 | Method for operating a speech dialogue system and speech dialogue system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102023132751A1 true DE102023132751A1 (en) | 2025-05-28 |
Family
ID=95655823
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102023132751.8A Pending DE102023132751A1 (en) | 2023-11-23 | 2023-11-23 | Method for operating a speech dialogue system and speech dialogue system |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE102023132751A1 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050182628A1 (en) * | 2004-02-18 | 2005-08-18 | Samsung Electronics Co., Ltd. | Domain-based dialog speech recognition method and apparatus |
| DE60016722T2 (en) * | 2000-06-07 | 2005-12-15 | Sony International (Europe) Gmbh | Speech recognition in two passes with restriction of the active vocabulary |
| US20150025890A1 (en) * | 2013-07-17 | 2015-01-22 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
| WO2022115839A1 (en) * | 2020-11-24 | 2022-06-02 | Qualcomm Incorporated | Context-based model selection |
-
2023
- 2023-11-23 DE DE102023132751.8A patent/DE102023132751A1/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE60016722T2 (en) * | 2000-06-07 | 2005-12-15 | Sony International (Europe) Gmbh | Speech recognition in two passes with restriction of the active vocabulary |
| US20050182628A1 (en) * | 2004-02-18 | 2005-08-18 | Samsung Electronics Co., Ltd. | Domain-based dialog speech recognition method and apparatus |
| US20150025890A1 (en) * | 2013-07-17 | 2015-01-22 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
| WO2022115839A1 (en) * | 2020-11-24 | 2022-06-02 | Qualcomm Incorporated | Context-based model selection |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102020205786B4 (en) | SPEECH RECOGNITION USING NLU (NATURAL LANGUAGE UNDERSTANDING) RELATED KNOWLEDGE OF DEEP FORWARD NEURAL NETWORKS | |
| DE60033733T2 (en) | Database query system based on speech recognition | |
| DE102018113034A1 (en) | VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS | |
| DE60016722T2 (en) | Speech recognition in two passes with restriction of the active vocabulary | |
| DE69908047T2 (en) | Method and system for the automatic determination of phonetic transcriptions in connection with spelled words | |
| DE60100090T2 (en) | Procedure for managing a voice cache | |
| DE60109105T2 (en) | Hierarchized dictionaries for speech recognition | |
| DE112016004863T5 (en) | Parameter collection and automatic dialog generation in dialog systems | |
| EP3652664A1 (en) | Method for conducting dialog between human and computer | |
| DE102018108947A1 (en) | Apparatus for correcting an utterance error of a user and method thereof | |
| DE102007033472A1 (en) | Method for speech recognition | |
| EP0925578A1 (en) | Speech-processing system and method | |
| DE102024123450A1 (en) | HALLUCINATION DETECTION AND HANDLING FOR A DOMAIN-SPECIFIC CONVERSATION SYSTEM BASED ON A LARGE LANGUAGE MODEL | |
| DE102014201676A1 (en) | Methods and systems for controlling the dialogue of speech systems | |
| DE102019217751B4 (en) | Method for operating a speech dialogue system and speech dialogue system | |
| EP3152753B1 (en) | Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules | |
| DE10110977C1 (en) | Providing help information in a speech dialogue system | |
| DE60214850T2 (en) | FOR A USER GROUP, SPECIFIC PATTERN PROCESSING SYSTEM | |
| DE102022003532A1 (en) | Voice dialogue system and method for its operation and vehicle | |
| DE102023132751A1 (en) | Method for operating a speech dialogue system and speech dialogue system | |
| WO2002037473A1 (en) | Robust voice recognition with data bank organisation | |
| EP1340169A2 (en) | Method and device for automatically issuing information using a search engine | |
| DE102006006305A1 (en) | Method for processing information for a speech dialogue system | |
| EP3576084B1 (en) | Efficient dialog design | |
| DE102016125162B4 (en) | Method and device for the automatic processing of texts |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R012 | Request for examination validly filed | ||
| R016 | Response to examination communication |