DE102023123225A1 - Method for operating a navigation system and navigation system and motor vehicle - Google Patents
Method for operating a navigation system and navigation system and motor vehicle Download PDFInfo
- Publication number
- DE102023123225A1 DE102023123225A1 DE102023123225.8A DE102023123225A DE102023123225A1 DE 102023123225 A1 DE102023123225 A1 DE 102023123225A1 DE 102023123225 A DE102023123225 A DE 102023123225A DE 102023123225 A1 DE102023123225 A1 DE 102023123225A1
- Authority
- DE
- Germany
- Prior art keywords
- data
- visual features
- vis
- semantic content
- pos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3602—Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3626—Details of the output of route guidance instructions
- G01C21/3629—Guidance using speech or audio output, e.g. text-to-speech
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/38—Electronic maps specially adapted for navigation; Updating thereof
- G01C21/3804—Creation or updating of map data
- G01C21/3807—Creation or updating of map data characterised by the type of data
- G01C21/3811—Point data, e.g. Point of Interest [POI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Navigation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Betreiben eines Navigationssystems, das eine Benutzerschnittstelle bereitstellt und eine Gesamtkarte aufweist. Die Gesamtkarte stellt zumindest eine Kartenebene (K) bereit, die visuelle Merkmale (v) beschreibt, welche sich in einer in der Gesamtkarte kartographierten Umgebung befinden. Semantische Inhalte (Ob, vis) werden an georeferenzierten Daten (Pos) und/oder an die visuellen Merkmale (v) auf die zumindest eine Kartenebene (K) annotiert oder assoziiert, damit ein Nutzer durch Auswahl oder Eingabe zumindest eines Teils der Daten, bestehend aus georeferenzierten Daten (Pos) und/oder einen semantischen Inhalt (Ob, vis) und/oder visuellen Merkmalen (v), über die Benutzerschnittstelle die zugehörigen anderen Teile der Daten abrufen kann. Aus der Auswahl kann dann eine Wiedergabe und/oder ein Bereitstellen von Navigationsinformationen aus der zumindest einen Kartenebene (K) der Gesamtkarte für dieselben georeferenzierten Daten (Pos) der Auswahl erfolgen.
The invention relates to a method for operating a navigation system that provides a user interface and has an overall map. The overall map provides at least one map layer (K) that describes visual features (v) that are located in an environment mapped in the overall map. Semantic content (Ob, vis) is annotated or associated with georeferenced data (Pos) and/or the visual features (v) on the at least one map layer (K) so that a user can retrieve the associated other parts of the data via the user interface by selecting or entering at least part of the data consisting of georeferenced data (Pos) and/or semantic content (Ob, vis) and/or visual features (v). The selection can then be used to reproduce and/or provide navigation information from the at least one map layer (K) of the overall map for the same georeferenced data (Pos) of the selection.
Description
Die Erfindung betrifft ein Verfahren zum Betreiben eines Navigationssystems, wobei das Navigationssystem eine Benutzerschnittstelle bereitstellt und eine Gesamtkarte aufweist. Die Gesamtkarte stellt zumindest eine Kartenebene bereit, wobei die zumindest eine Kartenebene visuelle Merkmale beschreibt, welche sich in einer Umgebung befinden.The invention relates to a method for operating a navigation system, wherein the navigation system provides a user interface and has an overall map. The overall map provides at least one map layer, wherein the at least one map layer describes visual features which are located in an environment.
Eine Navigationskarte, im Folgenden auch Gesamtkarten genannt, bildet einen Bestandteil in einem Navigationssystem. Sie besteht aus mehrschichtigen Datenstrukturen, auch bekannt als „Kartenlayer“ oder Kartenebene. Eine Kartenebene enthält spezifische Informationen zu einer Umgebung, wie zum Beispiel Points of Interest (POI), also Objekte einer Kategorie, und/oder Öffnungszeiten und/oder Nutzerbewertungen zu einem Objekt. Mit Objekt kann ein physischer Ort wie ein Gebäude, Laden, Restaurant, Park, Sehenswürdigkeit, Krankenhaus, Bushaltestelle und/oder Bahnhof gemeint sein. Kartenebenen erlauben also eine segmentierte und/oder personalisierte Sicht auf Umgebungsinformationen, wodurch Nutzer Aspekte der physischen Welt der Umgebung nach ihren spezifischen Bedürfnissen und/oder Interessen durchsuchen können.A navigation map, also referred to as a complete map, is a component in a navigation system. It consists of multi-layered data structures, also known as "map layers". A map layer contains specific information about an environment, such as points of interest (POI), i.e. objects in a category, and/or opening times and/or user ratings for an object. An object can mean a physical location such as a building, shop, restaurant, park, tourist attraction, hospital, bus stop and/or train station. Map layers therefore allow a segmented and/or personalized view of environmental information, allowing users to search for aspects of the physical world of the environment according to their specific needs and/or interests.
Die
Die
Nachteilhaft bei der Verwendung traditioneller Bildverarbeitungstechniken, wie zum Beispiel dem Edge Histogram Descriptor (EHD), sind mehrere Aspekte. Zunächst erfordern sie oft eine manuelle oder vorgefertigte Merkmalsextraktion, bei der Experten bestimmen müssen, welche Aspekte eines Bildes relevant sind. Dieser Prozess kann zeitaufwändig sein, ein tiefgreifendes Fachwissen erfordern und möglicherweise nicht alle relevanten Informationen aus den Bildern extrahieren. Darüber hinaus sind diese Methoden oft starre, vorgegebene Algorithmen, die ihre Leistung mit der Zeit nicht automatisch verbessern können. Ein weiterer Nachteil ist, dass viele dieser Techniken sich auf spezifische Aspekte eines Bildes konzentrieren. Beispielsweise konzentriert sich der EHD auf die Erkennung von Kanten, wodurch andere potenziell wichtige Informationen, wie Farbe, Form oder Kontext, übersehen werden können. Hinzu kommt, dass diese traditionellen Methoden empfindlich auf Änderungen in den Bildern reagieren, wie Skalierung, Drehung oder Beleuchtungsänderungen, und im Allgemeinen nicht über eingebaute Mechanismen zur Invarianz gegenüber solchen Veränderungen verfügen. Zuletzt besteht ein Mangel an semantischer Interpretation, da diese Methoden in der Regel nur niedrigstufige Merkmale extrahieren können (also nicht vollständige visuelle Merkmale eines ganzen Objekts) und damit weniger semantisch reiche Repräsentationen liefern.There are several disadvantages to using traditional image processing techniques, such as the Edge Histogram Descriptor (EHD). First, they often require manual or pre-trained feature extraction, which requires experts to determine which aspects of an image are relevant. This process can be time-consuming, requires deep expertise, and may not extract all relevant information from the images. In addition, these methods are often rigid, predefined algorithms that cannot automatically improve their performance over time. Another disadvantage is that many of these techniques focus on specific aspects of an image. For example, the EHD focuses on detecting edges, which can miss other potentially important information, such as color, shape, or context. In addition, these traditional methods are sensitive to changes in the images, such as scaling, rotation, or lighting changes, and generally do not have built-in mechanisms for invariance to such changes. Finally, there is a lack of semantic interpretation, since these methods can usually only extract low-level features (i.e. not complete visual features of an entire object) and thus provide less semantically rich representations.
Insbesondere wird dadurch keine Navigation nach semantischen Inhalten möglich, also z.B. die Möglichkeit zum Anstoßen einer Navigationsassistenz über eine Anweisung wie „Fahre mich zu dem gelben Haus in der X-Straße“ oder eine Kartensuche wie „Welches Geschäft befindet sich in dem blauen Haus in der Y-Straße“.In particular, this does not allow navigation based on semantic content, e.g. the possibility of initiating navigation assistance via an instruction such as “Take me to the yellow house on X Street” or a map search such as “Which shop is in the blue house on Y Street”.
Der Erfindung liegt zumindest die Aufgabe zugrunde, semantische Inhalte und/oder darauf basierende Navigationsanweisungen in einem Navigationssystem zu nutzen.The invention is based at least on the object of using semantic content and/or navigation instructions based thereon in a navigation system.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren beschrieben.The object is achieved by the subject matter of the independent patent claims. Advantageous developments of the invention are described by the dependent patent claims, the following description and the figures.
Das erfindungsgemäße Verfahren zum Betreiben eines Navigationssystems, wobei das Navigationssystem eine Benutzerschnittstelle bereitstellt und eine Gesamtkarte aufweist, wobei die Gesamtkarte zumindest eine Kartenebene umfasst, wobei die zumindest eine Kartenebene visuelle Merkmale beschreibt, welche sich in der Gesamtkarte kartographierten Umgebung befinden.The method according to the invention for operating a navigation system, wherein the navigation system provides a user interface and has an overall map, wherein the overall map comprises at least one map layer, wherein the at least one map layer describes visual features which are located in the environment mapped on the overall map.
In einem Schritt a) beinhaltet das Verfahren das Bereitstellen von Bilddaten, die zumindest ein Bild der Umgebung beschreiben, durch Verwenden eines Bildaufnahmesystems, das georeferenzierte Daten zum Aufnahmeort der Bilddaten erfasst und/oder speichert. Mit georeferenzierten Daten sind Daten gemeint, die Ortsinformationen und/oder geografische Koordinaten und/oder Umweltdaten und/oder geologische Daten und/oder soziodemographische Daten enthalten.In a step a), the method includes providing image data describing at least one image of the environment by using an image acquisition system that captures and/or stores georeferenced data on the recording location of the image data. Georeferenced data means data that contains location information and/or geographical coordinates and/or environmental data and/or geological data and/or sociodemographic data.
In einem Schritt b) wird ein Einspeisen oder Zuführen der Bilddaten in zumindest ein neuronales Netz veranlasst. Das Einspeisen beinhaltet insbesondere eine Vorverarbeitung der Bilddaten, wobei die Bilddaten in eine einheitliche Größe skaliert und/oder die Farbwerte in den Bilddaten normalisiert werden können.In a step b), the image data is fed into or supplied to at least one neural network. The feeding includes in particular a preprocessing of the image data, whereby the image data can be scaled to a uniform size and/or the color values in the image data can be normalized.
In einem Schritt c) werden visuelle Merkmalen durch Anwenden des zumindest einen neuronalen Netzes auf die Bilddaten klassifiziert und/oder segmentiert. Das Klassifizieren und/oder Segmentieren von visuellen Merkmalen in Bilddaten bezieht sich auf den Prozess der Identifizierung oder Zuordnung von Kategorien oder Labels zu visuellen Merkmalen oder Aspekten in den Bilddaten mittels des zumindest einen neuronalen Netzes. Dabei wird insbesondere eine Objekterkennung und/oder Bildsegmentierung durchgeführt. Beispielsweise könnten Bilddaten segmentiert werden, um Gebäude und/oder Straßen und/oder Fußgänger zu identifizieren und/oder voneinander in den Bilddaten zu trennen.In a step c), visual features are classified and/or segmented by applying the at least one neural network to the image data. The classification and/or segmentation of visual features in image data refers to the process of identifying or assigning categories or labels to visual features or aspects in the image data by means of the at least one neural network. In particular, object recognition and/or image segmentation is carried out. For example, image data could be segmented in order to identify buildings and/or streets and/or pedestrians and/or to separate them from one another in the image data.
In einem Schritt d) werden semantische Inhalte oder Deskriptoren generiert, die die klassifizierten visuellen Merkmalen beschreiben. Mit einem semantischen Inhalt ist insbesondere eine Bildbeschreibung und/oder eine Audioaufnahme gemeint. Ein visuelles Merkmal kann z. B. eine rote Markise sein, ein Merkmal kann eine braune Tür sein, sodass z. B. ein Laden aufweisend diese rote Markise und die braune Tür, zumindest durch diese beiden visuellen Merkmale beschrieben werden kann. Damit lässt sich der Laden durch den semantischen Inhalt „Laden mit roter Markise und brauner Tür“ repräsentieren.In a step d), semantic content or descriptors are generated that describe the classified visual features. Semantic content refers in particular to an image description and/or an audio recording. A visual feature can be, for example, a red awning, a feature can be a brown door, so that, for example, a shop having this red awning and the brown door can be described at least by these two visual features. The shop can thus be represented by the semantic content "shop with red awning and brown door".
In einem Schritt e) wird ein Annotieren oder Assoziieren des semantischen Inhalts an die georeferenzierten Daten und/oder die visuellen Merkmale auf die zumindest eine Kartenebene z.B. durch Verwendung eines Zuordnungsmodells durchgeführt. Dieses Zuordnungsmodell kann Teil des zumindest einen neuronalen Netzes und z. B. als Encoder-Decoder-Netzwerk ausgestaltet sein.In a step e), the semantic content is annotated or associated with the georeferenced data and/or the visual features on the at least one map layer, e.g. by using an assignment model. This assignment model can be part of the at least one neural network and can be designed, e.g. as an encoder-decoder network.
Das Encoder-Netzwerk kann z. B. ein Convolutional Neural Network (CNN) sein, das dazu dient, visuelle Merkmale der Bilder aus den Bilddaten in Merkmalsvektoren zu kodieren. Ein Merkmalsvektor repräsentiert die wesentlichen visuellen Informationen desjenigen visuellen Merkmals. Nach dieser Kodierung kann das Decoder-Netzwerk, z. B. ausgestaltet als Recurrent Neural Network (RNN) oder als Long Short-Term Memory (LSTM) Netzwerk, aus den Merkmalsvektoren Sentence Embeddings generieren, die in Vektordarstellung Sätze und/oder Phrasen und/oder eine textliche Beschreibung und/oder deren semantische Bedeutung repräsentieren.The encoder network can be, for example, a convolutional neural network (CNN), which is used to encode visual features of the images from the image data into feature vectors. A feature vector represents the essential visual information of that visual feature. After this encoding, the decoder network, e.g. designed as a recurrent neural network (RNN) or as a long short-term memory (LSTM) network, can generate sentence embeddings from the feature vectors, which represent sentences and/or phrases and/or a textual description and/or their semantic meaning in vector representation.
Nachdem die Sentence Embeddings generiert wurden, kann ein Transformer Text-to-Speech-System, das Teil des zumindest einen neuronalen Netzes sein kann, verwendet werden, um diese Sentence Embeddings in ein Mel-Spektrogramm umzuwandeln, das dann durch einen Vocoder, wie z. B. WaveNet und/oder MelGAN (Generative Adversarial Networks for Conditional Waveform Synthesis) und/oder Parallel WaveGAN, in ein digitales Audiosignal umgewandelt wird. Die ursprünglichen Sentence Embeddings und/oder das digitale Audiosignal können dabei z. B. in einer Textdatei oder einer Binärdatei in einem Speichermedium des Navigationssystems gespeichert werden, sodass sowohl eine textliche Beschreibung oder Bildbeschreibung und/oder eine visuelle Merkmalsbeschreibung, als auch ein Audiosignal bereitstellt werden. Mit visueller Merkmalsbeschreibung ist insbesondere eine vertiefende Beschreibung eines Teilobjekts eines Gebäudes gemeint. Enthält also dieses Gebäude z. B. die Bildbeschreibung, in Form eines Inhalts der Bildbeschreibung beispielhaft: „Orientalischer Imbiss mit Schaufenster“, so kann ein Inhalt dieser visuellen Merkmalsbeschreibung hierfür lauten: „Logo, gelb orange mit violetter, lateinischer Schrift und blauer, arabischer Schrift“, „Verkehrszeichen Parkverbot vor Eingang“.After the sentence embeddings have been generated, a transformer text-to-speech system, which can be part of the at least one neural network, can be used to convert these sentence embeddings into a Mel spectrogram, which is then converted into a digital audio signal by a vocoder, such as WaveNet and/or MelGAN (Generative Adversarial Networks for Conditional Waveform Synthesis) and/or Parallel WaveGAN. The original sentence embeddings and/or the digital audio signal can, for example, be stored in a text file or a binary file in a storage medium of the navigation system, so that both a textual description or image description and/or a visual feature description, as well as an audio signal are provided. A visual feature description means in particular a more in-depth description of a sub-object of a building. For example, if this building contains... For example, if the image description is in the form of a content of the image description: “Oriental snack bar with shop window”, the content of this visual feature description can be: “Logo, yellow-orange with violet Latin script and blue Arabic script”, “Traffic sign no parking in front of the entrance”.
In einem Schritt f) wird eine Benutzerschnittstelle bereitgestellt, die Such-, Filter- und/oder Visualisierungsfunktionen für die zumindest eine Kartenebene bereitstellt. Der Nutzer kann also über die Benutzerschnittstelle z.B. visuelle Merkmale auswählen, wobei z.B. mittels Daten-Indexierung die zugehörige Binärdatei oder Kartenebene oder Gesamtkarte abgerufen wird, sodass der zugehörige semantische Inhalt und/oder die zugehörigen georeferenzierten Daten wiedergegeben werden.In a step f), a user interface is provided that provides search, filter and/or visualization functions for the at least one map layer. The user can thus select, for example, visual features via the user interface, whereby the associated binary file or map layer or entire map is retrieved, for example by means of data indexing, so that the associated semantic content and/or the associated georeferenced data are displayed.
In einem Schritt f1) wird bei Auswahl von visuellen Merkmalen in Form einer Eingabe über die Benutzerschnittstelle derjenige semantische Inhalt ermittelt, der an den ausgewählten visuellen Merkmale annotiert ist.In a step f1), when visual features are selected in the form of an input via the user interface, the semantic content that is annotated to the selected visual features is determined.
In einem zusätzlichen oder alternativen Schritt f2) wird bei Auswahl von georeferenzierter Daten in Form einer Eingabe über die Benutzerschnittstelle derjenige semantische Inhalt ermittelt, der an den eingegebenen georeferenzierten Daten annotiert ist, falls die georeferenzierten Daten zumindest teilweise, z. B. gemessen anhand eines Radius von 0.005 Grad bis 0.0005 Grad in jeder Richtung, mit den an den semantischen Inhalt annotierten georeferenzierter Daten übereinstimmen.In an additional or alternative step f2), when georeferenced data is selected in the form of an input via the user interface, the semantic content annotated to the input georeferenced data is determined if the georeferenced data at least partially matches the georeferenced data annotated to the semantic content, e.g. measured using a radius of 0.005 degrees to 0.0005 degrees in each direction.
In einem zusätzlichen oder alternativen Schritt f3) wird bei Auswahl eines semantischen Inhalts in Form einer Eingabe über die Benutzerschnittstelle diejenigen visuellen Merkmale und/oder der georeferenzierten Daten ermittelt, die an den ausgewählten semantischen Inhalt annotiert ist.In an additional or alternative step f3), when a semantic content is selected in the form of an input via the user interface, the visual features and/or georeferenced data annotated to the selected semantic content are determined.
Mit anderen Worten kann der Nutzer durch Auswahl oder Eingabe zumindest eines Teils der Daten, bestehend aus georeferenzierten Daten und/oder einen semantischen Inhalt und/oder visuellen Merkmalen, über die Benutzerschnittstelle die zugehörigen anderen Teile der Daten abrufen.In other words, by selecting or entering at least a part of the data consisting of georeferenced data and/or semantic content and/or visual features, the user can retrieve the corresponding other parts of the data via the user interface.
In einem Schritt g) erfolgt eine Wiedergabe der Auswahl also über die Benutzerschnittstelle und/oder z. B mittels eines Digital-Analog-Umsetzers (DAC) über einen Lautsprecher des Navigationssystems, falls es sich um ein durch einen semantischen Inhalt repräsentiertes Audiosignal handelt. Zusätzlich oder alternativ werden Navigationsinformationen aus der Gesamtkarte aus der zumindest einen Kartenebene für dieselben georeferenzierten Daten der Auswahl bereitgestellt.In a step g), the selection is reproduced via the user interface and/or, for example, by means of a digital-analog converter (DAC) via a loudspeaker of the navigation system if it is an audio signal represented by semantic content. Additionally or alternatively, navigation information from the overall map from the at least one map layer is provided for the same georeferenced data of the selection.
Durch die Erfindung ergibt sich der Vorteil, dass durch Verwendung des zumindest einen neuronalen Netzes, eine tiefergehende und/oder nuancierte Interpretation der Bilddaten ermöglicht wird. Während z. B. traditionelle Methoden der Bildverarbeitung oft auf handgefertigten visuellen Merkmalen basieren, können neuronale Netze diese visuellen Merkmale direkt aus den Daten lernen. Das bedeutet, dass sie in der Lage sind, Beziehungen zwischen Bild und/oder Bildbeschreibung zu erfassen. Zudem kann durch das zumindest eine neuronale Netz kann ein End-to-End-Lernen ermöglicht werden, bei dem rohe Eingaben direkt in Ausgaben übersetzt werden können, ohne dass Zwischenschritte oder manuelle Merkmalsextraktionen erforderlich sind.The invention provides the advantage that the use of the at least one neural network enables a more in-depth and/or nuanced interpretation of the image data. For example, while traditional image processing methods are often based on hand-crafted visual features, neural networks can learn these visual features directly from the data. This means that they are able to capture relationships between the image and/or image description. In addition, the at least one neural network can enable end-to-end learning in which raw inputs can be translated directly into outputs without the need for intermediate steps or manual feature extraction.
Zu der Erfindung gehören auch Weiterbildungen, durch die sich zusätzliche Vorteile ergeben.The invention also includes further developments which result in additional advantages.
Gemäß einer Weiterbildung ist vorgesehen, dass das zumindest eine neuronale Netz als Transformer-Architektur ausgebildet ist, das zumindest ein ViLBERT (Vision and Language - Bidirectional Encoder Representations from Transformers) und/oder LXMERT (Learning Cross-Modality Encoder Representations from Transformers) und/oder ein Encoder-Decoder-Netzwerk umfasst, und mittels einer Fehlerrückführung auf Datensätzen bestehend aus Bild-Text-Paaren darauf trainiert ist, visuelle Merkmale, wie z. B. Gebäude und/oder Häuser und/oder Straßen, in Bilddaten zu segmentieren und/oder zu erkennen und/oder zu klassifizieren und/oder den visuellen Merkmalen zusätzliche georeferenzierte Daten und/oder einen semantischen Inhalt zu annotieren oder zu assoziieren.According to a further development, it is provided that the at least one neural network is designed as a transformer architecture, which comprises at least one ViLBERT (Vision and Language - Bidirectional Encoder Representations from Transformers) and/or LXMERT (Learning Cross-Modality Encoder Representations from Transformers) and/or an encoder-decoder network, and is trained by means of error feedback on data sets consisting of image-text pairs to segment and/or recognize and/or classify visual features, such as buildings and/or houses and/or streets, in image data and/or to annotate or associate additional georeferenced data and/or semantic content with the visual features.
Die Ausgangsdaten können also klassifizierte und/oder segmentierte und/oder erkannte, also z. B. durch eine Bounding Box erfasste visuelle Merkmale, sein, wobei diese mit georeferenzierten Daten und/oder einen semantischen Inhalt assoziiert sind. Folglich kann das Navigationssystem mittels des zumindest einen neuronalen Netzes potenzielle Ambiguitäten in einer Modalität, also z. B. visuelle Merkmale, durch Informationen aus der anderen Modalität, z. B. Bildbeschreibung und/oder georeferenzierte Daten, auflösen.The output data can therefore be classified and/or segmented and/or recognized, e.g. visual features captured by a bounding box, whereby these are associated with georeferenced data and/or semantic content. Consequently, the navigation system can use the at least one neural network to resolve potential ambiguities in one modality, e.g. visual features, using information from the other modality, e.g. image description and/or georeferenced data.
Gemäß einer Weiterbildung ist vorgesehen, dass eine sprachliche Ausgabe mittels eines Sprachdialogsystems, ausgegeben wird, falls in Schritt f1) und/oder f2) und/oder f3) eine Unsicherheit über einem vorbestimmten Schwellenwert erfasst wird, wobei die Unsicherheit beinhaltet, dass mehrere potentielle Wiedergaben oder Ausgaben für die Eingabe existieren, welche sich insbesondere in einem ähnlichen Wahrscheinlichkeitsbereich befinden, z. B. zwei potentielle Wiedergaben, die jeweils 50 bis 60 von 100 Prozentpunkten aufweisen, dass diese gemäß der Eingabe einen für den Nutzer gewünschte Wiedergabe bereitstellen und/oder eine Spracherkennung des Sprachdialogsystems keinen Kontext für die Eingabe identifiziert, wenn die Eingabe z. B. Wörter und/oder Phrasen enthält, die im Trainingsdatensatz des Sprachdialogsystems nicht häufig vorkamen oder als selten eingestuft wurden (z. B. wenn die Wörter und/oder Phrasen weniger als 0,0001% des Trainingsdatensatzes ausmachen) und/oder Hintergrundgeräusche in Bezug auf ein über die Eingabe empfangenes Sprachsignal über einem vorbestimmten Wert liegen, also z. B. gemessen über ein Signal-Rausch-Verhältnis. Das Sprachdialogsystem ist also mit der Gesamtkarte und/oder der zumindest einen Karteneben verknüpft und kann aus der Gesamtkarte und/oder der zumindest einen Kartenebene gemäß der Eingabe relevante Daten extrahieren und als sprachliche Ausgabe bereitstellen. Für das Training zum Verstehen natürlicher Sprache des Sprachdialogsystems, z. B. mittels Fehlerrückführung und/oder überwachtem Lernen, können Datensätze verwendet werden, die Audioaufnahmen und zugehörige Texttranskriptionen beinhalten, wobei diese zumindest teilweise aus den semantischen Inhalten und/oder Common Voice und/oder VoxForge bestehen.According to a further development, a speech output is output by means of a speech dialog system if an uncertainty above a predetermined threshold value is detected in step f1) and/or f2) and/or f3), wherein the uncertainty includes that several potential reproductions or outputs for the input exist, which are in particular in a similar probability range, e.g. two potential reproductions, each of which has 50 to 60 out of 100 percentage points, that these provide a reproduction desired by the user according to the input and/or a speech recognition of the speech dialog system does not identify a context for the input if the input contains, for example, words and/or phrases that did not occur frequently in the training data set of the speech dialog system or were classified as rare (e.g. if the words and/or phrases make up less than 0.0001% of the training data set) and/or background noise in relation to a speech signal received via the input is above a predetermined value, e.g. measured via a signal-to-noise ratio. The speech dialogue system is therefore linked to the overall map and/or the at least one map level and can extract relevant data from the overall map and/or the at least one map level according to the input and provide it as linguistic output. For training the speech dialogue system to understand natural language, e.g. by means of error feedback and/or supervised learning, data sets can be used that contain audio recordings and associated text transcriptions, which consist at least partially of the semantic content and/or Common Voice and/or VoxForge.
Mit anderen Worten kann das Navigationssystem über das Sprachdialogsystem eine sprachliche Interaktion oder einen Sprachdialog mit dem Nutzer basierend auf eine Eingabe des Nutzers führen. Der Sprachdialog wird hierbei mit dem Nutzer geführt, der die Benutzerschnittstelle nutzt. Die Benutzerschnittstelle kann beispielsweise gesprochen-sprachlich sein (Sprachdialogsystem), das heißt, der Nutzer kann in ein Mikrofon sprechen und seine Sprache wird von dem zumindest einen neuronalen Netz semantisch dahingehend verstanden oder ausgewertet, dass über den Sprachdialog dem Nutzer eine inhaltlich passende Antwort als sprachliche Ausgabe zurück ausgegeben wird, die der Nutzer dann über den Lautsprecher anhören kann. Der Sprachdialog hat in der Regel den Sinn, dass eine Steuerung erfolgt, beispielsweise dahingehend, dass ein semantischer Inhalt und/oder georeferenzierte Daten und/oder visuelle Merkmale für den Nutzer beschafft und diesem an der Benutzerschnittstelle bereitgestellt werden und/oder dass auf eine Eingabe des Nutzers hin eine Funktion, wie z. B. das Erzeugen von Navigationsinformationen, des Navigationssystems gesteuert wird.In other words, the navigation system can use the speech dialog system to conduct a linguistic interaction or a speech dialog with the user based on an input from the user. The speech dialog is conducted with the user who uses the user interface. The user interface can, for example, be spoken-language (speech dialog system), i.e. the user can speak into a microphone and his speech is semantically understood or evaluated by at least one neural network in such a way that the user is given a content-appropriate answer as a speech output via the speech dialog, which the user can then listen to via the loudspeaker. The speech dialog generally has the purpose of Control is carried out, for example, by obtaining semantic content and/or georeferenced data and/or visual features for the user and making them available to the user at the user interface and/or by controlling a function of the navigation system, such as generating navigation information, in response to user input.
Eine sprachliche Interaktion kann dabei folgendermaßen ablaufen:
- Nutzer: „Was ist das für ein Laden da links in dem hellen Haus?“ Navigationssystem: „Meinst du den Imbiss mit dem orange-gelben Logo oder das Geschäft hinter der Holztür, mit der roten Markise?
- Nutzer: „Das Geschäft mit der roten Markise.“ Navigationssystem: „Das ist der Bäcker XY.“
- User: “What kind of shop is that on the left in the bright building?” Navigation system: “Do you mean the snack bar with the orange and yellow logo or the shop behind the wooden door with the red awning?
- User: “The shop with the red awning.” Navigation system: “This is baker XY.”
Gemäß einer Weiterbildung kann die Kartenebene jeweils eine Link-Referenz umfassen, wobei die Link-Referenz auf zumindest eine andere Kartenebene verweist. Die zumindest eine andere Kartenebene kann Straßennetzwerk-Daten und/oder Verkehrsdaten und/oder geologische Daten und/oder soziodemographische Daten und/oder POI (Point-of-Interest)-Daten aufweisen. Daraus ergibt sich der Vorteil, dass Informationen, die in anderen Kartenebenen vorhanden sind, in die Kartenebene integriert werden können. Eine Linkreferenz in dient insbesondere als Verweis oder Verknüpfung, um eine Beziehung zwischen visuellen Merkmalen auf der Kartenebene und einer anderen Kartenebene zu etablieren. Dies kann mit einem Identifier realisiert werden. Dieser Identifier ermöglicht es, eine Linkreferenz so zu definieren, dass sie direkt auf diese andere Kartenebene verweist.According to a further development, the map layer can each comprise a link reference, wherein the link reference refers to at least one other map layer. The at least one other map layer can have road network data and/or traffic data and/or geological data and/or socio-demographic data and/or POI (point of interest) data. This results in the advantage that information that is present in other map layers can be integrated into the map layer. A link reference serves in particular as a reference or link to establish a relationship between visual features on the map layer and another map layer. This can be implemented using an identifier. This identifier makes it possible to define a link reference in such a way that it refers directly to this other map layer.
Wenn der Nutzer also durch Auswahl und/oder Eingabe über die Benutzerschnittstelle auf z. B. visuelle Merkmale, repräsentiert durch ein Gebäude und/oder eine Straße und/oder einem Laden in einem Gebäude verweist, wird die entsprechende Linkreferenz aktiviert. Daraufhin kann das Navigationssystem eine zugehörige Kartenebene und/oder Daten basierend auf dieser Link-Referenz abrufen, sodass z. B. eine Adresse und/oder der Name des Ladens wiedergegeben werden. Anstatt jedoch direkt zu dieser anderen Kartenebene zu wechseln, kann das Navigationssystem, die Daten dieser anderen Kartenebene mit der aktuellen Kartenebene kombinieren, wodurch dem Nutzer eine integrierte Ansicht beider Kartenebenen präsentiert wird. Dem Nutzer können also verschiedene Arten von Informationen bereitgestellt werden, ohne eine andere Karteebene verwenden zu müssen.Thus, when the user refers to, for example, visual features represented by a building and/or a street and/or a shop in a building by selection and/or input via the user interface, the corresponding link reference is activated. The navigation system can then retrieve an associated map layer and/or data based on this link reference, so that, for example, an address and/or the name of the shop is displayed. However, instead of switching directly to this other map layer, the navigation system can combine the data of this other map layer with the current map layer, thereby presenting the user with an integrated view of both map layers. The user can therefore be provided with different types of information without having to use a different map layer.
Gemäß einer Weiterbildung ist vorgesehen, dass mittels den Navigationsinformationen eine Navigationsassistenz und/oder eine autonome Fahrzeugführung zu einer Adresse und/oder einem Aufnahmeort anhand visueller Merkmale und/oder eine Längs- und/oder Querführung eines Kraftfahrzeugs durchgeführt wird. Der Aufnahmeort kann den geografischen Ort bezeichnen, an dem ein Bild, aufweisend die visuellen Merkmale erfasst oder aufgenommen wurde. Die Position des Kraftfahrzeugs kann mithilfe eines im Navigationssystem integrierten GNSS (global navigation satellite system) ermittelt werden. Daraus können Navigationsinformationen für eine Route zwischen der aktuellen Position des Kraftfahrzeugs und der Adresse oder dem Aufnahmeort von visuellen Merkmalen errechnet und/oder ausgegeben werden.According to a further development, it is provided that the navigation information is used to provide navigation assistance and/or autonomous vehicle guidance to an address and/or a recording location based on visual features and/or longitudinal and/or lateral guidance of a motor vehicle. The recording location can designate the geographical location at which an image having the visual features was captured or recorded. The position of the motor vehicle can be determined using a GNSS (global navigation satellite system) integrated in the navigation system. From this, navigation information for a route between the current position of the motor vehicle and the address or the recording location of visual features can be calculated and/or output.
Das Navigationssystem kann gemäß einer Weiterbildung die Wiedergabe mittels des zumindest einen neuronalen Netzes über eine Sprachsynthese bereitstellen oder in Navigationsanweisungen integrieren. Die Verwendung von Sprachsynthese kann eine natürliche und/oder verständliche Wiedergabe des semantischen Inhalts ermöglichen. Der semantische Inhalt kann in eine menschenähnliche Stimme umgewandelt werden, wodurch eine angenehme Hörerfahrung für den Nutzer entstehen kann. Durch die Sprachsynthese kann die Wiedergabe an die Bedürfnisse und/oder Vorlieben des Nutzers angepasst werden. Die Stimme und/oder ein Tempo können konfiguriert werden, um eine optimale Verständlichkeit und/oder Hörkomfort zu gewährleisten. Die Sprachsynthese kann also z. B. die Möglichkeit bereitstellen, verschiedene Stimmen und/oder Sprachstile auszuwählen. Der Nutzer kann diejenige wählen, die ihm am besten gefällt und/oder die seinen individuellen Präferenzen entspricht, was zu einer angenehmen und/oder persönlich zugeschnittenen Kommunikationserfahrung führt. Dies kann das zumindest eine neuronale Netz, insbesondere durch Verwendung von WaveNet, durchführen.According to a further development, the navigation system can provide the playback by means of the at least one neural network via speech synthesis or integrate it into navigation instructions. The use of speech synthesis can enable a natural and/or understandable playback of the semantic content. The semantic content can be converted into a human-like voice, which can create a pleasant listening experience for the user. The speech synthesis can adapt the playback to the needs and/or preferences of the user. The voice and/or a tempo can be configured to ensure optimal intelligibility and/or listening comfort. The speech synthesis can therefore, for example, provide the option of selecting different voices and/or speech styles. The user can choose the one they like best and/or that corresponds to their individual preferences, resulting in a pleasant and/or personally tailored communication experience. This can be carried out by the at least one neural network, in particular by using WaveNet.
Das Navigationssystem kann die Wiedergabe mittels des zumindest einen neuronalen Netzes in textlicher Form über die Benutzerschnittstelle bereitstellen. oder in Navigationsanweisungen integrieren. Sollte also z. B. aufgrund eines Störgeräuschs eine Wiedergabe mittels Sprachsynthese für den Nutzer nicht hörbar und/oder verständlich sein, so kann die Wiedergabe in textlicher Form dazu verhelfen den semantischen Inhalt zumindest visuell wahrzunehmen. Textliche Wiedergaben können in ihrer Struktur und/oder Grammatik geordnet sein, was dazu beitragen kann, das Verständnis und/oder die Klarheit des semantischen Inhalts zu verbessern. Außerdem kann der Nutzer die Wiedergabe in textlicher Form kopieren und in andere Anwendungen einfügen, um z. B. einen semantischen Inhalt zu teilen und/oder weiterzubearbeiten.The navigation system can provide the reproduction by means of the at least one neural network in text form via the user interface or integrate it into navigation instructions. If, for example, a reproduction by means of speech synthesis is not audible and/or understandable for the user due to background noise, the reproduction in text form can help to at least visually perceive the semantic content. Textual reproductions can be organized in their structure and/or grammar, which can help to improve the understanding and/or clarity of the semantic content. In addition, the user can copy the reproduction in text form and paste it into other applications, for example to share and/or further edit semantic content.
Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.For use cases or application situations that may arise during the method and which are not explicitly described here, it may be provided that, in accordance with the method, an error message and/or a request to enter user feedback is issued and/or a default setting and/or a predetermined initial state is set.
Zu der Erfindung gehört auch eine Prozessoreinrichtung für das Navigationssystem, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Als Mikroprozessor kann insbesondere jeweils eine CPU (Central Processing Unit), eine GPU (Graphical Processing Unit) oder eine NPU (Neural Processing Unit) verwendet werden. Des Weiteren kann die Prozessoreinrichtung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein. Die Prozessoreinrichtung kann z.B. auf zumindest einer Schaltungsplatine und/oder auf zumindest einem SoC (System on Chip) basieren.The invention also includes a processor device for the navigation system, which is designed to carry out an embodiment of the method according to the invention. The processor device can have at least one microprocessor and/or at least one microcontroller and/or at least one FPGA (Field Programmable Gate Array) and/or at least one DSP (Digital Signal Processor). In particular, a CPU (Central Processing Unit), a GPU (Graphical Processing Unit) or an NPU (Neural Processing Unit) can be used as the microprocessor. Furthermore, the processor device can have program code that is designed to carry out the embodiment of the method according to the invention when executed by the processor device. The program code can be stored in a data memory of the processor device. The processor device can be based, for example, on at least one circuit board and/or on at least one SoC (System on Chip).
Zu der Erfindung gehört auch eine Anordnung umfassend einen Backend-Server und ein Kraftfahrzeug, aufweisend das Navigationssystem.The invention also includes an arrangement comprising a backend server and a motor vehicle having the navigation system.
Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Navigationssystems und der Anordnung, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Verfahrens beschrieben worden sind. Aus diesem Grund sind die entsprechenden Weiterbildungen des erfindungsgemäßen Navigationssystems und der Anordnung hier nicht noch einmal beschrieben.The invention also includes further developments of the navigation system according to the invention and the arrangement, which have features as have already been described in connection with the further developments of the method according to the invention. For this reason, the corresponding further developments of the navigation system according to the invention and the arrangement are not described again here.
Das Navigationssystem kann in dem Kraftfahrzeug umfasst sein, das bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als Personenbus oder Motorrad ausgestaltet ist.The navigation system can be included in the motor vehicle, which is preferably designed as a motor vehicle, in particular as a passenger car or truck, or as a passenger bus or motorcycle.
Als eine weitere Lösung umfasst die Erfindung auch ein computerlesbares Speichermedium, umfassend Programmcode, der bei der Ausführung durch einen Computer oder einen Computerverbund diesen veranlasst, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann zumindest teilweise als ein nicht-flüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) bereitgestellt sein. Das Speichermedium kann in dem Computer oder Computerverbund angeordnet sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server und/oder Cloud-Server im Internet betrieben sein. Durch den Computer oder Computerverbund kann eine Prozessorschaltung mit beispielsweise zumindest einem Mikroprozessor bereitgestellt sein. Der Programmcode kann als Binärcode und/oder als Assembler-Code und/oder als Quellcode einer Programmiersprache (z.B. C) und/oder als Programmskript (z.B. Python) bereitgestellt sein.As a further solution, the invention also includes a computer-readable storage medium, comprising program code which, when executed by a computer or a computer network, causes it to carry out an embodiment of the method according to the invention. The storage medium can be provided at least partially as a non-volatile data memory (e.g. as a flash memory and/or as an SSD - solid state drive) and/or at least partially as a volatile data memory (e.g. as a RAM - random access memory). The storage medium can be arranged in the computer or computer network. However, the storage medium can also be operated, for example, as a so-called app store server and/or cloud server on the Internet. The computer or computer network can provide a processor circuit with, for example, at least one microprocessor. The program code can be provided as binary code and/or as assembler code and/or as source code of a programming language (e.g. C) and/or as a program script (e.g. Python).
Die Erfindung umfasst auch die Kombinationen der Merkmale der beschriebenen Ausführungsformen. Die Erfindung umfasst also auch Realisierungen, die jeweils eine Kombination der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern die Ausführungsformen nicht als sich gegenseitig ausschließend beschrieben wurden.The invention also includes combinations of the features of the described embodiments. The invention therefore also includes implementations that each have a combination of the features of several of the described embodiments, provided that the embodiments have not been described as mutually exclusive.
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:
-
1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Verfahrens; -
2 eine Ausführungsform zum Bereitstellen eines Softwareprogramms für das erfindungsgemäße Verfahren und -
3a und3b Ausführungsformen zur Visualisierung des erfindungsgemäßen Verfahrens.
-
1 a schematic representation of an embodiment of the method according to the invention; -
2 an embodiment for providing a software program for the method according to the invention and -
3a and3b Embodiments for visualizing the method according to the invention.
Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the components of the embodiments described each represent individual features of the invention that are to be considered independently of one another and which also develop the invention independently of one another. Therefore, the disclosure should also include combinations of the features of the embodiments other than those shown. Furthermore, the described embodiments can also be supplemented by other features of the invention already described.
In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.In the figures, identical reference symbols designate functionally identical elements.
Gemäß einem Ausführungsbeispiel kann vorgesehen sein, dass in einem Schritt a) Bilddaten bereitgestellt werden, die zumindest ein Bild der Umgebung beschreiben, durch Verwenden eines Bildaufnahmesystems, das georeferenzierte Daten Pos zum Aufnahmeort der Bilddaten erfasst und/oder speichert. Mit georeferenzierten Daten Pos können Daten gemeint sein, die Ortsinformationen und/oder geografische Koordinaten und/oder Umweltdaten und/oder geologische Daten und/oder soziodemographische Daten enthalten.According to one embodiment, it can be provided that in a step a) image data are provided which describe at least one image of the environment by using an image recording system which georeferences data Pos is recorded and/or stored at the location where the image data was taken. Georeferenced data Pos can refer to data that contains location information and/or geographical coordinates and/or environmental data and/or geological data and/or socio-demographic data.
In einem Schritt b) kann ein Einspeisen oder Zuführen der Bilddaten in zumindest ein neuronales Netz veranlasst werden. Das Einspeisen kann insbesondere eine Vorverarbeitung der Bilddaten beinhalten, wobei die Bilddaten in eine einheitliche Größe skaliert und/oder die Farbwerte in den Bilddaten normalisiert werden können.In a step b), the image data can be fed or supplied into at least one neural network. The feeding can in particular include preprocessing of the image data, wherein the image data can be scaled to a uniform size and/or the color values in the image data can be normalized.
In einem Schritt c) können visuelle Merkmale v durch Anwenden des zumindest einen neuronalen Netzes auf die Bilddaten klassifiziert und/oder segmentiert werden. Das Klassifizieren und/oder Segmentieren von visuellen Merkmalen v in Bilddaten kann sich auf den Prozess der Identifizierung oder Zuordnung von Kategorien oder Labels zu visuellen Merkmalen v oder Aspekten in den Bilddaten mittels des zumindest einen neuronalen Netzes beziehen. Dabei wird insbesondere eine Objekterkennung und/oder Bildsegmentierung durchgeführt. Beispielsweise könnten Bilddaten segmentiert werden, um Gebäude und/oder Straßen und/oder Fußgänger zu identifizieren.In a step c), visual features v can be classified and/or segmented by applying the at least one neural network to the image data. The classification and/or segmentation of visual features v in image data can refer to the process of identifying or assigning categories or labels to visual features v or aspects in the image data by means of the at least one neural network. In particular, object recognition and/or image segmentation is carried out. For example, image data could be segmented to identify buildings and/or roads and/or pedestrians.
In einem Schritt d) können semantische Inhalte Ob, vis oder Deskriptoren generiert werden, die die klassifizierten visuellen Merkmalen v beschreiben. Mit einem semantischen Inhalt Ob, vis ist insbesondere eine Bildbeschreibung Ob und/oder eine visuelle Merkmalsbeschreibung vis und/oder ein Audiosignal gemeint.In a step d), semantic contents Ob, vis or descriptors can be generated that describe the classified visual features v. A semantic content Ob, vis means in particular an image description Ob and/or a visual feature description vis and/or an audio signal.
In einem Schritt e) kann ein semantischer Inhalt Ob, vis an die georeferenzierten Daten Pos und/oder die visuellen Merkmale v auf die zumindest eine Kartenebene durch z. B. Verwendung eines Zuordnungsmodells annotiert oder assoziiert werden. Dieses Zuordnungsmodell kann Teil des zumindest einen neuronalen Netzes und z. B. als Encoder-Decoder-Netzwerk ausgestaltet sein.In a step e), a semantic content Ob, vis can be annotated or associated with the georeferenced data Pos and/or the visual features v on the at least one map layer by, for example, using an assignment model. This assignment model can be part of the at least one neural network and can be designed, for example, as an encoder-decoder network.
Das Encoder-Netzwerk kann z. B. ein Convolutional Neural Network (CNN) sein, das dazu dient, visuelle Merkmale v der Bilder aus den Bilddaten in Merkmalsvektoren zu kodieren. Ein Merkmalsvektor repräsentiert die wesentlichen visuellen Informationen desjenigen visuellen Merkmals v. Nach dieser Kodierung kann das Decoder-Netzwerk, z. B. ausgestaltet als Recurrent Neural Network (RNN) oder als Long Short-Term Memory (LSTM) Netzwerk, aus den Merkmalsvektoren Sentence Embeddings generieren, die in Vektordarstellung Sätze und/oder Phrasen und/oder eine textliche Beschreibung und/oder deren semantische Bedeutung repräsentieren.The encoder network can be, for example, a convolutional neural network (CNN), which is used to encode visual features v of the images from the image data into feature vectors. A feature vector represents the essential visual information of that visual feature v. After this encoding, the decoder network, e.g. designed as a recurrent neural network (RNN) or as a long short-term memory (LSTM) network, can generate sentence embeddings from the feature vectors, which represent sentences and/or phrases and/or a textual description and/or their semantic meaning in vector representation.
Nachdem die Sentence Embeddings generiert wurden, kann ein Transformer Text-to-Speech-System verwendet werden, das Teil des zumindest einen neuronalen Netzes sein kann, um diese Sentence Embeddings in ein Mel-Spektrogramm umzuwandeln, das dann durch einen Vocoder, wie z. B. WaveNet und/oder MelGAN (Generative Adversarial Networks for Conditional Waveform Synthesis) und/oder Parallel WaveGAN, in ein digitales Audiosignal umgewandelt wird. Die ursprünglichen Sentence Embeddings und/oder das digitale Audiosignal können dabei z. B. in einer Binärdatei in einem Speichermedium des Navigationssystems gespeichert werden, sodass sowohl eine textliche Beschreibung oder Bildbeschreibung Ob oder visuelle Merkmalsbeschreibung vis, als auch ein Audiosignal bereitstellt werden. Mit visueller Merkmalsbeschreibung vis ist insbesondere eine vertiefende Beschreibung eines Teilobjekts eines Gebäudes gemeint. Enthält also dieses Gebäude z. B. die Bildbeschreibung Ob, in Form eines Inhalts der Bildbeschreibung xyz' beispielhaft: „Orientalischer Imbiss mit Schaufenster“, so kann ein Inhalt xyz" dieser visuellen Merkmalsbeschreibung vis hierfür lauten: „Logo, gelb orange mit violetter, lateinischer Schrift und blauer, arabischer Schrift“, „Verkehrszeichen Parkverbot vor Eingang“.After the sentence embeddings have been generated, a transformer text-to-speech system can be used, which can be part of the at least one neural network, to convert these sentence embeddings into a Mel spectrogram, which is then converted into a digital audio signal by a vocoder, such as WaveNet and/or MelGAN (Generative Adversarial Networks for Conditional Waveform Synthesis) and/or Parallel WaveGAN. The original sentence embeddings and/or the digital audio signal can, for example, be stored in a binary file in a storage medium of the navigation system, so that both a textual description or image description (ob) or visual feature description (vis), as well as an audio signal are provided. Visual feature description (vis) means in particular an in-depth description of a partial object of a building. For example, if this building contains For example, if the image description Ob is in the form of a content of the image description xyz', for example: "Oriental snack bar with shop window", then a content xyz" of this visual feature description vis can be: "Logo, yellow-orange with violet, Latin script and blue, Arabic script", "Traffic sign no parking in front of the entrance".
In einem Schritt f) kann eine Benutzerschnittstelle bereitgestellt werden, die Such-, Filter- und/oder Visualisierungsfunktionen für die zumindest eine Kartenebene K bereitstellt. Der Nutzer kann also über die Benutzerschnittstelle z. B. visuelle Merkmale v auswählen, sodass der zugehörige semantische Inhalt Ob, vis und/oder die zugehörigen georeferenzierten Daten Pos wiedergegeben werden.In a step f), a user interface can be provided which provides search, filter and/or visualization functions for the at least one map layer K. The user can thus, for example, select visual features v via the user interface so that the associated semantic content Ob, vis and/or the associated georeferenced data Pos are displayed.
In einem Schritt f1) kann bei Auswahl von visuellen Merkmalen v in Form einer Eingabe über die Benutzerschnittstelle derjenige semantische Inhalt Ob, vis ermittelt werden, der an den ausgewählten visuellen Merkmale v annotiert ist; und/oder in einem Schritt f2) bei Auswahl von georeferenzierter Daten Pos in Form einer Eingabe über die Benutzerschnittstelle derjenige semantische Inhalt Ob, vis ermittelt werden, der an den eingegebenen georeferenzierten Daten Pos annotiert ist, falls die georeferenzierten Daten Pos zumindest teilweise mit den an den semantischen Inhalt Ob, vis annotierten georeferenzierter Daten Pos übereinstimmen; und/oder in einem Schritt f3) bei Auswahl eines semantischen Inhalts Ob, vis in Form einer Eingabe über die Benutzerschnittstelle diejenigen visuellen Merkmale v und/oder der georeferenzierten Daten Pos ermittelt werden, die an den ausgewählten semantischen Inhalt Ob, vis annotiert sind.In a step f1), when visual features v are selected in the form of an input via the user interface, the semantic content Ob, vis that is annotated to the selected visual features v can be determined; and/or in a step f2), when georeferenced data Pos is selected in the form of an input via the user interface, the semantic content Ob, vis that is annotated to the entered georeferenced data Pos can be determined if the georeferenced data Pos at least partially matches the georeferenced data Pos annotated to the semantic content Ob, vis; and/or in a step f3), when a semantic content Ob, vis is selected in the form of an input via the user interface, the visual features v and/or the georeferenced data Pos that are annotated to the selected semantic content Ob, vis can be determined.
Mit anderen Worten kann der Nutzer durch Auswahl oder Eingabe zumindest eines Teils der Daten, bestehend aus georeferenzierten Daten Pos und/oder einen semantischen Inhalt Ob, vis und/oder visuellen Merkmalen v, über die Benutzerschnittstelle die zugehörigen anderen Teile der Daten abrufen. In einem Schritt g) kann eine Wiedergabe der Auswahl also über die Benutzerschnittstelle und/oder z. B mittels eines Digital-Analog-Umsetzers (DAC) über einen Lautsprecher des Navigationssystems erfolgen, falls es sich um ein durch einen semantischen Inhalt Ob, vis repräsentiertes Audiosignal handelt. Zusätzlich oder alternativ können Navigationsinformationen aus der Gesamtkarte aus der zumindest einen Kartenebene K für dieselben georeferenzierten Daten Pos der Auswahl bereitgestellt werden.In other words, the user can, by selecting or entering at least part of the data consisting of georeferenced data Pos and/or a semantic content Ob, vis and/or visual features v, retrieve the associated other parts of the data via the user interface. In a step g), the selection can therefore be reproduced via the user interface and/or, for example, by means of a digital-analog converter (DAC) via a loudspeaker of the navigation system if it is an audio signal represented by a semantic content Ob, vis. Additionally or alternatively, navigation information from the overall map from the at least one map layer K can be provided for the same georeferenced data Pos of the selection.
Das zumindest eine neuronale Netz kann zumindest ViLBERT (Vision and Language - Bidirectional Encoder Representations from Transformers) und/oder LXMERT (Learning Cross-Modality Encoder Representations from Transformers) und/oder ein Encoder-Decoder-Netzwerk umfassen, und mittels einer Fehlerrückführung auf Datensätzen bestehend aus Bild-Text-Paaren darauf trainiert sein, visuelle Merkmale v, wie z. B. Gebäude und/oder Häuser und/oder Straßen, in Bilddaten zu segmentieren und/oder zu erkennen und/oder zu klassifizieren und/oder den visuellen Merkmalen v zusätzliche georeferenzierte Daten Pos und/oder einen semantischen Inhalt Ob, vis zu annotieren oder zu assoziieren.The at least one neural network can comprise at least ViLBERT (Vision and Language - Bidirectional Encoder Representations from Transformers) and/or LXMERT (Learning Cross-Modality Encoder Representations from Transformers) and/or an encoder-decoder network, and can be trained by means of error feedback on data sets consisting of image-text pairs to segment and/or recognize and/or classify visual features v, such as buildings and/or houses and/or streets, in image data and/or to annotate or associate additional georeferenced data Pos and/or a semantic content Ob, vis with the visual features v.
Einem Gebäude kann eine Link-Referenz Link zugeordnet sein, wobei die Link-Referenz Link auf eine weitere Kartenebene verweisen kann. Mittels einer Meta-Referenz Meta können spezifische Daten wie z. B. Informationen über das Land L, in dem sich das Gebäude befindet, seine Adresse A und/oder seinen Namen N, aus der Link-Referenz Link entzogen werden. Eine visuelle Merkmalsbeschreibung vis kann dann für visuelle Merkmale v, repräsentiert als Teilobjekt T, assoziiert sein. Die visuelle Merkmalsbeschreibung vis kann einen Inhalt der visuellen Merkmalsbeschreibung xyz'' aufweisen, wie z. B.: „”Logo, gelb orange mit violetter, lateinischer und blauer, arabischer Schrift”, „Verkehrszeichen Parkverbot vor Eingang“. Die Objektbeschreibung Ob und/oder die visuelle Merkmalsbeschreibung vis können jeweils durch Sentence-Embeddings, erzeugt durch das zumindest eine neuronale Netz, repräsentiert und/oder zugreifbar sein.A link reference Link can be assigned to a building, where the link reference Link can refer to a further map layer. Using a meta reference Meta, specific data such as information about the country L in which the building is located, its address A and/or its name N can be extracted from the link reference Link. A visual feature description vis can then be associated for visual features v, represented as sub-object T. The visual feature description vis can have a content of the visual feature description xyz'', such as: "Logo, yellow orange with violet, Latin and blue, Arabic script", "Traffic sign no parking in front of the entrance". The object description Ob and/or the visual feature description vis can each be represented and/or accessed by sentence embeddings generated by the at least one neural network.
In
Insgesamt zeigen die Beispiele, wie eine Kartenebene K, aufweisend georeferenzierte Daten Pos und/oder semantische Inhalte Ob, vis für ein Navigationssystem bereitgestellt werden kann.Overall, the examples show how a map layer K, comprising georeferenced data Pos and/or semantic content Ob, vis can be provided for a navigation system.
Bezugszeichenlistelist of reference symbols
- AA
- Adresseaddress
- IDID
- Identifikationsnummeridentification number
- KK
- Kartenebenemap layer
- LL
- Landcountry
- Linklink
- Link-Referenzlink reference
- MetaMeta
- Meta-Referenzmeta-reference
- NN
- Namename
- ObWhether
- Objektbeschreibungproperty description
- PosPos
- georeferenzierte Datengeoreferenced data
- vv
- visuelle Merkmalevisual features
- visvis
- visuelle Merkmalsbeschreibungvisual feature description
- xyzxyz
- Inhalt einer Objektbeschreibungcontent of an object description
- xyz'xyz'
- Inhalt einer TeilobjektbeschreibungContent of a sub-object description
- xyz''xyz''
- Inhalt einer visuellen MerkmalsbeschreibungContent of a visual feature description
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA accepts no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- US 2003 / 0 176 965 A1 [0003]US 2003 / 0 176 965 A1 [0003]
- US 2017 / 0 059 348 A1 [0004]US 2017 / 0 059 348 A1 [0004]
Claims (9)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102023123225.8A DE102023123225A1 (en) | 2023-08-29 | 2023-08-29 | Method for operating a navigation system and navigation system and motor vehicle |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102023123225.8A DE102023123225A1 (en) | 2023-08-29 | 2023-08-29 | Method for operating a navigation system and navigation system and motor vehicle |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102023123225A1 true DE102023123225A1 (en) | 2025-03-06 |
Family
ID=94611494
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102023123225.8A Pending DE102023123225A1 (en) | 2023-08-29 | 2023-08-29 | Method for operating a navigation system and navigation system and motor vehicle |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE102023123225A1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030176965A1 (en) | 2002-03-14 | 2003-09-18 | Microsoft Corporation | Landmark-based location of users |
| US20170059348A1 (en) | 2015-08-24 | 2017-03-02 | International Business Machines Corporation | Internationalization during navigation |
-
2023
- 2023-08-29 DE DE102023123225.8A patent/DE102023123225A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030176965A1 (en) | 2002-03-14 | 2003-09-18 | Microsoft Corporation | Landmark-based location of users |
| US20170059348A1 (en) | 2015-08-24 | 2017-03-02 | International Business Machines Corporation | Internationalization during navigation |
Non-Patent Citations (4)
| Title |
|---|
| GEORGAKIS, Georgios [et al.]: Cross-model map learning for vision and language navigation. In: 2023 IEEE/CVF conference on computer vision and pattern recognition (CVPR), S. 15439-15449. – ISBN 978-1-6654-6946-3 * |
| HUANG, Chenguang [et al.]: Audio visual language maps for robot navigation. 2023-03-27. URL: https://arxiv.org/abs/2303.07522 [abgerufen am 10.05.2024] * |
| HUANG, Chenguang [et al.]: Visual language maps for robot navigation. In: 2023 IEEE international conference on robotics and automation (ICRA 2023), May 29 – June 2, 2023, London, UK, S. 10608-10615 . – ISBN 978-8-3503-2365-8 * |
| HUANG, Jizhou [et al.]: DuIVA: An intelligent voice assistant for hands-free and eyes-free voice interaction with the Baidu maps app. In: KDD’22, August 14-18, 2022, Washington, DC, USA. Association for Computing Machinery, 2022. S. 3040-3050. - ISBN 978-1-4503-9385-0 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102020205786B4 (en) | SPEECH RECOGNITION USING NLU (NATURAL LANGUAGE UNDERSTANDING) RELATED KNOWLEDGE OF DEEP FORWARD NEURAL NETWORKS | |
| DE69933422T2 (en) | System and method for route guidance with a navigation application program | |
| DE102018113034A1 (en) | VOICE RECOGNITION SYSTEM AND VOICE RECOGNITION METHOD FOR ANALYZING A COMMAND WHICH HAS MULTIPLE INTENTIONS | |
| DE60016722T2 (en) | Speech recognition in two passes with restriction of the active vocabulary | |
| DE60109979T2 (en) | navigation system | |
| DE602004012909T2 (en) | A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text | |
| DE102021004561A1 (en) | Text Refining Network | |
| DE60202847T2 (en) | NATURAL LANGUAGE RECEIVING SYSTEM FOR ACCESSING AN INFORMATION SYSTEM | |
| DE102018116036A1 (en) | Training a deep convolutional neural network for individual routes | |
| DE10012572A1 (en) | Speech input device for destination guidance system compares entered vocal expression with stored expressions for identification of entered destination | |
| DE112018005272T5 (en) | SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE | |
| JP2020106910A (en) | Animation generation system and animation generation method | |
| DE102022133571A1 (en) | NATURAL LANGUAGE PROCESSING DEVICE AND NATURAL LANGUAGE PROCESSING METHOD | |
| DE102016124888A1 (en) | A method for assisting a driver of a motor vehicle when parking using a driver assistance device, corresponding computer program product and driver assistance device | |
| DE102023109210A1 (en) | Method for dialog processing and dialog system | |
| DE602004003609T2 (en) | Solution of segmentation ambiguity in grammatical position | |
| DE102023123225A1 (en) | Method for operating a navigation system and navigation system and motor vehicle | |
| DE102005018174A1 (en) | Method for the targeted determination of a complete input data record in a speech dialogue 11 | |
| DE112016006504B4 (en) | Voice guidance facility and process | |
| DE102021001043A1 (en) | Method for the automatic detection and localization of anomalies in data recorded by means of a lidar sensor | |
| CN104504104A (en) | Picture material processing method and device for search engine, and search engine | |
| DE102018122762A1 (en) | CONTINUING TRAINING AND SPEECH IMPROVEMENT BY RADIO TRANSMISSION | |
| DE112019005921T5 (en) | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM | |
| EP2273383A1 (en) | Method and device for automatic searching for documents in a data storage device | |
| DE102015014206B4 (en) | Method and device for selecting a navigation destination from one of several language regions by means of voice input |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R012 | Request for examination validly filed | ||
| R016 | Response to examination communication |