WO2018189308A1

WO2018189308A1 - Character set identification

Info

Publication number: WO2018189308A1
Application number: PCT/EP2018/059417
Authority: WO
Inventors: Matthias Wefers
Original assignee: Hirschmann Car Communication GmbH
Current assignee: Hirschmann Car Communication GmbH
Priority date: 2017-04-13
Filing date: 2018-04-12
Publication date: 2018-10-18
Anticipated expiration: 2019-10-13
Also published as: DE102018108693A1

Abstract

The invention relates to a method for transferring electronic program information containing information about currently running and coming programs, wherein, in addition to the electronic program information, at least one specifiable character set is transferred in order adapt the program content in various languages and the particularities of said languages, characterized in that, if no specifiable character set was transferred or a character set deviating from the specifiable character set was transferred, a character set is selected from a plurality of character sets as follows: the defined possible character sets have ranges in which no characters or certain characters are defined and, if such undefined or certain characters occur within the program information, it is assumed that said character set should not be used for decoding, this check being performed with all possible character sets and thus a list of character sets that should not be used being produced, the remaining character set thereby being inferred, which remaining character set is used as a default character set.

Description

Zeichensatz-Erkennung Font recognition

Beschreibung description

Die Erfindung betrifft ein Verfahren zum Übertragen von elektronischen Programminformationen, die Informationen über aktuell laufende sowie kommende Programme beinhalten, wobei zusätzlich zu den elektronischen Programminformationen zumindest ein vorgebbarer Zeichensatz übertragen wird, um den Programminhalt auf verschiedenen Sprachen und deren Besonderheiten anzupassen, gemäß den Merkmalen des Oberbegriffes des Patentanspruches 1 . The invention relates to a method for transmitting electronic program information containing information about currently running and upcoming programs, wherein in addition to the electronic program information at least one predetermined character set is transmitted to adapt the program content to different languages and their characteristics, according to the features of the preamble of claim 1.

Ausgangslage: Background:

Bei Fernsehen (TV) wird ein sogenanntes EPG (Electronic Program Guide) übertragen. Diese Elektronische Programmzeitschrift (Programminformationen) gibt eine Übersicht über die aktuellen und kommenden Programme. Um den Inhalt auf verschiedenen Sprachen und deren Besonderheiten anzupassen, sieht die Norm ETSI EN 300 468 vor, verschiedene Zeichenkodierungen zu unterstützen. Üblicherweise wird der verwendete Zeichensatz zusammen mit den Programm-Informationen mit übertragen. For television (TV) a so-called EPG (Electronic Program Guide) is transmitted. This Electronic Program Guide (Program Information) provides an overview of current and upcoming programs. In order to adapt the content to different languages and their particularities, the ETSI EN 300 468 standard proposes to support different character encodings. Usually, the character set used is transmitted together with the program information.

Problem: Problem:

Wird kein spezieller Zeichensatz übertragen (signalisiert), so soll nach ETSI EN 300 468 ein Default Zeichensatz (ISO 6937) verwendet werden. Dabei gibt es in der Realität jedoch zwei Fehlermöglichkeiten: If no special character set is transmitted (signaled), then according to ETSI EN 300 468 a default character set (ISO 6937) should be used. There are, however, two possibilities for error in reality:

(1 ) Es wird kein Zeichensatz übertragen (signalisiert), jedoch ein anderer als der Default-Zeichensatz verwendet. (1) No character set is transmitted (signaled) but uses a different font than the default character set.

(2) Es wird der Default-Zeichensatz verwendet, jedoch ein anderer übertragen (signalisiert). (2) The default character set is used but another is transmitted (signaled).

Lösung für (1 ): Solution for (1):

Allgemein ist erfindungsgemäß vorgesehen, dass dann, wenn kein vorgebbarer Zeichensatz oder ein von dem vorgebbaren Zeichensatz abweichender Zeichensatz übertragen wurde, aus mehreren Zeichensätze ein Zeichensatz danach ausgewählt wird, dass die festgelegten möglichen Zeichensätze Bereiche aufweisen, in denen keine Zeichen oder bestimmte Zeichen definiert sind, und dann, wenn innerhalb der Programminformationen solche nicht definierten oder bestimmte Zeichen vorkommen, davon ausgegangen wird, dass dieser Zeichensatz zur Dekodierung nicht verwendet werden soll, wobei diese Überprüfung mit allen möglichen Zeichensätzen durchlaufen wird und so eine Liste an Zeichensätzen entsteht, die nicht zu verwenden sind, wobei dadurch auf den verbleibenden Zeichensatz geschlossen wird, der als ein Default- Zeichensatz verwendet wird. Das bedeutet, dass durch Feststellung von nicht definierten oder bestimmten Zeichen, die mit den Programminformationen übertragen werden, eine Selektion desjenigen Zeichensatzes, der als Default-Zeichensatz verwendet werden soll, aus mehreren vorgehenden Zeichensätzen erfolgt. In general, it is provided according to the invention that if no predeterminable character set or a character set differing from the predefinable character set has been transmitted, a character set is selected from a plurality of character sets according to the fact that the defined possible character sets have ranges in which no characters or specific characters are defined. and then, if within the program information such undefined or certain characters occur, it is assumed that this character set is not to be used for decoding, whereby this check is run through with all possible character sets, thus creating a list of character sets which are not to be used which concludes the remaining character set used as a default character set. That is, by detecting undefined or specific characters transmitted with the program information, a selection of that character set to be used as a default character set is made from a plurality of preceding character sets.

Innerhalb der in ETSI EN 300 468 festgelegten möglichen Zeichensätze gibt es immer Bereiche, in den keine Zeichen definiert sind. (z.B. bei ISO 8859-8 der Bereich OxCO - OxDE. Within the possible character sets defined in ETSI EN 300 468, there are always areas in which no characters are defined. (eg for ISO 8859-8 the range OxCO - OxDE.

Sollten innerhalb der Programm-Informationen solche nicht definierten Zeichen vorkommen, so ist dies ein sicheres Zeichen, dass dieser Zeichensatz zur Dekodierung nicht verwendet werden sollte. Wird dieser Test mit allen möglichen Zeichensätzen durchlaufen, so entsteht eine Liste an Zeichensätzen, die nicht zu verwenden sind. Idealerweise kann so auf den verbleibenden Zeichensatz geschlossen werden. If such undefined characters occur within the program information, this is a sure sign that this character set should not be used for decoding. If this test is run through with all possible character sets, a list of character sets is created that are not to be used. Ideally, this is how the remaining character set can be deduced.

Lösung für (2): in Weiterbildung der Erfindung ist vorgesehen, dass als bestimmte Zeichen diakritische Zeichen verwendet werden. Solution for (2): in a further development of the invention it is provided that diacritical marks are used as specific characters.

In Default-Zeichensatz ISO 6937 gibt es die Möglichkeit, sogenannte diakritische Zeichen zu kodieren (z.B. Ä, E, ], Ö, Ü, ä, e, i, ö, u). Diese Zeichen besitzen eine besondere Kodierungsart, die so in anderen Zeichensätzen nicht vorkommt. In the default character set ISO 6937 there is the possibility to code so-called diacritics (for example, Ä, E,], Ö, Ü, ä, e, i, ö, u). These characters have a special encoding style that does not appear in other fonts.

Sie beginnen immer mit einem Code 0xC1 - OxCF (dem Akzent), gefolgt von einem zweiten Zeichen (dem Buchstaben). Mögliche Kombinationen sind genau festgelegt: They always start with a code 0xC1 - OxCF (the accent), followed by a second character (the letter). Possible combinations are specified:

Bevor nun eine Programminformation nach dem signalisierten Zeichensatz übersetzt wird, wird nach der Erfindung geprüft, ob darin eine solche Kombination auftritt: Before a program information is translated according to the signaled character set, it is checked according to the invention whether such a combination occurs therein:

Tritt eine solche Kombination auf, so kann nahezu sicher davon ausgegangen werden, dass der Default Zeichensatz zu verwenden ist. In diesem Fall wird nicht nach dem signalisierten Zeichensatz übersetzt, sondern mit ISO 6937. Sollte eine solche Kombination aus 0xC1 -0xC2 und dem zweiten Zeichen nicht vorkommen, so wird weiterhin der signalisierte Zeichensatz verwendet. If such a combination occurs, it can almost certainly be assumed that the default character set is to be used. In this case, it is not translated according to the signaled character set, but with ISO 6937. If such a combination of 0xC1 -0xC2 and the second character does not occur, then the signaled character set will continue to be used.

Verfahren zur Erkennung eines Zeichensatzes, wobei es in einem Default-Zeichensatz ISO 6937 die Möglichkeit gibt, sogenannte diakritische Zeichen zu kodieren und diese Zeichen eine besondere Kodierungsart besitzen, die so in anderen Zeichensätzen nicht vorkommt, bei dem, bevor eine Programminformation nach dem signalisierten Zeichensatz übersetzt wird, geprüft wird, ob darin eine solche Kombination auftritt, wobei dann, wenn eine solche Kombination auftritt, davon ausgegangen wird, dass der Default-Zeichensatz zu verwenden ist und in diesem Fall nicht nach dem signalisierten Zeichensatz, sondern mit ISO 6937 übersetzt wird, wobei ansonsten, wenn eine solche Kombination aus 0xC1 -0xC2 und dem zweiten Zeichen nicht vorkommt, weiterhin der signalisierte Zeichensatz verwendet wird. A method for recognizing a character set, wherein in a default character set ISO 6937 gives the possibility to code so-called diacritical marks and these characters have a special coding type which does not occur in other character sets, in which, before program information after the signaled character set If such a combination occurs, then it is assumed that the default character set is to be used and in this case is not translated according to the signaled character set but with ISO 6937 Otherwise, if such a combination of 0xC1 -0xC2 and the second character does not occur, the signaled character set will continue to be used.

Claims

claims

1 . A method for transmitting electronic program information containing information about currently running and upcoming programs, wherein in addition to the electronic program information at least one predeterminable character set is transmitted to adapt the program content to different languages and their characteristics, characterized in that, if no specifiable A set of characters or a character set differing from the predeterminable character set has been transferred, a set of characters is selected from a plurality of character sets, the defined possible character sets have areas in which no characters or specific characters are defined, and then if within the program information such undefined or certain characters occur, it is assumed that this character set should not be used for decoding, whereby this check is run through with all possible character sets and so a list to fonts that are not to be used, thereby deducing the remaining set of fonts used as a default font.

2. The method according to claim 1, characterized in that are used as specific characters diacritic marks.

3. The method according to claim 2, characterized in that a default character set according to ISO 6937 is used, in which the diacritic symbols are encoded.