DE102022128012A1

DE102022128012A1 - Vorrichtung und Verfahren zur selektiven Darstellung von Untertiteln

Info

Publication number: DE102022128012A1
Application number: DE102022128012.8A
Authority: DE
Inventors: Daniel Pohl
Original assignee: Immervr GmbH
Current assignee: Immervr GmbH
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2024-04-25
Also published as: US20240236439A9; US12395709B2; US20240137622A1; EP4362474A2; EP4362474A3

Abstract

Eine Vorrichtung und ein Verfahren zur selektiven Darstellung von Untertiteln werden bereitgestellt, wobei die Vorrichtung (100) einen oder mehrere Prozessoren (102) enthält, die konfiguriert sind, um: Empfangen eines Videos (104) und entsprechender Untertiteldaten (112), wobei das Video (104) Audiodaten (108) enthält, die eine erste Sprache des Videos (104) darstellen, und anderssprachige Inhalte (110), die einer zweiten Sprache zugeordnet sind; Bestimmen einer Sprachfähigkeitsanforderung (r_ls) der anderssprachigen Inhalte (110), wobei die Sprachfähigkeitsanforderung (r_ls) eine Sprachfähigkeit darstellt, die erforderlich ist, um die anderssprachigen Inhalte (110) in die erste Sprache zu übersetzen; Bestimmen, ob eine Sprachfertigkeit (ls) eines Benutzers (300) die bestimmte Sprachfertigkeitsanforderung (r_ls) erfüllt, und in dem Fall, dass die Sprachfertigkeit (ls) des Benutzers (300) die bestimmte Sprachfertigkeitsanforderung (r_ls) erfüllt, Bestimmen, dass der Untertitel nicht gezeigt wird, wenn der anderssprachige Inhalt (110) des Videos (104) dem Benutzer (300) präsentiert wird.

Description

Verschiedene Ausführungsformen beziehen sich allgemein auf eine Vorrichtung und ein Verfahren zur selektiven Darstellung von Untertiteln.
Verschiedene Medien (wie Videos, Diashows, Spiele, Apps usw.) können einem Benutzer (oder mehreren Benutzern) in einer Hauptsprache (z. B. einer vom Benutzer ausgewählten Sprache) zur Verfügung gestellt werden, können aber auch geschriebenen Text und/oder Audio in einer anderen Sprache enthalten. Wenn dieser anderssprachige Inhalt dem Benutzer zur Verfügung gestellt wird, können dem Benutzer auch Untertitel präsentiert werden, die diesen anderssprachigen Inhalt in die Hauptsprache übersetzen. Bei diesen Untertiteln kann es sich beispielsweise um erzählende Untertitel (die sowohl für den Inhalt in der Hauptsprache als auch für den anderssprachigen Inhalt angezeigt werden können), um Zwangsuntertitel (die nur für den anderssprachigen Inhalt angezeigt werden können), um Untertitel für Hörgeschädigte usw. handeln. Bei einigen Medien ist es unter Umständen nicht möglich, Zwangsuntertitel zu deaktivieren. Es hat sich jedoch gezeigt, dass (z. B. plötzlich auftauchende) Untertitel die Immersion des Mediums unterbrechen können. Gemäß verschiedenen Aspekten werden eine Vorrichtung und ein Verfahren bereitgestellt, die in der Lage sind, die immersive Erfahrung eines Benutzers zu erhöhen, indem Untertitel selektiv in Abhängigkeit von den Sprachkenntnissen des Benutzers angezeigt werden. Insbesondere kann eine für die Übersetzung des fremdsprachlichen Inhalts erforderliche Sprachkompetenz ermittelt werden, und die Untertitel können nur dann angezeigt werden, wenn die Sprachkompetenz des Benutzers diese erforderliche Sprachkompetenz nicht erfüllt. Beispielsweise können Untertitel nur dann angezeigt werden, wenn der Benutzer den fremdsprachlichen Inhalt nicht selbst übersetzen kann. Wenn der Benutzer den fremdsprachigen Inhalt übersetzen kann, wird die Immersion nicht unterbrochen, so dass die immersive Erfahrung des Benutzers erhöht wird. Dies gilt sowohl für (z.B. klassische) zweidimensionale Medien als auch für immersive Medien für computersimulierte Realität (wie Augmented Reality und Virtual Reality). Bei immersiven Medien kann die oben beschriebene untertitelungsbedingte Unterbrechung der Immersion noch größer sein.
In den Zeichnungen beziehen sich gleiche Bezugszeichen im Allgemeinen auf die gleichen Teile in den verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstabsgetreu, da der Schwerpunkt im Allgemeinen auf der Veranschaulichung der Prinzipien der Erfindung liegt. In der folgenden Beschreibung werden verschiedene Ausführungsformen der Erfindung unter Bezugnahme auf die folgenden Zeichnungen beschrieben, in denen:

1A und 1B zeigen jeweils ein System zur Präsentation von (z.B. immersiven) Medien für einen oder mehrere Benutzer gemäß verschiedener Aspekte;
2A bis 2C zeigen jeweils ein entsprechendes Verarbeitungsschema zur Bestimmung, ob Untertitel angezeigt werden sollen oder nicht; und
3 zeigt ein Flussdiagramm eines Verfahrens zur selektiven Darstellung von Untertiteln gemäß verschiedenen Aspekten.

Die folgende detaillierte Beschreibung bezieht sich auf die beigefügten Zeichnungen, die zur Veranschaulichung spezifische Details und Ausführungsformen zeigen, in denen die Erfindung ausgeführt werden kann. Diese Ausführungsformen sind ausreichend detailliert beschrieben, um dem Fachmann die Möglichkeit zu geben, die Erfindung anzuwenden. Andere Ausführungsformen können verwendet werden, und strukturelle, logische und elektrische Änderungen können vorgenommen werden, ohne dass der Anwendungsbereich der Erfindung verlassen wird. Die verschiedenen Ausführungsformen schließen sich nicht unbedingt gegenseitig aus, da einige Ausführungsformen mit einer oder mehreren anderen Ausführungsformen kombiniert werden können, um neue Ausführungsformen zu bilden. Verschiedene Ausführungsformen werden im Zusammenhang mit Methoden und verschiedene Ausführungsformen im Zusammenhang mit Vorrichtungen beschrieben. Es kann jedoch davon ausgegangen werden, dass Ausführungsformen, die im Zusammenhang mit Methoden beschrieben werden, in ähnlicher Weise auch für Geräte gelten können und umgekehrt.
Der Begriff „Schaltung“ kann als jede Art von Logik implementierender Einheit verstanden werden, die aus Hardware, Software, Firmware oder einer Kombination davon bestehen kann. So kann eine „Schaltung“ in einer Ausführungsform eine fest verdrahtete logische Schaltung oder eine programmierbare logische Schaltung wie ein programmierbarer Prozessor sein, z. B. ein Mikroprozessor (z. B. ein CISC-Prozessor (Complex Instruction Set Computer) oder ein RISC-Prozessor (Reduced Instruction Set Computer)). Eine „Schaltung“ kann auch Software sein, die von einem Prozessor implementiert oder ausgeführt wird, z. B. jede Art von Computerprogramm, z. B. ein Computerprogramm, das einen virtuellen Maschinencode wie z. B. Java verwendet. Der Begriff „Prozessor“ kann als jede Art von Einheit verstanden werden, die in der Lage ist, Daten und/oder Signale zu verarbeiten. Beispielsweise können die Daten oder Signale gemäß mindestens einer (d. h. einer oder mehreren) spezifischen Funktion verarbeitet werden, die der Prozessor ausführt. Ein Prozessor kann eine analoge Schaltung, eine digitale Schaltung, eine Schaltung mit gemischten Signalen, eine Logikschaltung, einen Mikroprozessor, eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen digitalen Signalprozessor (DSP), ein programmierbares Gate-Array (FPGA), eine integrierte Schaltung oder eine beliebige Kombination davon umfassen oder sein. Jede andere Methode zur Implementierung der jeweiligen Funktionen, die weiter unten ausführlicher beschrieben wird, kann ebenfalls einen Prozessor oder eine Logikschaltung umfassen. Es versteht sich, dass einer oder mehrere der hier im Einzelnen beschriebenen Verfahrensschritte von einem Prozessor ausgeführt (z. B. implementiert) werden können, und zwar durch eine oder mehrere spezifische Funktionen, die von dem Prozessor ausgeführt werden. Der Prozessor kann daher so beschaffen sein, dass er jedes der hier beschriebenen Informationsverarbeitungsverfahren oder Komponenten davon ausführt.
Die computersimulierte Realität bietet dem Benutzer ein sehr immersives Erlebnis. Die Einblendung von Untertiteln zur Übersetzung anderssprachiger Inhalte kann diese immersive Erfahrung unterbrechen. Verschiedene Aspekte beziehen sich auf eine Vorrichtung und ein Verfahren, die feststellen, ob der Benutzer den fremdsprachigen Inhalt selbst übersetzen kann, und die Untertitel nur dann anzeigen, wenn der Benutzer den fremdsprachigen Inhalt nicht selbst übersetzen kann (daher sind die Untertitel möglicherweise nicht erforderlich, wenn der Benutzer den fremdsprachigen Inhalt übersetzen kann). Dadurch sind die Vorrichtung und das Verfahren in der Lage, das (z. B. computersimulierte) immersive Erlebnis benutzerspezifisch zu verbessern.
1A und 1B zeigen jeweils ein System 10 (z.B. ein immersives Technologiesystem) gemäß verschiedener Aspekte. Das System 10 kann ein Gerät 100 umfassen. Das Gerät 100 kann einen oder mehrere Prozessoren 102 enthalten. Das System 10 kann ein oder mehrere Ausgabegeräte 200 enthalten. Das eine oder die mehreren Ausgabegeräte 200 können so konfiguriert sein, dass sie Medien für einen oder mehrere Benutzer darstellen.
In einigen Aspekten können das eine oder die mehreren Ausgabegeräte 200 so konfiguriert sein, dass sie Medien für einen einzigen Benutzer 300 darstellen (siehe z. B. 1A). Daher kann nur ein Benutzer die Medien gleichzeitig erleben (z. B. sehen und/oder hören). In diesem Fall können das eine oder die mehreren Ausgabegeräte 200 Teil eines Head-Mounted Displays, eines Augmented-Reality-Geräts (z. B. einer Augmented-Reality-Brille, eines Head-Mounted Displays mit Videodurchsicht usw.) usw. sein oder sein können.
In anderen Aspekten können das eine oder die mehreren Ausgabegeräte 200 in der Lage sein, Medien auch für zwei oder mehr Benutzer 300 (n = 1 bis N, mit N ≥ 2) zu präsentieren (siehe z. B. 1B). Somit könnten zwei oder mehr Benutzer die Medien gleichzeitig erleben (z. B. sehen und/oder hören). Es versteht sich, dass in diesem Fall das eine oder die mehreren Ausgabegeräte 200 auch in der Lage sein können, die Medien einem einzelnen Benutzer zu präsentieren. Das eine oder die mehreren Ausgabegeräte 200 (die in der Lage sind, die Medien auch zwei oder mehr Nutzern zu präsentieren) können Teil eines Smartphones, eines Tablets, eines Laptops usw. sein oder werden.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie das eine oder die mehreren Ausgabegeräte 200 steuern. Zum Beispiel können der eine oder die mehreren Prozessoren 102 steuern, wie die Medien von dem einen oder den mehreren Ausgabegeräten 200 präsentiert werden. Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Darstellung der Medien über das eine oder die mehreren Ausgabegeräte 200 benutzerspezifisch steuern. Wenn beispielsweise das eine oder die mehreren Ausgabegeräte 200 so konfiguriert sind, dass sie die Medien nur dem einzelnen Benutzer 300 präsentieren, können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Präsentation der Medien über das eine oder die mehreren Ausgabegeräte 102 in Abhängigkeit von dem einzelnen Benutzer steuern. Wenn beispielsweise das eine oder die mehreren Ausgabegeräte 200 so konfiguriert sind, dass sie die Medien zwei oder mehr Benutzern 300 (n = 1 bis N) präsentieren, können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Präsentation der Medien über das eine oder die mehreren Ausgabegeräte 102 in Abhängigkeit von jedem Benutzer der zwei oder mehr Benutzer steuern. Beispielsweise können der eine oder die mehreren Prozessoren 102 steuern, wie die Medien von dem einen oder den mehreren Ausgabegeräten 200 präsentiert werden, je nachdem, wer das System 10 benutzt.
Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie den (einzelnen) Benutzer 300 aus einer Vielzahl von (z. B. bekannten) Benutzern bestimmen. Beispielsweise kann der Benutzer 300 mit seinem Benutzerprofil (z. B. einem Benutzerprofil, das mit einem Betriebssystem verbunden ist (z. B. im Falle eines Smartphones, eines Laptops, eines Tablets usw.) und/oder einem Benutzerprofil, das mit einem Programm (z. B. einer App) verbunden ist, das verwendet wird, um dem Benutzer 300 die Medien zu präsentieren (z. B. ein Benutzerprofil eines Streaming-Programms, um dem Benutzer 300 ein Video zu präsentieren), am System 10 angemeldet sein. Das System 10 kann ein Benutzergerät (z. B. ein Smartphone, ein Tablet, ein Laptop, ein Head-Mounted-Display, eine Augmented-Reality-Brille usw.) sein oder umfassen, das über eine drahtlose Netzwerkverbindung (z. B. eine Bluetooth-Verbindung, ein drahtloses lokales Netzwerk (WLAN) usw.) mit einem anderen Gerät verbunden sein kann, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl der Benutzer anhand von Informationen über diese drahtlose Netzwerkverbindung (z. B. eine MAC-Adresse (Media Access Control) des Benutzergeräts) bestimmen.
Gemäß verschiedenen Aspekten kann das System 10 eine oder mehrere Erfassungsvorrichtungen 400 umfassen. Die eine oder mehreren Erkennungsvorrichtungen 400 können so konfiguriert sein, dass sie den Benutzer 300 oder die Benutzer 300 (n = 1 bis N) erkennen, die das System 10 benutzen. Gemäß einigen Aspekten kann die eine oder mehrere Erfassungsvorrichtung(en) 400 so konfiguriert sein, dass sie den Benutzer 300 oder die Benutzer 300(n = 1 bis N), die das System 10 benutzen, aus der Vielzahl der Benutzer bestimmt und Informationen darüber, wer das System 10 benutzt, an den einen oder die mehreren Prozessoren 102 liefert. Gemäß anderen Aspekten können die eine oder die mehreren Erfassungsvorrichtungen 400 so konfiguriert sein, dass sie dem einen oder den mehreren Prozessoren 102 Informationen über den erfassten Benutzer 300 oder die erfassten Benutzer 300(n = 1 bis N) bereitstellen, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 oder die Benutzer 300(n = 1 bis N), die das System 10 verwenden, aus der Vielzahl der Benutzer bestimmen. Beispielsweise können die eine oder mehreren Erfassungsvorrichtungen 400 und/oder der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie bestimmen, wer das System 10 benutzt. Beispielsweise können die eine oder die mehreren Erfassungsvorrichtungen 400 mindestens einen biometrischen Sensor (z. B. einen Fingerabdrucksensor (z. B. eines Smartphones), einen Kamerasensor zur Gesichtsauthentifizierung (z. B. eines Smartphones, eines Head-Mounted-Displays usw.), einen Iris-Sensor, einen Spracherkennungssensor usw.) umfassen, der so konfiguriert ist, dass er biometrische Daten des Benutzers 300 erfasst, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl der Benutzer anhand dieser erfassten biometrischen Daten bestimmen. Beispielsweise kann ein biometrischer Sensor des mindestens einen biometrischen Sensors eine Eye-Tracking-Kamera sein, die so konfiguriert ist, dass sie ein Bild eines ersten Auges (z. B. des rechten Auges) und/oder eines zweiten Auges (z. B. des linken Auges) des Benutzers 300 erfasst, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl von Benutzern bestimmen, indem sie eine Augenform des ersten Auges und/oder des zweiten Auges, Iriseigenschaften des ersten Auges und/oder des zweiten Auges und/oder Augenbewegungsmuster des ersten Auges und/oder des zweiten Auges usw. verwenden. Ein biometrischer Sensor des mindestens einen biometrischen Sensors kann beispielsweise ein Mikrofon sein, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl von Benutzern unter Verwendung von Stimmerkennung bestimmen, wenn der Benutzer 300 in das Mikrofon spricht.
Die eine oder mehreren Erfassungsvorrichtungen 400 können eine Kamera (z. B. eine Webcam eines Smartphones, eine Webcam eines Tablets, eine Webcam eines Laptops, eine Webcam eines Fernsehers, TV, eine Gesichtskamera eines Head-Mounted-Displays usw.) umfassen, die so konfiguriert ist, dass sie ein Bild (das zumindest einen Teil) des Benutzers 300 erfasst, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 anhand des erfassten Bildes aus der Vielzahl der Benutzer bestimmen. Beispielsweise kann die Kamera so konfiguriert sein, dass sie ein Gesichtsbild erfasst, das zumindest einen Teil eines Gesichts des Benutzers 300 zeigt (z. B. das gesamte Gesicht des Benutzers 300 oder nur einen unteren Teil des Gesichts, der einen Mund des Benutzers 300 enthält, oder nur einen Teil des Gesichts, der zumindest ein Auge des Benutzers 300 enthält), und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl der Benutzer unter Verwendung des erfassten Gesichtsbildes bestimmen. Wie hierin beschrieben, können das eine oder die mehreren Ausgabegeräte 200 in der Lage sein, die Medien an zwei oder mehr Benutzer zu präsentieren. In diesem Fall kann das System 10 eine Kamera enthalten, die so konfiguriert ist, dass sie ein Betrachtungsbild aufnimmt, das einen oder mehrere Benutzer zeigt, die das eine oder die mehreren Ausgabegeräte 200 (z. B. eine Anzeigevorrichtung 206 des einen oder der mehreren Ausgabegeräte 200) betrachten, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie jeden Benutzer 300(n) des einen oder der mehreren Benutzer, die das eine oder die mehreren Ausgabegeräte 200 (z. B. aus der Vielzahl der Benutzer) betrachten, anhand des Betrachtungsbildes bestimmen. Beispielsweise kann das Sichtbild zwei oder mehr Benutzer zeigen, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie jeden Benutzer der zwei oder mehr Benutzer aus der Vielzahl der Benutzer bestimmen. Die eine oder mehreren Erfassungsvorrichtungen 400 können eine Gehirn-Computer-Schnittstelle umfassen, die so konfiguriert ist, dass sie Gehirndaten erfasst, die ein Gehirnmuster des Benutzers 300 darstellen, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl der Benutzer anhand der erfassten Gehirndaten bestimmen. Beispielsweise kann das System 10 ein am Kopf getragenes Display (englisch: Head-mounted Display) sein oder ein solches enthalten, und das am Kopf getragene Display kann das Brain-Computer-Interface enthalten.
Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie den Benutzer 300 aus der Vielzahl der Benutzer unter Verwendung einer oder mehrerer der oben beschriebenen Informationen bestimmen.
Ein Medium, das über das eine oder die mehreren Ausgabegeräte 200 präsentiert werden soll (z. B. dem Benutzer 300), kann einer ersten Sprache zugeordnet sein. Diese erste Sprache kann eine Primärsprache sein. Zum Beispiel können mindestens 90 % (z. B. mindestens 95 %, z. B. mindestens 98 %) des (z. B. schriftlichen und/oder akustischen) Inhalts des Mediums in der ersten Sprache sein. Das Medium kann jedoch auch Inhalte in einer zweiten Sprache enthalten, die sich von der ersten Sprache unterscheidet. Inhalte in einer anderen Sprache als der ersten (z. B. der primären) Sprache können als anderssprachige Inhalte bezeichnet werden. Im Folgenden werden verschiedene Aspekte für den anderssprachigen Inhalt in der zweiten Sprache beschrieben. Es versteht sich, dass das Medium auch anderssprachige Inhalte in einer dritten Sprache, die sich von der ersten Sprache und der zweiten Sprache unterscheidet, anderssprachige Inhalte in einer vierten Sprache, die sich von der ersten Sprache, der zweiten Sprache und der dritten Sprache unterscheidet, usw. enthalten kann. Die hier beschriebenen Grundsätze für anderssprachige Inhalte in der zweiten Sprache gelten in ähnlicher Weise für anderssprachige Inhalte in einer anderen Sprache als der zweiten Sprache. Das Medium kann Untertiteldaten enthalten, die einen Untertitel (oder Untertitel) darstellen, der eine Übersetzung des anderssprachigen Inhalts in die erste Sprache ist.
Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie das eine oder die mehreren Ausgabegeräte 200 so steuern, dass sie den Untertitel in Abhängigkeit von den Sprachkenntnissen des Benutzers 300 oder den jeweiligen Sprachkenntnissen jedes Benutzers der zwei oder mehr Benutzer 300 (n = 1 bis N) selektiv anzeigen. Im Folgenden wird ein Video als Beispiel für ein Medium beschrieben, um die Prinzipien der selektiven Anzeige von Untertiteln zu veranschaulichen. Bei dem Video kann es sich zum Beispiel um ein (z. B. klassisches) zweidimensionales Video, ein dreidimensionales Video oder ein immersives Video handeln. Es versteht sich, dass das Video nur ein Beispiel für das Medium ist und dass es sich bei dem Medium um jede andere Art von Medium handeln kann, das auch anderssprachige Inhalte enthält, wie z. B. ein Spiel (z. B. ein Computerspiel, ein Konsolenspiel, ein App-Spiel usw.), eine Diashow (z. B. aus zweidimensionalen und/oder immersiven Bildern), ein Computerprogramm, eine App (z. B. für ein Smartphone und/oder ein Tablet), eine Museumsführung, Live-Untertitel usw. Die Prinzipien der selektiven Anzeige von Untertiteln können also für jedes Medium angewendet werden, das Untertitel für anderssprachige Inhalte darstellen kann (z. B. visuell und/oder akustisch).
Im Folgenden werden die Prinzipien der selektiven Einblendung von Untertiteln für den einzelnen Nutzer 300 beschrieben. Es versteht sich, dass dies analog für den Fall gilt, dass zwei oder mehr Benutzer das System 10 benutzen (in einigen Aspekten als Mehrbenutzerumgebung bezeichnet). Insbesondere für den Fall, dass zwei oder mehr Benutzer das System 10 verwenden, können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie für jeden Benutzer der zwei oder mehr Benutzer bestimmen, ob die Sprachkenntnisse eines jeweiligen Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung erfüllen, und für den Fall, dass festgestellt wird, dass die jeweilige Sprachkenntnis jedes Benutzers der zwei oder mehr Benutzer die ermittelte Sprachkenntnisanforderung erfüllt, bestimmen, dass der Untertitel nicht angezeigt wird, wenn der anderssprachige Inhalt des Videos präsentiert wird. In einer Mehrbenutzerumgebung kann beispielsweise auf die niedrigste gemeinsame Sprachkompetenz der Benutzer zurückgegriffen werden. Selbst wenn zwei Benutzer deutsche Muttersprachler sind, der dritte Benutzer aber nur über eine mittlere Sprachkompetenz für Deutsch verfügt, kann der eine oder mehrere Prozessoren 102 entscheiden, ob der Untertitel auf der Grundlage der mittleren Sprachkompetenz für Deutsch angezeigt werden soll. Es versteht sich, dass sich dieses Szenario auf Anwendungsfälle bezieht, in denen zwei oder mehr Benutzer dasselbe oder dieselben Ausgabegeräte 200 zur Anzeige des Mediums verwenden. In einem Metaverse-Szenario, in dem sich die drei Benutzer nur virtuell treffen, um dasselbe Medium über ihr Head-Mounted-Display (z. B. ein Virtual-Reality-Headset) zu betrachten, können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie individuell für jeden Benutzer bestimmen, ob der Untertitel über das jeweilige Head-Mounted-Display angezeigt werden soll oder nicht.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie ein (z. B. immersives) Video 104 (als Beispiel für ein Medium) empfangen. Das Video 104 kann eine Vielzahl von Bildern 106 enthalten. Das eine oder die mehreren Ausgabegeräte 200 können so konfiguriert sein, dass sie das Video 104 dem Benutzer 300 präsentieren. Das Präsentieren des Videos 104 für den Benutzer 300 kann beinhalten, dass die mehreren Bilder 106 des Videos 104 nacheinander mit einer vordefinierten Bildrate (z.B. 30 Bilder pro Sekunde, 60 Bilder pro Sekunde, 120 Bilder pro Sekunde usw.) bereitgestellt werden. Das Video 104 kann Audiodaten 108 enthalten, die der Vielzahl von Bildern 106 entsprechen. Die Audiodaten 108 können die erste (z. B. primäre) Sprache des Videos 104 darstellen. Das Video 104 kann auch anderssprachige Inhalte 110 enthalten, die mit der zweiten Sprache (die sich von der ersten Sprache unterscheidet) verbunden sind (z. B. in dieser Sprache). Der eine oder mehrere Prozessoren 102 können so konfiguriert sein, dass sie Untertiteldaten 112 empfangen. Die Untertiteldaten 112 können einen oder mehrere Untertitel darstellen, die eine Übersetzung des anderssprachigen Inhalts in die erste Sprache enthalten. Folglich kann das Video 104 visuelle Inhalte (z. B. die Vielzahl von Bildern 106) und Audioinhalte (z. B. die Audiodaten 108) enthalten. Eine Primärsprache des Audioinhalts kann die erste Sprache sein. Der visuelle Inhalt und/oder der Audioinhalt kann den anderssprachigen Inhalt 110 in der zweiten (z. B. sekundären) Sprache enthalten. In einem Beispiel können ein oder mehrere Bilder der Vielzahl von Bildern 106 des Videos 104 geschriebenen Text in der zweiten Sprache enthalten, und dieser geschriebene Text kann der anderssprachige Inhalt sein. In einem anderen Beispiel kann ein Teil der Audiodaten 108 gesprochenen Text in der zweiten Sprache darstellen, und dieser gesprochene Text kann der anderssprachige Inhalt sein. Die ein oder mehreren Untertitel, die durch die Untertiteldaten 112 dargestellt werden, können eine Übersetzung des geschriebenen Textes und/oder des gesprochenen Textes in die erste Sprache enthalten. Im Folgenden werden die ein oder mehreren Untertitel zur Veranschaulichung als ein (einzelner) Untertitel beschrieben. Es versteht sich, dass die Untertiteldaten 112 mehr als einen Untertitel darstellen können. Ein „Untertitel“, wie hier beschrieben, kann sich auf ein oder mehrere Wörter beziehen, die im Wesentlichen gleichzeitig angezeigt werden. Ein Untertitel kann ein einzelnes Wort oder mehr als ein Wort (z. B. einen Satz) enthalten.
Gemäß verschiedenen Aspekten kann das Video ein immersives Video sein. In diesem Fall können das eine oder die mehreren Ausgabegeräte 200 so konfiguriert sein, dass sie dem Benutzer 300 eine computersimulierte Realität in Übereinstimmung mit dem immersiven Video bieten. Ein immersives Video, wie hier beschrieben, kann jede Art von Video sein (z. B. einschließlich immersiver Bilder), das es ermöglicht, über ein spezielles Gerät computer-simulierte Realitätsinhalte in Übereinstimmung mit dem Video anzuzeigen. Ein immersives Video kann also Inhalte zeigen, die eine computer-simulierte Realität ermöglichen. Computersimulierte Realität (CR) kann mit jeder Art von immersiver Umgebung in Verbindung gebracht werden. Die immersive Umgebung kann in der physischen Welt stattfinden, wobei optional Informationen (z. B. Objekte) virtuell hinzugefügt werden (z. B. kann die computersimulierte Realität eine erweiterte Realität (AR) sein). Die immersive Umgebung kann sich in einer virtuellen Welt abspielen (z. B. kann die computersimulierte Realität eine virtuelle Realität (VR) sein). Es versteht sich, dass die virtuelle Welt eine Simulation der realen Welt darstellen kann. Die immersive Umgebung kann sowohl in der physischen Welt als auch in der virtuellen Welt stattfinden (z. B. kann die computersimulierte Realität eine gemischte Realität (MR) sein). Die immersive Umgebung kann eine Kombination aus AR, VR und MR sein (z. B. kann die computer-simulierte Realität eine erweiterte Realität (XR) sein). Somit kann das immersive Video mit AR, VR, MR und/oder XR verbunden sein.
Die eine oder mehreren Ausgabevorrichtungen 200 können eine Anzeigevorrichtung (Ausgabevorrichtung) 206 umfassen. Die Anzeigevorrichtung 206 kann so konfiguriert sein, dass sie die mehreren Bilder 106 des Videos 104 anzeigt und die Untertitel in Übereinstimmung mit den Untertiteldaten 112 anzeigt. Beispielsweise kann das Video 104 ein immersives Video sein, und die Anzeigevorrichtung 206 kann so konfiguriert sein, dass sie eine computersimulierte Realität in Übereinstimmung mit dem immersiven Video bereitstellt. Bei der Anzeigevorrichtung 206 kann es sich um ein am Kopf getragenes Display, ein Display einer Augmented-Reality-Brille, ein Display eines Laptops, ein Display eines Smartphones, ein Display eines Tablets, ein Display eines Fernsehers usw. handeln.
Die eine oder mehreren Ausgabevorrichtungen 200 können eine Audio(ausgabe)vorrichtung 208 umfassen. Das Audiogerät 208 kann so konfiguriert sein, dass es Audiosignale in Übereinstimmung mit den Audiodaten 108 ausgibt. Die Audiovorrichtung 208 kann zum Beispiel ein oder mehrere Lautsprecher und/oder Kopfhörer sein oder umfassen.
Die eine oder mehreren Ausgabevorrichtungen 200 können eine oder mehrere andere Ausgabevorrichtungen umfassen. Als Beispiel (z. B. im Fall einer computersimulierten Realität) können das eine oder die mehreren Ausgabegeräte 200 ein haptisches (Ausgabe- )Gerät umfassen, wie z. B. eine Handsteuerung, einen Vibrator (z. B. in einem Head-Mounted Display), eine haptische Weste, einen haptischen Ganzkörperanzug, ein haptisches Mundgerät (z. B. für Lippen und/oder Zähne) usw.
Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie bestimmen, ob der Untertitel in Übereinstimmung mit den Untertiteldaten 112 dem Benutzer 300 präsentiert werden soll (oder nicht). Ein entsprechendes Verarbeitungsschema zum Bestimmen, ob Untertitel angezeigt werden sollen, ist in jeder von 2A bis 2C dargestellt.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie Benutzerprofildaten 116 des Benutzers 300 (oder entsprechende Benutzerprofildaten jedes Benutzers der zwei oder mehr Benutzer 300 (n = 1 bis N)) empfangen (siehe z. B. 2A). Die Benutzerprofildaten 116 des Benutzers 300 können die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache definieren. Die Benutzerprofildaten 116 des Benutzers 300 können auch eine Sprachfertigkeit des Benutzers 300 für eine dritte Sprache definieren, die sich von der ersten und der zweiten Sprache unterscheidet, für eine vierte Sprache, die sich von der ersten, der zweiten und der dritten Sprache unterscheidet, und so weiter. Somit können die Benutzerprofildaten 116 ein Benutzerprofil des Benutzers 300 darstellen, das eine entsprechende Sprachfertigkeit für jede Sprache einer Vielzahl von Sprachen enthält. Im Folgenden werden die Benutzerprofildaten 116 zur Veranschaulichung als einschließlich der Sprachkenntnisse des Benutzers 300 für die zweite Sprache beschrieben.
Eine „Sprache“, wie hier beschrieben, kann jede Sprache sein, unabhängig davon, ob sie gesprochen wird oder nicht. So kann eine Sprache neben allen gesprochenen Sprachen auch Latein und/oder Zeichensprache sein. Es versteht sich, dass die Gebärdensprache nicht nur zwischen Ländern, sondern auch zwischen Regionen innerhalb von Ländern variiert, so dass eine Sprache auch eine Gebärdensprache einer bestimmten Region sein kann.
Eine „Sprachfertigkeit“, wie sie hier beschrieben wird, kann mit jeder Art von geeigneter Einstufung verbunden sein. Beispielsweise kann eine Sprachfertigkeit mit natürlichen Zahlen von einer ersten Zahl bis zu einer zweiten Zahl, die höher als die erste Zahl ist (z. B. von 0 bis 3, von 0 bis 5, von 1 bis 10 usw.), oder mit Dezimalzahlen von einer ersten Zahl bis zu einer zweiten Zahl, die höher als die erste Zahl ist (z. B. von 0 bis 1 in Schritten von 0,1), eingestuft werden, oder sie kann in Klassen eingeteilt werden, wie z. B. keine Sprachfertigkeit, geringe Sprachfertigkeit, mittlere Sprachfertigkeit, hohe Sprachfertigkeit und Muttersprachlichkeit. Es versteht sich, dass dies nur Beispiele sind und dass die Sprachkenntnisse mit jeder geeigneten Einstufung verbunden sein können. Eine hier beschriebene Anforderung an die Sprachkenntnisse kann mit derselben Einstufung verbunden werden, die für die Sprachkenntnisse des Benutzers 300 verwendet wird. Eine Sprachfertigkeit, wie hier beschrieben, kann auch als Sprachfertigkeitsstufe bezeichnet werden.
Gemäß einigen Aspekten kann der Benutzer 300 die Sprachkenntnisse für die zweite Sprache bereitstellen. Beispielsweise kann das System 10 mindestens ein Eingabegerät zur Eingabe von Daten enthalten (z. B. eine Tastatur, einen Touchscreen, ein Mikrofon usw.), und der Benutzer 300 kann seine Sprachkenntnisse, ls, für die zweite Sprache über das mindestens eine Eingabegerät bereitstellen. Dabei kann es sich um ein manuell konfiguriertes Sprachkenntnisprofil handeln, das mit den Benutzerprofildaten 116 verknüpft ist. Der Benutzer 300 kann also seine Sprachkenntnisse auf der Grundlage seiner eigenen subjektiven Einschätzung eingeben. Als illustratives Beispiel kann ein Benutzer Deutsch als seine Muttersprache angeben, da er drei Jahre in den USA gelebt hat, seine Englischkenntnisse als sehr gut einstuft, und da er in der Schule Französischunterricht hatte, schätzt er sich selbst als mittelmäßig sprachbegabt ein.
Gemäß einigen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache bestimmen. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie das eine oder die mehreren Ausgabegeräte 200 (z. B. über das Anzeigegerät 206 und/oder das Audiogerät 208) steuern, um dem Benutzer 300 Anweisungen (z. B. visuell und/oder akustisch) zu geben, die den Benutzer 300 anweisen, in der zweiten Sprache zu sprechen. Beispielsweise können die Anweisungen den Benutzer 300 anweisen, einen in der zweiten Sprache gegebenen Text laut vorzulesen. In diesem Fall kann der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass er/sie die Sprachkenntnisse des Benutzers 300 anhand seiner/ihrer Lesegeschwindigkeit und/oder seiner/ihrer Aussprache bestimmt (z. B. durch Verwendung eines maschinellen Lernmodells, das so konfiguriert ist, dass es als Reaktion auf die Eingabe von gesprochenem Text eine Sprachkenntnis ausgibt. Dieses Modell kann anhand von Trainingsdaten von vielen Benutzern mit unterschiedlichen Fähigkeiten trainiert werden).
Als weiteres Beispiel können die Anweisungen den Benutzer 300 anweisen, ein Gespräch (z. B. einen Sprachdialog) in der zweiten Sprache (z. B. mit einem Bot) zu führen. Das System 10 kann ein Mikrofon (z. B. als Eingabegerät) enthalten, das so konfiguriert ist, dass es Sprachinformationen erfasst, indem es den Ton des sprechenden Benutzers 300 aufnimmt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachkenntnisse ls des Benutzers 300 für die zweite Sprache unter Verwendung der erfassten Sprachinformationen bestimmen. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie ein maschinelles Lernmodell implementieren, das so konfiguriert ist, dass es eine Sprachfertigkeit auf der Grundlage der während des Gesprächs erfassten Sprachdaten ausgibt.
Ein maschinelles Lernmodell kann beispielsweise ein Verstärkungslernmodell (z. B. unter Verwendung von Q-Learning, temporaler Differenz (TD), Deep Adversarial Networks usw.), ein Klassifizierungsmodell (z. B. ein linearer Klassifikator (z. B. logistische Regression oder Naive-Bayes-Klassifikator), eine Support-Vektor-Maschine, ein Entscheidungsbaum, ein Booster-Baum, ein Random Forest, ein neuronales Netzwerk oder ein Nearest-Neighbour-Modell) sein. Ein neuronales Netzwerk kann jede Art von neuronalem Netzwerk sein, wie z. B. ein neuronales Faltungsnetzwerk, ein Autoencodernetzwerk, ein Variations-Autoencodernetzwerk, ein Sparse-Autoencodernetzwerk, ein rekurrentes neuronales Netzwerk, ein dekonvolutionäres Netzwerk, ein generatives adversariales Netzwerk, ein vorausschauendes neuronales Netzwerk, ein neuronales Summenproduktnetzwerk und andere.
Gemäß verschiedenen Aspekten kann der Benutzer 300 seine Sprachkenntnisse, ls, für die zweite Sprache bereitstellen, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die bereitgestellten Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache anpassen (siehe z. B. 2C). Beispielsweise können der eine oder die mehreren Prozessoren 102 den Benutzer 300 anweisen, in der zweiten Sprache zu sprechen, und die vom Benutzer 300 bereitgestellte Sprachfertigkeit, ls, auf der Grundlage der erfassten Sprachinformationen anpassen.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die bereitgestellte Sprachfertigkeit, ls, des Benutzers 300 für die zweite Sprache auf der Grundlage von Sprachfertigkeiten ähnlicher Sprachen anpassen. Eine Sprache kann einer anderen Sprache dann ähnlich sein, wenn es in beiden Sprachen viele gemeinsame Wörter gibt. Zum Beispiel gibt es viele gemeinsame Wörter zwischen Deutsch und dem Österreichischen, so dass ein deutscher Muttersprachler eine hohe Sprachkompetenz für das Österreichische haben kann. Ein anderes Beispiel ist, dass es einige gemeinsame Wörter zwischen Deutsch und Niederländisch gibt, so dass ein deutscher Muttersprachler zumindest eine geringe Sprachkompetenz für Niederländisch haben kann. Gemäß verschiedenen Aspekten können die Benutzerprofildaten 116 ferner eine Sprachfertigkeit des Benutzers 300 für eine dritte Sprache definieren, die sich von der zweiten Sprache unterscheidet, ihr aber ähnlich ist, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfertigkeit, ls, des Benutzers 300 für die zweite Sprache auf der Grundlage der Sprachfertigkeit des Benutzers 300 für die dritte Sprache anpassen. Gemäß einigen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Sprachfertigkeit für die zweite Sprache auf der Grundlage der Sprachfertigkeit für die andere Sprache, die der zweiten Sprache ähnlich ist, bestimmen. Beispielsweise können die Benutzerprofildaten 116 keine Sprachfertigkeit für die zweite Sprache, sondern eine Sprachfertigkeit für die ähnliche andere Sprache enthalten, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfertigkeit, ls, des Benutzers 300 für die zweite Sprache unter Verwendung der Sprachfertigkeit für die ähnliche andere Sprache bestimmen.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die bereitgestellten Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache auf der Grundlage einer Reise-Historie des Benutzers 300 anpassen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Reisegeschichte des Benutzers 300 ermitteln. Beispielsweise können Daten, die in einem Speicher auf einem Benutzergerät (z. B. einem Smartphone, einem Tablet, einem Laptop usw.) und/oder in einer mit dem Benutzergerät verbundenen Cloud gespeichert sind, Standortinformationen enthalten. Beispielsweise können die Fotos GPS-Daten (Global Positioning System) enthalten. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie feststellen, ob die Standortinformationen einen Standort innerhalb eines Landes umfassen, in dem die zweite Sprache eine Amtssprache ist. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass die Standortinformationen einen Standort innerhalb eines Landes umfassen, in dem die zweite Sprache eine Amtssprache ist, die Sprachkenntnisse des Benutzers 300 für die zweite Sprache anpassen (z. B. erhöhen). Wenn der Benutzer 300 beispielsweise in den letzten drei Jahren zehnmal in Spanien war, ist es nur natürlich, dass er zumindest einige grundlegende Sprachkenntnisse erworben hat, weshalb der eine oder die mehreren Prozessoren 102 (z. B. auch ohne manuelle Angabe) feststellen können, dass der Benutzer 300 zumindest über geringe Sprachkenntnisse für Spanisch verfügt.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die bereitgestellten Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache auf der Grundlage eines Web-Browsing-Verlaufs eines Benutzergeräts (z. B. eines Smartphones, eines Tablets, eines Laptops, eines Head-Mounted-Displays usw.) anpassen, das mit dem Benutzer 300 verbunden ist. Beispielsweise sind der eine oder die mehreren Prozessoren 102 so konfiguriert, dass sie feststellen, ob eine oder mehrere Webseiten des Web-Browsing-Verlaufs in der zweiten Sprache sind, und, falls festgestellt wird, dass eine oder mehrere Webseiten des Web-Browsing-Verlaufs in der zweiten Sprache sind, die Sprachkenntnisse ls des Benutzers 300 für die zweite Sprache anpassen (z. B. erhöhen). Wenn der Benutzer 300 beispielsweise häufig französische Webseiten besucht (und kein automatisches Übersetzungstool verwendet), kann der eine oder die mehreren Prozessoren 102 feststellen, dass der Benutzer 300 zumindest einige grundlegende Sprachkenntnisse für Französisch besitzt.
Gemäß verschiedenen Aspekten kann eine Sprachkenntnisanforderung, r_ls, des anderssprachigen Inhalts 110 mit der Sprachkenntnis, ls , des Benutzers 300 für die zweite Sprache verglichen werden. Der Sprachkenntnisbedarf r_ls des fremdsprachlichen Inhalts 110 kann eine Sprachkenntnis darstellen, die erforderlich ist, um den fremdsprachlichen Inhalt 110 in die erste Sprache zu übersetzen. Beispielhaft kann die Sprachkenntnisanforderung r_ls für die zweite Sprache eine Erwartung an die Sprachkenntnis definieren, die der Benutzer 300 für die zweite Sprache haben muss, um den anderssprachigen Inhalt (korrekt) in die erste Sprache zu übersetzen. Daher kann die Anforderung an die Sprachkenntnisse, r_ls, eine Schätzung sein, wie schwer der fremdsprachige Inhalt 110 in der zweiten Sprache zu verstehen ist.
Gemäß einigen Aspekten (siehe z. B. 2A) kann der eine oder mehrere Prozessoren 102 so konfiguriert sein, dass er (in 118) die Sprachfähigkeitsanforderung r_ls des anderssprachigen Inhalts 110 bestimmt. Gemäß einigen Aspekten (siehe z. B. 2B und 2C) können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderen Sprachinhalts 110 (z. B. als Teil des Videos 104) empfangen. In diesem Fall können ein oder mehrere andere Prozessoren so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderen Sprachinhalts 110 bestimmen. Die Bestimmung kann beispielsweise auf einem Cloud-Server durchgeführt werden. Somit kann die Sprachkenntnisanforderung r_ls des anderen Sprachinhalts 110 vor der Bereitstellung des Videos 104 an das Gerät 100 bestimmt werden. Die Sprachkenntnisanforderung r_ls des anderen Sprachinhalts 110 kann benutzerunabhängig sein. Daher kann die Sprachkenntnisanforderung r_ls des anderen Sprachinhalts 110 einmal für den anderen Sprachinhalt 110 bestimmt und dann allen Geräten, die das Video 104 anfordern, zur Verfügung gestellt werden. Dies reduziert die Verarbeitungskosten erheblich. Im Folgenden werden verschiedene Aspekte der Ermittlung der Sprachkenntnisanforderung r_ls des anderen Sprachinhalts 110 beschrieben, die von dem einen oder mehreren Prozessoren 102 durchgeführt werden. Es versteht sich, dass dies analog zu dem Fall gilt, in dem die Sprachfähigkeitsanforderung r_ls des anderen Sprachinhalts 110 von einem oder mehreren anderen Prozessoren (z.B. auf einem Cloud-Server) ermittelt wird.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des fremdsprachlichen Inhalts 110 bestimmen, indem sie den fremdsprachlichen Inhalt 110 Wort für Wort auswerten. Der fremdsprachige Inhalt 110 kann ein oder mehrere Wörter in der zweiten Sprache enthalten. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine jeweilige Wortübersetzungsstufe für jedes Wort des einen oder der mehreren Wörter des fremdsprachlichen Inhalts 110 bestimmen. Diese jeweilige Wortübersetzungsstufe kann eine Sprachkompetenz darstellen, die erforderlich ist, um das Wort in die erste Sprache zu übersetzen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des fremdsprachlichen Inhalts 110 unter Verwendung der ermittelten Wortübersetzungsstufen bestimmen. Gemäß verschiedenen Aspekten kann das System 10 eine Speichervorrichtung umfassen. Die Speichervorrichtung kann so konfiguriert sein, dass sie Daten (z. B. eine Datenbank) speichert, die eine jeweilige Wortübersetzungsstufe einer Vielzahl von Wörtern (z. B. im Wesentlichen jedes Wort) in der zweiten Sprache für jede Sprache (z. B. für die erste Sprache) enthalten. So kann der Wortübersetzungsgrad, der einem Wort in der zweiten Sprache zugeordnet ist, von der ersten Sprache abhängen. Die Wortübersetzungsstufe, die einem bestimmten Wort in der zweiten Sprache zugeordnet ist, kann angeben, wie schwer das bestimmte Wort zu übersetzen ist. Beispielsweise kann die erste Sprache Deutsch und die zweite Sprache Englisch sein; Wörter wie „sie“ und/oder „Polizei“ können als leicht verständlich angesehen werden, während Wörter wie „Unterschlagung“ und/oder „verwerflich“ als schwer zu verstehen angesehen werden können. In einigen Fällen kann die Sprachkompetenzanforderung r_ls des anderen Sprachinhalts 110 durch eine Summe der Wortübersetzungsstufen angegeben werden. In anderen Fällen kann die Sprachkompetenzanforderung r_ls des anderen Sprachinhalts 110 durch einen Durchschnitt (z. B. den arithmetischen Durchschnitt oder den Median) der Wortübersetzungsstufen angegeben werden. In noch weiteren Aspekten kann die Sprachkenntnisanforderung r_ls des anderen Sprachinhalts 110 eine Einstufung in Sprachkenntnisklassen sein, z. B. keine Sprachkenntnis, geringe Sprachkenntnis, mittlere Sprachkenntnis, hohe Sprachkenntnis und muttersprachliche Sprachkenntnis. In diesem Fall kann der anderssprachige Inhalt 110 in Abhängigkeit von der Summe der Wortübersetzungsstufen oder dem Durchschnitt der Wortübersetzungsstufen in eine Sprachfertigkeitsklasse eingestuft werden (z. B. unter Verwendung eines oder mehrerer Schwellenwerte, die mit der Summe oder dem Durchschnitt verbunden sind). Als anschauliches Beispiel kann eine Wortübersetzungsstufe durch eine Zahl zwischen 1 und 10 angegeben werden (wobei 1 leicht zu verstehen und 10 schwer zu verstehen ist): In dem Fall, dass der anderssprachige Inhalt 110 besagt „They called the police“ („Sie haben die Polizei gerufen“), kann eine beispielhafte Summe der jeweiligen Wortübersetzungsstufen 1 + 2 + 1 + 2 sein (was im Durchschnitt 1,5 entspricht; ein durchschnittlicher Schwellenwert zwischen einer niedrigen Sprachkompetenz und einer mittleren Sprachkompetenz kann ein Durchschnitt von 2 sein, so dass der Durchschnitt 1,5 zu einer niedrigen Sprachkompetenz führen kann, die durch die Sprachkompetenzanforderung dargestellt wird). Ein weiteres anschauliches Beispiel: Der anderssprachige Inhalt 110 kann lauten „This exceeding trifling witling“ („Dieser äußert unbedeutende Witzbold“), eine beispielhafte Summe der jeweiligen Wortübersetzungsstufen kann 1 + 3 + 10 + 10 sein (was im Durchschnitt 6 ist; ein durchschnittlicher Schwellenwert zwischen einer mittleren Sprachkompetenz und einer hohen Sprachkompetenz kann im Durchschnitt 5 sein, so dass die durchschnittliche 6 zu einer hohen Sprachkompetenz führen kann, die durch die Sprachkompetenzanforderung dargestellt wird).
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die jeweilige Wortübersetzungsstufe von mindestens einem Wort (z. B. jedem Wort) des einen oder der mehreren Wörter des anderssprachigen Inhalts 110 unter Berücksichtigung einer Ähnlichkeit zwischen dem mindestens einen Wort in der zweiten Sprache und seiner Übersetzung in die erste Sprache anpassen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Anforderungen an die Sprachkenntnisse des fremdsprachlichen Inhalts 110 unter Verwendung der angepassten Wortübersetzungsstufe bestimmen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Übersetzung des mindestens einen Wortes des einen oder der mehreren Wörter in die erste Sprache anhand der Untertiteldaten bestimmen (da der Untertitel der Untertiteldaten die Übersetzung bereits enthält). Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie einen Ähnlichkeitswert bestimmen, der eine Ähnlichkeit zwischen dem mindestens einen Wort und seiner Übersetzung darstellt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie bestimmen, ob der Ähnlichkeitswert gleich oder größer als ein vordefinierter Ähnlichkeitsschwellenwert ist. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass der Ähnlichkeitswert gleich oder größer als der vordefinierte Ähnlichkeitsschwellenwert ist, die für das mindestens eine Wort ermittelte Wortübersetzungsstufe anpassen, um die für die Übersetzung des mindestens einen Wortes in die erste Sprache erforderliche Sprachkompetenz zu verringern. Als anschauliches Beispiel kann die erste Sprache Deutsch und die zweite Sprache Englisch sein, und der anderssprachige Inhalt 110 kann das Wort „police“ (dt: Polizei) enthalten; der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine hohe Ähnlichkeit zwischen dem englischen Wort „police“ und dem deutschen Wort „Polizei“ feststellen und daher die Wortübersetzungsstufe (d. h. die Sprachfertigkeit, die erforderlich ist, um das Wort „police“ ins Deutsche zu übersetzen) reduzieren. Gemäß verschiedenen Aspekten kann der eine oder mehrere Prozessoren 102 so konfiguriert sein, dass er den Ähnlichkeitswert unter Berücksichtigung eines oder mehrerer Synonyme der Übersetzung mindestens eines Wortes bestimmt. Als illustratives Beispiel kann die erste Sprache Deutsch und die zweite Sprache Englisch sein, und der anderssprachige Inhalt 110 kann das Wort „Doktoren“ und der Untertitel „Ärzte“ als deutsche Übersetzung enthalten; der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie das deutsche Wort „Doktoren“ als Synonym für „Ärzte“ bestimmen und dann eine hohe Ähnlichkeit zwischen dem englischen Wort „doctors“ und dem deutschen Wort „Doktoren“ feststellen und daher das Wortübersetzungsniveau reduzieren (d. h. die Sprachkenntnisse, die erforderlich sind, um das Wort „doctors“ ins Deutsche zu übersetzen).
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderssprachigen Inhalts 110 anhand einer satzweisen Auswertung anpassen. In diesem Fall kann der fremdsprachige Inhalt 110 mindestens einen Satz (z.B. mit einem oder mehreren Wörtern) enthalten. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie den fremdsprachlichen Inhalt 110 Wort für Wort auswerten und den ermittelten Durchschnittswert auf der Grundlage der Satz-für-Satz-Auswertung anpassen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine Zeitform des mindestens einen Satzes bestimmen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine Satzübersetzungsstufe des mindestens einen Satzes unter Verwendung der Wortübersetzungsstufen jedes Worts des mindestens einen Satzes und der ermittelten Zeitform des mindestens einen Satzes bestimmen. Die Satzübersetzungsstufe kann eine Sprachkompetenz darstellen, die erforderlich ist, um den mindestens einen Satz in die erste Sprache zu übersetzen. Als illustratives Beispiel kann die erste Sprache Deutsch und die zweite Sprache Englisch sein, und die Zeitform des mindestens einen Satzes kann eine harte Grammatik enthalten (z. B. das Futur Perfekt in der deutschen Grammatik und die indirekte Rede); der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den für die Wörter des Satzes ermittelten Durchschnittswert anpassen, um die für die Übersetzung des mindestens einen Satzes in die erste Sprache erforderliche Sprachkompetenz aufgrund der harten Grammatik zu erhöhen.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderssprachigen Inhalts 110 unter Verwendung einer Kontextbewertung anpassen. Der anderssprachige Inhalt 110 kann mit einer Szene des Videos 104 verbunden sein (z. B. dargestellt durch ein oder mehrere Bilder der Vielzahl von Bildern 106 und/oder Audioinformationen, die mit den Audiodaten 108 verbunden sind). Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie einen Kontext der Szene bestimmen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine Untertitelrelevanz unter Verwendung des anderssprachigen Inhalts und des Kontexts der Szene bestimmen. Die Untertitelrelevanz kann anzeigen, ob der Kontext der Szene die Sprachkenntnisse reduziert, die erforderlich sind, um den fremdsprachigen Inhalt 110 in die erste Sprache zu übersetzen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie in dem Fall, dass die Untertitel-Relevanz anzeigt, dass der Kontext der Szene die Sprachkenntnisse reduziert, die erforderlich sind, um den anderssprachigen Inhalt 110 in die erste Sprache zu übersetzen, die Sprachkenntnisanforderung r_ls des anderssprachigen Inhalts 110 anpassen, um die Sprachkenntnisse zu reduzieren, die erforderlich sind, um den anderssprachigen Inhalt 110 in die erste Sprache zu übersetzen. Gemäß einigen Aspekten können die mehreren Bilder 106 und/oder die Audiodaten 108 des Videos 104 mit einem Kontext einer jeweiligen Szene gekennzeichnet werden (z. B. von Menschenhand gekennzeichnet).
Gemäß anderen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie ein maschinelles Lernmodell implementieren, das so konfiguriert ist, dass es den Kontext der jeweiligen Szene als Reaktion auf die Eingabe eines Bildes aus der Vielzahl von Bildern 106 und/oder der Audiodaten 108 des Videos 104 in das maschinelle Lernmodell ausgibt. Beispielsweise kann das maschinelle Lernmodell ein Segmentierungsmodell sein, das so konfiguriert ist, dass es Objekte in jedem Bild der Vielzahl von Bildern 106 klassifiziert, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Kontext einer Szene unter Verwendung der klassifizierten Objekte eines zugehörigen Bildes bestimmen. In ähnlicher Weise kann ein maschinelles Lernmodell konfiguriert werden, um Audioobjekte in den Audiodaten 108 zu klassifizieren. Ein anschauliches Beispiel: Eine aktuelle Szene kann mit etwa 500 Bildern der Vielzahl von Bildern 106 verknüpft sein, und das maschinelle Lernmodell kann Objekte, die in diesen etwa 500 Bildern gezeigt werden, als mehrere Autos, blinkende blaue Lichter einiger Autos und ein anderes maschinelles Lernmodell kann Audioobjekte als Alarmsirenen klassifizieren; der eine oder die mehreren Prozessoren 102 können dann den Kontext einer Szene als eine Verfolgungsjagd bestimmen. Wenn in diesem Kontext (in dem Fall, dass die zweite Sprache Dänisch und die erste Sprache Englisch ist) die Buchstaben „POLITI“ auf der Tür eines Polizeifahrzeugs zu sehen sind, können der oder die Prozessoren 102 feststellen, dass der Kontext der Szene (eine Verfolgungsjagd mit Polizeifahrzeugen) die Sprachkenntnisse reduziert, die erforderlich sind, um das Wort „Politi“ in das englische Wort „Police“ zu übersetzen. Als weiteres illustratives Beispiel kann eine aktuelle Szene ein Smartphone zeigen, das ein Bild eines Briefumschlags neben dem geschriebenen Text „7 new messages“ (dt: 7 neue Nachrichten) als anderen Sprachinhalt 110 anzeigt; der eine oder die mehreren Prozessoren 102 können auf der Grundlage des Kontextes der Szene und unter Berücksichtigung des Bildes des Briefumschlags feststellen, dass der andere Sprachinhalt 110 aus dem Kontext heraus klar ist, wodurch die erforderliche Sprachkompetenz reduziert wird. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie aus dem Kontext der Szene ermitteln, ob eine Übersetzung des anderssprachigen Inhalts 110 überhaupt hilfreich ist. Zum Beispiel kann ein Gebäude, das für den Kontext der Szene nicht relevant ist (z. B. nur im Hintergrund), ein Schild mit der Aufschrift „Storage“ zeigen; der eine oder die mehreren Prozessoren 102 können feststellen, dass diese Übersetzung überhaupt nicht notwendig ist, und können daher die erforderliche Sprachkompetenz auf „keine Sprachkompetenz“ ändern (was dazu führt, dass der Untertitel nicht angezeigt wird).
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderen Sprachinhalts 110 unter Berücksichtigung der Zeichen der ersten Sprache und der zweiten Sprache anpassen. Wenn beispielsweise in der zweiten Sprache andere Zeichen als in der ersten Sprache verwendet werden, kann der eine oder die mehreren Prozessoren 102 so konfiguriert werden, dass die erforderliche Sprachkompetenz erhöht wird. Ein Beispiel: Die erste Sprache kann arabische Schriftzeichen verwenden, während die zweite Sprache chinesische (oder japanische oder russische) Schriftzeichen verwendet; der eine oder die mehreren Prozessoren 102 können feststellen, dass diese Schriftzeichen sehr unterschiedlich sind, und daher die Anforderungen an die Sprachkenntnisse, r_ls, des anderen Sprachinhalts 110 erhöhen.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderssprachigen Inhalts 110 anpassen, indem sie eine Lesbarkeit und/oder eine Hörbarkeit des anderssprachigen Inhalts 110 bewerten. Beispielsweise können ein oder mehrere Bilder der Vielzahl von Bildern 106 des Videos 104 geschriebenen Text als anderssprachigen Inhalt 110 enthalten und der Untertitel kann eine Übersetzung des geschriebenen Textes in die erste Sprache enthalten. In diesem Fall kann der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderssprachigen Inhalts 110 anpassen, indem sie die Lesbarkeit des geschriebenen Textes auswerten. Beispielsweise kann ein Teil der Audiodaten 108 gesprochenen Text als anderssprachiger Inhalt 110 darstellen und der Untertitel kann eine Übersetzung des gesprochenen Textes in die erste Sprache enthalten. In diesem Fall können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie die Sprachfähigkeitsanforderung r_ls des anderssprachigen Inhalts 110 anpassen, indem sie die Hörbarkeit des gesprochenen Textes bewerten.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Lesbarkeit des geschriebenen Textes bewerten, indem sie einen Lesbarkeitswert ermitteln, der eine Lesbarkeit des geschriebenen Textes darstellt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie feststellen, ob der Lesbarkeitswert gleich oder kleiner als ein vordefinierter Lesbarkeitsschwellenwert ist, und, falls festgestellt wird, dass der Lesbarkeitswert gleich oder kleiner als der vordefinierte Lesbarkeitsschwellenwert ist, die Sprachfähigkeitsanforderung des anderssprachigen Inhalts 110 anpassen, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen. Beispielsweise kann die erforderliche Sprachkompetenz erhöht werden, wenn der geschriebene Text schwer zu lesen ist. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Lesbarkeitswert anhand der Schriftgröße des geschriebenen Textes ermitteln und den Lesbarkeitswert mit zunehmender Schriftgröße erhöhen (d. h., je größer der Text, desto leichter zu lesen). Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine Größe des Anzeigegeräts 206 bestimmen und den Lesbarkeitswert anhand der Schriftgröße des geschriebenen Texts und der ermittelten Größe des Anzeigegeräts 206 bestimmen (je mehr Platz der geschriebene Text auf dem Anzeigegerät 206 einnimmt, desto leichter ist der geschriebene Text also zu lesen). Daher kann ein geschriebener Text (mit einer vordefinierten Schriftgröße) auf einem Fernsehgerät leichter zu lesen sein als auf einem Smartphone. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie berücksichtigen, ob der Benutzer 300 sehbehindert ist. Beispielsweise kann die eine oder die mehreren Erfassungsvorrichtungen 400 die Kamera enthalten, um ein Bild des Benutzers 300 aufzunehmen, und der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie anhand des Bildes bestimmen, ob der Benutzer 300 sehbehindert ist (z. B. indem sie bestimmen, ob der Benutzer 300 eine Brille trägt). Gemäß einigen Aspekten können die Benutzerprofildaten Informationen enthalten, die angeben, ob der Benutzer 300 sehbehindert ist oder nicht. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Lesbarkeitswert anhand eines Schriftstils des geschriebenen Textes bestimmen. Wenn der Schriftstil beispielsweise kursiv ist, können der eine oder die mehreren Prozessoren 102 den Lesbarkeitswert verringern. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie feststellen, ob der geschriebene Text handgeschrieben ist, und dass sie den Lesbarkeitswert verringern, wenn festgestellt wird, dass der geschriebene Text handgeschrieben ist. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Lesbarkeitswert mittels optischer Zeichenerkennung (OCR) bestimmen. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie OCR auf den geschriebenen Text anwenden, um einen optischen Zeichenerkennungswert und einen optischen Zeichenerkennungswert (z. B. einen Konfidenzwert im Falle eines OCR-Maschinenlernmodells) zu bestimmen, der die Schwierigkeit der Erkennung des optischen Zeichenerkennungswertes darstellt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie den Lesbarkeitswert so bestimmen, dass der Lesbarkeitswert mit zunehmender Schwierigkeit der Erkennung des erkannten Textes mit optischen Zeichen abnimmt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie einen Zeitraum berücksichtigen, in dem der geschriebene Text angezeigt wird, wenn dem Benutzer 300 der anderssprachige Inhalt 110 präsentiert wird. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie einen Anzeigezeitraum (der den Zeitraum darstellt, für den der geschriebene Text angezeigt wird, wenn dem Benutzer 300 der anderssprachige Inhalt 110 präsentiert wird) unter Verwendung einer Bildnummer der Bilder, die den geschriebenen Text zeigen, und einer Bildrate (z. B. in Bildern pro Sekunde) des Videos 104 bestimmen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie eine zum Lesen des geschriebenen Textes erforderliche Lesezeitdauer bestimmen und den Lesbarkeitswert in Abhängigkeit von einem Verhältnis und/oder einer Differenz zwischen der bestimmten Anzeigezeitdauer und der bestimmten Lesezeitdauer bestimmen. Als illustratives Beispiel kann ein geschriebener Text, der 3 Sekunden lang angezeigt wird, schwieriger zu lesen sein als der gleiche geschriebene Text, der 10 Sekunden lang angezeigt wird.
Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Hörbarkeit des gesprochenen Textes bewerten, indem sie einen Hörbarkeitswert bestimmen, der eine Hörbarkeit des gesprochenen Textes darstellt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie feststellen, ob der Hörbarkeitswert gleich oder kleiner als ein vordefinierter Hörbarkeitsschwellenwert ist, und, falls festgestellt wird, dass der Hörbarkeitswert gleich oder kleiner als der vordefinierte Hörbarkeitsschwellenwert ist, die Sprachfähigkeitsanforderung des anderssprachigen Inhalts 110 anpassen, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt 110 in die erste Sprache zu übersetzen. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie feststellen, ob der gesprochene Text mit Akzent und/oder Dialekt gesprochen wird, und den Hörbarkeitswert so bestimmen, dass der Hörbarkeitswert verringert wird, wenn festgestellt wird, dass der gesprochene Text mit Akzent und/oder Dialekt gesprochen wird. Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie ein maschinelles Lernmodell implementieren, das so konfiguriert ist, dass es einen Hörbarkeitswert als Reaktion auf die Eingabe des mit dem gesprochenen Text verbundenen Teils der Audiodaten 108 in das maschinelle Lernmodell ausgibt. Der eine oder die mehreren Prozessoren 102 können beispielsweise so konfiguriert sein, dass sie eine Sprechgeschwindigkeit des gesprochenen Textes bestimmen und den Hörbarkeitswert so ermitteln, dass der Hörbarkeitswert mit zunehmender Sprechgeschwindigkeit abnimmt. Je schneller jemand spricht, desto schwieriger kann der gesprochene Text zu verstehen sein. Beispielsweise kann der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie unter Verwendung der Audiodaten 108 ein Verhältnis und/oder eine Differenz zwischen einer Lautstärke des gesprochenen Textes und einer durchschnittlichen Lautstärke des Videos 104 bestimmen und den Hörbarkeitswert auf der Grundlage des Verhältnisses und/oder der Differenz zwischen der Lautstärke des gesprochenen Textes und der durchschnittlichen Lautstärke des Videos 104 bestimmen. Wenn also Worte geflüstert werden, können sie schwieriger zu verstehen sein als wenn sie laut gesprochen werden.
Gemäß verschiedenen Aspekten kann der eine oder mehrere Prozessoren 102 so konfiguriert sein, dass er (in 120) feststellt, ob die Sprachkenntnisse, ls, (oder die angepassten Sprachkenntnisse, wie in 2C gezeigt) des Benutzers 300 für die zweite Sprache die ermittelte Sprachkenntnisanforderung, r_ls, erfüllen (z. B. erfüllen). Daher kann die Sprachfähigkeitsanforderung r_ls eine Sprachfähigkeit darstellen, die erforderlich ist, um den anderssprachigen Inhalt 110 in die erste Sprache zu übersetzen, und der eine oder die mehreren Prozessoren 102 können bestimmen, ob der Benutzer 300 diese erforderliche Sprachfähigkeit für die zweite Sprache besitzt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache die ermittelte Sprachkenntnisanforderung, r_ls, erfüllen („Ja“ in 120), bestimmen, dass der Untertitel nicht angezeigt wird, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache nicht die ermittelte Sprachkenntnisanforderung, r_ls, erfüllen („Nein“ in 120), bestimmen, dass der Untertitel nicht angezeigt wird, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird. Daher kann in dem Fall, in dem festgestellt wird, dass der Benutzer 300 den anderssprachigen Inhalt 110 in die erste Sprache übersetzen kann, der Untertitel nicht angezeigt werden, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird, und in dem Fall, in dem festgestellt wird, dass der Benutzer 300 den anderssprachigen Inhalt 110 nicht in die erste Sprache übersetzen kann, kann der Untertitel angezeigt werden, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird. Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie Steueranweisungen 126 an das eine oder die mehreren Ausgabegeräte 206 liefern. Die Steueranweisungen 126 können Anweisungen enthalten, ob der Untertitel angezeigt werden soll (z. B. um den Untertitel auf dem Anzeigegerät 206 anzuzeigen) oder ob der Untertitel nicht angezeigt werden soll, wenn der anderssprachige Inhalt 110 des Videos 104 dem Benutzer 300 präsentiert wird.
Wie hierin beschrieben, kann die Sprachfähigkeitsanforderung r_ls (z. B. einschließlich der Anpassung basierend auf dem Kontext, der Hörbarkeit und/oder Lesbarkeit usw.) vor der Präsentation des Videos 104 für den Benutzer 300 (z. B. über eine Offline-Vorverarbeitung) bestimmt werden. Auch die Sprachkenntnisse (ls) des Benutzers 300 können vor der Präsentation des Videos 104 für den Benutzer 300 bestimmt werden (z. B. durch eine Offline-Vorverarbeitung). Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie während der Präsentation des Videos 104 für den Benutzer 300 (z. B. in Echtzeit, wenn der Benutzer 300 das Video 104 anschaut (z. B. in Reaktion auf das Erkennen des Benutzers 300 aus der Vielzahl der Benutzer)) feststellen, ob die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache die ermittelte Sprachkenntnisanforderung, r_ls, erfüllen.
Auch wenn hier verschiedene Prozesse beschrieben werden, die von dem einen oder mehreren Prozessoren 102 ausgeführt werden, können einige der Prozesse von einem oder mehreren anderen Prozessoren ausgeführt werden (z. B. von einem anderen, vom System 10 getrennten Gerät). Beispielsweise kann die Bestimmung der Sprachfähigkeitsanforderung r_ls (hierin unter Bezugnahme auf die Bestimmung 118 beschrieben) auf einem Cloud-Server durchgeführt werden (z. B. vor der Bereitstellung des Videos 104 an das Gerät 100). Zur Veranschaulichung werden die Prozesse hier jedoch so beschrieben, als würden sie von dem einen oder den mehreren Prozessoren 102 des Geräts 100 ausgeführt.
Bei dem System 10 kann es sich um ein beliebiges System handeln, das in der Lage ist, einem oder mehreren Benutzern Medien zur Verfügung zu stellen, die anderssprachige Inhalte enthalten.
Das System 10 kann ein Benutzergerät sein, das so konfiguriert ist, dass es einem oder mehreren Benutzern zweidimensionale Medien (z. B. klassische) zur Verfügung stellt. Das System 10 kann beispielsweise ein Smartphone, ein Tablet, ein Laptop, ein Personal Computer usw. sein. Als illustratives Beispiel kann das System 10 ein Smartphone sein, das den einen oder mehrere Prozessoren 102, ein Display als Anzeige-(Ausgabe- )Vorrichtung 206, einen oder mehrere Lautsprecher als Audio-(Ausgabe-)Vorrichtung 208 und/oder eine Kamera (und/oder ein Mikrofon) als Erfassungsvorrichtung der einen oder mehreren Erfassungsvorrichtungen 400 zum Erfassen des Benutzers (oder der Benutzer), der/die das Smartphone benutzt/benutzen, umfasst.
Wie hierin beschrieben, kann das System 10 ein immersives Technologiesystem sein, das so konfiguriert ist, dass es einem oder mehreren Benutzern immersive Medien zur Verfügung stellt. In diesem Fall kann das System 10 ein dreidimensionales (3D) Fernsehgerät, ein am Kopf getragenes Display (z. B. ein Virtual-Reality-Headset) oder ein Augmented-Reality-Gerät sein (das so konfiguriert ist, dass es eine immersive Umgebung bereitstellt, die in der physischen Welt stattfindet, wobei optional Informationen (z. B. Objekte) virtuell hinzugefügt werden).
In einem ersten Beispiel ist das System 10 ein am Kopf getragenes Display. Die kopfgetragene Anzeige kann den einen oder mehrere Prozessoren 102, ein Display als Anzeige- (Ausgabe-) Vorrichtung 206 und/oder einen Kopfhörer als Audio- (Ausgabe-) Vorrichtung 208 enthalten. Das kopfgetragene Display kann eine Kamera (z. B. eine Gesichtskamera), ein Mikrofon, ein Brain-Computer-Interface, einen Eye-Tracking-Sensor usw. als jeweilige Erkennungsvorrichtung der einen oder mehreren Erkennungsvorrichtungen 400 zur Erkennung des (einzelnen) Benutzers, der das kopfgetragene Display verwendet, umfassen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache nicht die ermittelte Sprachkenntnisanforderung, r_ls, erfüllen, die Anzeigevorrichtung 206 des kopfgetragenen Displays so steuern, dass der Untertitel angezeigt wird, wenn dem Benutzer 300, der das kopfgetragene Display trägt, der anderssprachige Inhalt 110 präsentiert wird. Gemäß verschiedenen Aspekten können eine oder mehrere Komponenten des kopfgetragenen Displays verwendet werden, um das/die in 2A bis 2C dargestellte(n) Verarbeitungsschema(s) zu erweitern, wie im Folgenden beschrieben:

Gemäß verschiedenen Aspekten kann die Sprachkompetenz, ls, des Nutzers 300 online (d.h. während der Präsentation des Videos 104 an den Nutzer 300) angepasst (z.B. aktualisiert) werden. Zum Beispiel kann das Brain-Computer-Interface so konfiguriert sein, dass es während der Anzeige des Untertitels ein Gehirnmuster des Benutzers 300 erkennt. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie ermitteln, ob das ermittelte Gehirnmuster mit positiven oder negativen Gefühlen verbunden ist, und, falls ermittelt wird, dass das ermittelte Gehirnmuster mit negativen Gefühlen verbunden ist, die Sprachfähigkeit ls des Benutzers 300 für die zweite Sprache anpassen, indem sie seine Sprachfähigkeit ls erhöhen. So kann beispielsweise festgestellt werden, ob der Benutzer 300 den Untertitel nicht sehen möchte, und wenn festgestellt wird, dass der Benutzer 300 den Untertitel nicht sehen möchte, kann davon ausgegangen werden, dass der Benutzer 300 eine Sprachkompetenz für die zweite Sprache hat, die höher ist als die festgestellte Sprachkompetenzanforderung. Optional kann das Mikrofon aufzeichnen, dass sich der Benutzer 300 lautstark beschwert, wenn der Untertitel angezeigt wird, und auf dieser Grundlage kann festgestellt werden, dass der Benutzer 300 den Untertitel nicht sehen möchte.

Zusätzlich oder alternativ kann der Augenverfolgungssensor (englisch: eye tracking sensor) so konfiguriert sein, dass er die Augenverfolgungsdaten (z. B. die Blickrichtung eines ersten Auges und/oder eines zweiten Auges des Benutzers, der das Head-Mounted Display trägt) während der Anzeige des Untertitels erfasst. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie anhand der erfassten Augenverfolgungsdaten bestimmen, ob der Benutzer 300 bei der Darstellung des anderssprachigen Inhalts 110 auf den Untertitel schaut oder nicht. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass der Benutzer 300 nicht auf den Untertitel schaut, die Sprachkenntnisse des Benutzers 300 für die zweite Sprache erhöhen. So kann in dem Fall, dass der Benutzer 300 den Untertitel nicht ansieht, davon ausgegangen werden, dass der Benutzer 300 in der Lage ist, den anderssprachigen Inhalt 110 selbst zu übersetzen.
Gemäß verschiedenen Aspekten können der eine oder die mehreren Prozessoren 102 konfiguriert sein, um benutzerspezifisch und situationsabhängig zu bestimmen, wo der Untertitel angezeigt werden soll. Beispielsweise können der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass sie anhand der erfassten Eye-Tracking-Daten eine Fokustiefe des ersten Auges und/oder des zweiten Auges des Benutzers 300 bestimmen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie die Anzeigevorrichtung 206 so steuern, dass der Untertitel in einer Bildtiefe angezeigt wird, die der ermittelten Fokustiefe entspricht, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird. Beispielsweise kann eine Tiefe innerhalb des 3D-Raums bestimmt werden, in die der Benutzer 300 gerade blickt, und der Untertitel kann dann (falls bestimmt wird, den Untertitel anzuzeigen) in dieser Tiefe angezeigt werden. Dies kann die Auswirkungen einer immersiven Unterbrechung als Reaktion auf die Anzeige des Untertitels verringern. So können die Steueranweisungen 126 Informationen darüber enthalten, wie der Untertitel angezeigt werden soll, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird.
Gemäß verschiedenen Aspekten kann bei der Entscheidung, ob der Untertitel angezeigt werden soll oder nicht, die Rendering-Leistung des einen oder der mehreren Prozessoren 102 berücksichtigt werden. Der eine oder die mehreren Prozessoren 102 können mit einem (z. B. vordefinierten) Schwellenwert für die Rendering-Leistung verbunden sein, der eine maximale Rendering-Leistung für das Rendern immersiver Bilder darstellt. Der Schwellenwert für die Rendering-Leistung kann also eine maximale Leistung für das Rendering des Videos 104 sein, über das der eine oder die mehreren Prozessoren 102 verfügen. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie einen Rendering-Leistungswert bestimmen, der eine Rendering-Leistung darstellt, die erforderlich ist, um die Vielzahl von Bildern 106 des (immersiven) Videos 104 und den Untertitel innerhalb eines oder mehrerer Bilder der Vielzahl von Bildern 106 zu rendern. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie feststellen, ob der ermittelte Rendering-Leistungswert größer als der Rendering-Leistungsschwellenwert ist. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass der ermittelte Rendering-Leistungswert größer als der Rendering-Leistungsschwellenwert ist, bestimmen, dass der Untertitel nicht angezeigt wird, wenn der anderssprachige Inhalt 110 des (immersiven) Videos 104 dem Benutzer 300 präsentiert wird. Daher kann der Untertitel in dem Fall, dass das Rendern des Untertitels in das (immersive) Video 104 eine Leistung erfordert, die höher ist als der Schwellenwert für die Renderleistung, nicht angezeigt werden (z. B. unabhängig davon, ob die Sprachkenntnisse, ls, des Benutzers 300 für die zweite Sprache die ermittelte Sprachkenntnisanforderung, r_ls, erfüllen oder nicht).
In einem zweiten Beispiel ist das System 10 ein Augmented-Reality-Gerät, z. B. eine Augmented-Reality-Brille oder ein Head-Mounted-Display mit Video-See-Through (auch als optisches See-Through bezeichnet). Im Fall von Video-See-Through kann das am Kopf getragene Display eine oder mehrere Kameras enthalten, die so konfiguriert sind, dass sie eine Umgebung vor dem Benutzer erfassen, und das Display des am Kopf getragenen Displays kann das Video von mindestens einer (z. B. jeder) der einen oder mehreren Kameras oder eine Rekonstruktion der erfassten Umgebung (z. B. eine Szene der Umgebung) auf der Grundlage von Kameradaten (wie sie von mindestens einer (z. B. jeder) der einen oder mehreren Kameras erfasst wurden) mit zusätzlich hinzugefügten Virtual-Reality-Objekten zeigen.
dieses Video mit zusätzlich hinzugefügten Virtual-Reality-Objekten. Der eine oder die mehreren Prozessoren 102 können so konfiguriert sein, dass sie für den Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache nicht die ermittelte Sprachkenntnisanforderung erfüllen, eine Position bestimmen, an der der Untertitel angezeigt werden soll, wenn dem Benutzer 300 der anderssprachige Inhalt 110 präsentiert wird, so dass ein Kontrast (z. B. durch Farbe und/oder Helligkeit) zwischen der erweiterten Realität und dem Untertitel erhöht wird. Beispielsweise können die Farben und/oder die Helligkeit der Umgebung vor dem Benutzer 300 variieren. Dies kann dazu führen, dass der Untertitel kaum angezeigt wird, wenn der Untertitel in hellen Bereichen der Umgebung vor dem Benutzer 300 angezeigt wird und/oder wenn ein Bereich in der Umgebung vor dem Benutzer 300, in dem der Untertitel angezeigt wird, eine Farbe hat, die der Farbe des Untertitels ähnlich ist. Daher kann der eine oder die mehreren Prozessoren 102 so konfiguriert sein, dass er/sie eine Position bestimmt/bestimmen, an der der Untertitel angezeigt werden soll, um den Kontrast zu erhöhen (z.B. um einen Unterschied zwischen einem Farbwert, der mit der Farbe des Untertitels assoziiert ist, und einem Farbwert, der mit der Farbe der Position assoziiert ist, zu erhöhen und/oder um einen Unterschied in der Helligkeit zu erhöhen). In einem Beispiel kann die Anzeigevorrichtung 206 der Augmented-Reality-Vorrichtung Steueranweisungen erhalten, um ein Video (z. B. Video 104) auf einem virtuellen zweidimensionalen Bildschirm innerhalb der AR-Umgebung zu zeigen; in diesem Fall können der eine oder die mehreren Prozessoren 102 bestimmen, dass der Untertitel außerhalb (z. B. unter oder über) des virtuellen zweidimensionalen Bildschirms gezeigt wird (z. B. aufgrund eines geringen Kontrasts innerhalb einer aktuellen Szene, die auf dem virtuellen zweidimensionalen Bildschirm gezeigt wird). Somit können die Steueranweisungen 126 Informationen darüber enthalten, wie der Untertitel angezeigt werden soll, wenn dem Benutzer 300 der anderssprachige Inhalt 110 des Videos 104 präsentiert wird.
3 zeigt ein Flussdiagramm eines Verfahrens 300 zur selektiven Darstellung von Untertiteln gemäß verschiedener Aspekte.
Das Verfahren 300 kann den Empfang eines Videos und entsprechender Untertiteldaten (in 302) umfassen. Das Video kann eine Vielzahl von Bildern und entsprechende Audiodaten enthalten. Die Audiodaten können eine erste (z. B. primäre) Sprache des Videos darstellen, und das Video kann andere Sprachinhalte enthalten, die mit einer zweiten (z. B. sekundären) Sprache verbunden sind, die sich von der ersten Sprache unterscheidet. Die Untertiteldaten können einen Untertitel darstellen, der eine Übersetzung des anderssprachigen Inhalts in die erste Sprache enthält. Das Video kann in Übereinstimmung mit dem hier beschriebenen Video 104 konfiguriert sein.
Das Verfahren 300 kann das Bestimmen einer Sprachfähigkeitsanforderung für den anderssprachigen Inhalt (in 304) beinhalten. Die Sprachfähigkeitsanforderung kann eine Sprachfähigkeit darstellen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen. Die Bestimmung der erforderlichen Sprachkenntnisse kann wie in den 2A bis 2C beschrieben durchgeführt werden. Beispielsweise kann die erforderliche Sprachkompetenz für den anderssprachigen Inhalt vor der Präsentation des Videos für den Benutzer bestimmt werden.
Das Verfahren 300 kann beinhalten, dass festgestellt wird, ob die Sprachkenntnisse eines Benutzers für die zweite Sprache die ermittelten Anforderungen an die Sprachkenntnisse erfüllen (in 306). Der Benutzer kann wie hierin beschrieben erkannt werden (z. B. mit Bezug auf eine der 1A bis 2C). Die Bestimmung der Sprachkenntnisse kann wie unter Bezugnahme auf 2A bis 2C beschrieben durchgeführt werden. Das Verfahren 300 kann beinhalten, dass dem Benutzer das Video vorgeführt wird. Die Bestimmung, ob die Sprachkenntnisse des Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung erfüllen, kann während der Präsentation des Videos an den Benutzer bestimmt werden.
Das Verfahren 300 kann für den Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung erfüllen, die Entscheidung beinhalten, den Untertitel nicht anzuzeigen, wenn dem Benutzer der anderssprachige Inhalt des Videos präsentiert wird (in 308).
Das Verfahren 300 kann für den Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung nicht erfüllen, die Bestimmung beinhalten, den Untertitel anzuzeigen, wenn dem Benutzer der anderssprachige Inhalt des Videos präsentiert wird.
Hierin werden verschiedene Aspekte beschrieben, die es ermöglichen, die Anzahl der angezeigten Untertitel zu verringern, was zu einer höheren Immersion in die konsumierten Medien führen kann. Dies kann durch die Bestimmung, ob ein Untertitel als relevant oder irrelevant angesehen wird, gewährleistet werden. Das hier beschriebene Prinzip der selektiven Darstellung von Untertiteln kann die immersive Erfahrung für alle Arten von Medien, die anderssprachige Inhalte enthalten, erhöhen und kann jede Art von Untertitel berücksichtigen (z. B. kann es besonders nützlich sein, die Anzahl der bei der Darstellung der Medien angezeigten Zwangsuntertitel zu verringern, da Zwangsuntertitel automatisch mit Hilfe von maschinellem Lernen (ohne menschliche Überwachung) generiert werden können, so dass offensichtlich unnötige Untertitel auch ohne die selektive Darstellung von Untertiteln angezeigt werden können). Es versteht sich von selbst, dass die generelle Deaktivierung von Untertiteln keine Option sein kann, da einige Untertitel für den Benutzer wichtig sein können, um zu verstehen, was geschieht.
Im Folgenden werden verschiedene Aspekte dieser Offenbarung illustriert. Es wird darauf hingewiesen, dass Aspekte, die in Bezug auf die Vorrichtung, das Head-Mounted-Display und/oder die Augmented-Reality-Vorrichtung beschrieben werden, entsprechend in dem Verfahren implementiert werden können und umgekehrt.
Beispiel 1 ist eine Vorrichtung zur selektiven Darstellung von Untertiteln, wobei die Vorrichtung umfasst: einen oder mehrere Prozessoren, die konfiguriert sind, um: ein (z.B. immersives) Video und entsprechende Untertiteldaten zu empfangen, wobei das Video eine Vielzahl von (z.B. immersiven) Bildern und entsprechende Audiodaten umfasst, wobei das Video eine Vielzahl von (z.B. immersiven) Bildern und entsprechende Audiodaten enthält, wobei die Audiodaten eine erste (primäre) Sprache des Videos darstellen, und wobei das Video einen anderssprachigen Inhalt enthält, der mit einer zweiten (sekundären) Sprache verbunden ist, die sich von der ersten Sprache unterscheidet, wobei die Untertiteldaten einen Untertitel darstellen, der eine Übersetzung des anderssprachigen Inhalts in die erste Sprache enthält; Bestimmen einer Sprachfertigkeitsanforderung des anderssprachigen Inhalts, wobei die Sprachfertigkeitsanforderung eine Sprachfertigkeit darstellt, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen; Bestimmen, ob eine Sprachfertigkeit eines Benutzers für die zweite Sprache die bestimmte Sprachfertigkeitsanforderung erfüllt, und für den Fall, dass bestimmt wird, dass die Sprachfertigkeit des Benutzers für die zweite Sprache die bestimmte Sprachfertigkeitsanforderung erfüllt, Bestimmen, den Untertitel nicht zu zeigen, wenn dem Benutzer der anderssprachige Inhalt des Videos präsentiert wird.
In Beispiel 2 kann der Gegenstand von Beispiel 1 optional beinhalten, dass der eine oder die mehreren Prozessoren weiter konfiguriert sind, um in dem Fall, in dem festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung nicht erfüllen, zu bestimmen, dass der Untertitel innerhalb des Videos angezeigt wird, wenn dem Benutzer der anderssprachige Inhalt des Videos präsentiert wird.
In Beispiel 3 kann der Gegenstand von Beispiel 2 optional umfassen, dass die Vorrichtung ferner eine Anzeigevorrichtung umfasst, die konfiguriert ist, um die Mehrzahl von Bildern des Videos und den Untertitel in Übereinstimmung mit den Untertiteldaten anzuzeigen; wobei der eine oder die mehreren Prozessoren konfiguriert sind, um: in dem Fall, dass bestimmt wird, den Untertitel anzuzeigen, die Anzeigevorrichtung zu steuern, um den Untertitel anzuzeigen, wenn der anderssprachige Inhalt präsentiert wird (z.B., über die Anzeigevorrichtung und/oder die Audiovorrichtung) des Videos dem Benutzer präsentiert wird; und für den Fall, dass bestimmt wird, den Untertitel nicht zu zeigen, die Anzeigevorrichtung so zu steuern, dass der Untertitel nicht angezeigt wird, wenn der anderssprachige Inhalt (z.B. über die Anzeigevorrichtung und/oder die Audiovorrichtung) des Videos dem Benutzer präsentiert wird.
In Beispiel 4 kann der Gegenstand von Beispiel 3 optional beinhalten, dass die Anzeigevorrichtung so konfiguriert ist, dass die mehreren Bilder des Videos und der Untertitel zwei oder mehr Benutzern präsentiert werden können (z.B., das Gerät kann z.B. ein Smartphone, ein Tablet, ein Laptop, usw. sein); wobei die Vorrichtung eine Kamera enthält, die so konfiguriert ist, dass sie ein Betrachterbild erkennt, das einen oder mehrere Benutzer zeigt, die die Anzeigevorrichtung betrachten; wobei der eine oder die mehreren Prozessoren so konfiguriert sind, dass sie: zu bestimmen, ob das Betrachtungsbild zwei oder mehr Benutzer zeigt, die die Anzeigevorrichtung betrachten, für den Fall, dass bestimmt wird, dass das Betrachtungsbild zwei oder mehr Benutzer zeigt, die die Anzeigevorrichtung betrachten, für jeden Benutzer der zwei oder mehr Benutzer zu bestimmen, ob eine Sprachfertigkeit eines jeweiligen Benutzers für die zweite Sprache die bestimmte Sprachfertigkeitsanforderung erfüllt, und für den Fall, dass bestimmt wird, dass die jeweilige Sprachfertigkeit jedes Benutzers der zwei oder mehr Benutzer die bestimmte Sprachfertigkeitsanforderung erfüllt, zu bestimmen, den Untertitel nicht zu zeigen, wenn der anderssprachige Inhalt des Videos präsentiert wird.
In Beispiel 5 kann der Gegenstand von einem der Beispiele 1 bis 4 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: Benutzerprofildaten des Benutzers zu empfangen, wobei die Benutzerprofildaten die Sprachkenntnisse des Benutzers für die zweite Sprache definieren.
In Beispiel 6 kann der Gegenstand von Beispiel 5 optional beinhalten, dass die Benutzerprofildaten von dem Benutzer (z.B. über ein Eingabegerät) bereitgestellt werden.
In Beispiel 7 kann die Vorrichtung aus einem der Beispiele 1 bis 4 optional ferner umfassen: eine Ausgabevorrichtung, die so konfiguriert ist, dass sie dem Benutzer Anweisungen (z.B. visuell und/oder akustisch) bereitstellt, die den Benutzer anweisen, in der zweiten Sprache zu sprechen (z.B., einen in der zweiten Sprache gegebenen Text vorzulesen und/oder ein Gespräch in der zweiten Sprache zu führen); und ein Mikrofon, das so konfiguriert ist, dass es Sprachinformationen durch Erfassen von Audiosignalen des sprechenden Benutzers erfasst; wobei der eine oder die mehreren Prozessoren so konfiguriert sind, dass sie die Sprachkenntnisse des Benutzers für die zweite Sprache unter Verwendung der erfassten Sprachinformationen (z. B. unter Verwendung eines maschinellen Lernmodells) bestimmen.
In Beispiel 8 kann der Gegenstand eines der Beispiele 5 bis 7 optional beinhalten, dass die Benutzerprofildaten ferner eine Sprachfertigkeit des Benutzers für eine dritte Sprache definieren, die sich von der zweiten Sprache unterscheidet, ihr aber ähnlich ist; wobei der eine oder die mehreren Prozessoren so konfiguriert sind, dass sie die Sprachfertigkeit des Benutzers für die zweite Sprache basierend auf der Sprachfertigkeit des Benutzers für die dritte Sprache anpassen.
In Beispiel 9 kann der Gegenstand von einem der Beispiele 1 bis 8 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: Standortinformationen eines Geräts (z.B. Global Positioning System, GPS, Daten eines Benutzergeräts (z.B. ein Smartphone, ein Tablet, ein Laptop usw.)), die dem Benutzer zugeordnet sind, zu empfangen; festzustellen, ob die Standortinformationen einen Standort innerhalb eines Landes umfassen, in dem die zweite Sprache eine Amtssprache ist; und für den Fall, dass festgestellt wird, dass die Standortinformationen einen Standort innerhalb eines Landes umfassen, in dem die zweite Sprache eine Amtssprache ist, die Sprachkenntnisse des Benutzers für die zweite Sprache zu erhöhen.
In Beispiel 10 kann der Gegenstand eines der Beispiele 1 bis 9 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: eine Web-Browsing-Historie eines Geräts (z.B. ein Smartphone, ein Tablet, ein Laptop, ein Head-Mounted-Display usw.) zu empfangen, das dem Benutzer zugeordnet ist; zu bestimmen, ob eine oder mehrere Webseiten der Web-Browsing-Historie in der zweiten Sprache sind; und in dem Fall, dass bestimmt wird, dass eine oder mehrere Webseiten der Web-Browsing-Historie in der zweiten Sprache sind, die Sprachkenntnisse des Benutzers für die zweite Sprache zu erhöhen.
In Beispiel 11 kann der Gegenstand eines der Beispiele 1 bis 10 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um den Benutzer aus einer Vielzahl von Benutzern zu bestimmen, indem sie ein Benutzerprofil, mit dem der Benutzer an der Vorrichtung angemeldet ist; und/oder ein Bild, das zumindest einen Teil des Benutzers zeigt, wobei die Vorrichtung eine Kamera umfasst, die so konfiguriert ist, dass sie das Bild des Benutzers unter Verwendung der Vorrichtung erfasst; und/oder Hirndaten des Benutzers, wobei die Vorrichtung eine Hirn-Computer-Schnittstelle umfasst, die so konfiguriert ist, dass sie die Hirndaten des Benutzers erkennt; und/oder biometrische Daten des Benutzers, wobei die Vorrichtung einen biometrischen Sensor (z. g., einen Fingerabdrucksensor, einen Kamerasensor zur Gesichtsauthentifizierung, einen Iris-Sensor, einen Spracherkennungssensor usw.), der so konfiguriert ist, dass er die biometrischen Daten des Benutzers erkennt; und/oder Informationen bezüglich einer drahtlosen Netzwerkverbindung zwischen dem Gerät und einem anderen Gerät.
In Beispiel 12 kann der Gegenstand eines der Beispiele 1 bis 11 optional beinhalten, dass der anderssprachige Inhalt ein oder mehrere Wörter in der zweiten Sprache enthält; wobei der eine oder die mehreren Prozessoren konfiguriert sind, um: eine jeweilige Wortübersetzungsstufe für jedes Wort des einen oder der mehreren Wörter des anderssprachigen Inhalts zu bestimmen, wobei die jeweilige Wortübersetzungsstufe eine Sprachkompetenz darstellt, die erforderlich ist, um das Wort in die erste Sprache zu übersetzen, und die Sprachkompetenzanforderung des anderssprachigen Inhalts unter Verwendung der bestimmten Wortübersetzungsstufen zu bestimmen.
In Beispiel 13 kann der Gegenstand von Beispiel 12 optional beinhalten, dass der eine oder mehrere Prozessoren konfiguriert sind, um: Bestimmen einer Übersetzung von mindestens einem Wort des einen oder der mehreren Wörter in die erste Sprache unter Verwendung der Untertiteldaten; Bestimmen eines Ähnlichkeitswertes, der eine Ähnlichkeit zwischen dem mindestens einen Wort und seiner Übersetzung darstellt; Bestimmen, ob der Ähnlichkeitswert gleich oder größer als ein vordefinierter Ähnlichkeitsschwellenwert ist; in dem Fall, in dem festgestellt wird, dass der Ähnlichkeitswert gleich oder größer als der vordefinierte Ähnlichkeitsschwellenwert ist, die für das mindestens eine Wort bestimmte Wortübersetzungsstufe anpassen, um die Sprachkenntnisse zu verringern, die erforderlich sind, um das mindestens eine Wort in die erste Sprache zu übersetzen; und die Sprachkenntnisanforderungen des anderssprachigen Inhalts unter Verwendung der angepassten Wortübersetzungsstufe bestimmen.
In Beispiel 14 kann der Gegenstand von Beispiel 13 optional beinhalten, dass der eine oder die mehreren Prozessoren so konfiguriert sind, dass sie den Ähnlichkeitswert unter Berücksichtigung eines oder mehrerer Synonyme der Übersetzung von mindestens einem Wort bestimmen.
In Beispiel 15 kann der Gegenstand von einem der Beispiele 12 bis 14 optional beinhalten, dass der anderssprachige Inhalt mindestens einen Satz enthält, der aus einer Vielzahl von Wörtern in der zweiten Sprache besteht, wobei die Vielzahl von Wörtern das eine oder die mehreren Wörter enthält; und wobei der eine oder die mehreren Prozessoren konfiguriert sind, um: Bestimmen eines jeweiligen Wortübersetzungsniveaus für jedes Wort der Vielzahl von Wörtern, Bestimmen einer Zeitform des mindestens einen Satzes, Bestimmen eines Satzübersetzungsniveaus des mindestens einen Satzes unter Verwendung der bestimmten Wortübersetzungsniveaus und der bestimmten Zeitform des mindestens einen Satzes, wobei das Satzübersetzungsniveau eine Sprachfertigkeit darstellt, die erforderlich ist, um den mindestens einen Satz in die erste Sprache zu übersetzen, und Bestimmen der Sprachfertigkeitsanforderung des anderssprachigen Inhalts unter Verwendung des bestimmten Satzübersetzungsniveaus.
In Beispiel 16 kann der Gegenstand eines der Beispiele 1 bis 15 optional beinhalten, dass ein oder mehrere Bilder der Vielzahl von Bildern des Videos geschriebenen Text als den anderssprachigen Inhalt enthalten und wobei der Untertitel eine Übersetzung des geschriebenen Textes in die erste Sprache enthält; und/oder wobei ein Teil der Audiodaten gesprochenen Text als den anderssprachigen Inhalt darstellt und wobei der Untertitel eine Übersetzung des gesprochenen Textes in die erste Sprache enthält.
In Beispiel 17 kann der Gegenstand eines der Beispiele 1 bis 16 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: die Sprachfähigkeitsanforderung des anderssprachigen Inhalts anzupassen; und zu bestimmen, den Untertitel nicht zu zeigen, wenn der anderssprachige Inhalt des Videos dem Benutzer präsentiert wird, falls die Sprachfähigkeit des Benutzers für die zweite Sprache die angepasste Sprachfähigkeitsanforderung erfüllt.
In Beispiel 18 kann der Gegenstand von Beispiel 17 optional beinhalten, dass der anderssprachige Inhalt mit einer Szene des Videos verbunden ist (z.B. dargestellt durch ein oder mehrere Bilder der Vielzahl von Bildern und/oder Audioinformationen, die mit den Audiodaten verbunden sind); und wobei der eine oder die mehreren Prozessoren konfiguriert sind, um: Bestimmen eines Kontexts der Szene, Bestimmen einer Untertitelrelevanz unter Verwendung des anderssprachigen Inhalts und des Kontexts der Szene, wobei die Untertitelrelevanz anzeigt, ob der Kontext der Szene die Sprachfertigkeit reduziert, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen, und in dem Fall, dass die Untertitelrelevanz anzeigt, dass der Kontext der Szene die Sprachfertigkeit reduziert, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen, Anpassen der Sprachfertigkeitsanforderung des anderssprachigen Inhalts, um die Sprachfertigkeit zu reduzieren, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 19 kann der Gegenstand von Beispiel 17 oder 18 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: zu bestimmen, ob Zeichen der zweiten Sprache Zeichen der ersten Sprache entsprechen; und in dem Fall, dass bestimmt wird, dass die Zeichen der zweiten Sprache nicht den Zeichen der ersten Sprache entsprechen, die Sprachfähigkeitsanforderung anzupassen, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 20 kann der Gegenstand von einem der Beispiele 17 bis 19 optional beinhalten, dass ein oder mehrere Bilder der Vielzahl von Bildern des Videos geschriebenen Text als den anderssprachigen Inhalt beinhalten und wobei der Untertitel eine Übersetzung des geschriebenen Textes in die erste Sprache beinhaltet; und wobei der eine oder die mehreren Prozessoren konfiguriert sind, um: einen Lesbarkeitswert zu bestimmen, der eine Lesbarkeit des geschriebenen Textes darstellt, zu bestimmen, ob der Lesbarkeitswert gleich oder kleiner als ein vordefinierter Lesbarkeitsschwellenwert ist, und in dem Fall, dass bestimmt wird, dass der Lesbarkeitswert gleich oder kleiner als der vordefinierte Lesbarkeitsschwellenwert ist, die Sprachfähigkeitsanforderung des anderssprachigen Inhalts anzupassen, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 21 kann der Gegenstand von Beispiel 20 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, den Lesbarkeitswert unter Verwendung einer Schriftgröße des geschriebenen Textes zu bestimmen, wobei der Lesbarkeitswert mit zunehmender Schriftgröße zunimmt.
In Beispiel 22 kann der Gegenstand der Beispiele 3 und 21 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: eine Größe der Anzeigevorrichtung zu bestimmen; und den Lesbarkeitswert unter Verwendung der Schriftgröße des geschriebenen Textes und der bestimmten Größe der Anzeigevorrichtung zu bestimmen.
In Beispiel 23 kann der Gegenstand eines der Beispiele 20 bis 22 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: zu bestimmen, ob der Benutzer sehbehindert ist (z.B. durch Erfassen eines Gesichtsbildes des Benutzers und Bestimmen, ob der Benutzer eine Brille trägt; und/oder wobei Benutzerprofildaten Informationen enthalten, die anzeigen, ob der Benutzer sehbehindert ist); und den Lesbarkeitswert so zu bestimmen, dass der Lesbarkeitswert in dem Fall verringert wird, in dem festgestellt wird, dass der Benutzer sehbehindert ist.
In Beispiel 24 kann der Gegenstand eines der Beispiele 20 bis 23 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um den Lesbarkeitswert unter Verwendung eines Schriftstils des geschriebenen Textes zu bestimmen, wobei der Lesbarkeitswert in dem Fall abnimmt, dass der Schriftstil kursiv ist.
In Beispiel 25 kann der Gegenstand eines der Beispiele 20 bis 24 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: zu bestimmen, ob der geschriebene Text handgeschrieben ist; und den Lesbarkeitswert so zu bestimmen, dass der Lesbarkeitswert in dem Fall verringert wird, in dem festgestellt wird, dass der geschriebene Text handgeschrieben ist.
In Beispiel 26 kann der Gegenstand eines der Beispiele 20 bis 25 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: eine optische Zeichenerkennung, OCR, auf den geschriebenen Text anzuwenden, um einen mit optischen Zeichen erkannten Text und einen optischen Zeichenerkennungswert (z. B. einen Konfidenzwert) zu bestimmen, der eine Schwierigkeit der Erkennung des mit optischen Zeichen erkannten Textes darstellt; und den Lesbarkeitswert so zu bestimmen, dass der Lesbarkeitswert mit zunehmender Schwierigkeit der Erkennung des mit optischen Zeichen erkannten Textes abnimmt.
In Beispiel 27 kann der Gegenstand von einem der Beispiele 20 bis 26 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: eine Bildnummer des einen oder der mehreren Bilder zu bestimmen; unter Verwendung der bestimmten Bildnummer und einer Bildrate (z.B. in Bildern pro Sekunde) des Videos eine Anzeigezeitspanne zu bestimmen, die eine Zeitspanne darstellt, für die der geschriebene Text angezeigt wird, wenn dem Benutzer der anderssprachige Inhalt präsentiert wird; eine Lesezeitspanne zu bestimmen, die erforderlich ist, um den geschriebenen Text zu lesen; und den Lesbarkeitswert abhängig von einem Verhältnis und/oder einer Differenz zwischen der bestimmten Anzeigezeitspanne und der bestimmten Lesezeitspanne zu bestimmen.
In Beispiel 28 kann der Gegenstand eines der Beispiele 17 bis 27 optional beinhalten, dass ein Teil der Audiodaten gesprochenen Text als den anderssprachigen Inhalt darstellt und wobei der Untertitel eine Übersetzung des gesprochenen Textes in die erste Sprache beinhaltet; und wobei der eine oder die mehreren Prozessoren konfiguriert sind, um: einen Hörbarkeitswert zu bestimmen, der eine Hörbarkeit des gesprochenen Textes repräsentiert, zu bestimmen, ob der Hörbarkeitswert gleich oder kleiner als ein vordefinierter Hörbarkeitsschwellenwert ist, und für den Fall, dass bestimmt wird, dass der Hörbarkeitswert gleich oder kleiner als der vordefinierte Hörbarkeitsschwellenwert ist, die Sprachfähigkeitsanforderung des anderssprachigen Inhalts anzupassen, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 29 kann der Gegenstand von Beispiel 28 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: zu bestimmen, ob der gesprochene Text mit Akzent und/oder Dialekt gesprochen wird; und den Hörbarkeitswert so zu bestimmen, dass der Hörbarkeitswert in dem Fall verringert wird, dass bestimmt wird, dass der gesprochene Text mit Akzent und/oder Dialekt gesprochen wird.
In Beispiel 30 kann der Gegenstand von Beispiel 28 oder 29 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: eine Sprechrate des gesprochenen Textes zu bestimmen; und den Hörbarkeitswert so zu bestimmen, dass der Hörbarkeitswert mit zunehmender Sprechrate abnimmt.
In Beispiel 31 kann der Gegenstand von einem der Beispiele 28 bis 30 optional beinhalten, dass der eine oder die mehreren Prozessoren konfiguriert sind, um: unter Verwendung der Audiodaten ein Verhältnis und/oder eine Differenz zwischen einer Lautstärke des gesprochenen Textes und einer durchschnittlichen Lautstärke des Videos zu bestimmen; und den Hörbarkeitswert basierend auf dem Verhältnis und/oder der Differenz zwischen der Lautstärke des gesprochenen Textes und der durchschnittlichen Lautstärke des Videos zu bestimmen.
Beispiel 32 ist eine kopfgetragene Anzeige (z.B. ein Virtual-Reality-Headset) zum Präsentieren von immersiven Medien für einen Benutzer, wobei die kopfgetragene Anzeige Folgendes umfasst: die Vorrichtung gemäß einem der Beispiele 1 bis 31, wobei das Video ein immersives Video ist; und eine Anzeigevorrichtung, die so konfiguriert ist, dass sie die mehreren Bilder des immersiven Videos und den Untertitel in Übereinstimmung mit den Untertiteldaten anzeigt.
In Beispiel 33 kann die kopfgetragene Anzeige von Beispiel 32 optional weiterhin umfassen: eine Audiovorrichtung, die konfiguriert ist, um Audio in Übereinstimmung mit den Audiodaten auszugeben (z.B. an den Benutzer, der die kopfgetragene Anzeige trägt).
In Beispiel 34 kann die kopfgetragene Anzeige von Beispiel 32 oder 33 optional ferner umfassen: eine Erfassungsvorrichtung, die konfiguriert ist, um einen Benutzer zu erfassen, der die kopfgetragene Anzeige trägt, wobei der eine oder die mehreren Prozessoren der Vorrichtung konfiguriert sind, um zu bestimmen, ob eine Sprachkompetenz des erfassten Benutzers für die zweite Sprache die bestimmte Sprachkompetenzanforderung erfüllt.
In Beispiel 35 kann der Gegenstand von Beispiel 34 optional beinhalten, dass die Erfassungsvorrichtung eine Kamera enthält, die so konfiguriert ist, dass sie, wenn der Benutzer das am Kopf getragene Display trägt, ein Gesichtsbild eines Gesichts des Benutzers erfasst; und wobei der eine oder die mehreren Prozessoren der Vorrichtung so konfiguriert sind, dass sie den Benutzer unter Verwendung des erfassten Gesichtsbildes aus einer Vielzahl von Benutzern bestimmen.
In Beispiel 36 kann der Gegenstand von Beispiel 34 oder 35 optional beinhalten, dass die Erfassungsvorrichtung eine Gehirn-Computer-Schnittstelle umfasst, die so konfiguriert ist, dass sie, wenn der Benutzer das am Kopf getragene Display trägt, ein Gehirnmuster des Benutzers erfasst.
In Beispiel 37 kann der Gegenstand von Beispiel 36 optional beinhalten, dass der eine oder die mehreren Prozessoren der Vorrichtung so konfiguriert sind, dass sie den Benutzer aus einer Vielzahl von Benutzern anhand des erfassten Gehirnmusters bestimmen.
In Beispiel 38 kann der Gegenstand von Beispiel 36 oder 37 optional beinhalten, dass in dem Fall, in dem festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung nicht erfüllen: der eine oder die mehreren Prozessoren der Vorrichtung so konfiguriert sind, dass sie die Anzeigevorrichtung so steuern, dass der Untertitel angezeigt wird, wenn der anderssprachige Inhalt präsentiert wird (z.B., über die Anzeigevorrichtung und/oder die Audiovorrichtung) des immersiven Videos dem Benutzer, der das am Kopf montierte Display trägt, präsentiert wird; die Gehirn-Computer-Schnittstelle ist so konfiguriert, dass sie ein Gehirnmuster des Benutzers während der Anzeige des Untertitels erfasst; und der eine oder die mehreren Prozessoren der Vorrichtung sind so konfiguriert, dass sie bestimmen, ob das erfasste Gehirnmuster mit positiven Gefühlen oder negativen Gefühlen assoziiert ist, und dass sie in dem Fall, in dem bestimmt wird, dass das erfasste Gehirnmuster mit negativen Gefühlen assoziiert ist, die Sprachkenntnisse des Benutzers für die zweite Sprache erhöhen.
In Beispiel 39 kann die kopfgetragene Anzeige eines der Beispiele 32 bis 38 optional ferner umfassen: einen Augenverfolgungssensor, der konfiguriert ist, um Augenverfolgungsdaten zu erfassen, die eine Augenblickrichtung eines ersten Auges und/oder eines zweiten Auges des Benutzers, der die kopfgetragene Anzeige trägt, darstellen.
In Beispiel 40 kann der Gegenstand von Beispiel 39 optional beinhalten, dass in dem Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache nicht die festgestellte Sprachkenntnisanforderung erfüllen, der eine oder die mehreren Prozessoren der Vorrichtung konfiguriert sind, um: eine Fokustiefe des ersten Auges und/oder des zweiten Auges des Benutzers unter Verwendung der erfassten Augenverfolgungsdaten zu bestimmen, und die Anzeigevorrichtung zu steuern, um den Untertitel in einer Bildtiefe anzuzeigen, die der festgestellten Fokustiefe entspricht, wenn dem Benutzer der anderssprachige Inhalt (z. B. über die Anzeigevorrichtung und/oder die Audiovorrichtung) des Videos präsentiert wird.
In Beispiel 41 kann der Gegenstand von Beispiel 39 oder 40 optional beinhalten, dass für den Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache nicht die festgestellte Sprachkenntnisanforderung erfüllen, der eine oder die mehreren Prozessoren der Vorrichtung konfiguriert sind, um: die Anzeigevorrichtung zu steuern, um den Untertitel anzuzeigen, wenn der anderssprachige Inhalt (z.B. über die Anzeigevorrichtung und/oder die Audiovorrichtung) des Videos dem Benutzer präsentiert wird, (z.B. über die Anzeigevorrichtung und/oder die Audiovorrichtung) des immersiven Videos für den Benutzer, der das am Kopf befestigte Display trägt; unter Verwendung der erfassten Augenverfolgungsdaten zu bestimmen, ob der Benutzer den Untertitel ansieht, wenn der anderssprachige Inhalt präsentiert wird; und in dem Fall, dass bestimmt wird, dass der Benutzer den Untertitel nicht ansieht, die Sprachkenntnisse des Benutzers für die zweite Sprache zu erhöhen.
In Beispiel 42 kann der Gegenstand eines der Beispiele 32 bis 41 optional beinhalten, dass der eine oder die mehreren Prozessoren so konfiguriert sind, dass sie den Benutzer aus einer Vielzahl von Benutzern bestimmen, indem sie Folgendes verwenden: ein Benutzerprofil, mit dem der Benutzer bei dem Gerät angemeldet ist (z.B. ein Benutzerprofil eines Smartphones, eines Tablets oder eines Laptops; und/oder ein Benutzerprofil einer Anwendung (z.B., einer Anwendung (z.B. einer App), die von dem einen oder mehreren Prozessoren implementiert wird); und/oder ein Bild, das zumindest einen Teil des Benutzers zeigt, wobei das Gerät eine Kamera enthält, die so konfiguriert ist, dass sie das Bild des Benutzers unter Verwendung des Geräts aufnimmt; und/oder Gehirndaten des Benutzers, wobei das Gerät eine Gehirn-Computer-Schnittstelle enthält, die so konfiguriert ist, dass sie die Gehirndaten des Benutzers erkennt; und/oder biometrische Daten des Benutzers, wobei das Gerät einen biometrischen Sensor (z.B. einen Fingerabdrucksensor, einen Kamerasensor) enthält, einen Fingerabdrucksensor, einen Kamerasensor für die Gesichtsauthentifizierung, einen Irissensor, einen Spracherkennungssensor usw.), der so konfiguriert ist, dass er die biometrischen Daten des Benutzers erkennt; und/oder Informationen über eine drahtlose Netzwerkverbindung zwischen dem Gerät und einem anderen Gerät.
In Beispiel 43 kann der Gegenstand eines der Beispiele 32 bis 42 optional beinhalten, dass der eine oder die mehreren Prozessoren der Vorrichtung mit einem Rendering-Leistungsschwellenwert verbunden sind, der eine maximale Rendering-Leistung für das Rendering immersiver Bilder darstellt; und wobei der eine oder die mehreren Prozessoren der Vorrichtung konfiguriert sind, um: einen Rendering-Leistungswert zu bestimmen, der eine Rendering-Leistung repräsentiert, die erforderlich ist, um die Mehrzahl von Bildern des immersiven Videos und den Untertitel innerhalb eines oder mehrerer Bilder der Mehrzahl von Bildern zu rendern, zu bestimmen, ob der bestimmte Rendering-Leistungswert größer als der Rendering-Leistungsschwellenwert ist, und in dem Fall, dass bestimmt wird, dass der bestimmte Rendering-Leistungswert größer als der Rendering-Leistungsschwellenwert ist, zu bestimmen, den Untertitel nicht zu zeigen, wenn der anderssprachige Inhalt des immersiven Videos dem Benutzer präsentiert wird (unabhängig davon, ob die Sprachkenntnisse des Benutzers für die zweite Sprache die bestimmte Sprachkenntnisanforderung erfüllen).
Beispiel 44 ist ein Verfahren zur selektiven Darstellung von Untertiteln, wobei das Verfahren Folgendes umfasst: Empfangen eines Videos und entsprechender Untertiteldaten, wobei das Video eine Vielzahl von Bildern und entsprechende Audiodaten enthält, wobei die Audiodaten eine erste (primäre) Sprache des Videos darstellen, und wobei das Video einen anderssprachigen Inhalt enthält, der mit einer zweiten (sekundären) Sprache verbunden ist, die sich von der ersten Sprache unterscheidet, wobei die Untertiteldaten einen Untertitel darstellen, der eine Übersetzung des anderssprachigen Inhalts in die erste Sprache enthält; Bestimmen einer Sprachfähigkeitsanforderung des anderssprachigen Inhalts, wobei die Sprachfähigkeitsanforderung eine Sprachfähigkeit darstellt, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen; Bestimmen, ob eine Sprachfähigkeit eines Benutzers für die zweite Sprache die bestimmte Sprachfähigkeitsanforderung erfüllt, und in dem Fall, dass bestimmt wird, dass die Sprachfähigkeit des Benutzers für die zweite Sprache die bestimmte Sprachfähigkeitsanforderung erfüllt, Bestimmen, den Untertitel nicht zu zeigen, wenn der anderssprachige Inhalt des Videos dem Benutzer präsentiert wird.
In Beispiel 45 kann das Verfahren aus Beispiel 1 optional weiterhin umfassen: Bestimmen, dass in dem Fall, in dem festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die ermittelte Sprachkenntnisanforderung nicht erfüllen, der Untertitel innerhalb des Videos angezeigt wird, wenn dem Benutzer der anderssprachige Inhalt des Videos präsentiert wird.
In Beispiel 46 kann das Verfahren von Beispiel 44 oder 45 optional weiterhin umfassen: Erfassen eines Betrachterbildes, das einen oder mehrere Benutzer zeigt, die eine Anzeigevorrichtung betrachten, auf der das Video präsentiert werden soll; Bestimmen, ob das Betrachterbild zwei oder mehr Benutzer zeigt, die die Anzeigevorrichtung betrachten; für den Fall, dass bestimmt wird, dass das Betrachterbild zwei oder mehr Benutzer zeigt, die die Anzeigevorrichtung betrachten, Bestimmen für jeden Benutzer der zwei oder mehr Benutzer, ob eine Sprachkompetenz eines jeweiligen Benutzers für die zweite Sprache die bestimmte Sprachkompetenzanforderung erfüllt, und für den Fall, dass festgestellt wird, dass die jeweilige Sprachkompetenz jedes Benutzers der zwei oder mehr Benutzer die festgestellte Sprachkompetenzanforderung erfüllt, die Entscheidung, den Untertitel nicht zu zeigen, wenn der anderssprachige Inhalt des Videos präsentiert wird.
In Beispiel 46 kann das Verfahren aus einem der Beispiele 44 bis 46 optional weiter umfassen: Empfangen von Benutzerprofildaten des Benutzers, wobei die Benutzerprofildaten die Sprachkenntnisse des Benutzers für die zweite Sprache definieren.
In Beispiel 48 kann der Gegenstand von Beispiel 47 optional beinhalten, dass die Benutzerprofildaten von dem Benutzer (z.B. über ein Eingabegerät) bereitgestellt werden.
In Beispiel 49 kann das Verfahren aus einem der Beispiele 44 bis 46 optional weiter umfassen: Bereitstellen von Anweisungen (z.B. visuell und/oder akustisch) an den Benutzer, die den Benutzer anweisen, in der zweiten Sprache zu sprechen (z.B. einen in der zweiten Sprache gegebenen Text vorzulesen und/oder ein Gespräch in der zweiten Sprache zu führen); Erfassen von Sprachinformationen durch Aufnehmen von Audio des sprechenden Benutzers; und Bestimmen der Sprachkenntnisse des Benutzers für die zweite Sprache unter Verwendung der erfassten Sprachinformationen (z.B. unter Verwendung eines maschinellen Lernmodells).
In Beispiel 50 kann der Gegenstand eines der Beispiele 47 bis 49 optional beinhalten, dass die Benutzerprofildaten weiterhin eine Sprachfertigkeit des Benutzers für eine dritte Sprache definieren, die sich von der zweiten Sprache unterscheidet, ihr aber ähnlich ist; wobei das Verfahren weiterhin das Anpassen der Sprachfertigkeit des Benutzers für die zweite Sprache basierend auf der Sprachfertigkeit des Benutzers für die dritte Sprache beinhaltet.
In Beispiel 51 kann das Verfahren nach einem der Beispiele 44 bis 50 optional ferner Folgendes umfassen: Empfangen von Standortinformationen eines Geräts (z. B. Global Positioning System, GPS, Daten eines Benutzergeräts (z. B. ein Smartphone, ein Tablet, ein Laptop usw.)), das dem Benutzer zugeordnet ist; Bestimmen, ob die Standortinformationen einen Standort innerhalb eines Landes umfassen, in dem die zweite Sprache eine Amtssprache ist; und für den Fall, dass bestimmt wird, dass die Standortinformationen einen Standort innerhalb eines Landes umfassen, in dem die zweite Sprache eine Amtssprache ist, Erhöhen der Sprachkenntnisse des Benutzers für die zweite Sprache.
In Beispiel 52 kann das Verfahren nach einem der Beispiele 44 bis 51 optional weiterhin umfassen: Empfangen eines Web-Browsing-Verlaufs eines Geräts (z.B. eines Smartphones, eines Tablets, eines Laptops, eines Head-Mounted-Displays usw.), das dem Benutzer zugeordnet ist; Bestimmen, ob eine oder mehrere Webseiten des Web-Browsing-Verlaufs in der zweiten Sprache sind; und in dem Fall, dass bestimmt wird, dass eine oder mehrere Webseiten des Web-Browsing-Verlaufs in der zweiten Sprache sind, Erhöhen der Sprachkenntnisse des Benutzers für die zweite Sprache.
In Beispiel 53 kann das Verfahren aus einem der Beispiele 44 bis 52 optional weiterhin umfassen: Bestimmen des Benutzers aus einer Vielzahl von Benutzern unter Verwendung: eines Benutzerprofils, mit dem der Benutzer an der Vorrichtung angemeldet ist; und/oder eines Bildes, das zumindest einen Teil des Benutzers zeigt, wobei die Vorrichtung eine Kamera umfasst, die konfiguriert ist, um das Bild des Benutzers unter Verwendung der Vorrichtung aufzunehmen; und/oder von Gehirndaten des Benutzers, wobei die Vorrichtung eine Gehirn-Computer-Schnittstelle umfasst, die konfiguriert ist, um die Gehirndaten des Benutzers zu erfassen; und/oder von biometrischen Daten des Benutzers, wobei die Vorrichtung einen biometrischen Sensor (z.B. einen Fingerabdrucksensor, einen Kamerasensor) umfasst, einen Fingerabdrucksensor, einen Kamerasensor für die Gesichtsauthentifizierung, einen Irissensor, einen Spracherkennungssensor usw.), der so konfiguriert ist, dass er die biometrischen Daten des Benutzers erkennt; und/oder Informationen über eine drahtlose Netzwerkverbindung zwischen dem Gerät und einem anderen Gerät.
In Beispiel 54 kann der Gegenstand eines der Beispiele 44 bis 53 optional umfassen, dass der anderssprachige Inhalt ein oder mehrere Wörter in der zweiten Sprache enthält; wobei das Verfahren ferner umfasst: Bestimmen eines jeweiligen Wortübersetzungsniveaus für jedes Wort des einen oder der mehreren Wörter des anderssprachigen Inhalts, wobei das jeweilige Wortübersetzungsniveau eine Sprachfertigkeit darstellt, die erforderlich ist, um das Wort in die erste Sprache zu übersetzen, und Bestimmen der Sprachfertigkeitsanforderung des anderssprachigen Inhalts unter Verwendung der bestimmten Wortübersetzungsniveaus.
In Beispiel 55 kann das Verfahren von Beispiel 54 optional weiterhin umfassen: Bestimmen einer Übersetzung von mindestens einem Wort des einen oder der mehreren Wörter in die erste Sprache unter Verwendung der Untertiteldaten; Bestimmen eines Ähnlichkeitswertes, der eine Ähnlichkeit zwischen dem mindestens einen Wort und seiner Übersetzung darstellt; Bestimmen, ob der Ähnlichkeitswert gleich oder größer als ein vordefinierter Ähnlichkeitsschwellenwert ist; in dem Fall, in dem festgestellt wird, dass der Ähnlichkeitswert gleich oder größer als der vordefinierte Ähnlichkeitsschwellenwert ist, Anpassen der für das mindestens eine Wort bestimmten Wortübersetzungsstufe, um die für die Übersetzung des mindestens einen Wortes in die erste Sprache erforderliche Sprachkompetenz zu verringern; und Bestimmen der Sprachkompetenzanforderung des anderssprachigen Inhalts unter Verwendung der angepassten Wortübersetzungsstufe.
In Beispiel 56 kann der Gegenstand von Beispiel 55 optional beinhalten, dass der Ähnlichkeitswert unter Berücksichtigung von einem oder mehreren Synonymen der Übersetzung des mindestens einen Wortes bestimmt wird.
In Beispiel 57 kann der Gegenstand eines der Beispiele 54 bis 56 optional beinhalten, dass der anderssprachige Inhalt mindestens einen Satz enthält, der aus einer Mehrzahl von Wörtern in der zweiten Sprache besteht, wobei die Mehrzahl von Wörtern das eine oder die mehreren Wörter enthält; und wobei das Verfahren ferner Folgendes umfasst: Bestimmen eines jeweiligen Wortübersetzungsniveaus für jedes Wort der Vielzahl von Wörtern, Bestimmen einer Zeitform des mindestens einen Satzes, Bestimmen eines Satzübersetzungsniveaus des mindestens einen Satzes unter Verwendung der bestimmten Wortübersetzungsniveaus und der bestimmten Zeitform des mindestens einen Satzes, wobei das Satzübersetzungsniveau eine Sprachfertigkeit darstellt, die erforderlich ist, um den mindestens einen Satz in die erste Sprache zu übersetzen, und Bestimmen der Sprachfertigkeitsanforderung des anderssprachigen Inhalts unter Verwendung des bestimmten Satzübersetzungsniveaus.
In Beispiel 58 kann der Gegenstand eines der Beispiele 44 bis 57 optional beinhalten, dass ein oder mehrere Bilder der Vielzahl von Bildern des Videos geschriebenen Text als den anderssprachigen Inhalt beinhalten und wobei der Untertitel eine Übersetzung des geschriebenen Textes in die erste Sprache beinhaltet; und/oder wobei ein Teil der Audiodaten gesprochenen Text als den anderssprachigen Inhalt darstellt und wobei der Untertitel eine Übersetzung des gesprochenen Textes in die erste Sprache beinhaltet.
In Beispiel 59 kann das Verfahren nach einem der Beispiele 44 bis 58 optional ferner Folgendes umfassen: Anpassen der Sprachfähigkeitsanforderung des anderssprachigen Inhalts; und Bestimmen, dass der Untertitel nicht angezeigt wird, wenn der anderssprachige Inhalt des Videos dem Benutzer präsentiert wird, falls die Sprachfähigkeit des Benutzers für die zweite Sprache die angepasste Sprachfähigkeitsanforderung erfüllt.
In Beispiel 60 kann der Gegenstand von Beispiel 59 optional beinhalten, dass der anderssprachige Inhalt mit einer Szene des Videos verbunden ist (z.B. repräsentiert durch ein oder mehrere Bilder der Vielzahl von Bildern und/oder Audioinformationen, die mit den Audiodaten assoziiert sind); und wobei das Verfahren weiterhin umfasst: Bestimmen eines Kontexts der Szene, Bestimmen einer Untertitel-Relevanz unter Verwendung des anderssprachigen Inhalts und des Kontexts der Szene, wobei die Untertitel-Relevanz anzeigt, ob der Kontext der Szene die Sprachfertigkeit reduziert, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen, und in dem Fall, dass die Untertitel-Relevanz anzeigt, dass der Kontext der Szene die Sprachfertigkeit reduziert, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen, Anpassen der Sprachfertigkeitsanforderung des anderssprachigen Inhalts, um die Sprachfertigkeit zu reduzieren, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 61 kann das Verfahren von Beispiel 59 oder 60 optional weiter umfassen: Bestimmen, ob Zeichen der zweiten Sprache Zeichen der ersten Sprache entsprechen; und in dem Fall, dass bestimmt wird, dass die Zeichen der zweiten Sprache nicht den Zeichen der ersten Sprache entsprechen, Anpassen der Sprachfähigkeitsanforderung, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 62 kann der Gegenstand von einem der Beispiele 59 bis 61 optional beinhalten, dass ein oder mehrere Bilder der Vielzahl von Bildern des Videos geschriebenen Text als den anderssprachigen Inhalt beinhalten und wobei der Untertitel eine Übersetzung des geschriebenen Textes in die erste Sprache beinhaltet; und wobei das Verfahren weiterhin beinhaltet: Bestimmen eines Lesbarkeitswertes, der eine Lesbarkeit des geschriebenen Textes darstellt, Bestimmen, ob der Lesbarkeitswert gleich oder kleiner als ein vordefinierter Lesbarkeitsschwellenwert ist, und in dem Fall, dass bestimmt wird, dass der Lesbarkeitswert gleich oder kleiner als der vordefinierte Lesbarkeitsschwellenwert ist, Anpassen der Sprachfähigkeitsanforderung des anderssprachigen Inhalts, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 63 kann der Gegenstand von Beispiel 62 optional beinhalten, dass der Lesbarkeitswert unter Verwendung einer Schriftgröße des geschriebenen Textes bestimmt wird, wobei der Lesbarkeitswert mit zunehmender Schriftgröße zunimmt.
In Beispiel 64 kann das Verfahren aus Beispiel 63 optional weiterhin umfassen: Bestimmen einer Größe einer Anzeigevorrichtung, auf der das Video dargestellt werden soll; und wobei der Lesbarkeitswert unter Verwendung der Schriftgröße des geschriebenen Textes und der bestimmten Größe der Anzeigevorrichtung bestimmt wird.
In Beispiel 65 kann das Verfahren aus einem der Beispiele 62 bis 64 optional weiterhin umfassen: Bestimmen, ob der Benutzer sehbehindert ist (z.B. durch Erfassen eines Gesichtsbildes des Benutzers und Bestimmen, ob der Benutzer eine Brille trägt; und/oder wobei Benutzerprofildaten Informationen enthalten, die anzeigen, ob der Benutzer sehbehindert ist); und wobei der Lesbarkeitswert so bestimmt wird, dass der Lesbarkeitswert in dem Fall verringert wird, in dem festgestellt wird, dass der Benutzer sehbehindert ist.
In Beispiel 66 kann der Gegenstand eines der Beispiele 62 bis 65 optional beinhalten, dass der Lesbarkeitswert unter Verwendung eines Schriftstils des geschriebenen Textes bestimmt wird, wobei der Lesbarkeitswert in dem Fall abnimmt, dass der Schriftstil kursiv ist.
In Beispiel 67 kann das Verfahren nach einem der Beispiele 62 bis 66 optional weiterhin beinhalten: Bestimmen, ob der geschriebene Text handgeschrieben ist; und wobei der Lesbarkeitswert so bestimmt wird, dass der Lesbarkeitswert in dem Fall, dass bestimmt wird, dass der geschriebene Text handgeschrieben ist, verringert wird.
In Beispiel 68 kann das Verfahren nach einem der Beispiele 62 bis 67 optional weiterhin umfassen: Anwenden einer optischen Zeichenerkennung, OCR, auf den geschriebenen Text, um einen mit optischen Zeichen erkannten Text und einen optischen Zeichenerkennungswert (z.B. einen Konfidenzwert) zu bestimmen, der eine Schwierigkeit der Erkennung des mit optischen Zeichen erkannten Textes darstellt; und wobei der Lesbarkeitswert so bestimmt wird, dass der Lesbarkeitswert mit zunehmender Schwierigkeit der Erkennung des mit optischen Zeichen erkannten Textes abnimmt.
In Beispiel 69 kann das Verfahren aus einem der Beispiele 62 bis 68 optional weiterhin umfassen: Bestimmen einer Bildnummer des einen oder der mehreren Bilder; Bestimmen, unter Verwendung der bestimmten Bildnummer und einer Bildrate (z.B. in Bildern pro Sekunde) des Videos, einer Anzeigezeitspanne, die eine Zeitspanne darstellt, für die der geschriebene Text angezeigt wird, wenn dem Benutzer der anderssprachige Inhalt präsentiert wird; Bestimmen einer Lesezeitspanne, die zum Lesen des geschriebenen Textes erforderlich ist; und wobei der Lesbarkeitswert in Abhängigkeit von einem Verhältnis und/oder einer Differenz zwischen der bestimmten Anzeigezeitspanne und der bestimmten Lesezeitspanne bestimmt wird.
In Beispiel 70 kann der Gegenstand eines der Beispiele 59 bis 69 optional beinhalten, dass ein Teil der Audiodaten gesprochenen Text als den anderssprachigen Inhalt repräsentiert und wobei der Untertitel eine Übersetzung des gesprochenen Textes in die erste Sprache beinhaltet; und wobei das Verfahren weiterhin beinhaltet: Bestimmen eines Hörbarkeitswertes, der eine Hörbarkeit des gesprochenen Textes repräsentiert, Bestimmen, ob der Hörbarkeitswert gleich oder kleiner als ein vordefinierter Hörbarkeitsschwellenwert ist, und in dem Fall, dass bestimmt wird, dass der Hörbarkeitswert gleich oder kleiner als der vordefinierte Hörbarkeitsschwellenwert ist, Anpassen der Sprachfähigkeitsanforderung des anderssprachigen Inhalts, um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt in die erste Sprache zu übersetzen.
In Beispiel 71 kann das Verfahren von Beispiel 70 optional weiter umfassen: Bestimmen, ob der gesprochene Text mit Akzent und/oder Dialekt gesprochen wird; wobei der Hörbarkeitswert so bestimmt wird, dass der Hörbarkeitswert in dem Fall verringert wird, dass bestimmt wird, dass der gesprochene Text mit Akzent und/oder Dialekt gesprochen wird.
In Beispiel 72 kann das Verfahren von Beispiel 70 oder 71 optional weiterhin umfassen: Bestimmen einer Sprechgeschwindigkeit des gesprochenen Textes; wobei der Hörbarkeitswert so bestimmt wird, dass der Hörbarkeitswert mit zunehmender Sprechgeschwindigkeit abnimmt.
In Beispiel 73 kann das Verfahren nach einem der Beispiele 70 bis 72 optional weiterhin umfassen: Bestimmen, unter Verwendung der Audiodaten, eines Verhältnisses und/oder einer Differenz zwischen einer Lautstärke des gesprochenen Textes und einer durchschnittlichen Lautstärke des Videos; wobei der Hörbarkeitswert basierend auf dem Verhältnis und/oder der Differenz zwischen der Lautstärke des gesprochenen Textes und der durchschnittlichen Lautstärke des Videos bestimmt wird.
In Beispiel 74 kann das Verfahren nach einem der Beispiele 44 bis 73 optional ferner umfassen: Erfassen eines Gesichtsbildes eines Gesichts des Benutzers unter Verwendung einer am Kopf getragenen Anzeige, während der Benutzer die am Kopf getragene Anzeige trägt; und Bestimmen des Benutzers aus einer Vielzahl von Benutzern unter Verwendung des erfassten Gesichtsbildes.
In Beispiel 75 kann der Gegenstand eines der Beispiele 44 bis 74 optional beinhalten, dass in dem Fall, in dem festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die festgestellte Sprachkenntnisanforderung nicht erfüllen, das Verfahren ferner umfasst: Steuern einer Anzeigevorrichtung, um den Untertitel anzuzeigen, wenn der anderssprachige Inhalt präsentiert wird (z.B., über die Anzeigevorrichtung und/oder die Audiovorrichtung) des immersiven Videos für den Benutzer, der ein am Kopf getragenes Display trägt; Erfassen, unter Verwendung einer Gehirn-Computer-Schnittstelle, eines Gehirnmusters des Benutzers während der Anzeige des Untertitels; Bestimmen, ob das erfasste Gehirnmuster mit positiven Gefühlen oder negativen Gefühlen assoziiert ist; und in dem Fall, dass bestimmt wird, dass das erfasste Gehirnmuster mit negativen Gefühlen assoziiert ist, Erhöhen der Sprachfertigkeit des Benutzers für die zweite Sprache.
In Beispiel 76 kann das Verfahren aus einem der Beispiele 44 bis 75 optional weiterhin umfassen: wobei in dem Fall, in dem festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die festgestellte Sprachkenntnisanforderung nicht erfüllen, das Verfahren weiterhin umfasst: Bestimmen einer Fokustiefe des ersten Auges und/oder des zweiten Auges des Benutzers unter Verwendung von Augenverfolgungsdaten, die eine Augenblickrichtung eines ersten Auges und/oder eines zweiten Auges des Benutzers darstellen, und Steuern einer Anzeigevorrichtung, um den Untertitel in einer Bildtiefe anzuzeigen, die der festgestellten Fokustiefe entspricht, wenn der anderssprachige Inhalt präsentiert wird (z.B., über die Anzeigevorrichtung und/oder die Audiovorrichtung) des Videos dem Benutzer präsentiert wird.
In Beispiel 77 kann das Verfahren aus einem der Beispiele 44 bis 76 optional weiterhin umfassen: wobei in dem Fall, in dem festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die festgestellte Sprachkenntnisanforderung nicht erfüllen, das Verfahren weiterhin umfasst: Steuern einer Anzeigevorrichtung, um den Untertitel anzuzeigen, wenn der anderssprachige Inhalt (z.B. über die Anzeigevorrichtung und/oder die Audioeinrichtung) des Videos dem Benutzer präsentiert wird, über die Anzeigevorrichtung und/oder die Audiovorrichtung) des immersiven Videos dem Benutzer präsentiert wird; Bestimmen, unter Verwendung von Augenverfolgungsdaten, die eine Augenblickrichtung eines ersten Auges und/oder eines zweiten Auges des Benutzers darstellen, ob der Benutzer auf den Untertitel schaut, wenn der anderssprachige Inhalt präsentiert wird; und in dem Fall, dass bestimmt wird, dass der Benutzer nicht auf den Untertitel schaut, Erhöhen der Sprachkenntnisse des Benutzers für die zweite Sprache.
In Beispiel 78 kann der Gegenstand eines der Beispiele 44 bis 77 optional umfassen, dass mit einem Rendering-Leistungsschwellenwert assoziiert sind, der eine maximale Rendering-Leistung für das Rendering immersiver Bilder repräsentiert; und wobei das Verfahren ferner umfasst: Bestimmen eines Rendering-Leistungswertes, der eine Rendering-Leistung repräsentiert, die erforderlich ist, um die Mehrzahl von Bildern des Videos und den Untertitel innerhalb eines oder mehrerer Bilder der Mehrzahl von Bildern zu rendern, Bestimmen, ob der bestimmte Rendering-Leistungswert größer als ein Rendering-Leistungsschwellenwert ist, wobei der Rendering-Leistungsschwellenwert eine maximale Rendering-Leistung eines oder mehrerer Prozessoren einer Vorrichtung repräsentiert, über die das Video präsentiert werden soll, und in dem Fall, in dem festgestellt wird, dass der festgestellte Rendering-Leistungswert größer als der Rendering-Leistungsschwellenwert ist, das Bestimmen, den Untertitel nicht zu zeigen, wenn der anderssprachige Inhalt des immersiven Videos dem Benutzer präsentiert wird (unabhängig davon, ob die Sprachkenntnisse des Benutzers für die zweite Sprache die festgestellte Sprachkenntnisanforderung erfüllen).
In Beispiel 79 kann der Gegenstand eines der Beispiele 44 bis 78 optional beinhalten, dass die Sprachfähigkeitsanforderung des anderssprachigen Inhalts vor der Präsentation des Videos an den Benutzer bestimmt wird.
In Beispiel 80 kann das Verfahren nach einem der Beispiele 44 bis 79 optional ferner Folgendes umfassen: Präsentieren des Videos für den Benutzer; wobei während des Präsentierens des Videos für den Benutzer ermittelt wird, ob die Sprachkenntnisse des Benutzers für die zweite Sprache den ermittelten Sprachkenntnisanforderungen genügen.
Beispiel 81 ist eine Augmented-Reality-Vorrichtung (z.B. eine intelligente Brille, eine Augmented-Reality-Brille, ein am Kopf befestigtes Display mit Video-See-Through, usw.), um einem Benutzer eine erweiterte Realität zu präsentieren, wobei die Augmented-Reality-Vorrichtung Folgendes umfasst: die Vorrichtung gemäß einem der Beispiele 1 bis 31; wobei das Video ein immersives Video für die erweiterte Realität ist; und eine Anzeigevorrichtung, die so konfiguriert ist, dass sie die erweiterte Realität einschließlich des immersiven Videos in der Umgebung des Benutzers anzeigt und den Untertitel anzeigt.
In Beispiel 82 kann der Gegenstand von Beispiel 81 optional beinhalten, dass für den Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die festgestellte Sprachkenntnisanforderung nicht erfüllen, der eine oder die mehreren Prozessoren der Vorrichtung konfiguriert sind, um: eine Position zu bestimmen, an der der Untertitel angezeigt werden soll, wenn dem Benutzer der anderssprachige Inhalt präsentiert wird, so dass ein Kontrast (z. B. mittels Farbe und/oder Helligkeit) zwischen der erweiterten Realität und dem Untertitel erhöht wird.
Gemäß verschiedenen Aspekten kann die Augmented-Reality-Vorrichtung gegebenenfalls so konfiguriert sein, dass sie mit dem kopfgetragenen Display aus einem der Beispiele 32 bis 43 übereinstimmt.
Beispiel 83 ist ein nicht-transitorisches computerlesbares Medium mit darauf aufgezeichneten Anweisungen, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, das Verfahren gemäß einem der Beispiele 44 bis 80 auszuführen.
Obwohl sich die Offenbarung auf (z. B. immersive) Videos bezieht, können die oben beschriebenen Prinzipien analog auf andere Medien angewendet werden, wie Spiele, Apps, Diashows, Museumsführungen, Live-Untertitelung (d. h. Live-Untertitel während eines Gesprächs, eines Telefonats usw.) und dergleichen. So kann ein Spiel, eine App, eine Diashow usw. Hauptinhalte in der ersten Sprache und anderssprachige Inhalte in der zweiten Sprache enthalten, und es kann ermittelt werden, ob die Sprachkenntnisse des Benutzers für die zweite Sprache eine Sprachkenntnisanforderung für die anderssprachigen Inhalte erfüllen, um zu bestimmen, ob dem Benutzer Untertitel angezeigt werden sollen. Die Grundsätze können auch auf andere Anwendungsfälle angewandt werden, die eine immersive Erfahrung verringern können, wie z. B. die Anzeige von Emoji-Symbolen für Benutzer, die Schwierigkeiten haben, Emotionen aus Gesichtsausdrücken zu verstehen. In diesem Fall kann der eine oder die mehreren Prozessoren 102 so konfiguriert werden, dass sie bestimmen, dass ein Emoji nicht angezeigt (z. B. übersprungen) wird (wodurch das immersive Erlebnis erhöht wird), wenn festgestellt wird, dass das Verständnis dieses Emoji selbst für Personen, die normalerweise Probleme haben, Emotionen zu verstehen, sehr offensichtlich ist.
Obwohl verschiedene Aspekte bezüglich der selektiven Präsentation von Untertiteln (englisch: subtitle) für Inhalte in anderen Sprachen beschrieben werden, ist zu verstehen, dass die Prinzipien analog zur selektiven Präsentation von Bildunterschriften (englisch: captions) gelten. Daher könnten die Untertiteldaten (englisch: subtitle data) (z. B. Daten 112 für Untertitel (englisch: subtitle data 112)), wie hier beschrieben, Daten für Bildunterschriften (englisch: caption data) sein. Bildunterschriften (englisch: captions) können sich von Untertiteln (englisch: subtitles) dadurch unterscheiden, dass Bildunterschriften sich auf Text beziehen, der die Audiodaten repräsentiert (z. B. für hörgeschädigte Benutzer), während Untertitel (englisch: subtitles) sich auf Text beziehen, der eine Übersetzung des Inhalts in einer anderen Sprache darstellt. Somit können Bildunterschriften (englisch: captions) sich auf alle Audioobjekte innerhalb der Audiodaten beziehen, wie gesprochenen Text, Hintergrundgeräusche, Geräusche von Geräten usw. Eine Bildunterschrift (englisch: caption) kann auch als eine (z. B. geschlossene (englisch: closed)) Bildunterschrift-Untertitel (englisch: caption subtitle) bezeichnet werden. Daher ist zu verstehen, dass der Untertitel (englisch: subtitle) für Inhalte in anderen Sprachen, wie hier beschrieben, auch ein Bildunterschrift-Untertitel (englisch: caption subtitle) sein kann, der die Audiodaten repräsentiert.

Claims

eine Vorrichtung (100) zur selektiven Darstellung von Untertiteln, wobei die Vorrichtung (100) umfasst: einen oder mehrere Prozessoren (102), die dafür konfiguriert sind: • ein Video (104) und entsprechende Untertiteldaten (112) zu empfangen, wobei das Video (104) eine Vielzahl von Bildern (106) und entsprechende Audiodaten (108) umfasst, wobei die Audiodaten (108) eine erste Sprache des Videos (104) darstellen, und wobei das Video (104) einen anderssprachigen Inhalt (110) umfasst, der einer zweiten Sprache zugeordnet ist, die sich von der ersten Sprache unterscheidet, wobei die Untertiteldaten (112) einen Untertitel darstellen, der eine Übersetzung des anderssprachigen Inhalts (110) in die erste Sprache umfasst; • Bestimmen einer Sprachfähigkeitsanforderung (r_ls) des fremdsprachlichen Inhalts (110), wobei die Sprachfähigkeitsanforderung (r_ls) eine Sprachfähigkeit darstellt, die erforderlich ist, um den fremdsprachlichen Inhalt (110) in die erste Sprache zu übersetzen; • festzustellen, ob eine Sprachkompetenz (ls) eines Benutzers (300) für die zweite Sprache die ermittelte Sprachkompetenzanforderung (r_ls) erfüllt; und • für den Fall, dass festgestellt wird, dass die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache die festgestellte Sprachkenntnisanforderung (r_ls) erfüllen, bestimmen, dass der Untertitel nicht angezeigt wird, wenn dem Benutzer (300) der anderssprachige Inhalt (110) des Videos (104) präsentiert wird.
die Vorrichtung (100) nach Anspruch 1, wobei die Vorrichtung (100) ferner eine Anzeigevorrichtung (206) umfasst, die so konfiguriert ist, dass sie die Vielzahl von Bildern (106) des Videos (104) und den Untertitel in Übereinstimmung mit den Untertiteldaten (112) anzeigt; wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um: • für den Fall, dass festgestellt wird, dass die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache nicht die festgestellte Sprachkenntnisanforderung (r_ls) erfüllen, zu bestimmen, den Untertitel innerhalb des Videos (104) zu zeigen, wenn dem Benutzer der anderssprachige Inhalt (110) des Videos (104) präsentiert wird; • in dem Fall, dass bestimmt wird, den Untertitel zu zeigen, die Anzeigevorrichtung (206) zu steuern, um den Untertitel anzuzeigen, wenn der anderssprachige Inhalt (110) des Videos (104) dem Benutzer (300) präsentiert wird; und • in dem Fall, in dem bestimmt wird, dass der Untertitel nicht angezeigt werden soll, die Anzeigevorrichtung (206) so zu steuern, dass der Untertitel nicht angezeigt wird, wenn dem Benutzer (300) der anderssprachige Inhalt (110) des Videos (104) präsentiert wird.
die Vorrichtung (100) nach Anspruch 2, • wobei die Anzeigevorrichtung (206) so konfiguriert ist, dass die Vielzahl von Bildern (106) des Videos (104) und der Untertitel zwei oder mehr Benutzern präsentiert werden können; • wobei die Vorrichtung (100) eine Kamera umfasst, die so konfiguriert ist, dass sie ein Betrachterbild erkennt, das einen oder mehrere Benutzer zeigt, die die Anzeigevorrichtung betrachten; • wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um: ◯ festzustellen, ob das Anzeigebild zwei oder mehr Benutzer zeigt, die das Anzeigegerät (206) betrachten, ◯ für den Fall, dass festgestellt wird, dass das Betrachtungsbild zwei oder mehr Benutzer zeigt, die die Anzeigevorrichtung (206) betrachten, für jeden Benutzer der zwei oder mehr Benutzer bestimmen, ob eine Sprachfertigkeit eines jeweiligen Benutzers für die zweite Sprache die festgestellte Sprachfertigkeitsanforderung (r_ls) erfüllt, und ◯ für den Fall, dass festgestellt wird, dass die jeweiligen Sprachkenntnisse jedes Benutzers der zwei oder mehr Benutzer die ermittelte Sprachkenntnisanforderung (r_ls) erfüllen, festlegen, dass der Untertitel nicht angezeigt wird, wenn der anderssprachige Inhalt (110) des Videos (104) präsentiert wird.
die Vorrichtung (100) nach einem der Ansprüche 1 bis 3, • wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um Benutzerprofildaten des Benutzers zu empfangen, wobei die Benutzerprofildaten die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache definieren; oder • wobei die Vorrichtung (100) weiterhin umfasst: ◯ ein Ausgabegerät, das so konfiguriert ist, dass es dem Benutzer (300) Anweisungen gibt, die den Benutzer anweisen, in der zweiten Sprache zu sprechen; und ◯ ein Mikrofon, das so konfiguriert ist, dass es Sprachinformationen erfasst, indem es den Ton des sprechenden Benutzers aufnimmt; ◯ wobei der eine oder die mehreren Prozessoren (102) so konfiguriert sind, dass sie die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache unter Verwendung der erfassten Sprachinformationen bestimmen.
die Vorrichtung (100) nach einem der Ansprüche 1 bis 4, wobei der eine oder die mehreren Prozessoren (102) so konfiguriert sind, dass sie den Benutzer aus einer Vielzahl von Benutzern bestimmen: • ein Benutzerprofil, mit dem der Benutzer auf dem Gerät (100) angemeldet ist; und/oder • ein Bild, das zumindest einen Teil des Benutzers zeigt, wobei die Vorrichtung (100) eine Kamera umfasst, die so konfiguriert ist, dass sie das Bild des Benutzers unter Verwendung der Vorrichtung (100) aufnimmt; und/oder • Gehirndaten des Benutzers, wobei die Vorrichtung (100) eine Gehirn-Computer-Schnittstelle umfasst, die konfiguriert ist, um die Gehirndaten des Benutzers zu erfassen; und/oder • biometrische Daten des Benutzers, wobei die Vorrichtung (100) einen biometrischen Sensor (z.B. einen Fingerabdrucksensor, einen Kamerasensor zur Gesichtsauthentifizierung, einen Irissensor, einen Spracherkennungssensor usw.) umfasst, der so konfiguriert ist, dass er die biometrischen Daten des Benutzers erfasst; und/oder • Informationen über eine drahtlose Netzwerkverbindung zwischen dem Gerät (100) und einem anderen Gerät.
die Vorrichtung (100) nach einem der Ansprüche 1 bis 5, wobei der anderssprachige Inhalt (110) ein oder mehrere Wörter in der zweiten Sprache umfasst; wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um: • Bestimmen einer jeweiligen Wortübersetzungsstufe für jedes Wort des einen oder der mehreren Wörter des anderssprachigen Inhalts (110), wobei die jeweilige Wortübersetzungsstufe eine Sprachfertigkeit darstellt, die erforderlich ist, um das Wort in die erste Sprache zu übersetzen, und • die Sprachfähigkeitsanforderungen (r_ls) des anderssprachigen Inhalts (110) unter Verwendung der ermittelten Wortübersetzungsstufen zu bestimmen.
die Vorrichtung (100) nach Anspruch 6, wobei der anderssprachige Inhalt (110) mindestens einen Satz umfasst, der aus einer Vielzahl von Wörtern in der zweiten Sprache besteht, wobei die Vielzahl von Wörtern das eine oder die mehreren Wörter umfasst; und wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um: • Bestimmen einer entsprechenden Wortübersetzungsstufe für jedes Wort der Vielzahl von Wörtern, • eine Zeitform des mindestens einen Satzes bestimmen, • Bestimmen eines Satzübersetzungsniveaus des mindestens einen Satzes unter Verwendung der bestimmten Wortübersetzungsniveaus und der bestimmten Zeitform des mindestens einen Satzes, wobei das Satzübersetzungsniveau eine Sprachkompetenz darstellt, die erforderlich ist, um den mindestens einen Satz in die erste Sprache zu übersetzen, und • die Sprachfähigkeitsanforderung (r_ls) des fremdsprachlichen Inhalts (110) unter Verwendung des ermittelten Satzübersetzungsniveaus bestimmen.
die Vorrichtung (100) nach einem der Ansprüche 1 bis 7, • wobei ein oder mehrere Bilder der Vielzahl von Bildern des Videos (104) geschriebenen Text als den anderssprachigen Inhalt (110) umfassen und wobei der Untertitel eine Übersetzung des geschriebenen Textes in die erste Sprache umfasst; und/oder • wobei ein Teil der Audiodaten gesprochenen Text als den anderssprachigen Inhalt (110) darstellt und wobei der Untertitel eine Übersetzung des gesprochenen Textes in die erste Sprache umfasst.
die Vorrichtung (100) nach einem der Ansprüche 1 bis 8, • wobei eines oder mehrere Bilder der Vielzahl von Bildern des Videos (104) geschriebenen Text als den anderssprachigen Inhalt (110) umfassen und wobei der Untertitel eine Übersetzung des geschriebenen Textes in die erste Sprache umfasst; und • wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um: ◯ einen Lesbarkeitswert bestimmen, der die Lesbarkeit des geschriebenen Textes angibt, ◯ bestimmen, ob der Lesbarkeitswert gleich oder kleiner als ein vordefinierter Lesbarkeitsschwellenwert ist, ◯ für den Fall, dass festgestellt wird, dass der Lesbarkeitswert gleich oder kleiner als der vordefinierte Lesbarkeitsschwellenwert ist, Anpassen der Sprachfähigkeitsanforderung (r_ls) des anderssprachigen Inhalts (110), um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt (110) in die erste Sprache zu übersetzen, und ◯ bestimmen, dass der Untertitel angezeigt wird, wenn dem Benutzer (300) der anderssprachige Inhalt (110) des Videos (104) präsentiert wird, falls die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache nicht den angepassten Sprachkenntnisanforderungen (r_ls) entsprechen.
die Vorrichtung (100) nach einem der Ansprüche 1 bis 9, • wobei ein Teil der Audiodaten gesprochenen Text als den anderssprachigen Inhalt (110) darstellt und wobei der Untertitel eine Übersetzung des gesprochenen Textes in die erste Sprache umfasst; und • wobei der eine oder die mehreren Prozessoren (102) konfiguriert sind, um: ◯ einen Hörbarkeitswert bestimmen, der die Hörbarkeit des gesprochenen Textes darstellt, ◯ bestimmen, ob der Hörbarkeitswert gleich oder kleiner als ein vordefinierter Hörbarkeitsschwellenwert ist, ◯ in dem Fall, dass festgestellt wird, dass der Hörbarkeitswert gleich oder kleiner als der vordefinierte Hörbarkeitsschwellenwert ist, Anpassen der Sprachfähigkeitsanforderung (r_ls) des anderssprachigen Inhalts (110), um die Sprachfähigkeit zu erhöhen, die erforderlich ist, um den anderssprachigen Inhalt (110) in die erste Sprache zu übersetzen, und ◯ bestimmen, dass der Untertitel angezeigt wird, wenn dem Benutzer (300) der anderssprachige Inhalt (110) des Videos (104) präsentiert wird, falls die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache nicht den Anforderungen an die angepassten Sprachkenntnisse entsprechen.
eine kopfgetragene Anzeige zur Darstellung von immersiven Medien für einen Benutzer, wobei die kopfgetragene Anzeige umfasst: • die Vorrichtung (100) nach einem der Ansprüche 1 bis 10, wobei das Video (104) ein immersives Video ist; und • eine Anzeigevorrichtung (206), die so konfiguriert ist, dass sie die Vielzahl von Bildern (106) des immersiven Videos und den Untertitel in Übereinstimmung mit den Untertiteldaten (112) anzeigt.
kopfgetragene Anzeige nach Anspruch 11, ferner umfassend: • eine Erfassungsvorrichtung (400), die so konfiguriert ist, dass sie einen Benutzer erfasst, der das am Kopf getragene Display trägt, wobei der eine oder die mehreren Prozessoren (102) der Vorrichtung (100) so konfiguriert sind, dass sie bestimmen, ob eine Sprachfertigkeit des erfassten Benutzers für die zweite Sprache die bestimmte Sprachfertigkeitsanforderung (r_ls) erfüllt.
kopfgetragene Anzeige nach Anspruch 12, • wobei die Erfassungsvorrichtung (400) eine Kamera umfasst, die so konfiguriert ist, dass sie ein Gesichtsbild eines Gesichts des Benutzers erfasst, wenn der Benutzer das am Kopf getragene Display trägt, und wobei der eine oder die mehreren Prozessoren (102) der Vorrichtung (100) so konfiguriert sind, dass sie den Benutzer unter Verwendung des erfassten Gesichtsbildes aus einer Vielzahl von Benutzern bestimmen; und/oder • wobei die Erkennungsvorrichtung (400) eine Gehirn-Computer-Schnittstelle umfasst, die so konfiguriert ist, dass sie, wenn der Benutzer das am Kopf befestigte Display trägt, ein Gehirnmuster des Benutzers erkennt und den Benutzer unter Verwendung des erkannten Gehirnmusters aus einer Vielzahl von Benutzern bestimmt.
kopfgetragene Anzeige nach einem der Ansprüche 11 bis 13, ferner umfassend: • einen Augenverfolgungssensor, der so konfiguriert ist, dass er Augenverfolgungsdaten erfasst, die eine Augenblickrichtung eines ersten Auges und/oder eines zweiten Auges des Benutzers, der die am Kopf befestigte Anzeige trägt, darstellen; und • wobei für den Fall, dass festgestellt wird, dass die Sprachkenntnisse (ls) des Benutzers (300) für die zweite Sprache nicht die festgestellte Sprachkenntnisanforderung (r_ls) erfüllen, der eine oder die mehreren Prozessoren (102) der Vorrichtung (100) so konfiguriert sind, dass sie: ◯ Bestimmen einer Fokustiefe des ersten Auges und/oder des zweiten Auges des Benutzers (300) unter Verwendung der erfassten Augenverfolgungsdaten, und ◯ die Anzeigevorrichtung so zu steuern, dass der Untertitel in einer Bildtiefe angezeigt wird, die der ermittelten Fokustiefe entspricht, wenn dem Benutzer (300) der anderssprachige Inhalt (110) des Videos (104) präsentiert wird.
Verfahren (300) zur selektiven Darstellung von Untertiteln, wobei das Verfahren (300) umfasst: • Empfangen eines Videos und entsprechender Untertiteldaten, wobei das Video eine Vielzahl von Bildern und entsprechende Audiodaten umfasst, wobei die Audiodaten eine erste Sprache des Videos darstellen, und wobei das Video einen Inhalt in einer anderen Sprache umfasst, der mit einer zweiten Sprache, die sich von der ersten Sprache unterscheidet, verbunden ist, wobei die Untertiteldaten einen Untertitel darstellen, der eine Übersetzung des Inhalts in der anderen Sprache in die erste Sprache (302) umfasst; • Bestimmen einer Sprachfähigkeitsanforderung des fremdsprachlichen Inhalts, wobei die Sprachfähigkeitsanforderung eine Sprachfähigkeit darstellt, die erforderlich ist, um den fremdsprachlichen Inhalt in die erste Sprache (304) zu übersetzen; • Bestimmen, ob eine Sprachfertigkeit eines Benutzers für die zweite Sprache die ermittelte Sprachfertigkeitsanforderung erfüllt (306); und • für den Fall, dass festgestellt wird, dass die Sprachkenntnisse des Benutzers für die zweite Sprache die festgestellten Anforderungen an die Sprachkenntnisse erfüllen, die Entscheidung, den Untertitel nicht anzuzeigen, wenn dem Benutzer der anderssprachige Inhalt des Videos präsentiert wird (308).