[go: up one dir, main page]

JP2025511766A - 顔のライブネス検出 - Google Patents

顔のライブネス検出 Download PDF

Info

Publication number
JP2025511766A
JP2025511766A JP2024559228A JP2024559228A JP2025511766A JP 2025511766 A JP2025511766 A JP 2025511766A JP 2024559228 A JP2024559228 A JP 2024559228A JP 2024559228 A JP2024559228 A JP 2024559228A JP 2025511766 A JP2025511766 A JP 2025511766A
Authority
JP
Japan
Prior art keywords
live
classifier
echo
features
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024559228A
Other languages
English (en)
Inventor
アヌシャ ブイ エス バミディパティ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2025511766A publication Critical patent/JP2025511766A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/08Systems for measuring distance only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/539Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/54Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00 with receivers spaced apart
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Otolaryngology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

顔のライブネスが、スピーカを介して極超短波(UHF)音声信号を放出することと、複数の音声検出器を用いて表面からのUHF音声信号の反射を検出することによってエコー信号を取得することと、エコー信号から複数の特徴量を抽出することと、表面がライブの顔であるか否かを判定するために、複数の特徴量に分類器を適用することとによって検出される。

Description

本開示は、コンピュータ可読媒体、方法、および装置に関する。
顔認識システムが、デバイスおよびサービスへの不正アクセスを防止するために利用される。顔認識システムの完全性は、保護されたデバイスおよびサービスへのアクセスを得ようとする許可されていない人物によって攻撃されてきた。近年、スマートフォンなどのモバイルデバイスが、モバイルデバイスへの不正アクセスを防止するために顔認識を利用している。
モバイルデバイスにおける顔認識システムの普及の広がりの結果として、顔認証の使用がスマートフォンなどのモバイルデバイスをロック解除するために利用の増えている方法であるため、モバイルデバイスは、顔のプレゼンテーション攻撃によって標的にされることが増えている。顔のプレゼンテーション攻撃としては、許可されたユーザの顔の画像を使用する2Dプリント攻撃、許可されたユーザの顔の動画を使用するリプレイ攻撃、およびより最近では、許可されたユーザの顔の3Dプリントされたマスクを使用する3Dマスク攻撃が挙げられる。
本開示の第1の例示的な態様によれば、コンピュータ可読媒体が、スピーカを介して極超短波(UHF)音声信号を放出することと、複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得することと、前記エコー信号から複数の特徴量を抽出することと、前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定することとを含む動作をコンピュータに実行させる、前記コンピュータによって実行可能な指示を含む。
本開示の第2の例示的な態様によれば、方法が、スピーカを介して極超短波(UHF)音声信号を放出することと、複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得することと、前記エコー信号から複数の特徴量を抽出することと、前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定することとを含む。
本開示の第3の例示的な態様によれば、装置が、複数の音声検出器と、スピーカと、前記スピーカを介して極超短波(UHF)音声信号を放出し、複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得し、前記エコー信号から複数の特徴量を抽出し、前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定するように構成された回路を含むコントローラとを備える。
本開示の態様は、添付の図面と併せて以下の詳細な説明を読めば最もよく理解される。業界の標準的な慣行にしたがって、様々な特徴は縮尺通りに描かれていないことに留意されたい。実際、様々な特徴の寸法は、説明を明確にするために任意に増減することがある。
本開示の少なくともいくつかの実施形態による、顔のライブネス検出のための装置の概略図の上面図である。 本開示の少なくともいくつかの実施形態による、顔のライブネス検出のための装置の概略図の正面図である。 本開示の少なくともいくつかの実施形態による、顔のライブネス検出のための装置の概略図の底面図である。 本開示の少なくともいくつかの実施形態による、不正アクセスを防止するための顔認識の動作フローである。 本開示の少なくともいくつかの実施形態による、顔のライブネス検出のための顔認識の動作フローである。 本開示の少なくともいくつかの実施形態による、エコー信号を取得するための顔認識の動作フローである。 本開示の少なくともいくつかの実施形態による、第1の特徴量抽出および分類器適用プロセスの動作フローである。 本開示の少なくともいくつかの実施形態による、特徴抽出のためにニューラルネットワークを訓練するための動作フローである。 本開示の少なくともいくつかの実施形態による、第2の特徴量抽出および分類器適用プロセスの動作フローである。 本開示の少なくともいくつかの実施形態による、第3の特徴量抽出および分類器適用プロセスの概略図である。 本開示の少なくともいくつかの実施形態による、顔のライブネス検出のためのハードウェア構成のブロック図である。
以下の開示は、提供される主題の様々な特徴を実施するための多くの様々な実施形態または例を提供する。以下、本開示を簡略化するために、構成要素、値、動作、材料、配置などの具体例を説明する。当然のことながら、これらは単なる例であり、限定することを意図するものではない。他の構成要素、値、動作、配置なども企図される。加えて、本開示は、様々な例において参照番号および/または文字を繰り返すことがある。この繰り返しは、単純化および明確化の目的での繰り返しであり、それ自体は、説明されている様々な実施形態および/または構成の間の関係を規定するものではない。
2Dプリント攻撃およびリプレイ攻撃を首尾よく検出するエコーベースの方法がいくつかある。しかしながら、既存のエコーベースの方法は、依然として3Dマスク攻撃に対して脆弱である。例えば、顔のライブネス検出のために視覚的特徴と共にレーダ送信機および受信機信号特徴を使用するエコーベースの方法、ならびに顔認証のためにエコーおよび視覚ランドマーク特徴を使用する方法がある。
このようなエコーベースの方法は、12kHz~20kHzの範囲の音声信号を使用し、これらの音声信号はほとんどのユーザに聴こえるため、ユーザに不便をもたらす。このようなエコーベースの方法は、通常、デバイスの上部または下部のいずれかにある単一のマイクロフォンのみを使用してエコー信号を取り込むため、顔深度の解像度がより低くなる。このようなエコーベースの方法は、3Dマスク攻撃によって日常的に危険にさらされている。
本明細書に記載の少なくともいくつかの実施形態は、受動的なモバイルライブネス検出のために極超短波(UHF)エコーベースの方法を利用する。本明細書に記載の少なくともいくつかの実施形態は、ハンドヘルドデバイスにおいて一般的に見られる特徴を使用することによってロバスト性を高めるエコーベースの方法を含む。本明細書に記載の少なくともいくつかの実施形態は、エコー信号を分析してより多くの特徴を抽出して、3Dマスク攻撃を検出する。
図1A、図1B、および図1Cは、本開示の少なくともいくつかの実施形態による、顔のライブネス検出のための装置100の概略図である。装置100は、マイクロフォン110と、マイクロフォン111と、スピーカ113と、カメラ115と、ディスプレイ117と、入力119とを備える。図1Bは、本開示の少なくともいくつかの実施形態による、装置100の概略図の正面図であり、上述の構成要素を示している。少なくともいくつかの実施形態では、装置100は、スピーカ113ならびに複数のマイクロフォン110および111がハンドヘルドデバイスに含まれるように、ハンドヘルドデバイス内にある。
少なくともいくつかの実施形態では、顔のライブネス検出のための装置が、複数の音声検出器を備える。少なくともいくつかの実施形態では、複数の音声検出器は、マイクロフォン110および111などの複数のマイクロフォンを含む。少なくともいくつかの実施形態では、マイクロフォン110および111は、オーディオ信号を電気信号に変換するように構成される。少なくともいくつかの実施形態では、マイクロフォン110および111は、オーディオ信号を、さらに処理可能な他の形態のエネルギーの信号に変換するように構成される。少なくともいくつかの実施形態では、マイクロフォン110および111はトランスデューサである。少なくともいくつかの実施形態では、マイクロフォン110および111は、任意の組み合わせで、圧縮マイクロフォン、ダイナミックマイクロフォンなどである。少なくともいくつかの実施形態では、マイクロフォン110および111は、通話、音声記録などのための可聴信号を検出するようにさらに構成される。
少なくともいくつかの実施形態では、複数の音声検出器が、第1の方向に向けられた第1の音声検出器と、第2の方向に向けられた第2の音声検出器とを含む。マイクロフォン110および111は、異なる方向からのオーディオ信号を受信するように向けられる。マイクロフォン110は、装置100の上側に配置される。図1Aは、本開示の少なくともいくつかの実施形態による、装置100の概略図の上面図であり、上方に開いたマイクロフォン110を示している。マイクロフォン111は、装置100の下側に配置される。図1Cは、本開示の少なくともいくつかの実施形態による、装置100の概略図の底面図であり、下方に開いたマイクロフォン110を示している。少なくともいくつかの実施形態では、音声検出器は、音声受信の角度が異なる限り、右側および左側、傾斜角、または任意の組み合わせなどの他の方向に向けられる。少なくともいくつかの実施形態では、異なる向きの両方のマイクロフォンによって取り込まれたエコー信号の反射パターンが、音響吸収および後方散乱情報と共に、2Dおよび3Dの顔のプレゼンテーション攻撃を検出するために利用される。少なくともいくつかの実施形態では、UHF信号反射を取り込むために異なる向きのマイクロフォンを使用することは、テンプレートマッチングによってエコー信号を分離するのに役立ち、信号対雑音比を改善する。少なくともいくつかの実施形態では、複数の音声検出器は3つ以上の検出器を含む。
スピーカ113は、装置100の前面に配置される。少なくともいくつかの実施形態では、スピーカ113は、UHF信号を放出するように構成される。少なくともいくつかの実施形態では、スピーカ113は、ラウドスピーカ、圧電スピーカなどである。少なくともいくつかの実施形態では、スピーカ113は、UHF信号がカメラ115によって撮像されている表面から反射するように、カメラ115の光軸と実質的に同じ方向にUHF信号を放出するように構成される。少なくともいくつかの実施形態では、スピーカ113は、電気信号をオーディオ信号に変換するように構成されたトランスデューサである。少なくともいくつかの実施形態では、スピーカ113は、動画および音楽の再生などのための可聴信号を放出するようにさらに構成される。
少なくともいくつかの実施形態では、ハンドヘルドデバイスはカメラ115をさらに備える。少なくともいくつかの実施形態では、カメラ115は、装置100を保持するユーザの顔など、装置100の前方にある物体を撮像するように構成される。少なくともいくつかの実施形態では、カメラ115は、可視光信号を電気信号または任意の他のさらなる処理可能な信号に変換するように構成された画像センサを備える。
ディスプレイ117は、装置100の前面に配置される。少なくともいくつかの実施形態では、ディスプレイ117は、グラフィカルユーザインターフェースなどの可視画像を生成するように構成される。少なくともいくつかの実施形態では、ディスプレイ117は、液晶ディスプレイ(LCD)、発光ダイオード(LED)アレイ、またはハンドヘルドデバイスに適した任意の他のディスプレイ技術を含む。少なくともいくつかの実施形態では、ディスプレイ117は、タッチスクリーンなどのタッチ感知式のものであり、触覚入力を受け付けるようにさらに構成される。少なくともいくつかの実施形態では、ディスプレイ117は、ユーザがカメラをユーザの顔に向けるのを支援するために、カメラ115によって現在取り込まれている画像を示すように構成される。
入力119は、装置100の前面に配置される。少なくともいくつかの実施形態では、入力119は、触覚入力を受け付けるように構成される。少なくともいくつかの実施形態では、入力119は、ボタン、圧力センサ、指紋センサ、または任意の他の形態の触覚入力であり、それらの組み合わせを含む。
図2は、本開示の少なくともいくつかの実施形態による、不正アクセスを防止するための顔認識の動作フローである。動作フローは、不正アクセスを防止するための顔認識の方法を提供する。少なくともいくつかの実施形態では、本方法の1つ以上の動作が、以下に説明する図9に示すコントローラおよび装置などの、特定の動作を実行するためのセクションを含む装置のコントローラによって実行される。
S220において、コントローラまたはそのセクションは、表面を撮像する。少なくともいくつかの実施形態では、コントローラは、カメラで表面を撮像して、表面画像を取得する。少なくともいくつかの実施形態では、コントローラは、図1の装置100などのハンドヘルドデバイスのユーザの顔を撮像する。少なくともいくつかの実施形態では、コントローラは、表面を撮像して、画像処理のためのデジタル画像を生成する。
S221において、コントローラまたはそのセクションは、表面画像を分析する。少なくともいくつかの実施形態では、コントローラは、表面画像を分析して、表面が顔であるか否かを判定する。少なくともいくつかの実施形態では、コントローラは、表面の画像を分析して、さらなる分析のために、目、鼻、口、耳などの顔の特徴を検出する。少なくともいくつかの実施形態では、コントローラは、顔認識のために顔特徴を正規化するために、回転、クロップ、または他の空間操作を実行する。
S222において、コントローラまたはそのセクションは、表面が顔であるか否かを判定する。少なくともいくつかの実施形態では、コントローラは、S221における表面画像分析に基づいて、表面が顔であるか否かを判定する。表面が顔であるとコントローラが判定した場合、動作フローはS223におけるライブネス検出に進む。表面が顔ではないとコントローラが判定した場合、動作フローはS220における表面撮像に戻る。
S223において、コントローラまたはそのセクションは、表面のライブネスを検出する。少なくともいくつかの実施形態では、コントローラは、2Dおよび3Dの顔のプレゼンテーション攻撃を検出する。少なくともいくつかの実施形態では、コントローラは、図3を参照して以下に説明するライブネス検出プロセスを実行する。
S224において、コントローラまたはそのセクションは、表面がライブであるか否かを判定する。少なくともいくつかの実施形態では、コントローラは、S223におけるライブネス検出に基づいて、表面がライブの人の顔であるか否かを判定する。表面がライブであるとコントローラが判定した場合、動作フローはS226における表面識別に進む。表面がライブではないとコントローラが判定した場合、動作フローはS229におけるアクセス拒否に進む。
S226において、コントローラまたはそのセクションは、表面を識別する。少なくともいくつかの実施形態では、コントローラは、表面の幾何学的または測光的特徴と、身元が把握されている顔の特徴との比較などの、顔認識アルゴリズムを適用する。少なくともいくつかの実施形態では、コントローラは、表面の深層特徴と身元が把握されている各顔の深層特徴との間の距離測定値を取得し、最短距離に基づいて表面を識別する。少なくともいくつかの実施形態では、コントローラは、表面が顔であると判定し、表面がライブの顔であると判定したことに応じて、表面画像を分析することによって表面を識別する。
S227において、コントローラまたはそのセクションは、身元が許可されているか否かを判定する。少なくともいくつかの実施形態では、コントローラは、S226において識別されたユーザがアクセスを許可されているか否かを判定する。身元が許可されているとコントローラが判定した場合、動作フローはS228におけるアクセス許可に進む。身元が許可されていないとコントローラが判定した場合、動作フローはS229におけるアクセス拒否に進む。
S228において、コントローラまたはそのセクションは、アクセスを許可する。少なくともいくつかの実施形態では、コントローラは、許可されたユーザとして表面を識別したことに応じて、デバイスまたはサービスのうちの少なくとも一方へのアクセスを許可する。少なくともいくつかの実施形態では、コントローラは、許可されていないユーザとして表面を識別していないことに応じて、デバイスまたはサービスのうちの少なくとも一方へのアクセスを許可する。少なくともいくつかの実施形態では、アクセスが許可されたデバイスは、図1のハンドヘルドデバイスなどの装置である。少なくともいくつかの実施形態では、サービスは、装置によって実行されるプログラムまたはアプリケーションである。
S229において、コントローラまたはそのセクションは、アクセスを拒否する。少なくともいくつかの実施形態では、コントローラは、許可されたユーザとして表面を識別していないことに応じて、デバイスまたはサービスのうちの少なくとも一方へのアクセスを拒否する。少なくともいくつかの実施形態では、コントローラは、許可されていないユーザとして表面を識別したことに応じて、デバイスまたはサービスのうちの少なくとも一方へのアクセスを拒否する。
少なくともいくつかの実施形態では、コントローラは、異なる順序で動作を実行する。少なくともいくつかの実施形態では、コントローラは、表面画像を分析する前に、またはさらには表面を撮像する前に、ライブネスを検出する。少なくともいくつかの実施形態では、コントローラは、表面を識別した後、およびさらには身元が許可されているか否かを判定した後に、ライブネスを検出する。少なくともいくつかの実施形態では、動作フローは、アクセス拒否の後に繰り返されるが、待ち時間の実施、装置の電源切断、装置の自己破壊、さらなる要求動作などまで、所定の数のアクセス拒否に対してのみ繰り返される。
図3は、本開示の少なくともいくつかの実施形態による、顔のライブネス検出のための動作フローである。動作フローは、顔のライブネス検出の方法を提供する。少なくともいくつかの実施形態では、本方法の1つ以上の動作が、以下に説明する図9に示すコントローラおよび装置などの、特定の動作を実行するためのセクションを含む装置のコントローラによって実行される。
S330において、放出セクションは、ライブネス検出音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、スピーカを介して極超短波(UHF)音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、カメラによる顔の検出に応じてUHF音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、顔を識別したことに応じてUHF音声信号を放出する。
少なくともいくつかの実施形態では、放出セクションは、実質的に不可聴なものとしてUHF音声信号を放出する。実質的に不可聴な音声信号は、ほとんどの人が聴くことができない、または意識的に気付かない音声信号である。音声信号の周波数が高くなるほど、音声信号が聴こえなくなる人数が多くなる。少なくともいくつかの実施形態では、放出セクションは、18~22kHzのUHF音声信号を放出する。また、音声信号の波形は、音声信号が聴こえなくなる人数にも影響する。少なくともいくつかの実施形態では、放出セクションは、正弦波および鋸歯状波を含むUHF音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、ユーザの顔を照らすために携帯電話を介して18~22kHzの範囲の正弦波および鋸歯波の組み合わせであるUHF音声信号を放出する。
S332において、取得セクションは、エコー信号を取得する。少なくともいくつかの実施形態では、取得セクションは、複数の音声検出器によって表面からのUHF音声信号の反射を検出することによってエコー信号を取得する。少なくともいくつかの実施形態では、取得セクションは、複数の音声検出器の生の記録を、表面から放出された音声信号の1つ以上のエコーを表す単一の信号に変換する。少なくともいくつかの実施形態では、取得セクションは、図4に関して以下に説明するエコー信号取得プロセスを実行する。
S334において、抽出セクションは、エコー信号から特徴量を抽出する。少なくともいくつかの実施形態では、抽出セクションは、エコー信号から複数の特徴量を抽出する。少なくともいくつかの実施形態では、抽出セクションは、特定の特性を計算する式を使用することなどによって、エコー信号からハンドクラフト特徴量を抽出する。少なくともいくつかの実施形態では、抽出セクションは、圧縮された特徴表現を抽出するために、エコー信号に1つ以上のニューラルネットワークを適用する。少なくともいくつかの実施形態では、抽出セクションは、図5、図7、または図8に関して以下に説明する特徴量抽出プロセスを実行する。
S336において、適用セクションは、特徴量に分類器を適用する。少なくともいくつかの実施形態では、適用セクションは、複数の特徴量に分類器を適用して、表面がライブの顔であるか否かを判定する。少なくともいくつかの実施形態では、適用セクションは、各特徴量に閾値を適用して、特徴量のバイナリ分類をライブの人の顔と矛盾しない、または矛盾するとして作成する。少なくともいくつかの実施形態では、適用セクションは、ニューラルネットワーク分類器を特徴量の連結に適用して、ライブの人の顔と矛盾しない、または矛盾するとして特徴量のバイナリ分類を生成する。少なくともいくつかの実施形態では、適用セクションは、図5、図7、または図8に関して以下に説明する分類器適用プロセスを実行する。
図4は、本開示の少なくともいくつかの実施形態による、エコー信号を取得するための動作フローである。動作フローは、エコー信号取得の方法を提供する。少なくともいくつかの実施形態では、本方法の1つ以上の動作は、以下に説明する図9に示す装置などの装置の取得セクションによって実行される。少なくともいくつかの実施形態では、動作S440、S442、およびS444は、装置の各音声検出器からの音声検出に対して連続して実行され、各音声検出は、それぞれの音声検出器によって取り込まれたエコー信号および/または反射音声信号を含む。
S440において、取得セクションまたはそのサブセクションは、時間フィルタで反射を分離する。少なくともいくつかの実施形態では、取得セクションは、時間フィルタでUHF音声信号の反射を分離する。少なくともいくつかの実施形態では、取得セクションは、音声信号放出の時点から測定された所定の時間フレーム外の検出のデータを却下、破棄、または無視する。少なくともいくつかの実施形態では、所定の時間フレームは、表面が装置から25~50cmの距離にあるという仮定に基づいてエコー反射を含むように計算され、これは、デバイスのカメラを自身の顔に向けるときのハンドヘルドデバイスからのユーザの顔の典型的な距離である。
S442において、取得セクションまたはそのサブセクションは、音声検出を放出された音声信号と比較する。少なくともいくつかの実施形態では、反復が進むにつれて、取得セクションは、複数の音声検出器の各音声検出器の検出と、放出されたUHF音声信号とを比較する。少なくともいくつかの実施形態では、取得セクションは、検出における雑音からエコーを判別するためにテンプレートマッチングを実行する。
S444において、取得セクションまたはそのサブセクションは、音声検出から雑音を除去する。少なくともいくつかの実施形態では、取得セクションは、UHF音声信号の反射から雑音を除去する。少なくともいくつかの実施形態では、取得セクションは、S442においてエコーから判別された雑音を除去する。
S446において、取得セクションまたはそのサブセクションは、すべての検出が処理されたか否かを判定する。未処理の検出が残っていると取得セクションが判定した場合、動作フローはS440における反射分離に戻る。すべての検出が処理されたと取得セクションが判定した場合、動作フローはS449におけるマージに進む。
S449において、取得セクションまたはそのサブセクションは、各音声検出の残りのデータを単一のエコー信号にマージする。少なくともいくつかの実施形態では、取得セクションは、各音声検出の残りのデータを合計する。少なくともいくつかの実施形態では、取得セクションは、合計前の表面からの相対距離に基づいて各音声検出の残りのデータをオフセットする。少なくともいくつかの実施形態では、取得セクションは、マージ後にさらなる雑音除去プロセスを適用する。少なくともいくつかの実施形態では、取得セクションは、結果として得られる信号対雑音比が個々の音声検出の信号対雑音比よりも大きくなるように、各音声検出の残りのデータをマージする。少なくともいくつかの実施形態では、取得セクションは、結果として得られる信号対雑音比を増加させるために、音声検出間の時間シフトまたは遅延を検出する。少なくともいくつかの実施形態では、取得セクションは、音声検出間の相互相関を取得して、音声検出間の最大相関の時間フレームを決定し、決定された最大相関の時間フレームに一致するように各音声検出のタイミングをシフトし、音声検出を合計する。
図5は、本開示の少なくともいくつかの実施形態による、第1の特徴量抽出および分類器適用プロセスの動作フローである。動作フローは、特徴量抽出および分類器適用の第1の方法を提供する。少なくともいくつかの実施形態では、本方法の1つ以上の動作は、以下に説明する図9に示す装置などの装置の抽出セクションおよび適用セクションによって実行される。
S550において、抽出セクションまたはそのサブセクションは、エコー信号から表面の深度を推定する。少なくともいくつかの実施形態では、エコー信号から複数の特徴量を抽出することは、エコー信号から表面の深度を推定することを含む。少なくともいくつかの実施形態では、抽出セクションは、擬似深度推定を実行する。少なくともいくつかの実施形態では、抽出セクションは、最初の反射による距離と最後の反射による距離との間の差分にしたがって表面の深度を推定する。少なくともいくつかの実施形態では、距離は、UHF音声信号の放出と反射の検出との間の遅延量に音速を乗じたものの半分として計算される。少なくともいくつかの実施形態では、深度Dは、以下の式にしたがって計算される。
Figure 2025511766000002
ここで、Vは音速であり、tは最後の反射が検出された時間であり、tは最初の反射が検出された時間であり、tはUHF音声信号が放出された時間である。
S551において、適用セクションまたはそのサブセクションは、推定された深度を深度閾値と比較する。少なくともいくつかの実施形態では、分類器を適用することは、深度を深度閾値と比較することを含む。少なくともいくつかの実施形態では、適用セクションは、推定された深度が深度閾値よりも大きいことに応じて、推定された深度がライブの人の顔と矛盾しないと判定する。少なくともいくつかの実施形態では、適用セクションは、推定された深度が深度閾値以下であることに応じて、推定された深度がライブの人の顔と矛盾すると判定する。少なくともいくつかの実施形態では、深度閾値は、顔検出システムの管理者によって調整可能なパラメータである。少なくともいくつかの実施形態では、深度推定は2D攻撃を防止するためのものにすぎないため、深度閾値は小さい。少なくともいくつかの実施形態では、最初の反射の深度と比較したすべての最後の反射の深度が同じである場合、適用セクションは、表面が平面の2D表面であると結論付ける。
S552において、抽出セクションまたはそのサブセクションは、エコー信号から表面の減衰係数を決定する。少なくともいくつかの実施形態では、エコー信号から複数の特徴量を抽出することは、エコー信号から表面の減衰係数を決定することを含む。放出されたUHF音声信号が様々な表面に当たると、信号は吸収され、反射され、散乱される。特に、信号の吸収および散乱は信号の減衰をもたらす。材料特性が異なれば、信号減衰量が異なる。少なくともいくつかの実施形態では、抽出セクションは、以下の式を利用して減衰係数を決定する。
Figure 2025511766000003
ここで、A(z,f)はエコー(減衰)信号の振幅であり、Aは放出されたUHF音声信号の振幅であり、αは、物体および材料に応じて変化する吸収係数である。少なくともいくつかの実施形態では、3Dマスクおよびライブの顔の材料が異なる減衰係数をもたらすため、減衰係数は、3Dマスクをライブの顔と区別するために単独で使用される。
S553において、適用セクションまたはそのサブセクションは、決定された減衰係数を減衰係数閾値範囲と比較する。少なくともいくつかの実施形態では、分類器を適用することは、減衰係数を減衰係数閾値範囲と比較することを含む。少なくともいくつかの実施形態では、適用セクションは、決定された減衰係数が減衰係数閾値範囲内にあることに応じて、決定された減衰係数がライブの人の顔と矛盾しないと判定する。少なくともいくつかの実施形態では、適用セクションは、決定された減衰係数が減衰係数閾値範囲内にはないことに応じて、決定された減衰係数がライブの人の顔と矛盾すると判定する。少なくともいくつかの実施形態では、減衰係数閾値範囲は、顔検出システムの管理者によって調整可能なパラメータを含む。少なくともいくつかの実施形態では、ライブの人の顔の減衰係数はほとんど変動がないため、減衰係数閾値範囲は小さい。
S554において、抽出セクションまたはそのサブセクションは、エコー信号から表面の後方散乱係数を推定する。少なくともいくつかの実施形態では、エコー信号から複数の特徴量を抽出することは、エコー信号から表面の後方散乱係数を推定することを含む。エコー信号は、エコー信号が反射された材料に応じて変化する後方散乱特性を有する。少なくともいくつかの実施形態では、抽出セクションは、後方散乱係数を推定して、入力が3Dマスクであるか現実の顔であるかを分類する。「後方散乱係数」は、物体が超音波エネルギーを散乱させる有効性を記述するパラメータである。少なくともいくつかの実施形態では、後方散乱係数η(w)は、2つの測定値、後方散乱信号のパワースペクトル、および較正プロセスから以前に得られた平坦な基準面からの反射信号のパワースペクトルから取得される。信号の正規化された後方散乱信号パワースペクトルは、以下のように与えられ得る。
Figure 2025511766000004
ここで、S(k)は第lの走査線セグメントの短時間窓フーリエ変換であり、Sref(k)は反射係数γを有する反射体からの後方散乱信号の短時間窓フーリエ変換(windowed short-time Fourier transform)であり、α(k)は減衰を補償する関数であり、Lはデータブロックに含まれる走査線セグメントの数である。基準面S(k)からの反射信号に対するパワースペクトルも同様に算出される。次いで、後方散乱係数η(w)は以下のように計算される。
Figure 2025511766000005
ここで、
Figure 2025511766000006
ここで、εは伝送損失を表し、ρは媒体の音響インピーダンスであり、ρは表面の音響インピーダンスである。
S555において、適用セクションまたはそのサブセクションは、推定された後方散乱係数を後方散乱係数閾値範囲と比較する。少なくともいくつかの実施形態では、分類器を適用することは、後方散乱係数を後方散乱係数閾値範囲と比較することを含む。少なくともいくつかの実施形態では、適用セクションは、推定された後方散乱係数が後方散乱係数閾値範囲内にあることに応じて、推定された後方散乱係数がライブの人の顔と矛盾しないと判定する。少なくともいくつかの実施形態では、適用セクションは、推定された後方散乱係数が後方散乱係数閾値範囲内にはないことに応じて、推定された後方散乱係数がライブの人の顔と矛盾すると判定する。少なくともいくつかの実施形態では、後方散乱係数閾値範囲は、顔検出システムの管理者によって調整可能なパラメータを含む。少なくともいくつかの実施形態では、ライブの人の顔の後方散乱係数はほとんど変動がないため、後方散乱係数閾値範囲は小さい。
S556において、抽出セクションまたはそのサブセクションは、エコー信号にニューラルネットワークを適用して、特徴ベクトルを取得する。少なくともいくつかの実施形態では、エコー信号から複数の特徴量を抽出することが、エコー信号にニューラルネットワークを適用して、特徴ベクトルを取得することを含み、ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されている。少なくともいくつかの実施形態では、抽出セクションは、畳み込みニューラルネットワークをエコー信号に適用して、深層特徴ベクトルを取得する。少なくともいくつかの実施形態では、ニューラルネットワークは、エコー信号に適用されると特徴ベクトルを出力するように訓練される。少なくともいくつかの実施形態では、ニューラルネットワークは、図6を参照して以下に説明する訓練プロセスを経る。
S557において、適用セクションまたはそのサブセクションは、特徴ベクトルに分類層を適用する。少なくともいくつかの実施形態では、分類器を適用することは、特徴ベクトルに分類層を適用することを含む。少なくともいくつかの実施形態では、適用セクションは、分類層からの第1の出力値に応じて、エコー信号がライブの人の顔と矛盾しないと判定する。少なくともいくつかの実施形態では、適用セクションは、分類層からの第2の出力値に応じて、エコー信号がライブの人の顔と矛盾すると判定する。少なくともいくつかの実施形態では、分類層は、異常検出分類器である。少なくともいくつかの実施形態では、分類層は、特徴ベクトルに適用されるとバイナリ値を出力するように訓練され、バイナリ値は、エコー信号がライブの人の顔と矛盾しないか否かを表す。少なくともいくつかの実施形態では、分類層は、図6を参照して以下に説明する訓練プロセスを経る。
S558において、適用セクションまたはそのサブセクションは、各特徴がライブの人の顔と矛盾しないか否かの結果に重み付けする。少なくともいくつかの実施形態では、適用セクションは、表面がライブの顔であるか否かの判定要素として、特徴の強度に比例して各結果に重み付けを適用する。少なくともいくつかの実施形態では、重みは、顔認識システムの管理者によって調整可能なパラメータである。少なくともいくつかの実施形態では、重みは、訓練可能なパラメータである。
S559において、適用セクションは、重み付けされた結果をライブネス閾値と比較する。少なくともいくつかの実施形態では、重み付けされた結果は合計され、単一のライブネス閾値と比較される。少なくともいくつかの実施形態では、重み付けされた結果は、ライブネス閾値との比較前に、より複雑な計算を経る。少なくともいくつかの実施形態では、CNN(畳み込みニューラルネットワーク)から取得された特徴ベクトルは、ハンドクラフト特徴と組み合わされて、表面がライブの人の顔であるか否かを判定するための最終スコアを取得する。少なくともいくつかの実施形態では、適用セクションは、重み付けされた結果の合計がライブネス閾値よりも大きいことに応じて、表面がライブの人の顔であると判定する。少なくともいくつかの実施形態では、適用セクションは、重み付けされた結果の合計がライブネス閾値以下であることに応じて、表面がライブの人の顔ではないと判定する。
図6は、本開示の少なくともいくつかの実施形態による、特徴抽出のためにニューラルネットワークを訓練するための動作フローである。動作フローは、特徴抽出のためにニューラルネットワークを訓練する方法を提供する。少なくともいくつかの実施形態では、本方法の1つ以上の動作は、以下に説明する図9に示す装置などの装置のコントローラによって実行される。
S660において、放出セクションは、ライブネス検出音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、スピーカを介して極超短波(UHF)音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、図3のライブネス検出プロセス中のS330と同様にライブネス検出音声信号を放出する。少なくともいくつかの実施形態では、放出セクションは、ライブの人の顔であることが分かっている表面、または3Dマスク、2Dプリント、あるいはリプレイ攻撃を示す画面などではない表面に向かって、ライブネス検出音声信号を放出する。
S661において、取得セクションは、エコー信号サンプルを取得する。少なくともいくつかの実施形態では、取得セクションは、複数の音声検出器を用いて表面からのUHF音声信号の反射を検出することによってエコー信号サンプルを取得する。少なくともいくつかの実施形態では、取得セクションは、図3のライブネス検出プロセス中のS332と同様にエコー信号サンプルを取得する。少なくともいくつかの実施形態では、取り込まれ処理されたエコー信号は、1分類の分類器を訓練して、現実の顔以外の任意の分布が異常と見なされ、現実ではないと分類されるように、現実の顔のCNN(畳み込みニューラルネットワーク)特徴を取得するために使用される。
S663において、抽出セクションは、特徴ベクトルを取得するために、ニューラルネットワークを適用する。少なくともいくつかの実施形態では、抽出セクションは、ニューラルネットワークをエコー信号サンプルに適用して、特徴ベクトルを取得する。S663におけるニューラルネットワーク適用の最初の反復では、ニューラルネットワークは、少なくともいくつかの実施形態ではランダム値として初期化される。そのため、取得された特徴ベクトルは、あまりライブネスを決定するようなものではないことがある。反復が進むにつれて、ニューラルネットワークの重みが調整され、取得された特徴ベクトルがライブネスを決定するようなものになる。
S664において、適用セクションは、表面の分類を決定するために、特徴ベクトルに分類層を適用する。少なくともいくつかの実施形態では、分類層は、特徴ベクトルがライブの人の顔と矛盾しないことを示す分類、または特徴ベクトルがライブの人の顔と矛盾することを示す分類のいずれかを生成するバイナリ分類器である。
S666において、適用セクションは、ニューラルネットワークおよび分類層のパラメータを調整する。少なくともいくつかの実施形態では、適用セクションは、S664において分類層によって表面がライブの人の顔であるか否かに関する既知の情報を考慮して判定された分類が正しいか否かに基づいて、損失関数にしたがってニューラルネットワークおよび分類層の重みを調整する。少なくともいくつかの実施形態では、訓練することは、出力された分類と対応するラベルとの比較に基づいてニューラルネットワークおよび分類層のパラメータを調整することを含む。少なくともいくつかの実施形態では、重みの勾配は、逆伝播のプロセスを通じて、分類層の出力層からニューラルネットワークを遡って経由して計算され、重みは新たに計算された勾配にしたがって更新される。少なくともいくつかの実施形態では、ニューラルネットワークのパラメータは、S663およびS664における動作の反復ごとの後に調整されない。少なくともいくつかの実施形態では、反復が進むにつれて、コントローラは、複数のエコー信号サンプルを使用して分類層とともにニューラルネットワークを訓練し、各エコー信号サンプルはライブまたは非ライブとしてラベル付けされる。
S668において、コントローラまたはそのセクションは、すべてのエコー信号サンプルが処理されたか否かを判定する。少なくともいくつかの実施形態では、コントローラは、エコー信号サンプルのバッチが完全に処理されたことに応じて、またはニューラルネットワークの解が収束したこと、損失関数の損失値が閾値を下回ったことなどの他の何らかの終了条件に応じて、すべてのサンプルが処理されたと判定する。コントローラが、未処理のエコー信号サンプルが残っていると判定した場合、または別の終了条件がまだ満たされていないと判定した場合、動作フローは次のサンプル(S669)のS660における信号放出に戻る。コントローラが、すべてのエコー信号サンプルが処理された、または別の終了条件が満たされたと判定した場合、動作フローは終了する。
少なくともいくつかの実施形態では、S660における信号放出およびS661におけるエコー信号取得は、S663、S664、およびS666における動作の反復に進む前にサンプルのバッチに対して実行される。
図7は、本開示の少なくともいくつかの実施形態による、第2の特徴量抽出および分類器適用プロセスの動作フローである。動作フローは、特徴量抽出および分類器適用の第2の方法を提供する。少なくともいくつかの実施形態では、本方法の1つ以上の動作は、以下に説明する図9に示す装置などの装置の抽出セクションおよび適用セクションによって実行される。
S770において、抽出セクションまたはそのサブセクションは、エコー信号から表面の深度を推定する。S770における深度推定は、異なって記載されている点を除いて、図5のS550における深度推定と実質的に同様である。
S772において、抽出セクションまたはそのサブセクションは、エコー信号から表面の減衰係数を決定する。S772における減衰係数決定は、異なって記載されている点を除いて、図5のS552における減衰係数決定と実質的に同様である。
S774において、抽出セクションまたはそのサブセクションは、エコー信号から表面の後方散乱係数を推定する。S774における後方散乱係数推定は、異なって記載されている点を除いて、図5のS554における後方散乱係数推定と実質的に同様である。
S776において、抽出セクションまたはそのサブセクションは、エコー信号にニューラルネットワークを適用して、特徴ベクトルを取得する。S776におけるニューラルネットワーク適用は、異なって記載されている点を除いて、図5のS556におけるニューラルネットワーク適用と実質的に同様である。
少なくともいくつかの実施形態では、抽出セクションは、エコー信号から特徴量を抽出するために、S770、S772、S774、およびS776の動作を実行する。少なくともいくつかの実施形態では、エコー信号から複数の特徴量を抽出することが、エコー信号から表面の深度を推定することと、エコー信号から表面の減衰係数を決定することと、エコー信号から表面の後方散乱係数を推定することと、エコー信号にニューラルネットワークを適用して特徴ベクトルを取得するためことであって、ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されている、こととを含む。
S778において、抽出セクションまたはそのサブセクションは、特徴量をマージする。少なくともいくつかの実施形態では、抽出セクションは、S772からの推定された深度、S774からの決定された減衰係数、S774からの推定された後方散乱係数、およびS776からの特徴ベクトルをマージする。少なくともいくつかの実施形態では、抽出セクションは、特徴量を単一の文字列に連結し、これにより、特徴ベクトルに含まれる特徴が増加する。
S779において、適用セクションまたはそのサブセクションは、マージされた特徴量に分類器を適用する。少なくともいくつかの実施形態では、分類器を適用することは、特徴ベクトル、深度、減衰係数、および後方散乱係数に分類器を適用することを含み、分類器は、エコー信号抽出特徴量サンプルをライブまたは非ライブとして分類するように訓練される。少なくともいくつかの実施形態では、分類器は、特徴量の連結に適用される。少なくともいくつかの実施形態では、分類器は、異常検出分類器である。少なくともいくつかの実施形態では、分類器は、マージされた特徴量に適用されるとバイナリ値を出力するように訓練され、バイナリ値は、エコー信号がライブの人の顔と矛盾しないか否かを表す。少なくともいくつかの実施形態では、分類器は、図6の訓練プロセスと同様の訓練プロセスを経るが、ただし、分類器訓練プロセスが、複数のエコー信号抽出特徴量サンプルを使用して分類器とともにニューラルネットワークを訓練することであって、各エコー信号抽出特徴量サンプルがライブまたは非ライブとラベル付けされる、ことを含み、訓練するステップが、出力された分類と対応するラベルとの比較に基づいてニューラルネットワークおよび分類器のパラメータを調整することを含むことを除く。
図8は、本開示の少なくともいくつかの実施形態による、第3の特徴量抽出および分類器適用プロセスの概略図である。この図は、エコー信号892、深度推定セクション884A、減衰係数決定セクション884B、後方散乱係数推定セクション884C、畳み込みニューラルネットワーク894A、分類器894B、深度推定896A、減衰係数決定896B、後方散乱係数推定896C、特徴ベクトル896D、および分類898を含む。
エコー信号892は、深度推定セクション884A、減衰係数決定セクション884B、後方散乱係数推定セクション884C、および畳み込みニューラルネットワーク894Aに入力される。エコー信号892の入力に応じて、深度推定セクション884Aは深度推定896Aを出力し、減衰係数決定セクション884Bは減衰係数決定896Bを出力し、後方散乱係数推定セクション884Cは後方散乱係数推定896Cを出力し、畳み込みニューラルネットワーク894Aは特徴ベクトル896Dを出力する。
少なくともいくつかの実施形態では、深度推定896A、減衰係数決定896B、および後方散乱係数推定896Cは、正規化または閾値との比較なしの実際の値である。少なくともいくつかの実施形態では、深度推定896A、減衰係数決定896B、および後方散乱係数推定896Cは、正規化された値である。少なくともいくつかの実施形態では、深度推定896A、減衰係数決定896B、および後方散乱係数推定896Cは、図5に関して説明した閾値などのそれぞれの閾値との比較の結果を表すバイナリ値である。
深度推定896A、減衰係数決定896B、後方散乱係数推定896C、および特徴ベクトル896Dは、分類器894Bへの入力を形成するために組み合わされる。少なくともいくつかの実施形態では、深度推定896A、減衰係数決定896B、後方散乱係数推定896C、および特徴ベクトル896Dは、分類器894Bへの入力のために特徴量の単一の文字列へと連結される。
分類器894Bは、特徴量の入力に応じて、分類898を出力するように訓練される。分類898は、エコー信号に関連付けられた表面がライブの人の顔と矛盾しないか否かを表す。
図9は、本開示の少なくともいくつかの実施形態による、顔のライブネス検出のためのハードウェア構成のブロック図である。
例示的なハードウェア構成は、マイクロフォン910/911、スピーカ913、カメラ915、および触覚入力919と相互作用し、ネットワーク907と通信する装置900を含む。少なくともいくつかの実施形態では、装置900は、マイクロフォン910/911、スピーカ913、カメラ915、および触覚入力919を組み込まれる。少なくともいくつかの実施形態では、装置900は、物理ネットワーク機能デバイスアクセスのための動作を実行するためのコンピュータ可読指示を実行するコンピュータシステムである。
装置900は、コントローラ902と、ストレージユニット904と、通信インターフェース906と、入出力インターフェース908とを備える。少なくともいくつかの実施形態では、コントローラ902は、プロセッサまたはプログラム可能回路に指示にしたがって動作を実行させるための指示を実行するプロセッサまたはプログラム可能回路を含む。少なくともいくつかの実施形態では、コントローラ902は、アナログもしくはデジタルのプログラム可能回路、またはそれらの任意の組み合わせを含む。少なくともいくつかの実施形態では、コントローラ902は、通信を介して相互作用する物理的に分離されたストレージまたは回路を備える。少なくともいくつかの実施形態では、ストレージユニット904は、指示の実行中にコントローラ902がアクセスするための実行可能データおよび非実行可能データを格納することができる不揮発性コンピュータ可読媒体を含む。通信インターフェース906は、ネットワーク907との間でデータを送受信する。入出力インターフェース908は、パラレルポート、シリアルポート、キーボードポート、マウスポート、モニタポートなどを介して、マイクロフォン910/911、スピーカ913、カメラ915、および触覚入力919などの様々な入出力ユニットと接続して、情報を交換する。
コントローラ902は、放出セクション980と、取得セクション982と、抽出セクション984と、適用セクション986とを備える。ストレージユニット904は、検出990、エコー信号992、抽出された特徴994、ニューラルネットワークパラメータ996、および分類結果998を含む。
放出セクション980は、ライブネス検出音声信号を放出させるように構成されたコントローラ902の回路または指示である。少なくともいくつかの実施形態では、放出セクション980は、スピーカを介して極超短波(UHF)音声信号を放出するように構成される。少なくともいくつかの実施形態では、放出セクション980は、上述のフローチャートで説明したように、追加の機能を実行するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって呼ばれる。
取得セクション982は、エコー信号を取得するように構成されたコントローラ902の回路または指示である。少なくともいくつかの実施形態では、取得セクション982は、複数の音声検出器によって表面からのUHF音声信号の反射を検出することによってエコー信号を取得するように構成される。少なくともいくつかの実施形態では、取得セクション982は、検出990およびエコー信号992などの情報をストレージユニット904に記録する。少なくともいくつかの実施形態では、取得セクション982は、上述のフローチャートで説明したように、追加の機能を実行するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって呼ばれる。
抽出セクション984は、特徴量を抽出するように構成されたコントローラ902の回路または指示である。少なくともいくつかの実施形態では、抽出セクション984は、エコー信号から複数の特徴量を抽出するように構成される。少なくともいくつかの実施形態では、抽出セクション984は、エコー信号992およびニューラルネットワークパラメータ996などのストレージユニット904からの情報を利用し、抽出された特徴994などの情報をストレージユニット904に記録する。少なくともいくつかの実施形態では、抽出セクション984は、上述のフローチャートで説明したように、追加の機能を実行するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって呼ばれる。
適用セクション986は、特徴量に分類器を適用するように構成されたコントローラ902の回路または指示である。少なくともいくつかの実施形態では、適用セクション986は、表面がライブの顔であるか否かを判定するために、複数の特徴量に分類器を適用するように構成される。少なくともいくつかの実施形態では、適用セクション986は、抽出された特徴994およびニューラルネットワークパラメータ996などのストレージユニット904からの情報を利用し、分類結果998などの情報をストレージユニット904に記録する。少なくともいくつかの実施形態では、抽出セクション984は、上述のフローチャートで説明したように、追加の機能を実行するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって呼ばれる。
少なくともいくつかの実施形態では、装置は、本明細書の動作を実行するために論理機能を処理することができる別のデバイスである。少なくともいくつかの実施形態では、コントローラおよびストレージユニットは、完全に別個のデバイスである必要はないが、いくつかの実施形態では回路または1つ以上のコンピュータ可読媒体を共有する。少なくともいくつかの実施形態では、ストレージユニットは、コンピュータ実行可能指示とコントローラによってアクセスされるデータとの両方を格納するハードドライブを含み、コントローラは、中央処理装置(CPU)とRAMとの組み合わせを含み、ここで、コンピュータ実行可能命令を、本明細書の動作の実行中にCPUによる実行のために全体的または部分的にコピーすることができる。
装置がコンピュータである少なくともいくつかの実施形態では、コンピュータにインストールされたプログラムは、コンピュータを本明細書に記載の実施形態の装置として機能させるか、またはそれに関連する動作を実行させることができる。少なくともいくつかの実施形態では、そのようなプログラムは、本明細書に記載のフローチャートおよびブロック図のブロックの一部または全部に関連する特定の動作をコンピュータに実行させるためにプロセッサによって実行可能である。
少なくともいくつかの実施形態は、フローチャートおよびブロック図を参照して説明され、そのブロックは、(1)動作が実行されるプロセスのステップ、または(2)動作の実行を担当するコントローラのセクションを表す。少なくともいくつかの実施形態では、特定のステップおよびセクションは、専用回路、コンピュータ可読媒体に格納されたコンピュータ可読指示を供給されるプログラム可能な回路、および/またはコンピュータ可読媒体に格納されたコンピュータ可読指示を供給されるプロセッサによって実装される。少なくともいくつかの実施形態では、専用回路は、デジタルおよび/またはアナログハードウェア回路を含み、集積回路(IC)および/または個別回路を含む。少なくともいくつかの実施形態では、プログラム可能回路は、論理AND、OR、XOR、NAND、NOR、および他の論理演算、フリップフロップ、レジスタ、メモリ要素などを含む、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)などの再構成可能ハードウェア回路を含む。
少なくともいくつかの実施形態では、コンピュータ可読記憶媒体は、指示実行デバイスによって使用するための指示を保持および格納することができる有形のデバイスを含む。いくつかの実施形態では、コンピュータ可読記憶媒体は、例えば、限定されるものではないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、またはこれらの任意の適切な組み合わせを含む。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、指示が記録されたパンチカードまたは溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を伝搬する電磁波、またはワイヤを介して伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
少なくともいくつかの実施形態では、本明細書に記載のコンピュータ可読プログラム指示は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワークおよび/または無線ネットワークを介して、それぞれのコンピューティングデバイス/処理デバイスに、コンピュータ可読記憶媒体から、または外部コンピュータもしくは外部ストレージデバイスを介して、ダウンロード可能である。少なくともいくつかの実施形態では、ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび/またはエッジサーバを含む。少なくともいくつかの実施形態では、各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム指示を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム指示を転送する。
少なくともいくつかの実施形態では、上述の動作を実行するためのコンピュータ可読プログラム指示は、アセンブラ指示、命令セットアーキテクチャ(ISA)指示、機械指示、機械依存指示、マイクロコード、ファームウェア指示、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードのいずれかである。少なくともいくつかの実施形態では、コンピュータ可読プログラム指示は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、部分的にリモートコンピュータ上で、または完全にリモートコンピュータもしくはサーバ上で実行される。少なくともいくつかの実施形態では、後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されるか、または外部コンピュータに(例えば、インターネットサービスプロバイダを使用してインターネットを介して)接続される。少なくともいくつかの実施形態では、例えば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本開示の態様を実行するために、コンピュータ可読プログラム指示の状態情報を利用して電子回路を個別化することによってコンピュータ可読プログラム指示を実行する。
以上、本開示の実施形態について説明したが、特許請求の範囲に記載の主題の技術的範囲は上記実施形態に限定されない。当業者は、上述の実施形態に対する様々な変更および改良が可能であることを理解するはずである。また、当業者であれば、このような変更または改良を加えた実施の形態も本発明の技術的範囲に含まれることを、特許請求の範囲の記載から理解するはずである。
特許請求の範囲、実施形態、または図面中において示した装置、システム、プログラム、および方法によって実行される各プロセスの動作、手順、ステップ、および段階は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実行することができる。特許請求の範囲、実施形態、または図面中において、処理の流れを、「最初」、「次」などの文言を用いて説明したとしても、このような記載は、必ずしも、その記載された順序に沿って処理が行われなければならないことを意味するものではない。
本開示の少なくともいくつかの実施形態によれば、顔のライブネスが、スピーカを介して極超短波(UHF)音声信号を放出することと、複数の音声検出器によって表面からのUHF音声信号の反射を検出することによってエコー信号を取得することと、エコー信号から複数の特徴量を抽出することと、複数の特徴量に分類器を適用して表面がライブの顔であるか否かを判定することと、によって検出される。
いくつかの実施形態は、コンピュータプログラムにおける指示、コンピュータプログラムの指示を実行するプロセッサによって実行される方法、および方法を実行する装置を含む。いくつかの実施形態では、装置は、指示における動作を実行するように構成された回路を含むコントローラを備える。
以上、当業者が本開示の態様をよりよく理解し得るように、いくつかの実施形態の特徴を概説した。当業者は、本明細書に提示した実施形態と同じ目的を実行する、および/または同じ利点を実現するための他のプロセスおよび構造を設計または修正するための基礎として本開示を容易に使用できることを理解するはずである。当業者はまた、そのような均等な構成が本開示の趣旨および範囲から逸脱するものではないこと、ならびに本開示の趣旨および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行うことができることを理解するはずである。
上記の例示的な実施形態の一部または全部が、以下の付記のようにも記述され得るが、これらに限定されるものではない。
(付記1)
スピーカを介して極超短波(UHF)音声信号を放出することと、
複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得することと、
前記エコー信号から複数の特徴量を抽出することと、
前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定することと
を含む動作をコンピュータに実行させる、前記コンピュータによって実行可能な指示を含む、コンピュータ可読媒体。
(付記2)
前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することを含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
前記分類器を適用することが、前記特徴ベクトルに前記分類層を適用することを含む、
付記1に記載のコンピュータ可読媒体。
(付記3)
各々がライブまたは非ライブとラベル付けされている複数のエコー信号サンプルを使用して前記分類層とともに前記ニューラルネットワークを訓練すること
をさらに含み、
前記訓練することが、出力された分類と対応するラベルとの比較に基づいて、前記ニューラルネットワークおよび前記分類層のパラメータを調整することを含む、付記2に記載のコンピュータ可読媒体。
(付記4)
前記エコー信号から前記複数の特徴量を抽出することが、
前記エコー信号から前記表面の深度を推定することと、
前記エコー信号から前記表面の減衰係数を決定することと、
前記エコー信号から前記表面の後方散乱係数を推定することと、
前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することと、を含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
前記分類器を適用することが、前記特徴ベクトル、前記深度、前記減衰係数、および前記後方散乱係数に前記分類器を適用することを含み、前記分類器が、エコー信号抽出特徴量サンプルをライブまたは非ライブとして分類するように訓練されている、
付記1に記載のコンピュータ可読媒体。
(付記5)
各々がライブまたは非ライブとラベル付けされている複数のエコー信号抽出特徴量サンプルを使用して前記分類器において前記ニューラルネットワークを訓練すること
をさらに含み、
前記訓練することが、出力された分類と対応するラベルとの比較に基づいて、前記ニューラルネットワークおよび前記分類器のパラメータを調整することを含む、付記4に記載のコンピュータ可読媒体。
(付記6)
前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号から前記表面の深度を推定することを含み、
前記分類器を適用することが、前記深度を深度閾値と比較することを含む、
付記1に記載のコンピュータ可読媒体。
(付記7)
前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号から前記表面の減衰係数を決定することを含み、
前記分類器を適用することが、前記減衰係数を減衰係数閾値範囲と比較することを含む、
付記1に記載のコンピュータ可読媒体。
(付記8)
前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号から前記表面の後方散乱係数を推定することを含み、
前記分類器を適用することが、前記後方散乱係数を後方散乱係数閾値範囲と比較することを含む、
付記1に記載のコンピュータ可読媒体。
(付記9)
前記複数の音声検出器が、第1の方向に向けられた第1の音声検出器と、第2の方向に向けられた第2の音声検出器とを含む、付記1に記載のコンピュータ可読媒体。
(付記10)
前記複数の音声検出器が複数のマイクロフォンを含み、
前記スピーカおよび前記複数のマイクロフォンが、ハンドヘルドデバイスに含まれる、付記1に記載のコンピュータ可読媒体。
(付記11)
前記ハンドヘルドデバイスがカメラをさらに含み、
前記UHF音声信号が、前記カメラによる顔の検出に応じて放出される、
付記10に記載のコンピュータ可読媒体。
(付記12)
前記UHF音声信号が18~22kHzである、付記1に記載のコンピュータ可読媒体。
(付記13)
前記UHF音声信号が実質的に不可聴である、付記1に記載のコンピュータ可読媒体。
(付記14)
前記UHF音声信号が、正弦波および鋸歯状波を含む、付記1に記載のコンピュータ可読媒体。
(付記15)
カメラを用いて前記表面を撮像して表面画像を取得することと、
前記表面画像を分析して、前記表面が顔であるか否かを判定することと、
前記表面が顔であると判定しまた前記表面がライブの顔であると判定したことに応じて、前記表面画像を分析することによって前記表面を識別することと、
前記表面を許可されたユーザとして識別したことに応じて、デバイスまたはサービスのうちの少なくとも一方へのアクセスを許可することと
をさらに含む、付記1に記載のコンピュータ可読媒体。
(付記16)
前記エコー信号を取得することが、
前記UHF音声信号の前記反射を時間フィルタで分離することと、
前記複数の音声検出器の各音声検出器の検出と前記放出されたUHF音声信号とを比較することによって前記UHF音声信号の前記反射から雑音を除去することと
を含む、付記1に記載のコンピュータ可読媒体。
(付記17)
スピーカを介して極超短波(UHF)音声信号を放出することと、
複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得することと、
前記エコー信号から複数の特徴量を抽出することと、
前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定することと
を含む、方法。
(付記18)
前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することを含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
前記分類器を適用することが、前記特徴ベクトルに前記分類層を適用することを含む、
付記17に記載の方法。
(付記19)
複数の音声検出器と、
スピーカと、
前記スピーカを介して極超短波(UHF)音声信号を放出し、
複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得し、
前記エコー信号から複数の特徴量を抽出し、
前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定する
ように構成された回路を含むコントローラと
を備える、装置。
(付記20)
前記エコー信号から前記複数の特徴量を抽出するように構成された前記回路が、前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することを含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
前記分類器を適用するように構成された前記回路が、前記特徴ベクトルに前記分類層を適用するようにさらに構成される、
付記19に記載の装置。
本出願は、2022年4月13日に出願された米国特許出願第17/720,225号に基づくものであり、かつその優先権の利益を付記するものであり、同米国特許出願の開示内容はその全体が本明細書に組み込まれる。
本出願は、2022年4月13日に出願された米国特許出願第17/720,225号に基づくものであり、かつその優先権の利益を主張するものであり、同米国特許出願の開示内容はその全体が本明細書に組み込まれる。

Claims (20)

  1. スピーカを介して極超短波(UHF)音声信号を放出することと、
    複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得することと、
    前記エコー信号から複数の特徴量を抽出することと、
    前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定することと
    を含む動作をコンピュータに実行させる、前記コンピュータによって実行可能な指示を含む、コンピュータ可読媒体。
  2. 前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することを含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
    前記分類器を適用することが、前記特徴ベクトルに前記分類層を適用することを含む、
    請求項1に記載のコンピュータ可読媒体。
  3. 各々がライブまたは非ライブとラベル付けされている複数のエコー信号サンプルを使用して前記分類層とともに前記ニューラルネットワークを訓練すること
    をさらに含み、
    前記訓練することが、出力された分類と対応するラベルとの比較に基づいて、前記ニューラルネットワークおよび前記分類層のパラメータを調整することを含む、請求項2に記載のコンピュータ可読媒体。
  4. 前記エコー信号から前記複数の特徴量を抽出することが、
    前記エコー信号から前記表面の深度を推定することと、
    前記エコー信号から前記表面の減衰係数を決定することと、
    前記エコー信号から前記表面の後方散乱係数を推定することと、
    前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することと、を含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
    前記分類器を適用することが、前記特徴ベクトル、前記深度、前記減衰係数、および前記後方散乱係数に前記分類器を適用することを含み、前記分類器が、エコー信号抽出特徴量サンプルをライブまたは非ライブとして分類するように訓練されている、
    請求項1に記載のコンピュータ可読媒体。
  5. 各々がライブまたは非ライブとラベル付けされている複数のエコー信号抽出特徴量サンプルを使用して前記分類器において前記ニューラルネットワークを訓練すること
    をさらに含み、
    前記訓練することが、出力された分類と対応するラベルとの比較に基づいて、前記ニューラルネットワークおよび前記分類器のパラメータを調整することを含む、請求項4に記載のコンピュータ可読媒体。
  6. 前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号から前記表面の深度を推定することを含み、
    前記分類器を適用することが、前記深度を深度閾値と比較することを含む、
    請求項1に記載のコンピュータ可読媒体。
  7. 前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号から前記表面の減衰係数を決定することを含み、
    前記分類器を適用することが、前記減衰係数を減衰係数閾値範囲と比較することを含む、
    請求項1に記載のコンピュータ可読媒体。
  8. 前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号から前記表面の後方散乱係数を推定することを含み、
    前記分類器を適用することが、前記後方散乱係数を後方散乱係数閾値範囲と比較することを含む、
    請求項1に記載のコンピュータ可読媒体。
  9. 前記複数の音声検出器が、第1の方向に向けられた第1の音声検出器と、第2の方向に向けられた第2の音声検出器とを含む、請求項1に記載のコンピュータ可読媒体。
  10. 前記複数の音声検出器が複数のマイクロフォンを含み、
    前記スピーカおよび前記複数のマイクロフォンが、ハンドヘルドデバイスに含まれる、請求項1に記載のコンピュータ可読媒体。
  11. 前記ハンドヘルドデバイスがカメラをさらに含み、
    前記UHF音声信号が、前記カメラによる顔の検出に応じて放出される、
    請求項10に記載のコンピュータ可読媒体。
  12. 前記UHF音声信号が18~22kHzである、請求項1に記載のコンピュータ可読媒体。
  13. 前記UHF音声信号が実質的に不可聴である、請求項1に記載のコンピュータ可読媒体。
  14. 前記UHF音声信号が、正弦波および鋸歯状波を含む、請求項1に記載のコンピュータ可読媒体。
  15. カメラを用いて前記表面を撮像して表面画像を取得することと、
    前記表面画像を分析して、前記表面が顔であるか否かを判定することと、
    前記表面が顔であると判定しまた前記表面がライブの顔であると判定したことに応じて、前記表面画像を分析することによって前記表面を識別することと、
    前記表面を許可されたユーザとして識別したことに応じて、デバイスまたはサービスのうちの少なくとも一方へのアクセスを許可することと
    をさらに含む、請求項1に記載のコンピュータ可読媒体。
  16. 前記エコー信号を取得することが、
    前記UHF音声信号の前記反射を時間フィルタで分離することと、
    前記複数の音声検出器の各音声検出器の検出と前記放出されたUHF音声信号とを比較することによって前記UHF音声信号の前記反射から雑音を除去することと
    を含む、請求項1に記載のコンピュータ可読媒体。
  17. スピーカを介して極超短波(UHF)音声信号を放出することと、
    複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得することと、
    前記エコー信号から複数の特徴量を抽出することと、
    前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定することと
    を含む、方法。
  18. 前記エコー信号から前記複数の特徴量を抽出することが、前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することを含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
    前記分類器を適用することが、前記特徴ベクトルに前記分類層を適用することを含む、
    請求項17に記載の方法。
  19. 複数の音声検出器と、
    スピーカと、
    前記スピーカを介して極超短波(UHF)音声信号を放出し、
    複数の音声検出器を用いて表面からの前記UHF音声信号の反射を検出することによってエコー信号を取得し、
    前記エコー信号から複数の特徴量を抽出し、
    前記複数の特徴量に分類器を適用して、前記表面がライブの顔であるか否かを判定する
    ように構成された回路を含むコントローラと
    を備える、装置。
  20. 前記エコー信号から前記複数の特徴量を抽出するように構成された前記回路が、前記エコー信号にニューラルネットワークを適用して特徴ベクトルを取得することを含み、前記ニューラルネットワークが、エコー信号サンプルをライブまたは非ライブとして分類するために、分類層とともに訓練されていて、
    前記分類器を適用するように構成された前記回路が、前記特徴ベクトルに前記分類層を適用するようにさらに構成される、
    請求項19に記載の装置。
JP2024559228A 2022-04-13 2023-01-27 顔のライブネス検出 Pending JP2025511766A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/720,225 US20230334911A1 (en) 2022-04-13 2022-04-13 Face liveness detection
US17/720,225 2022-04-13
PCT/JP2023/002656 WO2023199571A1 (en) 2022-04-13 2023-01-27 Face liveness detection

Publications (1)

Publication Number Publication Date
JP2025511766A true JP2025511766A (ja) 2025-04-16

Family

ID=88308218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024559228A Pending JP2025511766A (ja) 2022-04-13 2023-01-27 顔のライブネス検出

Country Status (3)

Country Link
US (1) US20230334911A1 (ja)
JP (1) JP2025511766A (ja)
WO (1) WO2023199571A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3936891A1 (en) * 2020-07-10 2022-01-12 Supersonic Imagine Method and system for estimating an ultrasound attenuation parameter
CN117572379B (zh) * 2024-01-17 2024-04-12 厦门中为科学仪器有限公司 一种基于cnn-cbam收缩二分类网络的雷达信号处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018524072A (ja) * 2015-06-16 2018-08-30 アイベリファイ インコーポレイテッド スプーフ検出およびライブネス分析のためのシステムおよび方法
WO2018198310A1 (ja) * 2017-04-28 2018-11-01 日本電気株式会社 個人認証装置、個人認証方法および記録媒体
CN113100734A (zh) * 2021-04-15 2021-07-13 深圳前海微众银行股份有限公司 活体检测方法、设备、介质及计算机程序产品
CN113506652A (zh) * 2021-06-03 2021-10-15 李孟 一种基于电网输电的自硬式防断电缆

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10042038B1 (en) * 2015-09-01 2018-08-07 Digimarc Corporation Mobile devices and methods employing acoustic vector sensors
KR102647218B1 (ko) * 2016-09-19 2024-03-12 레스메드 센서 테크놀로지스 리미티드 오디오 신호 및 다중 신호로부터 생리학적 운동을 검출하는 장치, 시스템 및 방법
US11315375B2 (en) * 2017-03-31 2022-04-26 Nec Corporation Facial authentication system, apparatus, method and program
NO347923B1 (en) * 2017-09-15 2024-05-13 Elliptic Laboratories Asa User Authentication Control
US11513205B2 (en) * 2017-10-30 2022-11-29 The Research Foundation For The State University Of New York System and method associated with user authentication based on an acoustic-based echo-signature
WO2019236588A1 (en) * 2018-06-04 2019-12-12 The Research Foundation For The State University Of New York System and method associated with expedient determination of location of one or more object(s) within a bounded perimeter of 3d space based on mapping and navigation to a precise poi destination using a smart laser pointer device
US11207055B2 (en) * 2018-10-08 2021-12-28 General Electric Company Ultrasound Cardiac Doppler study automation
US11550031B2 (en) * 2019-03-18 2023-01-10 Samsung Electronics Co., Ltd. Method and apparatus for biometric authentication using face radar signal
JP7389392B2 (ja) * 2020-09-17 2023-11-30 富士通株式会社 顔認証方法、顔認証プログラム、および顔認証装置
CN113657293B (zh) * 2021-08-19 2023-11-24 北京神州新桥科技有限公司 活体检测方法、装置、电子设备、介质及程序产品
EP4405711A1 (en) * 2021-10-26 2024-07-31 Google LLC Face authentication anti-spoofing using interferometry-based coherence
WO2023075751A1 (en) * 2021-10-26 2023-05-04 Google Llc Face authentication anti-spoofing using ultrasound

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018524072A (ja) * 2015-06-16 2018-08-30 アイベリファイ インコーポレイテッド スプーフ検出およびライブネス分析のためのシステムおよび方法
WO2018198310A1 (ja) * 2017-04-28 2018-11-01 日本電気株式会社 個人認証装置、個人認証方法および記録媒体
CN113100734A (zh) * 2021-04-15 2021-07-13 深圳前海微众银行股份有限公司 活体检测方法、设备、介质及计算机程序产品
CN113506652A (zh) * 2021-06-03 2021-10-15 李孟 一种基于电网输电的自硬式防断电缆

Also Published As

Publication number Publication date
US20230334911A1 (en) 2023-10-19
WO2023199571A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
Nassi et al. Lamphone: Real-time passive sound recovery from light bulb vibrations
KR102061434B1 (ko) 스푸프 검출 및 라이브니스 분석을 위한 시스템들 및 방법들
Meng et al. Wivo: Enhancing the security of voice control system via wireless signal in iot environment
WO2023199571A1 (en) Face liveness detection
Xie et al. TeethPass: Dental occlusion-based user authentication via in-ear acoustic sensing
Rathore et al. SonicPrint: A generally adoptable and secure fingerprint biometrics in smart devices
Meng et al. Liveness detection for voice user interface via wireless signals in IoT environment
HK1251691A1 (en) Systems and methods for spoof detection and liveness analysis
Lu et al. Vocallock: Sensing vocal tract for passphrase-independent user authentication leveraging acoustic signals on smartphones
Zhou et al. Multi-modal face authentication using deep visual and acoustic features
Chen et al. ChestLive: Fortifying voice-based authentication with chest motion biometric on smart devices
Shang et al. Voice liveness detection for voice assistants using ear canal pressure
Zhou et al. Securing face liveness detection using unforgeable lip motion patterns
Li et al. Toward pitch-insensitive speaker verification via soundfield
Lian et al. Echosensor: Fine-grained ultrasonic sensing for smart home intrusion detection
CN115348049B (zh) 一种利用耳机内向麦克风的用户身份认证方法
Nagaraja et al. VoIPLoc: passive VoIP call provenance via acoustic side-channels
Huang et al. Unobtrusive pedestrian identification by leveraging footstep sounds with replay resistance
CN114003885B (zh) 一种智能语音认证方法、系统及可存储介质
McLoughlin et al. Low frequency ultrasonic voice activity detection using convolutional neural networks
Fang et al. UltraFace: Secure User-friendly Facial Authentication on Smartphones Using Ultrasound
Shi et al. Defending against Thru-barrier Stealthy Voice Attacks via Cross-Domain Sensing on Phoneme Sounds
Zhang et al. SonarGuard2: Ultrasonic Face Liveness Detection Based on Adaptive Doppler Effect Feature Extraction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250924