JPWO2021033303A1 - Training data generation method, trained model and information processing device - Google Patents
Training data generation method, trained model and information processing device Download PDFInfo
- Publication number
- JPWO2021033303A1 JPWO2021033303A1 JP2021541421A JP2021541421A JPWO2021033303A1 JP WO2021033303 A1 JPWO2021033303 A1 JP WO2021033303A1 JP 2021541421 A JP2021541421 A JP 2021541421A JP 2021541421 A JP2021541421 A JP 2021541421A JP WO2021033303 A1 JPWO2021033303 A1 JP WO2021033303A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- endoscope
- training data
- data
- lesion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
- A61B1/04—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
- A61B1/045—Control thereof
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Surgery (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biomedical Technology (AREA)
- Optics & Photonics (AREA)
- Pathology (AREA)
- Radiology & Medical Imaging (AREA)
- Biophysics (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Endoscopes (AREA)
Abstract
訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。The training data generation method acquires an image taken by the endoscope, acquires voice data by the operator of the endoscope recorded in association with the acquired image, and recognizes the acquired voice data. A computer is made to execute a process of generating training data for a deep neural network based on the label corresponding to the recognition result and the image.
Description
本技術は、訓練データ生成方法、学習済みモデル及び情報処理装置に関する。 This technique relates to a training data generation method, a trained model, and an information processing device.
内視鏡画像等の医用画像から、学習モデルを使用して病変部位を自動的に検出するコンピュータ支援診断技術が開発されている。正解ラベルが付与された訓練データを用いた教師あり機械学習により、学習モデルを生成する手法が知られている。 Computer-aided diagnostic technology has been developed that automatically detects lesion sites using a learning model from medical images such as endoscopic images. A method of generating a learning model by supervised machine learning using training data with a correct answer label is known.
通常の内視鏡で撮影された画像群を訓練データに用いた第1の学習と、カプセル内視鏡で撮影された画像群を訓練データに用いた第2の学習とを組み合わせる学習方法にて学習される学習モデル及び、学習モデルを含む学習システム当該が、開示されている(例えば、特許文献1)。特許文献1の学習システムは、消化器内視鏡及びカプセル型内視鏡によって撮像した画像群から、ランドマークが写る画像とそうでない画像を予め選択し、選択した夫々の画像及び正解ラベルを記録する。
A learning method that combines the first learning using images taken with a normal endoscope for training data and the second learning using images taken with a capsule endoscope for training data. A learning model to be learned and a learning system including the learning model are disclosed (for example, Patent Document 1). The learning system of
しかしながら、特許文献1に記載の学習モデルを学習されるための訓練データを生成するにあたり、画像夫々を選択し、当該選択結果に基づきこれら画像夫々に正解ラベルを付与する必要があるところ、特許文献1の学習システムにおいては、係る訓練データを効率的に生成する点については、考慮されていない。
However, in order to generate training data for learning the learning model described in
一つの側面では、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することを目的とする。 One aspect is to provide a training data generation method or the like that efficiently generates training data for a trained model using an image taken by an endoscope.
本開示の一態様における訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。 In the training data generation method according to one aspect of the present disclosure, an image taken by an endoscope is acquired, and voice data by an operator of the endoscope recorded in association with the acquired image is acquired and acquired. A computer is made to execute a process of generating training data for a deep neural network based on the label corresponding to the recognition result and the image according to the recognition result of the voice data.
本開示の一態様における学習済みモデルは、本開示の一態様における訓練データ生成方法によって生成した前記訓練データを用いて学習させたものである。 The trained model in one aspect of the present disclosure is trained using the training data generated by the training data generation method in the one aspect of the present disclosure.
本開示の一態様における情報処理装置は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部とを備える。 The information processing apparatus according to one aspect of the present disclosure acquires an image taken by the endoscope, and acquires voice data by the operator or the subject of the endoscope recorded in association with the acquired image. It includes an acquisition unit and a generation unit that generates training data for a deep neural network based on the label corresponding to the recognition result and the image according to the recognition result of the acquired voice data.
本開示によれば、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することができる。 According to the present disclosure, it is possible to provide a training data generation method or the like that efficiently generates training data for a trained model using an image taken by an endoscope.
(実施形態1)
以下、本発明をその実施の形態を示す図面に基づいて詳述する。図1は、実施形態1に係る訓練データ生成システムSの概要を示す模式図である。訓練データ生成システムSは、内視鏡装置10及び、内視鏡装置10と通信可能に接続される情報処理装置6を含む。(Embodiment 1)
Hereinafter, the present invention will be described in detail with reference to the drawings showing the embodiments thereof. FIG. 1 is a schematic diagram showing an outline of the training data generation system S according to the first embodiment. The training data generation system S includes an
内視鏡装置10は、内視鏡の撮影素子によって撮影した画像(撮影画像)を内視鏡用プロセッサ20に伝送し、内視鏡用プロセッサ20によってガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行うことにより、操作者が目視し易い状態にした内視鏡画像を生成する。
The
内視鏡装置10には、マイク17が接続されており、マイク17により集音した医師等の発言(音声)を、音声データとして記録する。内視鏡装置10は、内視鏡画像及び音声データに対し、撮像開始時刻及び音声記録開始時刻等の経時要素を付加し又は関連付けて、内視鏡画像及び音声データにおける時間軸を対応させて、これら内視鏡画像及び音声データを記憶し、情報処理装置6に出力する。マイク17は、有線マイクに限定されず、例えばBluetooth(登録商標)等を用いた無線マイクであってもよい。
A
内視鏡装置10から送信された、経時要素が付加又は関連付けされた内視鏡画像及び音声データを取得した情報処理装置6は、これら内視鏡画像及び音声データに基づき、種々の情報処理を行い、深層ニューラルネットワーク用の訓練データを生成し、記録及び出力する。
The information processing device 6 that has acquired the endoscopic image and voice data to which a time element is added or associated with is transmitted from the
本実施形態では、内視鏡装置10は、撮影画像、すなわち生画像を補正した内視鏡画像を情報処理装置6に出力するとしたが、これに限定されない。内視鏡装置10は、撮影画像に経時要素を付加し、撮影画像及び音声データにおける時間軸を対応させて、これら撮影画像及び音声データを記憶し、情報処理装置6に出力するものであってもよい。この場合、情報処理装置6は、撮像画像に基づき一連の処理を行い、訓練データを生成する。
In the present embodiment, the
図2は、訓練データ生成システムSに含まれる内視鏡装置10の構成例を示すブロック図である。図3は、訓練データ生成システムSに含まれる情報処理装置6の構成例を示すブロック図である。内視鏡装置10は、内視鏡用プロセッサ20と、内視鏡40と、表示装置50とを含む。表示装置50は、たとえば液晶表示装置、または、有機EL(Electro Luminescence)表示装置である。
FIG. 2 is a block diagram showing a configuration example of the
表示装置50はキャスター付きの収容棚16の上段に設置されている。内視鏡用プロセッサ20は、収容棚16の中段に収容されている。収容棚16は、図示を省略する内視鏡検査用ベッドの近傍に配置される。収容棚16は内視鏡用プロセッサ20に接続されたキーボード15を搭載する、引き出し式の棚を有する。
The
内視鏡用プロセッサ20は、略直方体形状であり、一面にタッチパネル25を備える。タッチパネル25の下部に、読取部28が配置されている。読取部28は、たとえばUSBコネクタ、SD(Secure Digital)カードスロット、またはCD−ROM(Compact Disc Read Only Memory)ドライブ等の、可搬型記録媒体の読み書きを行なう接続用インターフェイスである。
The
内視鏡40は、挿入部44、操作部43、ユニバーサルコード49およびスコープコネクタ48を有する。操作部43には、制御ボタン431が設けられている。挿入部44は長尺であり、一端が折止部45を介して操作部43に接続されている。挿入部44は、操作部43側から順に軟性部441、湾曲部442および先端部443を有する。湾曲部442は、湾曲ノブ433の操作に応じて湾曲する。挿入部44には、3軸加速度センサ、ジャイロセンサ、地磁気センサ又は磁気コイルセンサ等の物理検出装置が実装され、内視鏡40が被検者の体内に挿入された際、これら物理検出装置からの検出結果を取得するものであってもよい。
The
ユニバーサルコード49は長尺であり、第一端が操作部43に、第二端がスコープコネクタ48にそれぞれ接続されている。ユニバーサルコード49は、軟性である。スコープコネクタ48は略直方体形状である。スコープコネクタ48には、送気送水用のチューブを接続する送気送水口金36(図2参照)が設けられている。
The
内視鏡装置10は、内視鏡用プロセッサ20と、内視鏡40と、表示装置50とを含む。内視鏡用プロセッサ20は、タッチパネル25および読取部28に加えて、制御部21、主記憶装置22、補助記憶装置23、通信部24、表示装置I/F(Interface)26、入力装置I/F27、内視鏡用コネクタ31、光源33、ポンプ34およびバスを備える。内視鏡用コネクタ31は、電気コネクタ311および光コネクタ312を含む。
The
制御部21は、本実施の形態のプログラムを実行する演算制御装置である。制御部21には、一または複数のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)又はマルチコアCPU等が使用される。制御部21は、バスを介して内視鏡用プロセッサ20を構成するハードウェア各部と接続されている。
The
主記憶装置22は、例えば、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の記憶装置である。主記憶装置22には、制御部21が行なう処理の途中で必要な情報および制御部21で実行中のプログラムが一時的に保存される。補助記憶装置23は、例えば、SRAM、フラッシュメモリまたはハードディスク等の記憶装置であり、主記憶装置22よりも大容量の記憶装置である。補助記憶装置23には、例えば、取得した撮影画像、生成した内視鏡画像又は、音声データデータが、中間データとして保存されるものであってもよい。
The
通信部24は、有線又は無線によりネットワークを介して情報処理装置と通信するための通信モジュール又は通信インターフェイスであり、例えばwifi(登録商標)、 Bluetooth(登録商標)等の狭域無線通信モジュール、又は4G、LTE等の広域無線通信モジュールである。タッチパネル25は、液晶表示パネル等の表示部と、表示部に積層された入力部を含む。
The
表示装置I/F26は、内視鏡用プロセッサ20と表示装置50とを接続するインターフェイスである。入力装置I/F27は、内視鏡用プロセッサ20とキーボード15、マイク17等の入力装置とを接続するインターフェイスである。
The display device I /
光源33は、たとえば白色LED又はキセノンランプ等の高輝度の白色光源である。光源33は、図示を省略するドライバを介してバスに接続されている。光源33の点灯、消灯および明るさの変更は、制御部21により制御される。光源33から照射した照明光は、光コネクタ312に入射する。光コネクタ312は、スコープコネクタ48と係合し、内視鏡40に照明光を供給する。
The
ポンプ34は、内視鏡40の送気・送水機能用の圧力を発生させる。ポンプ34は、図示を省略するドライバを介してバスに接続されている。ポンプ34のオン、オフおよび圧力の変更は、制御部21により制御される。ポンプ34は、送水タンク35を介して、スコープコネクタ48に設けられた送気送水口金36に接続される。
The
内視鏡用プロセッサ20に接続された内視鏡40の機能の概略を説明する。スコープコネクタ48、ユニバーサルコード49、操作部43および挿入部44の内部に、ファイバーバンドル、ケーブル束、送気チューブおよび送水チューブ等が挿通されている。光源33から出射した照明光は、光コネクタ312およびファイバーバンドルを介して、先端部443に設けられた照明窓から放射される。照明光により照らされた範囲を、先端部443に設けられた撮像素子で撮影する。撮像素子からケーブル束および電気コネクタ311を介して内視鏡用プロセッサ20に撮影画像が伝送される。
The outline of the function of the
情報処理装置6は、制御部62、通信部61、記憶部63及び入出力I/F64を含む。制御部62は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の計時機能を備えた演算処理装置を有し、記憶部63に記憶されたプログラムPを読み出して実行することにより、情報処理装置6に係る種々の情報処理、制御処理等を行う。又は、制御部62は量子コンピュータ用チップで構成されており、情報処理装置6は量子コンピュータであってもよい。
The information processing device 6 includes a
記憶部63は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の揮発性記憶領域及び、EEPROM又はハードディスク等の不揮発性記憶領域を含む。記憶部63には、プログラムP及び処理時に参照するデータがあらかじめ記憶してある。記憶部63に記憶されたプログラムPは、情報処理装置6が読み取り可能な記録媒体632から読み出されたプログラムPを記憶したものであってもよい。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラムPをダウンロードし、記憶部63に記憶させたものであってもよい。記憶部63には、後述する第1学習済みモデル91及び第2学習済みモデル92の実体ファイル(深層ニューラルネットワーク(DNN)のインスタンスファイル)が保存されている。記憶部63には、後述する医療用語DB631(DataBase)が記憶されている。
The
通信部61は、有線又は無線により、内視鏡装置10と通信するための通信モジュール又は通信インターフェイスであり、例えばwifi(登録商標)、 Bluetooth(登録商標)等の狭域無線通信モジュール、又は4G、LTE等の広域無線通信モジュールである。
The
入出力I/F64は、例えば、USB又はDSUB等の通信規格に準拠したものであり、入出力I/F64に接続された外部機器とシリアル通信するための通信インターフェイスである。入出力I/F64には、例えばディプレイ等の表示部7、キーボード等の入力部8が接続されており、制御部62は、入力部8から入力された実行コマンド又はイベントに基づき行った情報処理の結果を表示部7に出力する。
The input / output I / F64 conforms to a communication standard such as USB or DSUB, and is a communication interface for serial communication with an external device connected to the input / output I / F64. For example, a
図4は、医療用語DB631のデータレイアウトを例示する説明図である。医療用語DB631は、管理項目(メタデータ)として、例えば、医療用語、隠語フラグ、標準用語、用語区分、及び医療機関IDを含む。医療用語DB631は、情報処理装置6の記憶部63に記憶されており、情報処理装置6に実装されているRDBMS(Relational DataBase Management System)等のデータベース管理ソフトウェアにより構成される。
FIG. 4 is an explanatory diagram illustrating the data layout of the medical term DB631. The medical term DB631 includes, for example, a medical term, a jargon flag, a standard term, a term classification, and a medical institution ID as management items (metadata). The medical term DB631 is stored in the
医療用語の項目(フィールド)には、病変の名称又は症状を示す用語(病変種類名)、及び病変が発生している位置、場所又は体内部位の名称を示す用語(病変位置名)が、格納される。病変の名称又は症状を示す用語(病変種類名)は、例えば、癌、ポリープ等の医学的に定義されている標準的な用語(標準用語)であり、更に実質的にこれら標準的な用語を意味する隠語を含む。隠語とは、例えば”K”であり、当該Kは、標準的な用語である癌を示すものであり、Kと癌とは同義である。病変が発生している位置、場所又は体内部位の名称を示す用語(病変位置名)は、例えば、上部食道、下部食道であり、病変種類名と同様に、実質的にこれら標準的な用語を意味する隠語を含むものであってもよい。医療用語等の項目(フィールド)に格納される用語は、日本語に限定されるものでなく、英語、中国語又はドイツ語等を含む多言語対応されたものであってもよい。 In the item (field) of medical terms, a term indicating the name or symptom of the lesion (lesion type name) and a term indicating the name of the location, place or internal site where the lesion occurs (lesion location name) are stored. Will be done. The term indicating the name or symptom of the lesion (lesion type name) is a medically defined standard term (standard term) such as cancer, polyp, etc., and further substantially these standard terms are used. Includes jargon to mean. The jargon is, for example, "K", which is a standard term for cancer, and K is synonymous with cancer. The terms (lesion location names) that indicate the location, location, or internal site where the lesion is occurring are, for example, upper esophagus and lower esophagus, and like the lesion type name, these standard terms are substantially used. It may include a meaning hidden word. The terms stored in the items (fields) such as medical terms are not limited to Japanese, and may be multilingual including English, Chinese, German, and the like.
隠語フラグの項目(フィールド)には、格納されている医療用語が、隠語であるか否かを示すフラグデータが、格納される。格納されている医療用語に対し、隠語フラグを設定することにより、当該医療用語が隠語であるか否かを判定することができ、当該判定結果に基づき後処理を行うことができる。 In the item (field) of the jargon flag, flag data indicating whether or not the stored medical term is a jargon is stored. By setting a jargon flag for the stored medical term, it is possible to determine whether or not the medical term is a jargon, and post-processing can be performed based on the determination result.
標準用語の項目(フィールド)には、隠語に対応する標準用語が格納される。格納されている医療用語が隠語である場合、隠語に対応する標準用語が格納される。従って、隠語から標準用語への読み替え又は変換を行うことができる。格納されている医療用語が隠語でない場合、変換等の必要がないため、標準用語の項目(フィールド)には、データが登録されないもの(null)であってもよい。 Standard terms corresponding to jargon are stored in the standard term items (fields). If the stored medical term is a jargon, the standard term corresponding to the jargon is stored. Therefore, the jargon can be read or converted into a standard term. If the stored medical term is not a jargon, there is no need for conversion or the like, so that the item (field) of the standard term may be one in which data is not registered (null).
用語区分の項目(フィールド)には、当該医療用語が、病変の種類に関する用語であるか、または病変の位置に関する用語であるかを区分する情報が格納される。医師等による発言は、病変の種類及び位置に関する事項が混在するところ、このように医療用語を区分化することにより、後述する画像に関連付ける正解データにおいて、病変の種類及び位置を区分化して含めることができる。 The item (field) of the term classification stores information for classifying whether the medical term is a term relating to the type of lesion or a term relating to the location of the lesion. Remarks by doctors, etc. include matters related to the type and location of lesions. By classifying medical terms in this way, the type and location of lesions should be classified and included in the correct answer data associated with the images described later. Can be done.
医療機関IDの項目(フィールド)には、医療用語が隠語である場合、当該隠語が用いられる医療機関を識別するための医療機関IDの番号等が、格納される。隠語は、同一の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、隠語夫々には、医療機関IDが関連付けらて登録されている。従って、医療機関IDに基づき適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。 In the item (field) of the medical institution ID, when the medical term is a jargon, the number of the medical institution ID for identifying the medical institution in which the jargon is used is stored. Even if the jargon is the same word, it may have different meanings depending on the region and the institution. However, the medical institution ID is associated with each jargon and registered. Therefore, the jargon to be applied can be determined based on the medical institution ID, and the medical term can be reliably extracted from the remarks of doctors and the like.
図5は、情報処理装置6等の制御部62に含まれる機能部を例示する機能ブロック図である。内視鏡用プロセッサ20の制御部21は、主記憶装置に記憶されているプログラムを実行することにより、画像処理部211、時計部212及び情報連関部213として機能する。情報処理装置6の制御部62は、記憶部63に記憶されているプログラムPを実行することにより、取得部621、音声認識部622、医療用語抽出部623、画像抽出部624、ラベル導出部625、及び訓練データ生成部626として機能する。
FIG. 5 is a functional block diagram illustrating a functional unit included in the
画像処理部211は、内視鏡から出力された画像(撮影画像)をガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行い、内視鏡画像として出力する。
The
時計部212は、時計機能を備え、例えば、撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻を取得し、情報連関部213に出力する。又は、時計部212は、撮影画像の撮像開始時刻と、音声の記録開始時刻との時間差を図り、情報連関部213に出力するものであってもよい。
The
情報連関部213は、キーボード15を介して入力された医療機関ID、操作者IDを取得する。医療機関IDは、医療機関を識別するための識別子である。操作者IDは、内視鏡装置10の操作者、すなわち内視鏡装置10を用いて被検者を診察する医師を識別するための識別子である。
The
情報連関部213は、接続された内視鏡から出力される内視鏡情報を取得する。内視鏡情報は、例えば気管支用内視鏡、上部消化管汎用内視鏡又は腹腔鏡等の内視鏡の種類に関する情報を含む。
The
情報連関部213は、マイク17で集音された音声による音声データ、及び画像処理部211から出力された内視鏡画像を取得する。情報連関部213は、時計部212から出力される撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻等の経時要素を取得する。情報連関部213は、取得した内視鏡画像及び音声データとの関連付けを経時要素を付与することにより行う。情報連関部213は、経時要素を付与するにあたり、例えば、撮像開始時刻と内視鏡画像とを関連付ける。または、情報連関部213は、内視鏡画像を撮像するにあたり決定されるサンプリングタイム(フレームレート)に基づき、内視鏡画像に含まれる各フレーム(静止画)夫々に、当該フレームが撮像された時点を示す情報(タイムスタンプ)を付与するものであってもよい。情報連関部213は、経時要素を付与するにあたり、例えば、音声の記録開始時刻と音声データとを関連付ける。
The
撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻を取得し、関連付けることにより、撮影画像及び音声データが、同一の時間軸上にて進行するものとし、時間経過に基づき、内視鏡画像におけるフレーム(静止画)と、音声データにおける医師等の発音とを連関させて対応させることができる。すなわち、撮影画像が動画である場合、音声の記録開始時刻から所定時間経過した時点を特定した場合、当該時点にて撮像された撮影画像(動画)に含まれるフレーム(静止画)を特定することができる。上述のとおり、内視鏡画像は、撮影画像を補正処理したものであるため、内視鏡画像においても、当該時点にて撮像された内視鏡画像に含まれるフレーム(静止画)を特定することができることは、言うまでもない。
By acquiring and associating the imaging start time of the captured image and the recording start time of the voice by the
情報連関部213は、撮像開始時刻と内視鏡画像とを関連付け、音声の記録開始時刻と音声データとを関連付けるとしたが、これに限定されない。撮像開始時刻と音声の記録開始時刻とが同時である場合、情報連関部213は、撮像開始時刻と音声の記録開始時刻とが同時である旨を示す情報を、内視鏡画像及び音声データに付加するものであってもよい。
The
内視鏡によって撮像された撮像画像と、マイク17によって集音され記憶した音声データとが、別データであるとして説明したが、これに限定されない。情報連関部213は、撮像画像及び音声データが一体化した、例えば、AVI形式の動画データを取得又は生成するものであってもよい。この場合、内視鏡が撮像した撮像画像は、動画データにおける映像コーディックとなり、マイク17にて集音及び記憶した音声データは音声コーディックとなり、当該動画データに含まれるメタ情報により映像コーディック及び音声コーディックが同期され、撮像画像及び音声データは、経時要素によって関連付けられる。
Although it has been described that the captured image captured by the endoscope and the audio data collected and stored by the
内視鏡画像が動画である場合、フレームレートに基づき静止画が撮影される。音声データは、サンプリングレイトに基づき、音素となる周波数がサンプリングされる。従って、内視鏡画像の撮像開始時刻からの経過時間により特定される時点と、音声の記録開始時刻からの経過時間により特定される時点は、フレームレート及びサンプリングレイトに基づき導出することができる。 When the endoscope image is a moving image, a still image is taken based on the frame rate. In the voice data, the frequency that becomes a phoneme is sampled based on the sampling rate. Therefore, the time point specified by the elapsed time from the imaging start time of the endoscopic image and the time point specified by the elapsed time from the sound recording start time can be derived based on the frame rate and the sampling rate.
情報連関部213は、取得した医療機関ID、操作者ID、内視鏡情報、経時要素を付加した内視鏡画像及び音声データを関連付けて、情報処理装置6に出力する。情報連関部213は、これら関連付けられた複数の情報及びデータを単一のアーカイブファイルとして出力するものであってもよい。
The
本実施形態では、情報連関部213は、撮像画像を補正して生成した内視鏡画像に経時要素を付加し、音声データ及び操作者ID等の他データを関連付けるとしたが、これに限定されない。情報連関部213は、撮像画像に経時要素を付加し、音声データ及び操作者ID等の他データを関連付けて出力するものであってもよい。この場合、情報処理装置6における各機能部は、撮像画像に基づき一連の処理を行い、訓練データを生成する。
In the present embodiment, the
取得部621は、内視鏡装置10の情報連関部213から出力された医療機関ID、操作者ID、内視鏡情報、経時要素が関連付けられた内視鏡画像及び音声データを取得する。これら関連付けられた複数の情報及びデータが単一のアーカイブファイルとして出力された場合、取得部621は、当該アーカイブファイルを解凍し、個々のデータに展開するものであってもよい。
The
取得部621は、操作者ID及び経時要素が関連付けられた音声データを、音声認識部622に出力する。取得部621は、内視鏡情報を訓練データ生成部626に出力する。取得部621は、経時要素が関連付けられた内視鏡画像を画像抽出部624に出力する。取得部621は、医療機関IDを医療用語抽出部623に出力する。
The
音声認識部622は、例えば音響モデル、発音辞書及び言語モデル等のサブモジュールを含む。音響モデルは、周波数成分や時間変化の分析を行い、音声、すなわち発音と、音響モデルの元となる音素夫々との近似量を計算し、最も近似する音素を特定する。特定した音素の組合せにより音素列が生成される。発音辞書は、生成された音素列との一致度合いに基づき、発音された用語(単語)を特定する。言語モデルは、特定した単語による単語列(文字列)が、適切であるかを評価するために用いられるモデルであり、単語や文字列の出現確率をデータ化したものである。音声認識部622は、これらサブモジュールを用いて、入力された音声を、音波に変換し、音波から音素を特定する。特定した音素の並びを、予め登録した発音辞書とマッチングを行い単語に変換し、変換した単語による単語列(文字列)が適切な文章となるように言語モデルを用いて評価することにより文書を生成する。音声認識部622は、生成した文書を例えば文字データの形式で出力する。音声認識部622は、文字データに含まれる単語と、当該単語が発音された時点又はタイムスタンプに関する情報とを、関連付けて出力する。
The
操作者IDによって特定される医師等の音声は、予め音響モデルに登録されており、音声認識部622は、記録された音声が内視鏡の操作者である医師であるか、被検者(患者)等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。
The voice of the doctor or the like specified by the operator ID is registered in the acoustic model in advance, and the
医療用語抽出部623は、文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出し、抽出した単語夫々と、医療用語DB631に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。
The medical
このように医療用語DB631に登録されている医療用語夫々と、発音とを対比することにより、医師等の操作者による発言の中に被検者に対する診断等とは無関係な事項が含まれる場合であっても、当該発言において、診断等に関連する医療用語を確実に抽出することができ、訓練データの生成精度を向上させることができる。 By comparing each of the medical terms registered in the medical term DB631 with the pronunciation in this way, when the remarks made by the operator such as a doctor include matters unrelated to the diagnosis of the subject. Even so, medical terms related to diagnosis and the like can be reliably extracted in the statement, and the accuracy of training data generation can be improved.
医療用語抽出部623は、抽出した医療用語が発音された時点に関する情報(タイムスタンプ)を文字データから抽出し、文字データに含まれる医療用語及び当該医療用語が発音された時点を出力する。
The medical
医療用語抽出部623は、単一の医療用語を出力するものに限定されず、複数の医療用語を出力するものであってもよい。すなわち、医療用語抽出部623は、取得した文字データにて所定の医療用語を抽出した場合、当該抽出した医療用語の前後に位置する他の医療用語との関連性又は文脈性に基づき、複数の医療用語を抽出し、一セットとして出力するものであってもよい。又は、医療用語抽出部623は、抽出した複数の医療用語を含む医師の発言による文書データを出力するものであってもよい。複数の医療用語を含む発言をまとめて抽出することにより、まとめて抽出した複数の医療用語夫々が発音された期間を特定し、当該期間にて撮像された内視鏡画像における静止画(フレーム)を特定することができる。
The medical
文字データに含まれる医療用語が、隠語である場合、当該隠語と同義となる標準用語を、文字データに含まれる医療用語として出力するものであってもよい。操作者である医師等による発言には、医療業界における標準用語のみならず、地域、医療分野等に依拠して用いられる特有な隠語が含まれる場合があるところ、上述の医療用語DB631には、隠語及び当該隠語と同義となる標準用語が登録されている。従って、医療用語抽出部623は、医療用語DB631を参照することにより、隠語等が用いられることによる表現揺れを吸収し、医師等の発言から医療用語を確実に抽出することができる。
When the medical term included in the character data is a jargon, a standard term synonymous with the jargon may be output as a medical term included in the character data. The remarks made by the doctors who are the operators may include not only standard terms in the medical industry but also peculiar jargon used depending on the region, medical field, etc. The jargon and standard terms that are synonymous with the jargon are registered. Therefore, by referring to the medical term DB631, the medical
医療用語抽出部623は、文字データに含まれる医療用語との対比に用いられる隠語において、隠語夫々に付与された医療機関IDに基づき、適用される隠語を確定するものであってもよい。隠語は、同様の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、上述の医療用語DB631には、隠語夫々には、医療機関IDが関連付付けられて、登録されている。従って、医療用語抽出部623は、医療用語DB631を参照することにより、取得した医療機関IDに基づき、適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。
The medical
画像抽出部624は、医療用語が発音された時点に対応するフレーム(静止画)を、取得した内視鏡画像(動画)から抽出する。抽出するフレーム(静止画)の数は、1つに限定されず、当該医療用語が発音された期間にて撮像された全てのフレームを抽出するものであってもよい。画像抽出部624は、抽出したフレーム(静止画)を第1画像として出力する。第1画像は、医療用語が発音された時点に対応するものであり、当該時点にて撮像されたフレーム(静止画)であり、第1画像に含まれる体内部位において、病変の存在が疑われるものである。
The
ラベル導出部625は、医療用語抽出部623から取得した一つ又は複数の医療用語に基づき、訓練データにおける正解データ(正解ラベル)に相当するラベルを生成し、出力する。ラベルは、例えば病変の有無、すなわち病変の存在又は不存在に関する情報である。または、ラベルは、病変の種類の名称等による症状に関する情報、または病変が発生した体内部位の場所、位置又は名称に関する情報を含むものであってもよい。
The
訓練データ生成部626は、画像抽出部624から第1画像を取得し、ラベル導出部625からラベルを取得する。訓練データ生成部626は、取得した第1画像及びラベルに基づき、第1画像を問題データとし、ラベルを正解データ(正解ラベル)として、病変が存在する場合の訓練データを生成する。訓練データ生成部626は、生成した訓練データを出力して記憶部63に記憶する。訓練データ生成部626は、第1画像及びラベルを配列データの形式にて、記憶するものであってもよい。
The training
本実施形態において、一連の処理における各機能部を、内視鏡用プロセッサ20の制御部21による機能部夫々と、情報処理装置6の制御部62による機能部夫々とに分けて説明したが、これら機能部の分担は一例であり、これに限定されない。内視鏡用プロセッサ20の制御部21は、情報処理装置6の制御部62によって行われる全ての機能部として、機能するものであってもよい。すなわち、内視鏡用プロセッサ20が、実質的に情報処理装置6を含むものであってもよい。または、内視鏡用プロセッサ20の制御部21は、撮像素子が撮像した撮影画像及び、マイク17にて集音した音声データを出力するのみであり、情報処理装置6の制御部62は、以降の処理を行う全ての機能部として機能するものであってもよい。または、内視鏡用プロセッサ20の制御部21と、情報処理装置6の制御部62とは、例えばプロセス間通信を行うことにより、協働して一連の処理における各機能部として機能するものであってもよい。
In the present embodiment, each functional unit in a series of processes has been described separately as a functional unit by the
一回の内視鏡による検査によって、撮像された内視鏡画像及び記録された音声データが生成され、当該音声データには、医師等による複数回の発言が含まれる。これら複数回の発言には医療用語が含まれ、これら医療用語夫々が発声(発音)された時点又は期間に基づき、同時点にて撮像された内視鏡画像のフレーム(静止画)を、第1画像として特定する。医療用語が発声された時点に撮像された第1画像は、当該医療用語に関連する病変が存在するものである。従って、病変有を正解データとした場合の問題データに相当する大量の画像を効率的に抽出することができる。 A single endoscopic examination produces an imaged endoscope image and recorded audio data, and the audio data includes a plurality of remarks by a doctor or the like. These multiple remarks include medical terms, and the frame (still image) of the endoscopic image taken at the same point based on the time or period when each of these medical terms is uttered (pronounced) is the first. Specify as one image. The first image taken at the time the medical term is spoken is the presence of a lesion associated with the medical term. Therefore, it is possible to efficiently extract a large amount of images corresponding to the problem data when the presence of lesions is the correct answer data.
図6は、情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。本実施形態におけるフローチャートは、情報処理装置6が内視鏡装置10(内視鏡プロセッサ)から内視鏡画像等を取得するにあたり、これの前提的な処理となる内視鏡プロセッサの処理を含む。
FIG. 6 is a flowchart showing an example of a processing procedure by the
内視鏡プロセッサの制御部62は、操作者IDを取得する(S01)。内視鏡プロセッサの制御部62は、医療機関IDを取得する(S02)。内視鏡プロセッサの制御部62は、内視鏡の操作者である医師等によりキーボード15を介して入力された操作者ID及び医療機関IDを取得する。
The
内視鏡プロセッサの制御部62は、内視鏡情報を取得する(S03)。内視鏡プロセッサの制御部62は、接続された内視鏡と、例えばチェックシーケンス等の通信を行い、当該内視鏡の種類に関する内視鏡情報を取得する。
The
内視鏡プロセッサの制御部62は、撮影画像を取得し、内視鏡画像を生成する(S04)。 内視鏡プロセッサの制御部62は、取得した撮影画像に対し、シェーディング補正等の各種画像処理を行うことにより、医師等の操作者が目視し易い状態にした内視鏡画像を生成する。
The
内視鏡プロセッサの制御部62は、音声データを取得する(S05)。内視鏡プロセッサの制御部62は、マイク17により集音した医師等の発言(音声)を含む音声データを取得し、補助記憶装置23等に記録する。
The
内視鏡プロセッサの制御部62は、内視鏡画像及び音声データに経時要素を付加する(S06)。内視鏡プロセッサの制御部62は、内視鏡画像及び音声データにおいて時間軸上での対応がとれるように経時要素を付加する。
The
内視鏡プロセッサの制御部62は、経時要素を付加した内視鏡画像及び音声データ、操作者ID等を出力する(S07)。内視鏡プロセッサの制御部62は、経時要素を付加した内視鏡画像及び音声データ、操作者ID等の取得又は生成した各種データを情報処理装置6に出力する。
The
情報処理装置6の制御部62は、内視鏡装置10から、経時要素が付加された内視鏡画像及び音声データ、操作者ID等を取得する(S101)。制御部62は、内視鏡装置10から取得した各種データを記憶部63に記憶する。
The
情報処理装置6の制御部62は、音声データに含まれる音声の認識処理を行う(S102)。制御部62は、音声データに含まれる音声の認識処理を行い、音声に含まれる発音に基づき、文字データを生成する。制御部62は、音声の認識処理を行うにあたり、取得した操作者IDに基づき音声を発した医師等を特定し、当該特定した医師による音声のみを認識して文字データを生成するものであってもよい。当該文字データには、文字データに含まれる用語が発音された時点に関する情報が、付与されている。上述のとおり、音声の認識処理を行うにあたり用いられる音響モデルには、操作者IDによって特定される医師等の音声が予め登録されている。制御部62は、記録された音声が内視鏡の操作者である医師であるか、被検者(患者)等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。
The
情報処理装置6の制御部62は、音声認識の結果に基づき、発音された医療用語の抽出を行う(S103)。制御部62は、音声に含まれる発音に基づき生成した文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出する。制御部62は、抽出した単語夫々と、医療用語DB631に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。制御部62は、抽出した医療用語及び当該医療用語が発声された時点を関連付けて記憶部63に記憶する。上述のとおり、制御部62は、抽出した医療用語が隠語として医療用語DB631に登録されている場合、当該隠語と同義となる標準用語を、抽出した医療用語として記憶するものであってもよい。この場合、例えば、医師等の発言が「下部食道にK」であっても、「K」は隠語として処理され、「K」と同義となる標準用語の「癌」に変換され、「下部食道に癌」として医療用語が抽出される。
The
制御部62は、医療用語DB631に登録されている隠語を適用する場合、入力された医療機関IDを用いて、適用する隠語群を確定するものであってもよい。医療用語DB631は、上述のとおり例えばRDBMSにより構成されており、医療用語のフィールドに格納される隠語夫々に対し、当該隠語が用いられる医療機関を識別する医療機関IDが登録されている。制御部62は、入力された医療機関IDを用いて、当該医療機関IDが登録されている隠語(当該医療機関IDと同一のレコードである隠語)を、適用対象の隠語群として抽出する。制御部62は、医師等の発言と、当該抽出した隠語群とを対比して、医師等の発言に含まれる隠語を特定し、特定した隠語と同義となる標準用語に変換して、医療用語を抽出する。本実施形態において、操作者ID及び医療機関IDを別個に取得するとしたが、これに限定されない。操作者IDには、当該操作者である医師等が属する医療機関を識別する番号(情報)が含まれており、制御部62は、操作者IDのみを取得し、当該操作者IDに含まれる医療機関を識別する番号を抽出する。制御部62は、抽出した当該番号(医療機関IDに相当)に基づき、医療用語DB631を用いて、適用対象の隠語群を抽出するものであってもよい。
When applying the jargon registered in the
情報処理装置6の制御部62は、抽出した医療用語の発音時点に対応する第1画像(フレーム)を抽出する(S104)。制御部62は、抽出した医療用語の発音時点、すなわち医師等による当該医療用語を含む発言がされた期間を特定し、当該期間において撮像された内視鏡画像のフレーム(静止画)を第1画像として抽出する。
The
情報処理装置6の制御部62は、抽出した医療用語に基づきラベルを導出する(S105)。抽出した医療用語が、例えば「下部食道に癌」等、複数の医療用語を含む場合、制御部62は、医療用語DB631を参照することにより、下部食道は病変の位置を示し、癌は病変の名称(種類)を示すものと判定し、判定結果に応じて、ラベルを生成(導出)する。一例として、「下部食道に癌」が抽出された場合、制御部62は、「病変:有/症状:癌/場所:下部食道」からなるラベルを生成(導出)する。
The
情報処理装置6の制御部62は、第1画像及びラベルに基づき訓練データを生成する(S106)。制御部62は、抽出した医療用語が発せられた期間にて撮像されたフレームである第1画像を問題データとし、抽出した医療用語に基づき導出したラベルを正解データ(正解レベル)とする訓練データを生成する。例えば、抽出した医療用語が発せられた期間が2秒であり、フレームレートが50フレーム/秒(fps)の場合、当該抽出した医療用語に対応する第1画像は100枚となり、これら第1画像に対し同じラベルが付与されるものとなる。制御部62は、第1画像及びラベルから成る訓練データを例えば、オブジェクト型配列データの形式で生成する。または、制御部62は、第1画像及びラベルから成る訓練データを、予め構成されているデータベース(訓練データ用DB)の所定のフィールドに登録するものであってもよい。
The
情報処理装置6の制御部62は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部63に記憶する(S107)。制御部62は、生成した訓練データと、内視鏡の種類等を含む内視鏡情報とを関連付けて記憶部63に記憶する。内視鏡の種類に応じて、検査対象の体内部位は異なるもとなるところ、訓練データと内視鏡情報とを関連付けて記憶することにより、内視鏡種類又は体内部位に応じた個々の学習済みモデルを生成することができる。
The
図7は、第1学習済みモデル91の生成処理に関する説明図である。情報処理装置6は、生成した訓練データに基づき学習することで、内視鏡画像を入力とし、病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力とする深層ニューラルネットワーク(第1学習済みモデル91)を構築(生成)する。上述のとおり、訓練データは、医師等の発言に基づき特定された問題データとなる第1画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。
FIG. 7 is an explanatory diagram relating to the generation process of the first trained
訓練データを用いて学習された深層ニューラルネットワーク(第1学習済みモデル91)は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用が想定される。第1学習済みモデル91は、上述のごとく制御部62(CPU等)及び記憶部63を備える情報処理装置6にて用いられるものであり、このように演算処理能力を有する情報処理装置6にて実行されることにより、ニューラルネットワークシステムが構成される。すなわち、情報処理装置6の制御部62が、第1学習済みモデル91からの指令に従って、入力層に入力された内視鏡画像の特徴量を抽出する演算を行い、出力層から病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力するように動作する。
The deep neural network (first trained model 91) trained using the training data is expected to be used as a program module that is a part of artificial intelligence software. The first trained
入力層は、内視鏡画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値及び距離情報を中間層に受け渡す。中間層は、内視鏡画像の画像特徴量を抽出する複数のニューロンを有し、抽出した画像特徴量に基づくニューロンの活性状態を出力層に受け渡す。例えば第1学習済みモデル91がCNN(Convolutional Neural Network)である場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピング(圧縮)するプーリング層とが交互に連結された構成を有し、内視鏡画像の画素情報を圧縮しながら最終的に内視鏡画像の特徴量を抽出する。出力層は、当該内視鏡画像に含まれる体内部位における病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力する一又は複数のニューロンを有し、中間層から出力された画像特徴量等に基づいて、病変の有無等に関する情報を出力する。当該出力される病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報は、医師等による診断支援情報として用いられる。
The input layer has a plurality of neurons that receive input of the pixel value of each pixel included in the endoscopic image, and passes the input pixel value and distance information to the intermediate layer. The intermediate layer has a plurality of neurons for extracting the image features of the endoscopic image, and passes the active state of the neurons based on the extracted image features to the output layer. For example, when the first trained
本実施形態では、第1学習済みモデル91に入力されるデータは、内視鏡画像であるとして説明しているがこれに限定されない。第1学習済みモデル91に入力されるデータは、撮像素子が撮像した撮影画像であってもよい。すなわち、第1学習済みモデル91は、撮影画像及び距離情報が入力されることにより、病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力する。この場合、訓練データは撮影画像に基づき生成されていることが望ましい。
In the present embodiment, the data input to the first trained
情報処理装置6は、出力層から出力された値を、問題データ(第1画像)に対し、ラベル付けされた病変の有無等を含む情報、すなわち正解値(正解データ)と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば情報処理装置6は、誤差逆伝播法を用いて各種パラメータの最適化を行う。情報処理装置6は、訓練データを用いて上記の処理を行い、第1学習済みモデル91を生成し、生成した第1学習済みモデル91を記憶部63に記憶する。
The information processing apparatus 6 compares the value output from the output layer with the information including the presence or absence of a labeled lesion with respect to the problem data (first image), that is, the correct answer value (correct answer data), and the output layer. The parameters used for the arithmetic processing in the intermediate layer are optimized so that the output value from is close to the correct answer value. The parameter is, for example, a weight between neurons (coupling coefficient), a coefficient of an activation function used in each neuron, and the like. The method of optimizing the parameters is not particularly limited, but for example, the information processing apparatus 6 optimizes various parameters by using the error back propagation method. The information processing apparatus 6 performs the above processing using the training data, generates the first trained
本実施形態において、情報処理装置6は、訓練データの生成及び、当該訓練データを用いた第1学習済みモデル91の生成を行うとしたが、これに限定されない。訓練データを用いた第1学習済みモデル91の生成は、訓練データの生成した情報処理装置6とは、異なる情報処理装置6で行うものであってもよい。
In the present embodiment, the information processing apparatus 6 is supposed to generate training data and a first trained
図8は、情報処理装置6の制御部62による第1学習済みモデル91の生成処理に関する処理手順の一例を示すフローチャートである。情報処理装置6の制御部62は、訓練データを取得する(S120)。訓練データは、医師等の発言に基づき特定された問題データとなる第1画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。
FIG. 8 is a flowchart showing an example of a processing procedure related to the generation processing of the first trained
このような訓練データの元データとなる内視鏡画像及び医師等の発言を記憶した音声データは、各医療機関において行われた内視鏡検査の結果データとして大量に保存されており、これら結果データを用いることにより、訓練データを大量に生成することができる。更に、音声データから医師等の発言における医療用語を抽出することにより、当該医療用語を含む発言がされた時点にて撮像された内視鏡画像のフレームを特定するため、病変が有とされるフレームを効率的に抽出し、多量の訓練データを生成する工数を削減して省力化することができる。 A large amount of endoscopic images, which are the original data of such training data, and audio data, which stores statements made by doctors and the like, are stored as result data of endoscopic examinations performed at each medical institution, and these results are obtained. By using the data, a large amount of training data can be generated. Furthermore, by extracting medical terms in the remarks of doctors and the like from the voice data, it is considered that there is a lesion in order to identify the frame of the endoscopic image captured at the time when the remarks including the medical terms are made. It is possible to efficiently extract frames, reduce the man-hours for generating a large amount of training data, and save labor.
情報処理装置6の制御部62は、第1学習済みモデル91を生成する(S121)。制御部62は、深層ニューラルネットワークに、取得した訓練データを用いて学習させることにより、第1学習済みモデル91を構築(生成)する。第1学習済みモデル91がニューラルネットワークである場合、中間層での演算処理に用いるパラメータは、例えば誤差逆伝播法を用いることにより、最適化される。
The
本実施形態によれば、内視鏡により撮影した画像に関連付けられて記録された医師等の内視鏡の操作者による音声データの認識結果に基づき、当該画像に相関を有するラベルを導出し、画像及びラベルに基づいて、深層ニューラルネットワーク用の訓練データを生成する。訓練データにおいて、内視鏡により撮影した画像は問題データに相当し、画像と相関を有するラベルは正解データに相当するところ、正解データであるラベルを、画像と関連付けられて記録された音声データに基づき導出するため、正解データを効率的に導出することができ、訓練データを効率的に生成することができる。 According to the present embodiment, a label having a correlation with the image is derived based on the recognition result of the voice data by the operator of the endoscope such as a doctor recorded in association with the image taken by the endoscope. Generate training data for deep neural networks based on images and labels. In the training data, the image taken by the endoscope corresponds to the problem data, and the label having a correlation with the image corresponds to the correct answer data. Since it is derived based on the above, the correct answer data can be efficiently derived, and the training data can be efficiently generated.
本実施形態によれば、ラベルは、画像に含まれる体内部位における病変の有無、病変の種類、又は病変の位置の少なくともいずれか一つに関する情報を含む。従って、当該画像を問題データとし、病変の有無、病変の種類又は病変の位置のいずれか一つ、又は全てを含む情報を正解データとする訓練データを、効率的に作成することができる。 According to this embodiment, the label contains information about at least one of the presence or absence of a lesion, the type of lesion, or the location of a lesion at an internal site included in an image. Therefore, it is possible to efficiently create training data in which the image is used as problem data and information including any one or all of the presence / absence of a lesion, the type of a lesion, or the position of a lesion is used as correct answer data.
本実施形態によれば、音声データから認識した発音による用語と、医療用語DB631に予め記憶されている医療用語群との対比に基づき、前記画像と相関を有するラベルを導出するため、精度よくラベルを導出することができる。更に、医療用語DB631に予め記憶されている医療用語群は、隠語と、隠語と同義となる標準用語とを含み、認識した発音による用語が隠語である場合、隠語と同義となる標準用語に基づき、前記画像と相関を有するラベルを導出する。従って、医師等の内視鏡の操作者による発言において、隠語等が用いられ、表現揺れが発生した場合であっても、精度よくラベルを導出することができる。 According to the present embodiment, a label having a correlation with the image is derived based on the comparison between the pronunciation term recognized from the voice data and the medical term group stored in advance in the medical term DB631, so that the label can be accurately labeled. Can be derived. Further, the medical term group stored in advance in the medical term DB631 includes a jargon and a standard term synonymous with the jargon, and when the recognized pronunciation term is a jargon, it is based on the standard term synonymous with the jargon. , A label having a correlation with the image is derived. Therefore, even when jargon or the like is used in the remarks made by the operator of the endoscope such as a doctor and expression fluctuation occurs, the label can be derived with high accuracy.
本実施形態によれば、医療用語群に含まれる用語が発声された時点に関する情報を取得し、当該用語が発せられた時点に対応する第1画像を特定する。従って、病変が疑われる体内部位が撮影された時点における第1画像を効率的に特定することができる。そして、特定した第1画像を問題データとした場合、正解データに相当するラベルに病変の存在に関する情報を含めることにより、病変有りとする訓練データを効率的に生成することができる。 According to the present embodiment, information regarding the time when a term included in the medical term group is uttered is acquired, and the first image corresponding to the time when the term is uttered is specified. Therefore, it is possible to efficiently identify the first image at the time when the internal part where the lesion is suspected is photographed. Then, when the specified first image is used as the problem data, the training data indicating that there is a lesion can be efficiently generated by including the information regarding the existence of the lesion in the label corresponding to the correct answer data.
本実施形態によれば、撮像される体内部位、すなわち検査対処の体内部位に応じて、内視鏡の種類は異なるものとなる。これに対し、内視鏡の種類を含む内視鏡情報を取得し、当該内視鏡情報を訓練データに関連付けて記憶することにより、訓練データを効率的に管理し、内視鏡の種類夫々に適合した深層ニューラルネットワークに対する学習を、確実に行うことができる。 According to the present embodiment, the type of endoscope differs depending on the internal part to be imaged, that is, the internal part to be examined. On the other hand, by acquiring endoscope information including the type of endoscope and storing the endoscope information in association with the training data, the training data can be efficiently managed and each type of endoscope can be stored. It is possible to reliably perform training for a deep neural network suitable for.
本実施形態によれば、上述の方法により効率的に作成された訓練データを用いて深層ニューラルネットワークを学習させることにより、訓練データの生成に要する工数を削減しつつ、内視鏡により撮影した画像が入力された場合、当該画像に含まれる体内部位における病変の有無等を含む情報を出力する学習済みモデルを生成することができる。 According to the present embodiment, by training the deep neural network using the training data efficiently created by the above method, the number of steps required to generate the training data is reduced, and the image taken by the endoscope is taken. When is input, it is possible to generate a trained model that outputs information including the presence or absence of a lesion in an internal part included in the image.
(実施形態2)
図9は、実施形態2(無声音時の訓練データ)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。(Embodiment 2)
FIG. 9 is a flowchart showing an example of a processing procedure by the
情報処理装置6の制御部62は、実施形態1の処理S101からS105と同様に、S201からS205までの処理を行う。情報処理装置6の制御部62は、抽出した医療用語に基づき第1ラベルを導出する(S205)。情報処理装置6の制御部62は、第1画像及び第1ラベルに基づき、病変有の訓練データを生成する(S206)。S206までの処理を行うことにより、病変有等を含む第1ラベルを正解ラベルとする第1画像による訓練データを生成する。
The
情報処理装置6の制御部62は、第1画像以外のフレームを第2画像として抽出する(S207)。制御部62は、取得した内視鏡画像において、第1画像として特定したフレーム(静止画)以外のフレームを第2画像として抽出し、特定する。
The
情報処理装置6の制御部62は、病変無とする情報を、第2画像の第2ラベルとして導出する(S208)。第2画像は、医師等による発言がない期間(無声音の期間)、又は、医療用語が含まれない発言がされた期間にて、撮像された内視鏡画像のフレームに相当するものである。従って、制御部62は、これら第2画像に含まれる体内部位には、病変が存在しない(病変無)と判定することができる。制御部62は、例えば「病変:無/症状:無/場所:無」からなる第2ラベルを生成する。
The
情報処理装置6の制御部62は、第2画像及び第2ラベルに基づき、病変無の訓練データを生成する(S209)。制御部62は、第2画像及び第2ラベルに基づき生成した訓練データ(病変無の訓練データ)を、S206で生成した訓練データ(病変有の訓練データ)に追加する。
The
情報処理装置6の制御部62は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部63に記憶する(S210)。制御部62は、生成した訓練データ、すなわち病変有の訓練データと病変無の訓練データとを合体した訓練データを、実施形態1の処理(S107)と同様に記憶部63に記憶する。
The
本実施形態によれば、第1画像以外の第2画像が撮像された時点においては、医療用語群に含まれる用語が発せられていないため、これら第2画像を問題データとした場合、正解データに相当するラベルに病変の不存在に関する情報を含めることにより、病変無しとする訓練データを効率的に生成することができる。 According to the present embodiment, at the time when the second image other than the first image is captured, the terms included in the medical term group are not emitted. Therefore, when these second images are used as problem data, the correct answer data is obtained. By including information on the absence of lesions in the label corresponding to, it is possible to efficiently generate training data for the absence of lesions.
(実施形態3)
図10は、実施形態3(拡大率)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS301からS304までの処理を行う。(Embodiment 3)
FIG. 10 is a flowchart showing an example of a processing procedure by the
情報処理装置6の制御部62は、抽出した第1画像と同一の体内部位を撮像した画像(フレーム)であって、拡大率が異なる画像(フレーム)を第1画像として抽出する(S305)。制御部62は、抽出した第1画像以外であって、当該第1画像の前後に位置するフレームに対し、当該フレームが第1画像と同一の体内部位を撮像したフレームであるか、及び拡大率が異なるものであるかを判定する。制御部62は、抽出した第1画像から病変に相当に特徴量を抽出し、当該第1画像以外のフレームにおいて抽出した特徴量と同様又は近似する特徴量を含むフレームであって、当該第1画像とは拡大率が異なるフレームを抽出する。制御部62は、抽出した第1画像に対し例えば、エッジ検出、予め登録されている病変に相当する色彩又は形状とのパターンマッチング等により、病変に相当に特徴量を抽出する。制御部62は、例えば、抽出した特徴量の部位のフレーム内におけるサイズを比較することにより、拡大率の同異を認識する。
The
制御部62は、抽出した第1画像と同一の体内部位を撮像した画像(フレーム)であって、当該第1画像の拡大率よりも小さい拡大率のフレームを第1画像として抽出するものであってもよい。医師等が内視鏡画像を参照して検査又は診断を行う場合、拡大率が小さい画像(フレーム)の場合は、当該画像(フレーム)に病変の存在が疑われる場合、確定的な発言を控え無言となることがあり、拡大率を大きくすることにより病変の存在を認識し医療用語を含む発言をすることが想定される。このような場合、拡大率が小さい画像(フレーム)が撮像された時点の音声データは無言となり、当該画像(フレーム)は、第1画像として抽出されないものとなるが、上記の処理を行うことにより、拡大率が大きい第1画像との連関性に基づき、当該拡大率が小さい画像(フレーム)を第1画像として抽出することができる。
The
情報処理装置6の制御部62は、実施形態1の処理S105からS107と同様にS306からS308までの処理を行う。
The
本実施形態によれば、拡大率の異なる複数の画像が同一の体内部位を含む場合、拡大率の異なる複数の画像のいずれかの画像を第1画像と特定した場合、当該特定したいずれかの画像よりも拡大率が小さい画像についても、第1画像と特定する。従って、拡大率を大きくした画像が撮像された時点における医師等の発言を、当該画像よりも拡大率が小さい画像に対し適用し、これら拡大率が小さい画像と相関を有するラベルを精度よく導出することができる。 According to the present embodiment, when a plurality of images having different enlargement ratios include the same internal part, or when any image of a plurality of images having different enlargement ratios is specified as a first image, any of the specified images is specified. An image having a smaller enlargement ratio than the image is also specified as the first image. Therefore, the remarks of doctors and the like at the time when an image with a large enlargement ratio is captured are applied to an image having a smaller enlargement ratio than the image, and a label having a correlation with these images having a smaller enlargement ratio is accurately derived. be able to.
(実施形態4)
図11は、実施形態4(病変有無の確度)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS401からS404までの処理を行う。(Embodiment 4)
FIG. 11 is a flowchart showing an example of a processing procedure by the
情報処理装置6の制御部62は、抽出した第1画像の前後に位置する複数の画像(フレーム)における変化量に基づき、病変有無の確度に関する情報を導出する(S405)。制御部62は、抽出した第1画像と、当該第1画像の前後に位置する複数の画像(フレーム)とにおいて、画素単位での変化量を導出し、導出した変化量に基づき病変有無の確度に関する情報を導出する。すなわち、抽出した第1画像との変化量が所定値以下のフレームが、例えば200枚であり、フレームレートが50fpsの場合、医師は4秒間に亘って同一の体内部位を参照しているものとなる。すなわち、この期間においては、内視鏡画像は、見た目上、停止した状態となる。このように停止した状態、すなわち抽出した第1画像との変化量が所定値以下のフレームが連続した場合、医師は判断に迷っている可能性ある。従って、制御部62は、当該連続するフレームの枚数に基づき決定される期間に応じて、病変有無等の確度に関する情報を導出する。例えば、制御部62は、当該期間が長くなるにつれて、病変有無等の確度を下げて導出するものであってもよい。
The
情報処理装置6の制御部62は、抽出した医療用語及び導出した確度に基づきラベルを導出する(S406)。制御部62は、一例として、「病変:有/症状:癌/場所:下部食道/確度:80%」からなるラベルを生成する。制御部62は、実施形態1の処理S106、S107と同様にS407、S408の処理を行う。
The
本実施形態によれば、病変の存在又は不存在の判断が困難な場合、医師等は内視鏡の移動を停止し、特定の体内部位を注視する傾向がある。これに対し、単位時間における動画像の変化量に基づいて、病変の存在の確度に関する情報を導出し、ラベルに含めることにより、医師等による特定の部位に対する注視度合を加味した情報をラベルに含めることができる。 According to this embodiment, when it is difficult to determine the presence or absence of a lesion, doctors and the like tend to stop the movement of the endoscope and gaze at a specific internal part. On the other hand, by deriving information on the certainty of the presence of lesions based on the amount of change in the moving image over a unit time and including it in the label, information including the degree of gaze of a specific site by a doctor or the like is included in the label. be able to.
(実施形態5)
図12は、実施形態5(被検者の音声データ)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS501からS504までの処理を行う。本実施形態においては、マイク17によって集音し記録した音声データには、被検者による発声が含まれている。又は、情報処理装置6の制御部62は、医師等による音声データとは別個のデータとして、被検者による音声データを取得するものであってもよい。(Embodiment 5)
FIG. 12 is a flowchart showing an example of a processing procedure by the
情報処理装置6の制御部62は、第1画像(フレーム)に対応する被検者の音声データを取得する(S505)。制御部62は、抽出した第1画像(フレーム)が撮像された時点において、発生された被検者の音声データを取得する。当該被検者の音声データの取得は、内視鏡用プロセッサ20から出力された音声データの内、当該被検者による発声が行われた期間の部分データを切り出すことにより、行われるものであってもよい。又は、制御部62は、内視鏡用プロセッサ20から出力された音声データに対し、上述した音響モデルを用いることにより、被検者による発声の音素を特定し、当該被検者による発声が行われた期間の部分データを切り出すことにより被検者の音声データを取得するものであってもよい。制御部62は、当該被検者による発声が行われた期間に基づき、撮像された時点が一致又は近接することにより対応する第1画像を特定するものであってもよい。
The
情報処理装置6の制御部62は、実施形態1の処理S105と同様にS506の処理を行う。
The
情報処理装置6の制御部62は、第1画像、被検者の音声データ及びラベルに基づき訓練データを生成する(S507)。制御部62は、問題データを第1画像及び被検者の音声データとし、正解データを導出したラベルとする訓練データを生成する。情報処理装置6の制御部62は、実施形態1の処理S107と同様にS508の処理を行う。
The
本実施形態によれば、内視鏡の被検者による音声データを取得することにより、内視鏡により撮影した画像及び内視鏡の被検者による音声データを組み合わせた訓練データを生成することができる。このように被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第2学習済みモデル92(図13参照)用の訓練データを、効率的に生成することができる。 According to the present embodiment, by acquiring the voice data by the subject of the endoscope, training data combining the image taken by the endoscope and the voice data by the subject of the endoscope is generated. Can be done. By including the voice data of the subject in the problem data in this way, training data for the second trained model 92 (see FIG. 13) effective for lesions related to, for example, pharyngeal cancer is efficiently generated. be able to.
図13は、第2学習済みモデル92の生成処理に関する説明図である。情報処理装置6は、第1画像及び被検者の音声データを問題データとし、病変の有無、症状及び病変の場所を正解データとする訓練データに基づき学習することで、第1画像及び被検者の音声データを入力とし、病変の有無、症状及び病変の場所を出力とする深層ニューラルネットワーク(第2学習済みモデル92)を構築(生成)する。
FIG. 13 is an explanatory diagram relating to the generation process of the second trained
第2学習済みモデル92は、第1学習済みモデル91と同様に入力層、中間層及び出力層を含む。音声データは、例えばLibROSA等の音声分析ライブラリを用いて配列化し、画像データと同様にCNNの入力データとして用いるものであってもよい。又は、マルチモーダルディープラーニングを用い、音声データが入力される入力層の次にLSTM(Long short term memory)等による自己回帰層を設け、当該自己回帰層からの出力と、CNNにより内視鏡画像の特徴量を抽出する中間層からの出力とを、全結合層により結合して出力層に受け渡すものであってよい。
The second trained
本実施形態によれば、被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第2学習済みモデル92を効率的に生成することができる。
According to the present embodiment, by including the voice data by the subject in the problem data, it is possible to efficiently generate the second trained
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、請求の範囲内での全ての変更及び請求の範囲と均等の範囲が含まれることが意図される。 The embodiments disclosed this time should be considered to be exemplary in all respects and not restrictive. The technical features described in each embodiment can be combined with each other and the scope of the invention is intended to include all modifications within the scope of the claims and the scope of the claims. ..
S 訓練データ生成システム
10 内視鏡装置
15 キーボード
16 収容棚
17 マイク
20 内視鏡用プロセッサ
21 制御部
211 画像処理部
212 時計部
213 情報連関部
22 主記憶装置
23 補助記憶装置
24 通信部
25 タッチパネル
26 表示装置I/F
27 入力装置I/F
28 読取部
31 内視鏡用コネクタ
311 電気コネクタ
312 光コネクタ
33 光源
34 ポンプ
35 送水タンク
36 送気送水口金
40 内視鏡
43 操作部
431 制御ボタン
433 湾曲ノブ
44 挿入部
441 軟性部
442 湾曲部
443 先端部
45 折止部
48 スコープコネクタ
49 ユニバーサルコード
50 表示装置
6 情報処理装置
61 通信部
62 制御部
621 取得部
622 音声認識部
623 医療用語抽出部
624 画像抽出部
625 ラベル導出部
626 訓練データ生成部
63 記憶部
631 医療用語DB
632 記録媒体
P プログラム
64 入出力I/F
7 表示部
8 入力部
91 第1学習済みモデル
92 第2学習済みモデルS Training
27 Input device I / F
28
632 Recording medium P program 64 I / O I / F
7
Claims (11)
取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する
処理をコンピュータに実行させる訓練データ生成方法。Acquire the image taken by the endoscope and
The voice data by the operator of the endoscope recorded in association with the acquired image is acquired, and the voice data is acquired.
A training data generation method for causing a computer to execute a process of generating training data for a deep neural network based on a label corresponding to the recognition result and the image according to the recognition result of the acquired voice data.
請求項1のいずれか1項に記載の訓練データ生成方法。The training data generation according to any one of claims 1, wherein the label contains information on any one of the presence or absence of a lesion, the type of lesion, or the location of a lesion in an internal site included in the image. Method.
認識した発音による用語と、予め記憶されている医療用語群との対比に基づき、医療用語を特定し、
特定した医療用語に基づき、前記ラベルを生成する
請求項1又は請求項2に記載の訓練データ生成方法。The recognition of the voice data includes a process of recognizing the pronunciation in the voice data.
Identify medical terms based on the contrast between the recognized pronunciation terms and the pre-memorized medical term groups.
The training data generation method according to claim 1 or 2, wherein the label is generated based on the specified medical term.
認識した発音による用語が前記隠語である場合、前記隠語と同義となる標準用語に基づき、前記医療用語を特定する
請求項3に記載の訓練データ生成方法。The medical terminology includes jargon and standard terms synonymous with jargon.
The training data generation method according to claim 3, wherein when the recognized pronunciation term is the jargon, the medical term is specified based on a standard term synonymous with the jargon.
前記画像において、前記操作者の音声データに含まれる発声時に対応する第1画像を特定し、
特定した前記第1画像に関連付けられるラベルに、病変の存在に関する情報を含め、
前記画像において、前記第1画像以外の画像となる第2画像に関連付けられるラベルに、病変の不存在に関する情報を含める
請求項1から請求項4のいずれか1項に記載の訓練データ生成方法。The association between the image and the voice data of the operator is based on a time factor.
In the image, the first image corresponding to the utterance included in the voice data of the operator is specified.
The label associated with the identified first image includes information about the presence of the lesion.
The training data generation method according to any one of claims 1 to 4, wherein in the image, information regarding the absence of a lesion is included in a label associated with a second image that is an image other than the first image.
前記拡大率の異なる複数の画像には、同一のラベルを関連付ける
請求項1から請求項5のいずれか1項に記載の訓練データ生成方法。The image includes a plurality of images having the same internal part and different magnifications.
The training data generation method according to any one of claims 1 to 5, wherein the same label is associated with the plurality of images having different enlargement ratios.
単位時間における前記動画像の変化量に基づいて、病変の存在の確度に関する情報を前記ラベルに含める
請求項1から請求項6のいずれか1項に記載の訓練データ生成方法。The image taken by the endoscope is a moving image and is a moving image.
The training data generation method according to any one of claims 1 to 6, wherein information regarding the probability of the presence of a lesion is included in the label based on the amount of change in the moving image in a unit time.
生成した前記ラベルと、前記画像及び前記内視鏡の被検者による音声データとに基づいて、前記深層ニューラルネットワーク用の訓練データを生成する
請求項1から請求項7のいずれか1項に記載の訓練データ生成方法。Obtaining voice data from the subject of the endoscope,
The invention according to any one of claims 1 to 7, wherein the training data for the deep neural network is generated based on the generated label, the image, and the voice data by the subject of the endoscope. Training data generation method.
取得した前記内視鏡情報を前記訓練データに関連付けて記憶する
請求項1から請求項8のいずれか1項に記載の訓練データ生成方法。Obtaining endoscope information including the type of endoscope,
The training data generation method according to any one of claims 1 to 8, wherein the acquired endoscopic information is stored in association with the training data.
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部と
を備える情報処理装置。
An acquisition unit that acquires an image taken by an endoscope and acquires voice data by an operator or a subject of the endoscope recorded in association with the acquired image.
An information processing device including a generation unit that generates training data for a deep neural network based on a label corresponding to the recognition result and the image according to the recognition result of the acquired voice data.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2019/032760 WO2021033303A1 (en) | 2019-08-22 | 2019-08-22 | Training data generation method, learned model, and information processing device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPWO2021033303A1 true JPWO2021033303A1 (en) | 2021-12-02 |
Family
ID=74660706
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021541421A Pending JPWO2021033303A1 (en) | 2019-08-22 | 2019-08-22 | Training data generation method, trained model and information processing device |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JPWO2021033303A1 (en) |
| WO (1) | WO2021033303A1 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2023127292A1 (en) * | 2021-12-27 | 2023-07-06 | ||
| KR102442591B1 (en) * | 2022-01-24 | 2022-09-13 | 주식회사 에어스메디컬 | Method, program, and apparatus for generating label |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006141903A (en) * | 2004-11-25 | 2006-06-08 | Hitachi Medical Corp | Ultrasonic diagnostic apparatus |
| JP2008136646A (en) * | 2006-12-01 | 2008-06-19 | Toshiba Corp | Medical support device |
| JP2012065735A (en) * | 2010-09-22 | 2012-04-05 | Hitachi Medical Corp | Terminal for inputting image reading report, system for inputting image reading report, and method for inputting image reading report |
| JP2013106752A (en) * | 2011-11-21 | 2013-06-06 | National Cancer Center | Electronic endoscope system |
| WO2018198327A1 (en) * | 2017-04-28 | 2018-11-01 | オリンパス株式会社 | Endoscope diagnosis assist system, endoscope diagnosis assist program, and endoscope diagnosis assist method |
| WO2019012586A1 (en) * | 2017-07-10 | 2019-01-17 | オリンパス株式会社 | Medical image processing apparatus and medical image processing method |
| WO2019088121A1 (en) * | 2017-10-30 | 2019-05-09 | 公益財団法人がん研究会 | Image diagnosis assistance apparatus, data collection method, image diagnosis assistance method, and image diagnosis assistance program |
-
2019
- 2019-08-22 JP JP2021541421A patent/JPWO2021033303A1/en active Pending
- 2019-08-22 WO PCT/JP2019/032760 patent/WO2021033303A1/en not_active Ceased
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006141903A (en) * | 2004-11-25 | 2006-06-08 | Hitachi Medical Corp | Ultrasonic diagnostic apparatus |
| JP2008136646A (en) * | 2006-12-01 | 2008-06-19 | Toshiba Corp | Medical support device |
| JP2012065735A (en) * | 2010-09-22 | 2012-04-05 | Hitachi Medical Corp | Terminal for inputting image reading report, system for inputting image reading report, and method for inputting image reading report |
| JP2013106752A (en) * | 2011-11-21 | 2013-06-06 | National Cancer Center | Electronic endoscope system |
| WO2018198327A1 (en) * | 2017-04-28 | 2018-11-01 | オリンパス株式会社 | Endoscope diagnosis assist system, endoscope diagnosis assist program, and endoscope diagnosis assist method |
| WO2019012586A1 (en) * | 2017-07-10 | 2019-01-17 | オリンパス株式会社 | Medical image processing apparatus and medical image processing method |
| WO2019088121A1 (en) * | 2017-10-30 | 2019-05-09 | 公益財団法人がん研究会 | Image diagnosis assistance apparatus, data collection method, image diagnosis assistance method, and image diagnosis assistance program |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021033303A1 (en) | 2021-02-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11024066B2 (en) | Presentation generating system for medical images, training method thereof and presentation generating method | |
| JP5178119B2 (en) | Image processing apparatus and image processing method | |
| US20240070440A1 (en) | Multimodal representation learning | |
| US20080133233A1 (en) | Medical assistance device | |
| KR102453580B1 (en) | Data input method at location of detected lesion during endoscope examination, computing device for performing the data input method | |
| JP7203000B2 (en) | Program, information processing method and information processing apparatus | |
| CN117524402A (en) | Method for analyzing endoscope image and automatically generating diagnostic report | |
| JP2024528522A (en) | System and method for real-time processing of medical images - Patents.com | |
| CN109192261B (en) | Information processing method and device, electronic device and storage medium | |
| US20240212812A1 (en) | Intelligent medical report generation | |
| US12125196B2 (en) | Computer program, processor for endoscope, and information processing method | |
| WO2021014584A1 (en) | Program, information processing method, and information processing device | |
| JPWO2021033303A1 (en) | Training data generation method, trained model and information processing device | |
| CN119205736B (en) | Multi-mode small sample data driven abnormality detection method, system and storage medium | |
| US12426774B2 (en) | Endoscopy support apparatus, endoscopy support method, and computer readable recording medium | |
| JP2018028562A (en) | Medical image display device and image interpretation report generation assistance device | |
| CN113889103A (en) | Voice-controlled pathological material control method and system | |
| CN115904237A (en) | Video file processing method, device and equipment | |
| CN115171889A (en) | Small sample gastric tumor diagnosis system | |
| US20240203552A1 (en) | Video surgical report generation | |
| JP2021083959A (en) | Computer program, information processing method, and processor for endoscope | |
| Takayama et al. | Speech recognition system generates highly accurate endoscopic reports in clinical practice | |
| US20250120631A1 (en) | Apparatus and method for diagnosing disease based on image | |
| JP7731771B2 (en) | Information processing method, information processing device, and computer system | |
| CN112419251B (en) | Upper digestive tract endoscopy image generation method, device, electronic device and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210726 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221007 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221108 |