[go: up one dir, main page]

JPWO2021033303A1 - Training data generation method, trained model and information processing device - Google Patents

Training data generation method, trained model and information processing device Download PDF

Info

Publication number
JPWO2021033303A1
JPWO2021033303A1 JP2021541421A JP2021541421A JPWO2021033303A1 JP WO2021033303 A1 JPWO2021033303 A1 JP WO2021033303A1 JP 2021541421 A JP2021541421 A JP 2021541421A JP 2021541421 A JP2021541421 A JP 2021541421A JP WO2021033303 A1 JPWO2021033303 A1 JP WO2021033303A1
Authority
JP
Japan
Prior art keywords
image
endoscope
training data
data
lesion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021541421A
Other languages
Japanese (ja)
Inventor
伶 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hoya Corp
Original Assignee
Hoya Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hoya Corp filed Critical Hoya Corp
Publication of JPWO2021033303A1 publication Critical patent/JPWO2021033303A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Endoscopes (AREA)

Abstract

訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。The training data generation method acquires an image taken by the endoscope, acquires voice data by the operator of the endoscope recorded in association with the acquired image, and recognizes the acquired voice data. A computer is made to execute a process of generating training data for a deep neural network based on the label corresponding to the recognition result and the image.

Description

本技術は、訓練データ生成方法、学習済みモデル及び情報処理装置に関する。 This technique relates to a training data generation method, a trained model, and an information processing device.

内視鏡画像等の医用画像から、学習モデルを使用して病変部位を自動的に検出するコンピュータ支援診断技術が開発されている。正解ラベルが付与された訓練データを用いた教師あり機械学習により、学習モデルを生成する手法が知られている。 Computer-aided diagnostic technology has been developed that automatically detects lesion sites using a learning model from medical images such as endoscopic images. A method of generating a learning model by supervised machine learning using training data with a correct answer label is known.

通常の内視鏡で撮影された画像群を訓練データに用いた第1の学習と、カプセル内視鏡で撮影された画像群を訓練データに用いた第2の学習とを組み合わせる学習方法にて学習される学習モデル及び、学習モデルを含む学習システム当該が、開示されている(例えば、特許文献1)。特許文献1の学習システムは、消化器内視鏡及びカプセル型内視鏡によって撮像した画像群から、ランドマークが写る画像とそうでない画像を予め選択し、選択した夫々の画像及び正解ラベルを記録する。 A learning method that combines the first learning using images taken with a normal endoscope for training data and the second learning using images taken with a capsule endoscope for training data. A learning model to be learned and a learning system including the learning model are disclosed (for example, Patent Document 1). The learning system of Patent Document 1 selects in advance an image showing a landmark and an image not showing a landmark from a group of images taken by a gastrointestinal endoscope and a capsule-type endoscope, and records each selected image and a correct answer label. do.

国際公開第2017/175282号International Publication No. 2017/1752282

しかしながら、特許文献1に記載の学習モデルを学習されるための訓練データを生成するにあたり、画像夫々を選択し、当該選択結果に基づきこれら画像夫々に正解ラベルを付与する必要があるところ、特許文献1の学習システムにおいては、係る訓練データを効率的に生成する点については、考慮されていない。 However, in order to generate training data for learning the learning model described in Patent Document 1, it is necessary to select each image and give a correct answer label to each of these images based on the selection result. In the learning system of No. 1, the point of efficiently generating the training data is not considered.

一つの側面では、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することを目的とする。 One aspect is to provide a training data generation method or the like that efficiently generates training data for a trained model using an image taken by an endoscope.

本開示の一態様における訓練データ生成方法は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する処理をコンピュータに実行させる。 In the training data generation method according to one aspect of the present disclosure, an image taken by an endoscope is acquired, and voice data by an operator of the endoscope recorded in association with the acquired image is acquired and acquired. A computer is made to execute a process of generating training data for a deep neural network based on the label corresponding to the recognition result and the image according to the recognition result of the voice data.

本開示の一態様における学習済みモデルは、本開示の一態様における訓練データ生成方法によって生成した前記訓練データを用いて学習させたものである。 The trained model in one aspect of the present disclosure is trained using the training data generated by the training data generation method in the one aspect of the present disclosure.

本開示の一態様における情報処理装置は、内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部とを備える。 The information processing apparatus according to one aspect of the present disclosure acquires an image taken by the endoscope, and acquires voice data by the operator or the subject of the endoscope recorded in association with the acquired image. It includes an acquisition unit and a generation unit that generates training data for a deep neural network based on the label corresponding to the recognition result and the image according to the recognition result of the acquired voice data.

本開示によれば、内視鏡により撮影した画像を用いた学習済みモデル用の訓練データを効率的に生成する訓練データ生成方法等を提供することができる。 According to the present disclosure, it is possible to provide a training data generation method or the like that efficiently generates training data for a trained model using an image taken by an endoscope.

実施形態1に係る訓練データ生成システムの概要を示す模式図である。It is a schematic diagram which shows the outline of the training data generation system which concerns on Embodiment 1. FIG. 訓練データ生成システムに含まれる内視鏡装置(マイク)の構成例を示すブロック図である。It is a block diagram which shows the structural example of the endoscope apparatus (microphone) included in the training data generation system. 訓練データ生成システムに含まれる情報処理装置の構成例を示すブロック図である。It is a block diagram which shows the configuration example of the information processing apparatus included in the training data generation system. 医療用語DBのデータレイアウトを例示する説明図である。It is explanatory drawing which illustrates the data layout of the medical term DB. 情報処理装置等の制御部に含まれる機能部を例示する機能ブロック図である。It is a functional block diagram which illustrates the functional part included in the control part of an information processing apparatus or the like. 情報処理装置の制御部による処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure by the control part of an information processing apparatus. 第1学習済みモデルの生成処理に関する説明図である。It is explanatory drawing about the generation processing of the 1st trained model. 情報処理装置の制御部による第1学習済みモデルの生成処理に関する処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure about the generation processing of the 1st trained model by the control part of an information processing apparatus. 実施形態2(無声音時の訓練データ)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure by the control part of the information processing apparatus which concerns on Embodiment 2 (training data at the time of unvoiced sound). 実施形態3(拡大率)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure by the control part of the information processing apparatus which concerns on Embodiment 3 (enlargement ratio). 実施形態4(病変有無の確度)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure by the control part of the information processing apparatus which concerns on Embodiment 4 (accuracy of presence or absence of a lesion). 実施形態5(被検者の音声データ)に係る情報処理装置の制御部による処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure by the control part of the information processing apparatus which concerns on Embodiment 5 (voice data of a subject). 第2学習済みモデルの生成処理に関する説明図である。It is explanatory drawing about the generation process of the 2nd trained model.

(実施形態1)
以下、本発明をその実施の形態を示す図面に基づいて詳述する。図1は、実施形態1に係る訓練データ生成システムSの概要を示す模式図である。訓練データ生成システムSは、内視鏡装置10及び、内視鏡装置10と通信可能に接続される情報処理装置6を含む。
(Embodiment 1)
Hereinafter, the present invention will be described in detail with reference to the drawings showing the embodiments thereof. FIG. 1 is a schematic diagram showing an outline of the training data generation system S according to the first embodiment. The training data generation system S includes an endoscope device 10 and an information processing device 6 communicably connected to the endoscope device 10.

内視鏡装置10は、内視鏡の撮影素子によって撮影した画像(撮影画像)を内視鏡用プロセッサ20に伝送し、内視鏡用プロセッサ20によってガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行うことにより、操作者が目視し易い状態にした内視鏡画像を生成する。 The endoscope device 10 transmits an image (captured image) taken by the photographing element of the endoscope to the endoscope processor 20, and the endoscope processor 20 performs gamma correction, white balance correction, shading correction, and the like. By performing various image processing, an endoscopic image that is easy for the operator to see is generated.

内視鏡装置10には、マイク17が接続されており、マイク17により集音した医師等の発言(音声)を、音声データとして記録する。内視鏡装置10は、内視鏡画像及び音声データに対し、撮像開始時刻及び音声記録開始時刻等の経時要素を付加し又は関連付けて、内視鏡画像及び音声データにおける時間軸を対応させて、これら内視鏡画像及び音声データを記憶し、情報処理装置6に出力する。マイク17は、有線マイクに限定されず、例えばBluetooth(登録商標)等を用いた無線マイクであってもよい。 A microphone 17 is connected to the endoscope device 10, and the remarks (voice) of a doctor or the like collected by the microphone 17 are recorded as voice data. The endoscope device 10 adds or associates time-related elements such as an imaging start time and a voice recording start time with respect to the endoscope image and the voice data, and associates the time axis in the endoscope image and the voice data with each other. , These endoscopic images and audio data are stored and output to the information processing apparatus 6. The microphone 17 is not limited to a wired microphone, and may be, for example, a wireless microphone using Bluetooth (registered trademark) or the like.

内視鏡装置10から送信された、経時要素が付加又は関連付けされた内視鏡画像及び音声データを取得した情報処理装置6は、これら内視鏡画像及び音声データに基づき、種々の情報処理を行い、深層ニューラルネットワーク用の訓練データを生成し、記録及び出力する。 The information processing device 6 that has acquired the endoscopic image and voice data to which a time element is added or associated with is transmitted from the endoscope device 10 performs various information processing based on these endoscopic images and voice data. Perform, generate, record and output training data for deep neural networks.

本実施形態では、内視鏡装置10は、撮影画像、すなわち生画像を補正した内視鏡画像を情報処理装置6に出力するとしたが、これに限定されない。内視鏡装置10は、撮影画像に経時要素を付加し、撮影画像及び音声データにおける時間軸を対応させて、これら撮影画像及び音声データを記憶し、情報処理装置6に出力するものであってもよい。この場合、情報処理装置6は、撮像画像に基づき一連の処理を行い、訓練データを生成する。 In the present embodiment, the endoscope device 10 outputs a captured image, that is, an endoscope image corrected with a raw image to the information processing device 6, but the present invention is not limited to this. The endoscope device 10 adds a time element to the captured image, associates the time axis in the captured image and the audio data, stores the captured image and the audio data, and outputs the captured image and the audio data to the information processing apparatus 6. May be good. In this case, the information processing apparatus 6 performs a series of processes based on the captured image to generate training data.

図2は、訓練データ生成システムSに含まれる内視鏡装置10の構成例を示すブロック図である。図3は、訓練データ生成システムSに含まれる情報処理装置6の構成例を示すブロック図である。内視鏡装置10は、内視鏡用プロセッサ20と、内視鏡40と、表示装置50とを含む。表示装置50は、たとえば液晶表示装置、または、有機EL(Electro Luminescence)表示装置である。 FIG. 2 is a block diagram showing a configuration example of the endoscope device 10 included in the training data generation system S. FIG. 3 is a block diagram showing a configuration example of the information processing apparatus 6 included in the training data generation system S. The endoscope device 10 includes an endoscope processor 20, an endoscope 40, and a display device 50. The display device 50 is, for example, a liquid crystal display device or an organic EL (Electro Luminescence) display device.

表示装置50はキャスター付きの収容棚16の上段に設置されている。内視鏡用プロセッサ20は、収容棚16の中段に収容されている。収容棚16は、図示を省略する内視鏡検査用ベッドの近傍に配置される。収容棚16は内視鏡用プロセッサ20に接続されたキーボード15を搭載する、引き出し式の棚を有する。 The display device 50 is installed on the upper stage of the storage shelf 16 with casters. The endoscope processor 20 is housed in the middle stage of the storage shelf 16. The storage shelf 16 is arranged in the vicinity of the endoscopy bed (not shown). The storage shelf 16 has a pull-out shelf on which the keyboard 15 connected to the endoscope processor 20 is mounted.

内視鏡用プロセッサ20は、略直方体形状であり、一面にタッチパネル25を備える。タッチパネル25の下部に、読取部28が配置されている。読取部28は、たとえばUSBコネクタ、SD(Secure Digital)カードスロット、またはCD−ROM(Compact Disc Read Only Memory)ドライブ等の、可搬型記録媒体の読み書きを行なう接続用インターフェイスである。 The endoscope processor 20 has a substantially rectangular parallelepiped shape and is provided with a touch panel 25 on one surface. A reading unit 28 is arranged at the bottom of the touch panel 25. The reading unit 28 is a connection interface for reading and writing a portable recording medium such as a USB connector, an SD (Secure Digital) card slot, or a CD-ROM (Compact Disc Read Only Memory) drive.

内視鏡40は、挿入部44、操作部43、ユニバーサルコード49およびスコープコネクタ48を有する。操作部43には、制御ボタン431が設けられている。挿入部44は長尺であり、一端が折止部45を介して操作部43に接続されている。挿入部44は、操作部43側から順に軟性部441、湾曲部442および先端部443を有する。湾曲部442は、湾曲ノブ433の操作に応じて湾曲する。挿入部44には、3軸加速度センサ、ジャイロセンサ、地磁気センサ又は磁気コイルセンサ等の物理検出装置が実装され、内視鏡40が被検者の体内に挿入された際、これら物理検出装置からの検出結果を取得するものであってもよい。 The endoscope 40 has an insertion unit 44, an operation unit 43, a universal cord 49, and a scope connector 48. The operation unit 43 is provided with a control button 431. The insertion portion 44 is long, and one end thereof is connected to the operation portion 43 via the folding portion 45. The insertion portion 44 has a flexible portion 441, a curved portion 442, and a tip portion 443 in this order from the operation portion 43 side. The bending portion 442 bends in response to the operation of the bending knob 433. A physical detection device such as a 3-axis acceleration sensor, a gyro sensor, a geomagnetic sensor, or a magnetic coil sensor is mounted on the insertion unit 44, and when the endoscope 40 is inserted into the body of the subject, the physical detection device is used. It may be the one to acquire the detection result of.

ユニバーサルコード49は長尺であり、第一端が操作部43に、第二端がスコープコネクタ48にそれぞれ接続されている。ユニバーサルコード49は、軟性である。スコープコネクタ48は略直方体形状である。スコープコネクタ48には、送気送水用のチューブを接続する送気送水口金36(図2参照)が設けられている。 The universal cord 49 is long and has a first end connected to the operation unit 43 and a second end connected to the scope connector 48. The universal cord 49 is flexible. The scope connector 48 has a substantially rectangular parallelepiped shape. The scope connector 48 is provided with an air supply / water supply port 36 (see FIG. 2) for connecting an air supply / water supply tube.

内視鏡装置10は、内視鏡用プロセッサ20と、内視鏡40と、表示装置50とを含む。内視鏡用プロセッサ20は、タッチパネル25および読取部28に加えて、制御部21、主記憶装置22、補助記憶装置23、通信部24、表示装置I/F(Interface)26、入力装置I/F27、内視鏡用コネクタ31、光源33、ポンプ34およびバスを備える。内視鏡用コネクタ31は、電気コネクタ311および光コネクタ312を含む。 The endoscope device 10 includes an endoscope processor 20, an endoscope 40, and a display device 50. In addition to the touch panel 25 and the reading unit 28, the endoscope processor 20 includes a control unit 21, a main storage device 22, an auxiliary storage device 23, a communication unit 24, a display device I / F (Interface) 26, and an input device I /. It includes an F27, an endoscope connector 31, a light source 33, a pump 34, and a bus. The endoscope connector 31 includes an electric connector 311 and an optical connector 312.

制御部21は、本実施の形態のプログラムを実行する演算制御装置である。制御部21には、一または複数のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)又はマルチコアCPU等が使用される。制御部21は、バスを介して内視鏡用プロセッサ20を構成するハードウェア各部と接続されている。 The control unit 21 is an arithmetic control device that executes the program of the present embodiment. For the control unit 21, one or a plurality of CPUs (Central Processing Units), GPUs (Graphics Processing Units), multi-core CPUs, and the like are used. The control unit 21 is connected to each hardware unit constituting the endoscope processor 20 via a bus.

主記憶装置22は、例えば、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の記憶装置である。主記憶装置22には、制御部21が行なう処理の途中で必要な情報および制御部21で実行中のプログラムが一時的に保存される。補助記憶装置23は、例えば、SRAM、フラッシュメモリまたはハードディスク等の記憶装置であり、主記憶装置22よりも大容量の記憶装置である。補助記憶装置23には、例えば、取得した撮影画像、生成した内視鏡画像又は、音声データデータが、中間データとして保存されるものであってもよい。 The main storage device 22 is, for example, a storage device such as a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), or a flash memory. The main storage device 22 temporarily stores information necessary in the middle of processing performed by the control unit 21 and a program being executed by the control unit 21. The auxiliary storage device 23 is, for example, a storage device such as a SRAM, a flash memory, or a hard disk, and is a storage device having a larger capacity than the main storage device 22. In the auxiliary storage device 23, for example, the acquired captured image, the generated endoscopic image, or the audio data data may be stored as intermediate data.

通信部24は、有線又は無線によりネットワークを介して情報処理装置と通信するための通信モジュール又は通信インターフェイスであり、例えばwifi(登録商標)、 Bluetooth(登録商標)等の狭域無線通信モジュール、又は4G、LTE等の広域無線通信モジュールである。タッチパネル25は、液晶表示パネル等の表示部と、表示部に積層された入力部を含む。 The communication unit 24 is a communication module or communication interface for communicating with an information processing device via a network by wire or wirelessly, and is, for example, a narrow-range wireless communication module such as wifi (registered trademark) or Bluetooth (registered trademark), or It is a wide area wireless communication module such as 4G and LTE. The touch panel 25 includes a display unit such as a liquid crystal display panel and an input unit laminated on the display unit.

表示装置I/F26は、内視鏡用プロセッサ20と表示装置50とを接続するインターフェイスである。入力装置I/F27は、内視鏡用プロセッサ20とキーボード15、マイク17等の入力装置とを接続するインターフェイスである。 The display device I / F 26 is an interface for connecting the endoscope processor 20 and the display device 50. The input device I / F 27 is an interface for connecting the endoscope processor 20 and an input device such as a keyboard 15 and a microphone 17.

光源33は、たとえば白色LED又はキセノンランプ等の高輝度の白色光源である。光源33は、図示を省略するドライバを介してバスに接続されている。光源33の点灯、消灯および明るさの変更は、制御部21により制御される。光源33から照射した照明光は、光コネクタ312に入射する。光コネクタ312は、スコープコネクタ48と係合し、内視鏡40に照明光を供給する。 The light source 33 is a high-intensity white light source such as a white LED or a xenon lamp. The light source 33 is connected to the bus via a driver (not shown). The lighting, extinguishing, and changing of the brightness of the light source 33 are controlled by the control unit 21. The illumination light emitted from the light source 33 is incident on the optical connector 312. The optical connector 312 engages with the scope connector 48 to supply illumination light to the endoscope 40.

ポンプ34は、内視鏡40の送気・送水機能用の圧力を発生させる。ポンプ34は、図示を省略するドライバを介してバスに接続されている。ポンプ34のオン、オフおよび圧力の変更は、制御部21により制御される。ポンプ34は、送水タンク35を介して、スコープコネクタ48に設けられた送気送水口金36に接続される。 The pump 34 generates pressure for the air supply / water supply function of the endoscope 40. The pump 34 is connected to the bus via a driver (not shown). The on / off and pressure change of the pump 34 are controlled by the control unit 21. The pump 34 is connected to the air supply water supply port 36 provided in the scope connector 48 via the water supply tank 35.

内視鏡用プロセッサ20に接続された内視鏡40の機能の概略を説明する。スコープコネクタ48、ユニバーサルコード49、操作部43および挿入部44の内部に、ファイバーバンドル、ケーブル束、送気チューブおよび送水チューブ等が挿通されている。光源33から出射した照明光は、光コネクタ312およびファイバーバンドルを介して、先端部443に設けられた照明窓から放射される。照明光により照らされた範囲を、先端部443に設けられた撮像素子で撮影する。撮像素子からケーブル束および電気コネクタ311を介して内視鏡用プロセッサ20に撮影画像が伝送される。 The outline of the function of the endoscope 40 connected to the endoscope processor 20 will be described. A fiber bundle, a cable bundle, an air supply tube, a water supply tube, and the like are inserted inside the scope connector 48, the universal cord 49, the operation unit 43, and the insertion unit 44. The illumination light emitted from the light source 33 is radiated from the illumination window provided at the tip portion 443 via the optical connector 312 and the fiber bundle. The range illuminated by the illumination light is photographed by an image sensor provided at the tip portion 443. The captured image is transmitted from the image pickup element to the endoscope processor 20 via the cable bundle and the electric connector 311.

情報処理装置6は、制御部62、通信部61、記憶部63及び入出力I/F64を含む。制御部62は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の計時機能を備えた演算処理装置を有し、記憶部63に記憶されたプログラムPを読み出して実行することにより、情報処理装置6に係る種々の情報処理、制御処理等を行う。又は、制御部62は量子コンピュータ用チップで構成されており、情報処理装置6は量子コンピュータであってもよい。 The information processing device 6 includes a control unit 62, a communication unit 61, a storage unit 63, and an input / output I / F 64. The control unit 62 has an arithmetic processing unit having a timing function such as one or a plurality of CPUs (Central Processing Units), MPUs (Micro-Processing Units), GPUs (Graphics Processing Units), and is stored in the storage unit 63. By reading and executing the program P, various information processing, control processing, and the like related to the information processing unit 6 are performed. Alternatively, the control unit 62 may be composed of a chip for a quantum computer, and the information processing device 6 may be a quantum computer.

記憶部63は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の揮発性記憶領域及び、EEPROM又はハードディスク等の不揮発性記憶領域を含む。記憶部63には、プログラムP及び処理時に参照するデータがあらかじめ記憶してある。記憶部63に記憶されたプログラムPは、情報処理装置6が読み取り可能な記録媒体632から読み出されたプログラムPを記憶したものであってもよい。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラムPをダウンロードし、記憶部63に記憶させたものであってもよい。記憶部63には、後述する第1学習済みモデル91及び第2学習済みモデル92の実体ファイル(深層ニューラルネットワーク(DNN)のインスタンスファイル)が保存されている。記憶部63には、後述する医療用語DB631(DataBase)が記憶されている。 The storage unit 63 includes a volatile storage area such as a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), and a flash memory, and a non-volatile storage area such as an EEPROM or a hard disk. The storage unit 63 stores the program P and the data to be referred to at the time of processing in advance. The program P stored in the storage unit 63 may be a program P read from the recording medium 632 that can be read by the information processing apparatus 6. Further, the program P may be downloaded from an external computer (not shown) connected to a communication network (not shown) and stored in the storage unit 63. The storage unit 63 stores the actual files (instance files of the deep neural network (DNN)) of the first trained model 91 and the second trained model 92, which will be described later. The medical term DB631 (DataBase) described later is stored in the storage unit 63.

通信部61は、有線又は無線により、内視鏡装置10と通信するための通信モジュール又は通信インターフェイスであり、例えばwifi(登録商標)、 Bluetooth(登録商標)等の狭域無線通信モジュール、又は4G、LTE等の広域無線通信モジュールである。 The communication unit 61 is a communication module or communication interface for communicating with the endoscope device 10 by wire or wirelessly, for example, a narrow-range wireless communication module such as wifi (registered trademark), Bluetooth (registered trademark), or 4G. , LTE and other wide area wireless communication modules.

入出力I/F64は、例えば、USB又はDSUB等の通信規格に準拠したものであり、入出力I/F64に接続された外部機器とシリアル通信するための通信インターフェイスである。入出力I/F64には、例えばディプレイ等の表示部7、キーボード等の入力部8が接続されており、制御部62は、入力部8から入力された実行コマンド又はイベントに基づき行った情報処理の結果を表示部7に出力する。 The input / output I / F64 conforms to a communication standard such as USB or DSUB, and is a communication interface for serial communication with an external device connected to the input / output I / F64. For example, a display unit 7 such as a display and an input unit 8 such as a keyboard are connected to the input / output I / F 64, and the control unit 62 performs information based on an execution command or event input from the input unit 8. The processing result is output to the display unit 7.

図4は、医療用語DB631のデータレイアウトを例示する説明図である。医療用語DB631は、管理項目(メタデータ)として、例えば、医療用語、隠語フラグ、標準用語、用語区分、及び医療機関IDを含む。医療用語DB631は、情報処理装置6の記憶部63に記憶されており、情報処理装置6に実装されているRDBMS(Relational DataBase Management System)等のデータベース管理ソフトウェアにより構成される。 FIG. 4 is an explanatory diagram illustrating the data layout of the medical term DB631. The medical term DB631 includes, for example, a medical term, a jargon flag, a standard term, a term classification, and a medical institution ID as management items (metadata). The medical term DB631 is stored in the storage unit 63 of the information processing device 6, and is configured by database management software such as RDBMS (Relational DataBase Management System) mounted on the information processing device 6.

医療用語の項目(フィールド)には、病変の名称又は症状を示す用語(病変種類名)、及び病変が発生している位置、場所又は体内部位の名称を示す用語(病変位置名)が、格納される。病変の名称又は症状を示す用語(病変種類名)は、例えば、癌、ポリープ等の医学的に定義されている標準的な用語(標準用語)であり、更に実質的にこれら標準的な用語を意味する隠語を含む。隠語とは、例えば”K”であり、当該Kは、標準的な用語である癌を示すものであり、Kと癌とは同義である。病変が発生している位置、場所又は体内部位の名称を示す用語(病変位置名)は、例えば、上部食道、下部食道であり、病変種類名と同様に、実質的にこれら標準的な用語を意味する隠語を含むものであってもよい。医療用語等の項目(フィールド)に格納される用語は、日本語に限定されるものでなく、英語、中国語又はドイツ語等を含む多言語対応されたものであってもよい。 In the item (field) of medical terms, a term indicating the name or symptom of the lesion (lesion type name) and a term indicating the name of the location, place or internal site where the lesion occurs (lesion location name) are stored. Will be done. The term indicating the name or symptom of the lesion (lesion type name) is a medically defined standard term (standard term) such as cancer, polyp, etc., and further substantially these standard terms are used. Includes jargon to mean. The jargon is, for example, "K", which is a standard term for cancer, and K is synonymous with cancer. The terms (lesion location names) that indicate the location, location, or internal site where the lesion is occurring are, for example, upper esophagus and lower esophagus, and like the lesion type name, these standard terms are substantially used. It may include a meaning hidden word. The terms stored in the items (fields) such as medical terms are not limited to Japanese, and may be multilingual including English, Chinese, German, and the like.

隠語フラグの項目(フィールド)には、格納されている医療用語が、隠語であるか否かを示すフラグデータが、格納される。格納されている医療用語に対し、隠語フラグを設定することにより、当該医療用語が隠語であるか否かを判定することができ、当該判定結果に基づき後処理を行うことができる。 In the item (field) of the jargon flag, flag data indicating whether or not the stored medical term is a jargon is stored. By setting a jargon flag for the stored medical term, it is possible to determine whether or not the medical term is a jargon, and post-processing can be performed based on the determination result.

標準用語の項目(フィールド)には、隠語に対応する標準用語が格納される。格納されている医療用語が隠語である場合、隠語に対応する標準用語が格納される。従って、隠語から標準用語への読み替え又は変換を行うことができる。格納されている医療用語が隠語でない場合、変換等の必要がないため、標準用語の項目(フィールド)には、データが登録されないもの(null)であってもよい。 Standard terms corresponding to jargon are stored in the standard term items (fields). If the stored medical term is a jargon, the standard term corresponding to the jargon is stored. Therefore, the jargon can be read or converted into a standard term. If the stored medical term is not a jargon, there is no need for conversion or the like, so that the item (field) of the standard term may be one in which data is not registered (null).

用語区分の項目(フィールド)には、当該医療用語が、病変の種類に関する用語であるか、または病変の位置に関する用語であるかを区分する情報が格納される。医師等による発言は、病変の種類及び位置に関する事項が混在するところ、このように医療用語を区分化することにより、後述する画像に関連付ける正解データにおいて、病変の種類及び位置を区分化して含めることができる。 The item (field) of the term classification stores information for classifying whether the medical term is a term relating to the type of lesion or a term relating to the location of the lesion. Remarks by doctors, etc. include matters related to the type and location of lesions. By classifying medical terms in this way, the type and location of lesions should be classified and included in the correct answer data associated with the images described later. Can be done.

医療機関IDの項目(フィールド)には、医療用語が隠語である場合、当該隠語が用いられる医療機関を識別するための医療機関IDの番号等が、格納される。隠語は、同一の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、隠語夫々には、医療機関IDが関連付けらて登録されている。従って、医療機関IDに基づき適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。 In the item (field) of the medical institution ID, when the medical term is a jargon, the number of the medical institution ID for identifying the medical institution in which the jargon is used is stored. Even if the jargon is the same word, it may have different meanings depending on the region and the institution. However, the medical institution ID is associated with each jargon and registered. Therefore, the jargon to be applied can be determined based on the medical institution ID, and the medical term can be reliably extracted from the remarks of doctors and the like.

図5は、情報処理装置6等の制御部62に含まれる機能部を例示する機能ブロック図である。内視鏡用プロセッサ20の制御部21は、主記憶装置に記憶されているプログラムを実行することにより、画像処理部211、時計部212及び情報連関部213として機能する。情報処理装置6の制御部62は、記憶部63に記憶されているプログラムPを実行することにより、取得部621、音声認識部622、医療用語抽出部623、画像抽出部624、ラベル導出部625、及び訓練データ生成部626として機能する。 FIG. 5 is a functional block diagram illustrating a functional unit included in the control unit 62 of the information processing apparatus 6 or the like. The control unit 21 of the endoscope processor 20 functions as an image processing unit 211, a clock unit 212, and an information linking unit 213 by executing a program stored in the main storage device. The control unit 62 of the information processing device 6 executes the program P stored in the storage unit 63 to execute the acquisition unit 621, the voice recognition unit 622, the medical term extraction unit 623, the image extraction unit 624, and the label derivation unit 625. , And functions as a training data generation unit 626.

画像処理部211は、内視鏡から出力された画像(撮影画像)をガンマ補正、ホワイトバランス補正、シェーディング補正等の各種画像処理を行い、内視鏡画像として出力する。 The image processing unit 211 performs various image processing such as gamma correction, white balance correction, and shading correction on the image (photographed image) output from the endoscope, and outputs the image as an endoscope image.

時計部212は、時計機能を備え、例えば、撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻を取得し、情報連関部213に出力する。又は、時計部212は、撮影画像の撮像開始時刻と、音声の記録開始時刻との時間差を図り、情報連関部213に出力するものであってもよい。 The clock unit 212 has a clock function, and for example, acquires an imaging start time of a captured image and a voice recording start time by a microphone 17, and outputs the acquisition to the information linkage unit 213. Alternatively, the clock unit 212 may set a time difference between the imaging start time of the captured image and the audio recording start time, and output the time difference to the information linkage unit 213.

情報連関部213は、キーボード15を介して入力された医療機関ID、操作者IDを取得する。医療機関IDは、医療機関を識別するための識別子である。操作者IDは、内視鏡装置10の操作者、すなわち内視鏡装置10を用いて被検者を診察する医師を識別するための識別子である。 The information linkage unit 213 acquires the medical institution ID and the operator ID input via the keyboard 15. The medical institution ID is an identifier for identifying a medical institution. The operator ID is an identifier for identifying an operator of the endoscope device 10, that is, a doctor who examines a subject using the endoscope device 10.

情報連関部213は、接続された内視鏡から出力される内視鏡情報を取得する。内視鏡情報は、例えば気管支用内視鏡、上部消化管汎用内視鏡又は腹腔鏡等の内視鏡の種類に関する情報を含む。 The information linkage unit 213 acquires endoscope information output from the connected endoscope. Endoscope information includes information regarding the type of endoscope such as, for example, a bronchial endoscope, an upper gastrointestinal general-purpose endoscope, or a laparoscope.

情報連関部213は、マイク17で集音された音声による音声データ、及び画像処理部211から出力された内視鏡画像を取得する。情報連関部213は、時計部212から出力される撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻等の経時要素を取得する。情報連関部213は、取得した内視鏡画像及び音声データとの関連付けを経時要素を付与することにより行う。情報連関部213は、経時要素を付与するにあたり、例えば、撮像開始時刻と内視鏡画像とを関連付ける。または、情報連関部213は、内視鏡画像を撮像するにあたり決定されるサンプリングタイム(フレームレート)に基づき、内視鏡画像に含まれる各フレーム(静止画)夫々に、当該フレームが撮像された時点を示す情報(タイムスタンプ)を付与するものであってもよい。情報連関部213は、経時要素を付与するにあたり、例えば、音声の記録開始時刻と音声データとを関連付ける。 The information linking unit 213 acquires voice data by voice collected by the microphone 17 and an endoscope image output from the image processing unit 211. The information linkage unit 213 acquires time-dependent elements such as the imaging start time of the captured image output from the clock unit 212 and the recording start time of the sound by the microphone 17. The information linkage unit 213 associates the acquired endoscopic image and audio data with a time element. The information linkage unit 213 associates, for example, an imaging start time with an endoscopic image in imparting a time-dependent element. Alternatively, the information linking unit 213 captured the frame in each frame (still image) included in the endoscope image based on the sampling time (frame rate) determined when capturing the endoscope image. Information (time stamp) indicating a time point may be added. The information linkage unit 213 associates, for example, the voice recording start time with the voice data in adding the time element.

撮影画像の撮像開始時刻及びマイク17による音声の記録開始時刻を取得し、関連付けることにより、撮影画像及び音声データが、同一の時間軸上にて進行するものとし、時間経過に基づき、内視鏡画像におけるフレーム(静止画)と、音声データにおける医師等の発音とを連関させて対応させることができる。すなわち、撮影画像が動画である場合、音声の記録開始時刻から所定時間経過した時点を特定した場合、当該時点にて撮像された撮影画像(動画)に含まれるフレーム(静止画)を特定することができる。上述のとおり、内視鏡画像は、撮影画像を補正処理したものであるため、内視鏡画像においても、当該時点にて撮像された内視鏡画像に含まれるフレーム(静止画)を特定することができることは、言うまでもない。 By acquiring and associating the imaging start time of the captured image and the recording start time of the voice by the microphone 17, the captured image and the voice data are assumed to proceed on the same time axis, and the endoscope is based on the passage of time. The frame (still image) in the image and the pronunciation of the doctor or the like in the voice data can be linked and corresponded to each other. That is, when the captured image is a moving image, when a predetermined time has elapsed from the recording start time of the sound, the frame (still image) included in the captured image (moving image) captured at that time is specified. Can be done. As described above, since the endoscopic image is a corrected image of the captured image, the frame (still image) included in the endoscopic image captured at that time is specified also in the endoscopic image. It goes without saying that you can do it.

情報連関部213は、撮像開始時刻と内視鏡画像とを関連付け、音声の記録開始時刻と音声データとを関連付けるとしたが、これに限定されない。撮像開始時刻と音声の記録開始時刻とが同時である場合、情報連関部213は、撮像開始時刻と音声の記録開始時刻とが同時である旨を示す情報を、内視鏡画像及び音声データに付加するものであってもよい。 The information linking unit 213 associates the imaging start time with the endoscopic image, and associates the audio recording start time with the audio data, but the present invention is not limited to this. When the imaging start time and the audio recording start time are simultaneous, the information linking unit 213 provides information indicating that the imaging start time and the audio recording start time are simultaneous in the endoscopic image and audio data. It may be an addition.

内視鏡によって撮像された撮像画像と、マイク17によって集音され記憶した音声データとが、別データであるとして説明したが、これに限定されない。情報連関部213は、撮像画像及び音声データが一体化した、例えば、AVI形式の動画データを取得又は生成するものであってもよい。この場合、内視鏡が撮像した撮像画像は、動画データにおける映像コーディックとなり、マイク17にて集音及び記憶した音声データは音声コーディックとなり、当該動画データに含まれるメタ情報により映像コーディック及び音声コーディックが同期され、撮像画像及び音声データは、経時要素によって関連付けられる。 Although it has been described that the captured image captured by the endoscope and the audio data collected and stored by the microphone 17 are different data, the present invention is not limited to this. The information linkage unit 213 may acquire or generate moving image data in AVI format, for example, in which captured images and audio data are integrated. In this case, the captured image captured by the endoscope becomes a video codec in the video data, the voice data collected and stored by the microphone 17 becomes a voice codec, and the video codec and the voice codec are based on the meta information included in the video data. Is synchronized, and the captured image and audio data are associated by a time factor.

内視鏡画像が動画である場合、フレームレートに基づき静止画が撮影される。音声データは、サンプリングレイトに基づき、音素となる周波数がサンプリングされる。従って、内視鏡画像の撮像開始時刻からの経過時間により特定される時点と、音声の記録開始時刻からの経過時間により特定される時点は、フレームレート及びサンプリングレイトに基づき導出することができる。 When the endoscope image is a moving image, a still image is taken based on the frame rate. In the voice data, the frequency that becomes a phoneme is sampled based on the sampling rate. Therefore, the time point specified by the elapsed time from the imaging start time of the endoscopic image and the time point specified by the elapsed time from the sound recording start time can be derived based on the frame rate and the sampling rate.

情報連関部213は、取得した医療機関ID、操作者ID、内視鏡情報、経時要素を付加した内視鏡画像及び音声データを関連付けて、情報処理装置6に出力する。情報連関部213は、これら関連付けられた複数の情報及びデータを単一のアーカイブファイルとして出力するものであってもよい。 The information linking unit 213 associates the acquired medical institution ID, operator ID, endoscope information, endoscope image with time-dependent elements, and voice data, and outputs the information processing device 6. The information linkage unit 213 may output the plurality of associated information and data as a single archive file.

本実施形態では、情報連関部213は、撮像画像を補正して生成した内視鏡画像に経時要素を付加し、音声データ及び操作者ID等の他データを関連付けるとしたが、これに限定されない。情報連関部213は、撮像画像に経時要素を付加し、音声データ及び操作者ID等の他データを関連付けて出力するものであってもよい。この場合、情報処理装置6における各機能部は、撮像画像に基づき一連の処理を行い、訓練データを生成する。 In the present embodiment, the information linkage unit 213 adds a time element to the endoscopic image generated by correcting the captured image, and associates voice data with other data such as an operator ID, but the present invention is not limited to this. .. The information linkage unit 213 may add a time element to the captured image and output the voice data and other data such as the operator ID in association with each other. In this case, each functional unit in the information processing apparatus 6 performs a series of processes based on the captured image to generate training data.

取得部621は、内視鏡装置10の情報連関部213から出力された医療機関ID、操作者ID、内視鏡情報、経時要素が関連付けられた内視鏡画像及び音声データを取得する。これら関連付けられた複数の情報及びデータが単一のアーカイブファイルとして出力された場合、取得部621は、当該アーカイブファイルを解凍し、個々のデータに展開するものであってもよい。 The acquisition unit 621 acquires the medical institution ID, the operator ID, the endoscope information, the endoscope image and the audio data associated with the time element, which are output from the information linking unit 213 of the endoscope device 10. When the plurality of associated information and data are output as a single archive file, the acquisition unit 621 may decompress the archive file and expand it into individual data.

取得部621は、操作者ID及び経時要素が関連付けられた音声データを、音声認識部622に出力する。取得部621は、内視鏡情報を訓練データ生成部626に出力する。取得部621は、経時要素が関連付けられた内視鏡画像を画像抽出部624に出力する。取得部621は、医療機関IDを医療用語抽出部623に出力する。 The acquisition unit 621 outputs the voice data associated with the operator ID and the time element to the voice recognition unit 622. The acquisition unit 621 outputs the endoscope information to the training data generation unit 626. The acquisition unit 621 outputs an endoscopic image associated with a time element to the image extraction unit 624. The acquisition unit 621 outputs the medical institution ID to the medical term extraction unit 623.

音声認識部622は、例えば音響モデル、発音辞書及び言語モデル等のサブモジュールを含む。音響モデルは、周波数成分や時間変化の分析を行い、音声、すなわち発音と、音響モデルの元となる音素夫々との近似量を計算し、最も近似する音素を特定する。特定した音素の組合せにより音素列が生成される。発音辞書は、生成された音素列との一致度合いに基づき、発音された用語(単語)を特定する。言語モデルは、特定した単語による単語列(文字列)が、適切であるかを評価するために用いられるモデルであり、単語や文字列の出現確率をデータ化したものである。音声認識部622は、これらサブモジュールを用いて、入力された音声を、音波に変換し、音波から音素を特定する。特定した音素の並びを、予め登録した発音辞書とマッチングを行い単語に変換し、変換した単語による単語列(文字列)が適切な文章となるように言語モデルを用いて評価することにより文書を生成する。音声認識部622は、生成した文書を例えば文字データの形式で出力する。音声認識部622は、文字データに含まれる単語と、当該単語が発音された時点又はタイムスタンプに関する情報とを、関連付けて出力する。 The speech recognition unit 622 includes submodules such as an acoustic model, a pronunciation dictionary, and a language model. The acoustic model analyzes frequency components and time changes, calculates the approximate amount of speech, that is, pronunciation, and each phoneme that is the basis of the acoustic model, and identifies the closest phoneme. A phoneme sequence is generated by the specified combination of phonemes. The pronunciation dictionary identifies the pronounced term (word) based on the degree of matching with the generated phoneme sequence. The language model is a model used to evaluate whether a word string (character string) by a specified word is appropriate, and is a data of the appearance probability of a word or a character string. The voice recognition unit 622 converts the input voice into a sound wave by using these submodules, and identifies a phoneme from the sound wave. The specified phoneme sequence is matched with a pre-registered pronunciation dictionary and converted into words, and the document is evaluated by using a language model so that the word string (character string) of the converted words becomes an appropriate sentence. Generate. The voice recognition unit 622 outputs the generated document in the form of character data, for example. The voice recognition unit 622 outputs the word included in the character data in association with the information about the time when the word is pronounced or the time stamp.

操作者IDによって特定される医師等の音声は、予め音響モデルに登録されており、音声認識部622は、記録された音声が内視鏡の操作者である医師であるか、被検者(患者)等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。 The voice of the doctor or the like specified by the operator ID is registered in the acoustic model in advance, and the voice recognition unit 622 indicates whether the recorded voice is the doctor who is the operator of the endoscope or the subject (examinee). It may be one that determines whether it is another person such as a patient) and performs a filtering process so as to extract only the voice by the doctor.

医療用語抽出部623は、文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出し、抽出した単語夫々と、医療用語DB631に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。 The medical term extraction unit 623 extracts each word included in the character data by, for example, performing morphological analysis on the character data, and the extracted words and the medical terms registered in the medical term DB 631 are each. By comparing or matching the characters, the medical terms contained in the character data are extracted.

このように医療用語DB631に登録されている医療用語夫々と、発音とを対比することにより、医師等の操作者による発言の中に被検者に対する診断等とは無関係な事項が含まれる場合であっても、当該発言において、診断等に関連する医療用語を確実に抽出することができ、訓練データの生成精度を向上させることができる。 By comparing each of the medical terms registered in the medical term DB631 with the pronunciation in this way, when the remarks made by the operator such as a doctor include matters unrelated to the diagnosis of the subject. Even so, medical terms related to diagnosis and the like can be reliably extracted in the statement, and the accuracy of training data generation can be improved.

医療用語抽出部623は、抽出した医療用語が発音された時点に関する情報(タイムスタンプ)を文字データから抽出し、文字データに含まれる医療用語及び当該医療用語が発音された時点を出力する。 The medical term extraction unit 623 extracts information (time stamp) about the time when the extracted medical term is pronounced from the character data, and outputs the medical term included in the character data and the time when the medical term is pronounced.

医療用語抽出部623は、単一の医療用語を出力するものに限定されず、複数の医療用語を出力するものであってもよい。すなわち、医療用語抽出部623は、取得した文字データにて所定の医療用語を抽出した場合、当該抽出した医療用語の前後に位置する他の医療用語との関連性又は文脈性に基づき、複数の医療用語を抽出し、一セットとして出力するものであってもよい。又は、医療用語抽出部623は、抽出した複数の医療用語を含む医師の発言による文書データを出力するものであってもよい。複数の医療用語を含む発言をまとめて抽出することにより、まとめて抽出した複数の医療用語夫々が発音された期間を特定し、当該期間にて撮像された内視鏡画像における静止画(フレーム)を特定することができる。 The medical term extraction unit 623 is not limited to outputting a single medical term, and may output a plurality of medical terms. That is, when a predetermined medical term is extracted from the acquired character data, the medical term extraction unit 623 has a plurality of medical terms based on the relevance or contextuality with other medical terms located before and after the extracted medical term. Medical terms may be extracted and output as a set. Alternatively, the medical term extraction unit 623 may output document data by a doctor's remark including a plurality of extracted medical terms. By collectively extracting remarks containing multiple medical terms, the period during which each of the multiple medical terms extracted collectively is pronounced is specified, and the still image (frame) in the endoscopic image captured during that period is specified. Can be identified.

文字データに含まれる医療用語が、隠語である場合、当該隠語と同義となる標準用語を、文字データに含まれる医療用語として出力するものであってもよい。操作者である医師等による発言には、医療業界における標準用語のみならず、地域、医療分野等に依拠して用いられる特有な隠語が含まれる場合があるところ、上述の医療用語DB631には、隠語及び当該隠語と同義となる標準用語が登録されている。従って、医療用語抽出部623は、医療用語DB631を参照することにより、隠語等が用いられることによる表現揺れを吸収し、医師等の発言から医療用語を確実に抽出することができる。 When the medical term included in the character data is a jargon, a standard term synonymous with the jargon may be output as a medical term included in the character data. The remarks made by the doctors who are the operators may include not only standard terms in the medical industry but also peculiar jargon used depending on the region, medical field, etc. The jargon and standard terms that are synonymous with the jargon are registered. Therefore, by referring to the medical term DB631, the medical term extraction unit 623 can absorb the fluctuation of expression due to the use of the jargon or the like, and can surely extract the medical term from the remarks of the doctor or the like.

医療用語抽出部623は、文字データに含まれる医療用語との対比に用いられる隠語において、隠語夫々に付与された医療機関IDに基づき、適用される隠語を確定するものであってもよい。隠語は、同様の単語であっても、地域、機関によって異なる意味内容となる場合があるところ、上述の医療用語DB631には、隠語夫々には、医療機関IDが関連付付けられて、登録されている。従って、医療用語抽出部623は、医療用語DB631を参照することにより、取得した医療機関IDに基づき、適用する隠語を確定し、医師等の発言から医療用語を確実に抽出することができる。 The medical term extraction unit 623 may determine the applied jargon based on the medical institution ID given to each jargon in the jargon used for comparison with the medical term included in the character data. Even if the jargon is the same word, it may have different meanings depending on the region and institution. However, in the above-mentioned medical term DB631, each jargon is associated with a medical institution ID and registered. ing. Therefore, the medical term extraction unit 623 can determine the jargon to be applied based on the acquired medical institution ID by referring to the medical term DB 631, and can surely extract the medical term from the remarks of doctors and the like.

画像抽出部624は、医療用語が発音された時点に対応するフレーム(静止画)を、取得した内視鏡画像(動画)から抽出する。抽出するフレーム(静止画)の数は、1つに限定されず、当該医療用語が発音された期間にて撮像された全てのフレームを抽出するものであってもよい。画像抽出部624は、抽出したフレーム(静止画)を第1画像として出力する。第1画像は、医療用語が発音された時点に対応するものであり、当該時点にて撮像されたフレーム(静止画)であり、第1画像に含まれる体内部位において、病変の存在が疑われるものである。 The image extraction unit 624 extracts a frame (still image) corresponding to the time when the medical term is pronounced from the acquired endoscopic image (moving image). The number of frames (still images) to be extracted is not limited to one, and all frames captured during the period in which the medical term is pronounced may be extracted. The image extraction unit 624 outputs the extracted frame (still image) as the first image. The first image corresponds to the time when the medical term is pronounced, and is a frame (still image) captured at that time, and the presence of a lesion is suspected in the internal part included in the first image. It is a thing.

ラベル導出部625は、医療用語抽出部623から取得した一つ又は複数の医療用語に基づき、訓練データにおける正解データ(正解ラベル)に相当するラベルを生成し、出力する。ラベルは、例えば病変の有無、すなわち病変の存在又は不存在に関する情報である。または、ラベルは、病変の種類の名称等による症状に関する情報、または病変が発生した体内部位の場所、位置又は名称に関する情報を含むものであってもよい。 The label derivation unit 625 generates and outputs a label corresponding to the correct answer data (correct answer label) in the training data based on one or a plurality of medical terms acquired from the medical term extraction unit 623. The label is, for example, information regarding the presence or absence of a lesion, that is, the presence or absence of a lesion. Alternatively, the label may include information on symptoms such as the name of the type of lesion, or information on the location, location or name of the site in the body where the lesion occurred.

訓練データ生成部626は、画像抽出部624から第1画像を取得し、ラベル導出部625からラベルを取得する。訓練データ生成部626は、取得した第1画像及びラベルに基づき、第1画像を問題データとし、ラベルを正解データ(正解ラベル)として、病変が存在する場合の訓練データを生成する。訓練データ生成部626は、生成した訓練データを出力して記憶部63に記憶する。訓練データ生成部626は、第1画像及びラベルを配列データの形式にて、記憶するものであってもよい。 The training data generation unit 626 acquires the first image from the image extraction unit 624 and acquires the label from the label derivation unit 625. The training data generation unit 626 generates training data when a lesion is present, using the first image as problem data and the label as correct answer data (correct answer label) based on the acquired first image and label. The training data generation unit 626 outputs the generated training data and stores it in the storage unit 63. The training data generation unit 626 may store the first image and the label in the form of array data.

本実施形態において、一連の処理における各機能部を、内視鏡用プロセッサ20の制御部21による機能部夫々と、情報処理装置6の制御部62による機能部夫々とに分けて説明したが、これら機能部の分担は一例であり、これに限定されない。内視鏡用プロセッサ20の制御部21は、情報処理装置6の制御部62によって行われる全ての機能部として、機能するものであってもよい。すなわち、内視鏡用プロセッサ20が、実質的に情報処理装置6を含むものであってもよい。または、内視鏡用プロセッサ20の制御部21は、撮像素子が撮像した撮影画像及び、マイク17にて集音した音声データを出力するのみであり、情報処理装置6の制御部62は、以降の処理を行う全ての機能部として機能するものであってもよい。または、内視鏡用プロセッサ20の制御部21と、情報処理装置6の制御部62とは、例えばプロセス間通信を行うことにより、協働して一連の処理における各機能部として機能するものであってもよい。 In the present embodiment, each functional unit in a series of processes has been described separately as a functional unit by the control unit 21 of the endoscope processor 20 and a functional unit by the control unit 62 of the information processing apparatus 6. The division of these functional units is an example, and is not limited to this. The control unit 21 of the endoscope processor 20 may function as all the functional units performed by the control unit 62 of the information processing device 6. That is, the endoscope processor 20 may substantially include the information processing device 6. Alternatively, the control unit 21 of the endoscope processor 20 only outputs the captured image captured by the image pickup element and the audio data collected by the microphone 17, and the control unit 62 of the information processing device 6 thereafter. It may function as all the functional parts that perform the processing of. Alternatively, the control unit 21 of the endoscope processor 20 and the control unit 62 of the information processing device 6 cooperate with each other to function as each functional unit in a series of processes by, for example, performing interprocess communication. There may be.

一回の内視鏡による検査によって、撮像された内視鏡画像及び記録された音声データが生成され、当該音声データには、医師等による複数回の発言が含まれる。これら複数回の発言には医療用語が含まれ、これら医療用語夫々が発声(発音)された時点又は期間に基づき、同時点にて撮像された内視鏡画像のフレーム(静止画)を、第1画像として特定する。医療用語が発声された時点に撮像された第1画像は、当該医療用語に関連する病変が存在するものである。従って、病変有を正解データとした場合の問題データに相当する大量の画像を効率的に抽出することができる。 A single endoscopic examination produces an imaged endoscope image and recorded audio data, and the audio data includes a plurality of remarks by a doctor or the like. These multiple remarks include medical terms, and the frame (still image) of the endoscopic image taken at the same point based on the time or period when each of these medical terms is uttered (pronounced) is the first. Specify as one image. The first image taken at the time the medical term is spoken is the presence of a lesion associated with the medical term. Therefore, it is possible to efficiently extract a large amount of images corresponding to the problem data when the presence of lesions is the correct answer data.

図6は、情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。本実施形態におけるフローチャートは、情報処理装置6が内視鏡装置10(内視鏡プロセッサ)から内視鏡画像等を取得するにあたり、これの前提的な処理となる内視鏡プロセッサの処理を含む。 FIG. 6 is a flowchart showing an example of a processing procedure by the control unit 62 of the information processing apparatus 6. The information processing apparatus 6 starts processing the flowchart based on the input contents from the input unit 8 connected to the own apparatus, for example. The flowchart in the present embodiment includes the processing of the endoscope processor, which is a prerequisite processing for the information processing device 6 to acquire an endoscope image or the like from the endoscope device 10 (endoscope processor). ..

内視鏡プロセッサの制御部62は、操作者IDを取得する(S01)。内視鏡プロセッサの制御部62は、医療機関IDを取得する(S02)。内視鏡プロセッサの制御部62は、内視鏡の操作者である医師等によりキーボード15を介して入力された操作者ID及び医療機関IDを取得する。 The control unit 62 of the endoscope processor acquires the operator ID (S01). The control unit 62 of the endoscope processor acquires the medical institution ID (S02). The control unit 62 of the endoscope processor acquires an operator ID and a medical institution ID input via the keyboard 15 by a doctor or the like who is an operator of the endoscope.

内視鏡プロセッサの制御部62は、内視鏡情報を取得する(S03)。内視鏡プロセッサの制御部62は、接続された内視鏡と、例えばチェックシーケンス等の通信を行い、当該内視鏡の種類に関する内視鏡情報を取得する。 The control unit 62 of the endoscope processor acquires endoscope information (S03). The control unit 62 of the endoscope processor communicates with the connected endoscope, for example, a check sequence, and acquires endoscope information regarding the type of the endoscope.

内視鏡プロセッサの制御部62は、撮影画像を取得し、内視鏡画像を生成する(S04)。 内視鏡プロセッサの制御部62は、取得した撮影画像に対し、シェーディング補正等の各種画像処理を行うことにより、医師等の操作者が目視し易い状態にした内視鏡画像を生成する。 The control unit 62 of the endoscope processor acquires a captured image and generates an endoscope image (S04). The control unit 62 of the endoscope processor performs various image processing such as shading correction on the acquired captured image to generate an endoscope image in a state that is easy for an operator such as a doctor to see.

内視鏡プロセッサの制御部62は、音声データを取得する(S05)。内視鏡プロセッサの制御部62は、マイク17により集音した医師等の発言(音声)を含む音声データを取得し、補助記憶装置23等に記録する。 The control unit 62 of the endoscope processor acquires voice data (S05). The control unit 62 of the endoscope processor acquires voice data including remarks (voice) of a doctor or the like collected by a microphone 17 and records it in an auxiliary storage device 23 or the like.

内視鏡プロセッサの制御部62は、内視鏡画像及び音声データに経時要素を付加する(S06)。内視鏡プロセッサの制御部62は、内視鏡画像及び音声データにおいて時間軸上での対応がとれるように経時要素を付加する。 The control unit 62 of the endoscope processor adds a time element to the endoscope image and audio data (S06). The control unit 62 of the endoscope processor adds a time element so that the endoscope image and the audio data can be matched on the time axis.

内視鏡プロセッサの制御部62は、経時要素を付加した内視鏡画像及び音声データ、操作者ID等を出力する(S07)。内視鏡プロセッサの制御部62は、経時要素を付加した内視鏡画像及び音声データ、操作者ID等の取得又は生成した各種データを情報処理装置6に出力する。 The control unit 62 of the endoscope processor outputs an endoscope image and audio data to which a time element is added, an operator ID, and the like (S07). The control unit 62 of the endoscope processor outputs various data acquired or generated such as an endoscope image and voice data to which a time element is added, an operator ID, and the like to the information processing apparatus 6.

情報処理装置6の制御部62は、内視鏡装置10から、経時要素が付加された内視鏡画像及び音声データ、操作者ID等を取得する(S101)。制御部62は、内視鏡装置10から取得した各種データを記憶部63に記憶する。 The control unit 62 of the information processing device 6 acquires an endoscope image and voice data to which a time element is added, an operator ID, and the like from the endoscope device 10 (S101). The control unit 62 stores various data acquired from the endoscope device 10 in the storage unit 63.

情報処理装置6の制御部62は、音声データに含まれる音声の認識処理を行う(S102)。制御部62は、音声データに含まれる音声の認識処理を行い、音声に含まれる発音に基づき、文字データを生成する。制御部62は、音声の認識処理を行うにあたり、取得した操作者IDに基づき音声を発した医師等を特定し、当該特定した医師による音声のみを認識して文字データを生成するものであってもよい。当該文字データには、文字データに含まれる用語が発音された時点に関する情報が、付与されている。上述のとおり、音声の認識処理を行うにあたり用いられる音響モデルには、操作者IDによって特定される医師等の音声が予め登録されている。制御部62は、記録された音声が内視鏡の操作者である医師であるか、被検者(患者)等の他者であるかを判別し、当該医師による音声のみを抽出するようにフィルタ処理を行うものであってもよい。 The control unit 62 of the information processing apparatus 6 performs a voice recognition process included in the voice data (S102). The control unit 62 performs a voice recognition process included in the voice data, and generates character data based on the pronunciation included in the voice. The control unit 62 identifies a doctor or the like who has emitted a voice based on the acquired operator ID in performing voice recognition processing, recognizes only the voice by the specified doctor, and generates character data. May be good. Information about the time when the term included in the character data is pronounced is added to the character data. As described above, the voice of a doctor or the like specified by the operator ID is registered in advance in the acoustic model used for performing the voice recognition process. The control unit 62 determines whether the recorded voice is a doctor who is the operator of the endoscope or another person such as a subject (patient), and extracts only the voice by the doctor. It may be filtered.

情報処理装置6の制御部62は、音声認識の結果に基づき、発音された医療用語の抽出を行う(S103)。制御部62は、音声に含まれる発音に基づき生成した文字データに対し、例えば、形態素解析を行うことにより、文字データに含まれる単語夫々を抽出する。制御部62は、抽出した単語夫々と、医療用語DB631に登録されている医療用語夫々との比較又はマッチングを行うことにより、文字データに含まれる医療用語を抽出する。制御部62は、抽出した医療用語及び当該医療用語が発声された時点を関連付けて記憶部63に記憶する。上述のとおり、制御部62は、抽出した医療用語が隠語として医療用語DB631に登録されている場合、当該隠語と同義となる標準用語を、抽出した医療用語として記憶するものであってもよい。この場合、例えば、医師等の発言が「下部食道にK」であっても、「K」は隠語として処理され、「K」と同義となる標準用語の「癌」に変換され、「下部食道に癌」として医療用語が抽出される。 The control unit 62 of the information processing apparatus 6 extracts the pronounced medical term based on the result of voice recognition (S103). The control unit 62 extracts each word included in the character data by, for example, performing morphological analysis on the character data generated based on the pronunciation included in the voice. The control unit 62 extracts the medical term included in the character data by comparing or matching each of the extracted words with each of the medical terms registered in the medical term DB 631. The control unit 62 stores the extracted medical term and the time point at which the medical term is spoken in the storage unit 63 in association with each other. As described above, when the extracted medical term is registered in the medical term DB631 as a jargon, the control unit 62 may store the standard term having the same meaning as the jargon as the extracted medical term. In this case, for example, even if the doctor's remark is "K in the lower esophagus", "K" is treated as a jargon, converted into the standard term "cancer" which is synonymous with "K", and "lower esophagus". The medical term is extracted as "cancer".

制御部62は、医療用語DB631に登録されている隠語を適用する場合、入力された医療機関IDを用いて、適用する隠語群を確定するものであってもよい。医療用語DB631は、上述のとおり例えばRDBMSにより構成されており、医療用語のフィールドに格納される隠語夫々に対し、当該隠語が用いられる医療機関を識別する医療機関IDが登録されている。制御部62は、入力された医療機関IDを用いて、当該医療機関IDが登録されている隠語(当該医療機関IDと同一のレコードである隠語)を、適用対象の隠語群として抽出する。制御部62は、医師等の発言と、当該抽出した隠語群とを対比して、医師等の発言に含まれる隠語を特定し、特定した隠語と同義となる標準用語に変換して、医療用語を抽出する。本実施形態において、操作者ID及び医療機関IDを別個に取得するとしたが、これに限定されない。操作者IDには、当該操作者である医師等が属する医療機関を識別する番号(情報)が含まれており、制御部62は、操作者IDのみを取得し、当該操作者IDに含まれる医療機関を識別する番号を抽出する。制御部62は、抽出した当該番号(医療機関IDに相当)に基づき、医療用語DB631を用いて、適用対象の隠語群を抽出するものであってもよい。 When applying the jargon registered in the medical term DB 631, the control unit 62 may determine the jargon group to be applied by using the input medical institution ID. As described above, the medical term DB 631 is configured by, for example, an RDBMS, and a medical institution ID that identifies a medical institution in which the jargon is used is registered for each jargon stored in the field of the medical term. Using the input medical institution ID, the control unit 62 extracts the jargon in which the medical institution ID is registered (the jargon that is the same record as the medical institution ID) as the jargon group to be applied. The control unit 62 compares the remarks of the doctor or the like with the extracted jargon group, identifies the jargon included in the jargon of the doctor or the like, converts it into a standard term synonymous with the specified jargon, and converts it into a medical term. Is extracted. In the present embodiment, the operator ID and the medical institution ID are acquired separately, but the present invention is not limited to this. The operator ID includes a number (information) that identifies the medical institution to which the doctor or the like who is the operator belongs, and the control unit 62 acquires only the operator ID and includes it in the operator ID. Extract the number that identifies the medical institution. The control unit 62 may extract a group of jargon to be applied by using the medical term DB631 based on the extracted number (corresponding to the medical institution ID).

情報処理装置6の制御部62は、抽出した医療用語の発音時点に対応する第1画像(フレーム)を抽出する(S104)。制御部62は、抽出した医療用語の発音時点、すなわち医師等による当該医療用語を含む発言がされた期間を特定し、当該期間において撮像された内視鏡画像のフレーム(静止画)を第1画像として抽出する。 The control unit 62 of the information processing apparatus 6 extracts a first image (frame) corresponding to the pronunciation time point of the extracted medical term (S104). The control unit 62 specifies the time of pronunciation of the extracted medical term, that is, the period during which the doctor or the like makes a statement including the medical term, and first sets the frame (still image) of the endoscopic image captured during the period. Extract as an image.

情報処理装置6の制御部62は、抽出した医療用語に基づきラベルを導出する(S105)。抽出した医療用語が、例えば「下部食道に癌」等、複数の医療用語を含む場合、制御部62は、医療用語DB631を参照することにより、下部食道は病変の位置を示し、癌は病変の名称(種類)を示すものと判定し、判定結果に応じて、ラベルを生成(導出)する。一例として、「下部食道に癌」が抽出された場合、制御部62は、「病変:有/症状:癌/場所:下部食道」からなるラベルを生成(導出)する。 The control unit 62 of the information processing apparatus 6 derives a label based on the extracted medical terms (S105). When the extracted medical term includes a plurality of medical terms such as "cancer in the lower esophagus", the control unit 62 refers to the medical term DB631 to indicate the position of the lesion in the lower esophagus, and the cancer is the lesion. It is determined that it indicates a name (type), and a label is generated (derived) according to the determination result. As an example, when "cancer in the lower esophagus" is extracted, the control unit 62 generates (derives) a label consisting of "lesion: present / symptom: cancer / location: lower esophagus".

情報処理装置6の制御部62は、第1画像及びラベルに基づき訓練データを生成する(S106)。制御部62は、抽出した医療用語が発せられた期間にて撮像されたフレームである第1画像を問題データとし、抽出した医療用語に基づき導出したラベルを正解データ(正解レベル)とする訓練データを生成する。例えば、抽出した医療用語が発せられた期間が2秒であり、フレームレートが50フレーム/秒(fps)の場合、当該抽出した医療用語に対応する第1画像は100枚となり、これら第1画像に対し同じラベルが付与されるものとなる。制御部62は、第1画像及びラベルから成る訓練データを例えば、オブジェクト型配列データの形式で生成する。または、制御部62は、第1画像及びラベルから成る訓練データを、予め構成されているデータベース(訓練データ用DB)の所定のフィールドに登録するものであってもよい。 The control unit 62 of the information processing apparatus 6 generates training data based on the first image and the label (S106). The control unit 62 uses the first image, which is a frame captured during the period when the extracted medical terms are issued, as problem data, and the label derived based on the extracted medical terms as correct answer data (correct answer level). To generate. For example, if the period during which the extracted medical term is issued is 2 seconds and the frame rate is 50 frames / sec (fps), the number of first images corresponding to the extracted medical term is 100, and these first images Will be given the same label. The control unit 62 generates training data consisting of a first image and a label, for example, in the form of object type array data. Alternatively, the control unit 62 may register the training data including the first image and the label in a predetermined field of the database (training data DB) configured in advance.

情報処理装置6の制御部62は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部63に記憶する(S107)。制御部62は、生成した訓練データと、内視鏡の種類等を含む内視鏡情報とを関連付けて記憶部63に記憶する。内視鏡の種類に応じて、検査対象の体内部位は異なるもとなるところ、訓練データと内視鏡情報とを関連付けて記憶することにより、内視鏡種類又は体内部位に応じた個々の学習済みモデルを生成することができる。 The control unit 62 of the information processing device 6 stores the generated training data and the acquired endoscopic information in the storage unit 63 in association with each other (S107). The control unit 62 stores the generated training data in the storage unit 63 in association with the endoscope information including the type of the endoscope. Since the internal part to be examined differs depending on the type of endoscope, individual learning according to the type of endoscope or internal part is performed by storing the training data in association with the endoscopic information. You can generate a finished model.

図7は、第1学習済みモデル91の生成処理に関する説明図である。情報処理装置6は、生成した訓練データに基づき学習することで、内視鏡画像を入力とし、病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力とする深層ニューラルネットワーク(第1学習済みモデル91)を構築(生成)する。上述のとおり、訓練データは、医師等の発言に基づき特定された問題データとなる第1画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。 FIG. 7 is an explanatory diagram relating to the generation process of the first trained model 91. The information processing apparatus 6 inputs an endoscopic image by learning based on the generated training data, and outputs information including at least one of the presence / absence of a lesion, the type (symptom) of the lesion, and the location of the lesion. A deep neural network (first trained model 91) is constructed (generated). As described above, the training data is composed of a first image which is problem data specified based on the remarks of doctors and the like, and a label which is correct answer data derived based on medical terms included in the remarks of doctors and the like. ..

訓練データを用いて学習された深層ニューラルネットワーク(第1学習済みモデル91)は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用が想定される。第1学習済みモデル91は、上述のごとく制御部62(CPU等)及び記憶部63を備える情報処理装置6にて用いられるものであり、このように演算処理能力を有する情報処理装置6にて実行されることにより、ニューラルネットワークシステムが構成される。すなわち、情報処理装置6の制御部62が、第1学習済みモデル91からの指令に従って、入力層に入力された内視鏡画像の特徴量を抽出する演算を行い、出力層から病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力するように動作する。 The deep neural network (first trained model 91) trained using the training data is expected to be used as a program module that is a part of artificial intelligence software. The first trained model 91 is used in the information processing device 6 provided with the control unit 62 (CPU or the like) and the storage unit 63 as described above, and is used in the information processing device 6 having arithmetic processing capability as described above. By being executed, a neural network system is constructed. That is, the control unit 62 of the information processing apparatus 6 performs an operation to extract the feature amount of the endoscopic image input to the input layer according to the command from the first trained model 91, and determines the presence or absence of a lesion from the output layer. It operates to output information including at least one of the lesion type (symptom) and the location of the lesion.

入力層は、内視鏡画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値及び距離情報を中間層に受け渡す。中間層は、内視鏡画像の画像特徴量を抽出する複数のニューロンを有し、抽出した画像特徴量に基づくニューロンの活性状態を出力層に受け渡す。例えば第1学習済みモデル91がCNN(Convolutional Neural Network)である場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピング(圧縮)するプーリング層とが交互に連結された構成を有し、内視鏡画像の画素情報を圧縮しながら最終的に内視鏡画像の特徴量を抽出する。出力層は、当該内視鏡画像に含まれる体内部位における病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力する一又は複数のニューロンを有し、中間層から出力された画像特徴量等に基づいて、病変の有無等に関する情報を出力する。当該出力される病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報は、医師等による診断支援情報として用いられる。 The input layer has a plurality of neurons that receive input of the pixel value of each pixel included in the endoscopic image, and passes the input pixel value and distance information to the intermediate layer. The intermediate layer has a plurality of neurons for extracting the image features of the endoscopic image, and passes the active state of the neurons based on the extracted image features to the output layer. For example, when the first trained model 91 is a CNN (Convolutional Neural Network), the intermediate layer has a convolutional layer that convolves the pixel values of each pixel input from the input layer and a pixel value that is convolved by the convolutional layer. It has a configuration in which the pooling layers to be mapped (compressed) are alternately connected, and the feature amount of the endoscopic image is finally extracted while compressing the pixel information of the endoscopic image. The output layer has one or more neurons that output information including at least one of the presence or absence of a lesion, the type (symptom) of the lesion, and the location of the lesion contained in the endoscopic image, and is an intermediate layer. Information on the presence or absence of lesions is output based on the image feature amount and the like output from. Information including the presence or absence of the output lesion, the type (symptom) of the lesion, and at least one of the locations of the lesion is used as diagnostic support information by a doctor or the like.

本実施形態では、第1学習済みモデル91に入力されるデータは、内視鏡画像であるとして説明しているがこれに限定されない。第1学習済みモデル91に入力されるデータは、撮像素子が撮像した撮影画像であってもよい。すなわち、第1学習済みモデル91は、撮影画像及び距離情報が入力されることにより、病変の有無、病変の種類(症状)及び病変の場所の少なくとも一つを含む情報を出力する。この場合、訓練データは撮影画像に基づき生成されていることが望ましい。 In the present embodiment, the data input to the first trained model 91 is described as being an endoscopic image, but the data is not limited to this. The data input to the first trained model 91 may be a captured image captured by the image pickup device. That is, the first trained model 91 outputs information including at least one of the presence / absence of a lesion, the type (symptom) of a lesion, and the location of a lesion by inputting a photographed image and distance information. In this case, it is desirable that the training data is generated based on the captured image.

情報処理装置6は、出力層から出力された値を、問題データ(第1画像)に対し、ラベル付けされた病変の有無等を含む情報、すなわち正解値(正解データ)と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば情報処理装置6は、誤差逆伝播法を用いて各種パラメータの最適化を行う。情報処理装置6は、訓練データを用いて上記の処理を行い、第1学習済みモデル91を生成し、生成した第1学習済みモデル91を記憶部63に記憶する。 The information processing apparatus 6 compares the value output from the output layer with the information including the presence or absence of a labeled lesion with respect to the problem data (first image), that is, the correct answer value (correct answer data), and the output layer. The parameters used for the arithmetic processing in the intermediate layer are optimized so that the output value from is close to the correct answer value. The parameter is, for example, a weight between neurons (coupling coefficient), a coefficient of an activation function used in each neuron, and the like. The method of optimizing the parameters is not particularly limited, but for example, the information processing apparatus 6 optimizes various parameters by using the error back propagation method. The information processing apparatus 6 performs the above processing using the training data, generates the first trained model 91, and stores the generated first trained model 91 in the storage unit 63.

本実施形態において、情報処理装置6は、訓練データの生成及び、当該訓練データを用いた第1学習済みモデル91の生成を行うとしたが、これに限定されない。訓練データを用いた第1学習済みモデル91の生成は、訓練データの生成した情報処理装置6とは、異なる情報処理装置6で行うものであってもよい。 In the present embodiment, the information processing apparatus 6 is supposed to generate training data and a first trained model 91 using the training data, but the present invention is not limited to this. The generation of the first trained model 91 using the training data may be performed by an information processing device 6 different from the information processing device 6 in which the training data is generated.

図8は、情報処理装置6の制御部62による第1学習済みモデル91の生成処理に関する処理手順の一例を示すフローチャートである。情報処理装置6の制御部62は、訓練データを取得する(S120)。訓練データは、医師等の発言に基づき特定された問題データとなる第1画像と、医師等の発言に含まれる医療用語に基づき導出された正解データとなるラベルとにより構成される。 FIG. 8 is a flowchart showing an example of a processing procedure related to the generation processing of the first trained model 91 by the control unit 62 of the information processing apparatus 6. The control unit 62 of the information processing apparatus 6 acquires training data (S120). The training data is composed of a first image which is problem data specified based on the remarks of doctors and the like, and a label which is correct answer data derived based on medical terms included in the remarks of doctors and the like.

このような訓練データの元データとなる内視鏡画像及び医師等の発言を記憶した音声データは、各医療機関において行われた内視鏡検査の結果データとして大量に保存されており、これら結果データを用いることにより、訓練データを大量に生成することができる。更に、音声データから医師等の発言における医療用語を抽出することにより、当該医療用語を含む発言がされた時点にて撮像された内視鏡画像のフレームを特定するため、病変が有とされるフレームを効率的に抽出し、多量の訓練データを生成する工数を削減して省力化することができる。 A large amount of endoscopic images, which are the original data of such training data, and audio data, which stores statements made by doctors and the like, are stored as result data of endoscopic examinations performed at each medical institution, and these results are obtained. By using the data, a large amount of training data can be generated. Furthermore, by extracting medical terms in the remarks of doctors and the like from the voice data, it is considered that there is a lesion in order to identify the frame of the endoscopic image captured at the time when the remarks including the medical terms are made. It is possible to efficiently extract frames, reduce the man-hours for generating a large amount of training data, and save labor.

情報処理装置6の制御部62は、第1学習済みモデル91を生成する(S121)。制御部62は、深層ニューラルネットワークに、取得した訓練データを用いて学習させることにより、第1学習済みモデル91を構築(生成)する。第1学習済みモデル91がニューラルネットワークである場合、中間層での演算処理に用いるパラメータは、例えば誤差逆伝播法を用いることにより、最適化される。 The control unit 62 of the information processing apparatus 6 generates the first trained model 91 (S121). The control unit 62 constructs (generates) the first trained model 91 by training the deep neural network using the acquired training data. When the first trained model 91 is a neural network, the parameters used for the arithmetic processing in the intermediate layer are optimized by using, for example, an error backpropagation method.

本実施形態によれば、内視鏡により撮影した画像に関連付けられて記録された医師等の内視鏡の操作者による音声データの認識結果に基づき、当該画像に相関を有するラベルを導出し、画像及びラベルに基づいて、深層ニューラルネットワーク用の訓練データを生成する。訓練データにおいて、内視鏡により撮影した画像は問題データに相当し、画像と相関を有するラベルは正解データに相当するところ、正解データであるラベルを、画像と関連付けられて記録された音声データに基づき導出するため、正解データを効率的に導出することができ、訓練データを効率的に生成することができる。 According to the present embodiment, a label having a correlation with the image is derived based on the recognition result of the voice data by the operator of the endoscope such as a doctor recorded in association with the image taken by the endoscope. Generate training data for deep neural networks based on images and labels. In the training data, the image taken by the endoscope corresponds to the problem data, and the label having a correlation with the image corresponds to the correct answer data. Since it is derived based on the above, the correct answer data can be efficiently derived, and the training data can be efficiently generated.

本実施形態によれば、ラベルは、画像に含まれる体内部位における病変の有無、病変の種類、又は病変の位置の少なくともいずれか一つに関する情報を含む。従って、当該画像を問題データとし、病変の有無、病変の種類又は病変の位置のいずれか一つ、又は全てを含む情報を正解データとする訓練データを、効率的に作成することができる。 According to this embodiment, the label contains information about at least one of the presence or absence of a lesion, the type of lesion, or the location of a lesion at an internal site included in an image. Therefore, it is possible to efficiently create training data in which the image is used as problem data and information including any one or all of the presence / absence of a lesion, the type of a lesion, or the position of a lesion is used as correct answer data.

本実施形態によれば、音声データから認識した発音による用語と、医療用語DB631に予め記憶されている医療用語群との対比に基づき、前記画像と相関を有するラベルを導出するため、精度よくラベルを導出することができる。更に、医療用語DB631に予め記憶されている医療用語群は、隠語と、隠語と同義となる標準用語とを含み、認識した発音による用語が隠語である場合、隠語と同義となる標準用語に基づき、前記画像と相関を有するラベルを導出する。従って、医師等の内視鏡の操作者による発言において、隠語等が用いられ、表現揺れが発生した場合であっても、精度よくラベルを導出することができる。 According to the present embodiment, a label having a correlation with the image is derived based on the comparison between the pronunciation term recognized from the voice data and the medical term group stored in advance in the medical term DB631, so that the label can be accurately labeled. Can be derived. Further, the medical term group stored in advance in the medical term DB631 includes a jargon and a standard term synonymous with the jargon, and when the recognized pronunciation term is a jargon, it is based on the standard term synonymous with the jargon. , A label having a correlation with the image is derived. Therefore, even when jargon or the like is used in the remarks made by the operator of the endoscope such as a doctor and expression fluctuation occurs, the label can be derived with high accuracy.

本実施形態によれば、医療用語群に含まれる用語が発声された時点に関する情報を取得し、当該用語が発せられた時点に対応する第1画像を特定する。従って、病変が疑われる体内部位が撮影された時点における第1画像を効率的に特定することができる。そして、特定した第1画像を問題データとした場合、正解データに相当するラベルに病変の存在に関する情報を含めることにより、病変有りとする訓練データを効率的に生成することができる。 According to the present embodiment, information regarding the time when a term included in the medical term group is uttered is acquired, and the first image corresponding to the time when the term is uttered is specified. Therefore, it is possible to efficiently identify the first image at the time when the internal part where the lesion is suspected is photographed. Then, when the specified first image is used as the problem data, the training data indicating that there is a lesion can be efficiently generated by including the information regarding the existence of the lesion in the label corresponding to the correct answer data.

本実施形態によれば、撮像される体内部位、すなわち検査対処の体内部位に応じて、内視鏡の種類は異なるものとなる。これに対し、内視鏡の種類を含む内視鏡情報を取得し、当該内視鏡情報を訓練データに関連付けて記憶することにより、訓練データを効率的に管理し、内視鏡の種類夫々に適合した深層ニューラルネットワークに対する学習を、確実に行うことができる。 According to the present embodiment, the type of endoscope differs depending on the internal part to be imaged, that is, the internal part to be examined. On the other hand, by acquiring endoscope information including the type of endoscope and storing the endoscope information in association with the training data, the training data can be efficiently managed and each type of endoscope can be stored. It is possible to reliably perform training for a deep neural network suitable for.

本実施形態によれば、上述の方法により効率的に作成された訓練データを用いて深層ニューラルネットワークを学習させることにより、訓練データの生成に要する工数を削減しつつ、内視鏡により撮影した画像が入力された場合、当該画像に含まれる体内部位における病変の有無等を含む情報を出力する学習済みモデルを生成することができる。 According to the present embodiment, by training the deep neural network using the training data efficiently created by the above method, the number of steps required to generate the training data is reduced, and the image taken by the endoscope is taken. When is input, it is possible to generate a trained model that outputs information including the presence or absence of a lesion in an internal part included in the image.

(実施形態2)
図9は、実施形態2(無声音時の訓練データ)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。
(Embodiment 2)
FIG. 9 is a flowchart showing an example of a processing procedure by the control unit 62 of the information processing apparatus 6 according to the second embodiment (training data at the time of unvoiced sound). The information processing apparatus 6 starts processing the flowchart based on the input contents from the input unit 8 connected to the own apparatus, for example.

情報処理装置6の制御部62は、実施形態1の処理S101からS105と同様に、S201からS205までの処理を行う。情報処理装置6の制御部62は、抽出した医療用語に基づき第1ラベルを導出する(S205)。情報処理装置6の制御部62は、第1画像及び第1ラベルに基づき、病変有の訓練データを生成する(S206)。S206までの処理を行うことにより、病変有等を含む第1ラベルを正解ラベルとする第1画像による訓練データを生成する。 The control unit 62 of the information processing apparatus 6 performs the processes from S201 to S205 in the same manner as the processes S101 to S105 of the first embodiment. The control unit 62 of the information processing apparatus 6 derives the first label based on the extracted medical terms (S205). The control unit 62 of the information processing apparatus 6 generates training data with lesions based on the first image and the first label (S206). By performing the processing up to S206, training data based on the first image with the first label including the presence of a lesion as the correct label is generated.

情報処理装置6の制御部62は、第1画像以外のフレームを第2画像として抽出する(S207)。制御部62は、取得した内視鏡画像において、第1画像として特定したフレーム(静止画)以外のフレームを第2画像として抽出し、特定する。 The control unit 62 of the information processing apparatus 6 extracts frames other than the first image as the second image (S207). The control unit 62 extracts and specifies as a second image a frame other than the frame (still image) specified as the first image in the acquired endoscope image.

情報処理装置6の制御部62は、病変無とする情報を、第2画像の第2ラベルとして導出する(S208)。第2画像は、医師等による発言がない期間(無声音の期間)、又は、医療用語が含まれない発言がされた期間にて、撮像された内視鏡画像のフレームに相当するものである。従って、制御部62は、これら第2画像に含まれる体内部位には、病変が存在しない(病変無)と判定することができる。制御部62は、例えば「病変:無/症状:無/場所:無」からなる第2ラベルを生成する。 The control unit 62 of the information processing apparatus 6 derives the information indicating that there is no lesion as the second label of the second image (S208). The second image corresponds to a frame of an endoscopic image taken during a period in which a doctor or the like does not make a statement (a period of unvoiced sound) or a period in which a statement does not include medical terms. Therefore, the control unit 62 can determine that there is no lesion (no lesion) in the internal site included in these second images. The control unit 62 generates a second label consisting of, for example, "lesion: no / symptom: no / place: no".

情報処理装置6の制御部62は、第2画像及び第2ラベルに基づき、病変無の訓練データを生成する(S209)。制御部62は、第2画像及び第2ラベルに基づき生成した訓練データ(病変無の訓練データ)を、S206で生成した訓練データ(病変有の訓練データ)に追加する。 The control unit 62 of the information processing apparatus 6 generates training data without lesions based on the second image and the second label (S209). The control unit 62 adds the training data (training data without lesions) generated based on the second image and the second label to the training data (training data with lesions) generated in S206.

情報処理装置6の制御部62は、生成した訓練データと取得した内視鏡情報とを関連付けて記憶部63に記憶する(S210)。制御部62は、生成した訓練データ、すなわち病変有の訓練データと病変無の訓練データとを合体した訓練データを、実施形態1の処理(S107)と同様に記憶部63に記憶する。 The control unit 62 of the information processing device 6 stores the generated training data and the acquired endoscopic information in the storage unit 63 in association with each other (S210). The control unit 62 stores the generated training data, that is, the training data in which the training data with lesions and the training data without lesions are combined, in the storage unit 63 as in the process (S107) of the first embodiment.

本実施形態によれば、第1画像以外の第2画像が撮像された時点においては、医療用語群に含まれる用語が発せられていないため、これら第2画像を問題データとした場合、正解データに相当するラベルに病変の不存在に関する情報を含めることにより、病変無しとする訓練データを効率的に生成することができる。 According to the present embodiment, at the time when the second image other than the first image is captured, the terms included in the medical term group are not emitted. Therefore, when these second images are used as problem data, the correct answer data is obtained. By including information on the absence of lesions in the label corresponding to, it is possible to efficiently generate training data for the absence of lesions.

(実施形態3)
図10は、実施形態3(拡大率)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS301からS304までの処理を行う。
(Embodiment 3)
FIG. 10 is a flowchart showing an example of a processing procedure by the control unit 62 of the information processing apparatus 6 according to the third embodiment (enlargement ratio). Similar to the first embodiment, the information processing apparatus 6 starts processing of the flowchart based on the input contents from the input unit 8 connected to the own apparatus, for example. The control unit 62 of the information processing apparatus 6 performs the processes from S301 to S304 in the same manner as the processes S101 to S104 of the first embodiment.

情報処理装置6の制御部62は、抽出した第1画像と同一の体内部位を撮像した画像(フレーム)であって、拡大率が異なる画像(フレーム)を第1画像として抽出する(S305)。制御部62は、抽出した第1画像以外であって、当該第1画像の前後に位置するフレームに対し、当該フレームが第1画像と同一の体内部位を撮像したフレームであるか、及び拡大率が異なるものであるかを判定する。制御部62は、抽出した第1画像から病変に相当に特徴量を抽出し、当該第1画像以外のフレームにおいて抽出した特徴量と同様又は近似する特徴量を含むフレームであって、当該第1画像とは拡大率が異なるフレームを抽出する。制御部62は、抽出した第1画像に対し例えば、エッジ検出、予め登録されている病変に相当する色彩又は形状とのパターンマッチング等により、病変に相当に特徴量を抽出する。制御部62は、例えば、抽出した特徴量の部位のフレーム内におけるサイズを比較することにより、拡大率の同異を認識する。 The control unit 62 of the information processing apparatus 6 extracts an image (frame) that is an image of the same internal part as the extracted first image and has a different enlargement ratio as the first image (S305). The control unit 62 is a frame other than the extracted first image, and the frame is a frame in which the same internal part as the first image is imaged with respect to the frames located before and after the first image, and the enlargement ratio. Is different. The control unit 62 extracts a feature amount corresponding to the lesion from the extracted first image, and is a frame containing a feature amount similar to or similar to the feature amount extracted in a frame other than the first image, and is the first frame. Extract frames that have a different magnification from the image. The control unit 62 extracts a feature amount corresponding to the lesion from the extracted first image by, for example, edge detection, pattern matching with a color or shape corresponding to a pre-registered lesion, and the like. The control unit 62 recognizes the difference in the enlargement ratio by, for example, comparing the sizes of the extracted feature quantities in the frame.

制御部62は、抽出した第1画像と同一の体内部位を撮像した画像(フレーム)であって、当該第1画像の拡大率よりも小さい拡大率のフレームを第1画像として抽出するものであってもよい。医師等が内視鏡画像を参照して検査又は診断を行う場合、拡大率が小さい画像(フレーム)の場合は、当該画像(フレーム)に病変の存在が疑われる場合、確定的な発言を控え無言となることがあり、拡大率を大きくすることにより病変の存在を認識し医療用語を含む発言をすることが想定される。このような場合、拡大率が小さい画像(フレーム)が撮像された時点の音声データは無言となり、当該画像(フレーム)は、第1画像として抽出されないものとなるが、上記の処理を行うことにより、拡大率が大きい第1画像との連関性に基づき、当該拡大率が小さい画像(フレーム)を第1画像として抽出することができる。 The control unit 62 is an image (frame) in which the same internal part as the extracted first image is captured, and extracts a frame having an enlargement ratio smaller than the enlargement ratio of the first image as the first image. You may. When a doctor or the like refers to an endoscopic image for examination or diagnosis, if the image (frame) has a small magnification, if the presence of a lesion is suspected in the image (frame), refrain from making definitive statements. It may be silent, and it is assumed that the presence of the lesion is recognized by increasing the enlargement rate and the statement including medical terms is included. In such a case, the audio data at the time when the image (frame) having a small enlargement ratio is captured becomes silent, and the image (frame) is not extracted as the first image. Based on the relationship with the first image having a large enlargement ratio, the image (frame) having a small enlargement ratio can be extracted as the first image.

情報処理装置6の制御部62は、実施形態1の処理S105からS107と同様にS306からS308までの処理を行う。 The control unit 62 of the information processing apparatus 6 performs the processes from S306 to S308 in the same manner as the processes S105 to S107 of the first embodiment.

本実施形態によれば、拡大率の異なる複数の画像が同一の体内部位を含む場合、拡大率の異なる複数の画像のいずれかの画像を第1画像と特定した場合、当該特定したいずれかの画像よりも拡大率が小さい画像についても、第1画像と特定する。従って、拡大率を大きくした画像が撮像された時点における医師等の発言を、当該画像よりも拡大率が小さい画像に対し適用し、これら拡大率が小さい画像と相関を有するラベルを精度よく導出することができる。 According to the present embodiment, when a plurality of images having different enlargement ratios include the same internal part, or when any image of a plurality of images having different enlargement ratios is specified as a first image, any of the specified images is specified. An image having a smaller enlargement ratio than the image is also specified as the first image. Therefore, the remarks of doctors and the like at the time when an image with a large enlargement ratio is captured are applied to an image having a smaller enlargement ratio than the image, and a label having a correlation with these images having a smaller enlargement ratio is accurately derived. be able to.

(実施形態4)
図11は、実施形態4(病変有無の確度)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS401からS404までの処理を行う。
(Embodiment 4)
FIG. 11 is a flowchart showing an example of a processing procedure by the control unit 62 of the information processing apparatus 6 according to the fourth embodiment (accuracy of the presence or absence of a lesion). Similar to the first embodiment, the information processing apparatus 6 starts processing of the flowchart based on the input contents from the input unit 8 connected to the own apparatus, for example. The control unit 62 of the information processing apparatus 6 performs the processes from S401 to S404 in the same manner as the processes S101 to S104 of the first embodiment.

情報処理装置6の制御部62は、抽出した第1画像の前後に位置する複数の画像(フレーム)における変化量に基づき、病変有無の確度に関する情報を導出する(S405)。制御部62は、抽出した第1画像と、当該第1画像の前後に位置する複数の画像(フレーム)とにおいて、画素単位での変化量を導出し、導出した変化量に基づき病変有無の確度に関する情報を導出する。すなわち、抽出した第1画像との変化量が所定値以下のフレームが、例えば200枚であり、フレームレートが50fpsの場合、医師は4秒間に亘って同一の体内部位を参照しているものとなる。すなわち、この期間においては、内視鏡画像は、見た目上、停止した状態となる。このように停止した状態、すなわち抽出した第1画像との変化量が所定値以下のフレームが連続した場合、医師は判断に迷っている可能性ある。従って、制御部62は、当該連続するフレームの枚数に基づき決定される期間に応じて、病変有無等の確度に関する情報を導出する。例えば、制御部62は、当該期間が長くなるにつれて、病変有無等の確度を下げて導出するものであってもよい。 The control unit 62 of the information processing apparatus 6 derives information regarding the certainty of the presence or absence of a lesion based on the amount of change in a plurality of images (frames) located before and after the extracted first image (S405). The control unit 62 derives the amount of change in pixel units between the extracted first image and a plurality of images (frames) located before and after the first image, and the accuracy of the presence or absence of a lesion based on the derived amount of change. To derive information about. That is, when the number of frames whose change amount from the extracted first image is less than or equal to a predetermined value is, for example, 200 and the frame rate is 50 fps, the doctor refers to the same internal part for 4 seconds. Become. That is, during this period, the endoscopic image is apparently stopped. In such a stopped state, that is, when the frames in which the amount of change from the extracted first image is a predetermined value or less are continuous, the doctor may be at a loss. Therefore, the control unit 62 derives information on the accuracy such as the presence or absence of a lesion according to the period determined based on the number of consecutive frames. For example, the control unit 62 may be derived by lowering the accuracy of the presence or absence of a lesion as the period becomes longer.

情報処理装置6の制御部62は、抽出した医療用語及び導出した確度に基づきラベルを導出する(S406)。制御部62は、一例として、「病変:有/症状:癌/場所:下部食道/確度:80%」からなるラベルを生成する。制御部62は、実施形態1の処理S106、S107と同様にS407、S408の処理を行う。 The control unit 62 of the information processing apparatus 6 derives a label based on the extracted medical term and the derived accuracy (S406). As an example, the control unit 62 generates a label consisting of "lesion: yes / symptom: cancer / location: lower esophagus / accuracy: 80%". The control unit 62 performs the processes of S407 and S408 in the same manner as the processes S106 and S107 of the first embodiment.

本実施形態によれば、病変の存在又は不存在の判断が困難な場合、医師等は内視鏡の移動を停止し、特定の体内部位を注視する傾向がある。これに対し、単位時間における動画像の変化量に基づいて、病変の存在の確度に関する情報を導出し、ラベルに含めることにより、医師等による特定の部位に対する注視度合を加味した情報をラベルに含めることができる。 According to this embodiment, when it is difficult to determine the presence or absence of a lesion, doctors and the like tend to stop the movement of the endoscope and gaze at a specific internal part. On the other hand, by deriving information on the certainty of the presence of lesions based on the amount of change in the moving image over a unit time and including it in the label, information including the degree of gaze of a specific site by a doctor or the like is included in the label. be able to.

(実施形態5)
図12は、実施形態5(被検者の音声データ)に係る情報処理装置6の制御部62による処理手順の一例を示すフローチャートである。情報処理装置6は、実施形態1と同様に、例えば、自装置に接続されている入力部8からの入力内容に基づき、当該フローチャートの処理を開始する。情報処理装置6の制御部62は、実施形態1の処理S101からS104と同様にS501からS504までの処理を行う。本実施形態においては、マイク17によって集音し記録した音声データには、被検者による発声が含まれている。又は、情報処理装置6の制御部62は、医師等による音声データとは別個のデータとして、被検者による音声データを取得するものであってもよい。
(Embodiment 5)
FIG. 12 is a flowchart showing an example of a processing procedure by the control unit 62 of the information processing apparatus 6 according to the fifth embodiment (voice data of the subject). Similar to the first embodiment, the information processing apparatus 6 starts processing of the flowchart based on the input contents from the input unit 8 connected to the own apparatus, for example. The control unit 62 of the information processing apparatus 6 performs the processes S501 to S504 in the same manner as the processes S101 to S104 of the first embodiment. In the present embodiment, the voice data collected and recorded by the microphone 17 includes utterance by the subject. Alternatively, the control unit 62 of the information processing apparatus 6 may acquire the voice data by the subject as data separate from the voice data by the doctor or the like.

情報処理装置6の制御部62は、第1画像(フレーム)に対応する被検者の音声データを取得する(S505)。制御部62は、抽出した第1画像(フレーム)が撮像された時点において、発生された被検者の音声データを取得する。当該被検者の音声データの取得は、内視鏡用プロセッサ20から出力された音声データの内、当該被検者による発声が行われた期間の部分データを切り出すことにより、行われるものであってもよい。又は、制御部62は、内視鏡用プロセッサ20から出力された音声データに対し、上述した音響モデルを用いることにより、被検者による発声の音素を特定し、当該被検者による発声が行われた期間の部分データを切り出すことにより被検者の音声データを取得するものであってもよい。制御部62は、当該被検者による発声が行われた期間に基づき、撮像された時点が一致又は近接することにより対応する第1画像を特定するものであってもよい。 The control unit 62 of the information processing apparatus 6 acquires the voice data of the subject corresponding to the first image (frame) (S505). The control unit 62 acquires the generated voice data of the subject at the time when the extracted first image (frame) is captured. The acquisition of the voice data of the subject is performed by cutting out the partial data of the period during which the voice of the subject is uttered from the voice data output from the endoscope processor 20. You may. Alternatively, the control unit 62 identifies the phoneme of the voice of the subject by using the above-mentioned acoustic model for the voice data output from the endoscope processor 20, and the voice of the subject is performed. The voice data of the subject may be acquired by cutting out the partial data of the period. The control unit 62 may specify the corresponding first image by matching or approaching the time points at which the images are taken, based on the period during which the subject makes a voice.

情報処理装置6の制御部62は、実施形態1の処理S105と同様にS506の処理を行う。 The control unit 62 of the information processing apparatus 6 performs the processing of S506 in the same manner as the processing S105 of the first embodiment.

情報処理装置6の制御部62は、第1画像、被検者の音声データ及びラベルに基づき訓練データを生成する(S507)。制御部62は、問題データを第1画像及び被検者の音声データとし、正解データを導出したラベルとする訓練データを生成する。情報処理装置6の制御部62は、実施形態1の処理S107と同様にS508の処理を行う。 The control unit 62 of the information processing apparatus 6 generates training data based on the first image, the voice data of the subject, and the label (S507). The control unit 62 generates training data using the problem data as the first image and the voice data of the subject, and using the label from which the correct answer data is derived. The control unit 62 of the information processing apparatus 6 performs the processing of S508 in the same manner as the processing S107 of the first embodiment.

本実施形態によれば、内視鏡の被検者による音声データを取得することにより、内視鏡により撮影した画像及び内視鏡の被検者による音声データを組み合わせた訓練データを生成することができる。このように被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第2学習済みモデル92(図13参照)用の訓練データを、効率的に生成することができる。 According to the present embodiment, by acquiring the voice data by the subject of the endoscope, training data combining the image taken by the endoscope and the voice data by the subject of the endoscope is generated. Can be done. By including the voice data of the subject in the problem data in this way, training data for the second trained model 92 (see FIG. 13) effective for lesions related to, for example, pharyngeal cancer is efficiently generated. be able to.

図13は、第2学習済みモデル92の生成処理に関する説明図である。情報処理装置6は、第1画像及び被検者の音声データを問題データとし、病変の有無、症状及び病変の場所を正解データとする訓練データに基づき学習することで、第1画像及び被検者の音声データを入力とし、病変の有無、症状及び病変の場所を出力とする深層ニューラルネットワーク(第2学習済みモデル92)を構築(生成)する。 FIG. 13 is an explanatory diagram relating to the generation process of the second trained model 92. The information processing apparatus 6 uses the first image and the voice data of the subject as problem data, and learns based on the training data in which the presence / absence of a lesion, the symptom, and the location of the lesion are correct data, so that the first image and the subject can be examined. A deep neural network (second trained model 92) is constructed (generated) by inputting the voice data of the person and outputting the presence / absence of a lesion, the symptom, and the location of the lesion.

第2学習済みモデル92は、第1学習済みモデル91と同様に入力層、中間層及び出力層を含む。音声データは、例えばLibROSA等の音声分析ライブラリを用いて配列化し、画像データと同様にCNNの入力データとして用いるものであってもよい。又は、マルチモーダルディープラーニングを用い、音声データが入力される入力層の次にLSTM(Long short term memory)等による自己回帰層を設け、当該自己回帰層からの出力と、CNNにより内視鏡画像の特徴量を抽出する中間層からの出力とを、全結合層により結合して出力層に受け渡すものであってよい。 The second trained model 92 includes an input layer, an intermediate layer, and an output layer like the first trained model 91. The voice data may be arranged using a voice analysis library such as LibROSA and used as input data of CNN in the same manner as the image data. Alternatively, using multimodal deep learning, an autoregressive layer by LSTM (Long short term memory) or the like is provided next to the input layer into which audio data is input, and the output from the autoregressive layer and the endoscopic image by CNN are used. The output from the intermediate layer from which the feature amount of the above is extracted may be combined by the fully connected layer and passed to the output layer.

本実施形態によれば、被検者による音声データを問題データに含ませることにより、例えば咽頭癌等に関する病変に対し有効な第2学習済みモデル92を効率的に生成することができる。 According to the present embodiment, by including the voice data by the subject in the problem data, it is possible to efficiently generate the second trained model 92 that is effective for lesions related to, for example, pharyngeal cancer.

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、請求の範囲内での全ての変更及び請求の範囲と均等の範囲が含まれることが意図される。 The embodiments disclosed this time should be considered to be exemplary in all respects and not restrictive. The technical features described in each embodiment can be combined with each other and the scope of the invention is intended to include all modifications within the scope of the claims and the scope of the claims. ..

S 訓練データ生成システム
10 内視鏡装置
15 キーボード
16 収容棚
17 マイク
20 内視鏡用プロセッサ
21 制御部
211 画像処理部
212 時計部
213 情報連関部
22 主記憶装置
23 補助記憶装置
24 通信部
25 タッチパネル
26 表示装置I/F
27 入力装置I/F
28 読取部
31 内視鏡用コネクタ
311 電気コネクタ
312 光コネクタ
33 光源
34 ポンプ
35 送水タンク
36 送気送水口金
40 内視鏡
43 操作部
431 制御ボタン
433 湾曲ノブ
44 挿入部
441 軟性部
442 湾曲部
443 先端部
45 折止部
48 スコープコネクタ
49 ユニバーサルコード
50 表示装置
6 情報処理装置
61 通信部
62 制御部
621 取得部
622 音声認識部
623 医療用語抽出部
624 画像抽出部
625 ラベル導出部
626 訓練データ生成部
63 記憶部
631 医療用語DB
632 記録媒体
P プログラム
64 入出力I/F
7 表示部
8 入力部
91 第1学習済みモデル
92 第2学習済みモデル
S Training data generation system 10 Endoscope device 15 Keyboard 16 Storage shelf 17 Microscope 20 Endoscope processor 21 Control unit 211 Image processing unit 212 Clock unit 213 Information linkage unit 22 Main storage device 23 Auxiliary storage device 24 Communication unit 25 Touch panel 26 Display device I / F
27 Input device I / F
28 Reading unit 31 Endoscope connector 311 Electrical connector 312 Optical connector 33 Light source 34 Pump 35 Water supply tank 36 Air supply water supply port 40 Endoscope 43 Operation unit 431 Control button 433 Curved knob 44 Insertion part 441 Flexible part 442 Curved part 443 Tip 45 Folded connector 48 Scope connector 49 Universal code 50 Display device 6 Information processing device 61 Communication unit 62 Control unit 621 Acquisition unit 622 Voice recognition unit 623 Medical term extraction unit 624 Image extraction unit 625 Label derivation unit 626 Training data generation Department 63 Memory part 631 Medical term DB
632 Recording medium P program 64 I / O I / F
7 Display unit 8 Input unit 91 1st trained model 92 2nd trained model

Claims (11)

内視鏡により撮影した画像を取得し、
取得した前記画像と関連付けられて記録された前記内視鏡の操作者による音声データを取得し、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する
処理をコンピュータに実行させる訓練データ生成方法。
Acquire the image taken by the endoscope and
The voice data by the operator of the endoscope recorded in association with the acquired image is acquired, and the voice data is acquired.
A training data generation method for causing a computer to execute a process of generating training data for a deep neural network based on a label corresponding to the recognition result and the image according to the recognition result of the acquired voice data.
前記ラベルは、前記画像に含まれる体内部位における病変の存在もしくは不存在、病変の種類、又は病変の位置のいずれか一つに関する情報を含む
請求項1のいずれか1項に記載の訓練データ生成方法。
The training data generation according to any one of claims 1, wherein the label contains information on any one of the presence or absence of a lesion, the type of lesion, or the location of a lesion in an internal site included in the image. Method.
前記音声データの認識は、前記音声データにおける発音を認識する処理を含み、
認識した発音による用語と、予め記憶されている医療用語群との対比に基づき、医療用語を特定し、
特定した医療用語に基づき、前記ラベルを生成する
請求項1又は請求項2に記載の訓練データ生成方法。
The recognition of the voice data includes a process of recognizing the pronunciation in the voice data.
Identify medical terms based on the contrast between the recognized pronunciation terms and the pre-memorized medical term groups.
The training data generation method according to claim 1 or 2, wherein the label is generated based on the specified medical term.
前記医療用語群は、隠語と、前記隠語と同義となる標準用語とを含み、
認識した発音による用語が前記隠語である場合、前記隠語と同義となる標準用語に基づき、前記医療用語を特定する
請求項3に記載の訓練データ生成方法。
The medical terminology includes jargon and standard terms synonymous with jargon.
The training data generation method according to claim 3, wherein when the recognized pronunciation term is the jargon, the medical term is specified based on a standard term synonymous with the jargon.
前記画像と前記操作者の音声データとの関連付けは、経時要素に基づくものであり、
前記画像において、前記操作者の音声データに含まれる発声時に対応する第1画像を特定し、
特定した前記第1画像に関連付けられるラベルに、病変の存在に関する情報を含め、
前記画像において、前記第1画像以外の画像となる第2画像に関連付けられるラベルに、病変の不存在に関する情報を含める
請求項1から請求項4のいずれか1項に記載の訓練データ生成方法。
The association between the image and the voice data of the operator is based on a time factor.
In the image, the first image corresponding to the utterance included in the voice data of the operator is specified.
The label associated with the identified first image includes information about the presence of the lesion.
The training data generation method according to any one of claims 1 to 4, wherein in the image, information regarding the absence of a lesion is included in a label associated with a second image that is an image other than the first image.
前記画像は、同一の体内部位を含む拡大率の異なる複数の画像を含み、
前記拡大率の異なる複数の画像には、同一のラベルを関連付ける
請求項1から請求項5のいずれか1項に記載の訓練データ生成方法。
The image includes a plurality of images having the same internal part and different magnifications.
The training data generation method according to any one of claims 1 to 5, wherein the same label is associated with the plurality of images having different enlargement ratios.
前記内視鏡により撮影した前記画像は、動画像であり、
単位時間における前記動画像の変化量に基づいて、病変の存在の確度に関する情報を前記ラベルに含める
請求項1から請求項6のいずれか1項に記載の訓練データ生成方法。
The image taken by the endoscope is a moving image and is a moving image.
The training data generation method according to any one of claims 1 to 6, wherein information regarding the probability of the presence of a lesion is included in the label based on the amount of change in the moving image in a unit time.
前記内視鏡の被検者による音声データを取得し、
生成した前記ラベルと、前記画像及び前記内視鏡の被検者による音声データとに基づいて、前記深層ニューラルネットワーク用の訓練データを生成する
請求項1から請求項7のいずれか1項に記載の訓練データ生成方法。
Obtaining voice data from the subject of the endoscope,
The invention according to any one of claims 1 to 7, wherein the training data for the deep neural network is generated based on the generated label, the image, and the voice data by the subject of the endoscope. Training data generation method.
前記内視鏡の種類を含む内視鏡情報を取得し、
取得した前記内視鏡情報を前記訓練データに関連付けて記憶する
請求項1から請求項8のいずれか1項に記載の訓練データ生成方法。
Obtaining endoscope information including the type of endoscope,
The training data generation method according to any one of claims 1 to 8, wherein the acquired endoscopic information is stored in association with the training data.
請求項1から請求項9のいずれか1項に記載の訓練データ生成方法によって生成した前記訓練データを用いて学習させた学習済みモデル。 A trained model trained using the training data generated by the training data generation method according to any one of claims 1 to 9. 内視鏡により撮影した画像を取得し、取得した前記画像と関連付けられて記録された前記内視鏡の操作者又は被検者による音声データを取得する取得部と、
取得した前記音声データの認識結果に応じて、前記認識結果に対応するラベルと前記画像とに基づいて、深層ニューラルネットワーク用の訓練データを生成する生成部と
を備える情報処理装置。
An acquisition unit that acquires an image taken by an endoscope and acquires voice data by an operator or a subject of the endoscope recorded in association with the acquired image.
An information processing device including a generation unit that generates training data for a deep neural network based on a label corresponding to the recognition result and the image according to the recognition result of the acquired voice data.
JP2021541421A 2019-08-22 2019-08-22 Training data generation method, trained model and information processing device Pending JPWO2021033303A1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/032760 WO2021033303A1 (en) 2019-08-22 2019-08-22 Training data generation method, learned model, and information processing device

Publications (1)

Publication Number Publication Date
JPWO2021033303A1 true JPWO2021033303A1 (en) 2021-12-02

Family

ID=74660706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541421A Pending JPWO2021033303A1 (en) 2019-08-22 2019-08-22 Training data generation method, trained model and information processing device

Country Status (2)

Country Link
JP (1) JPWO2021033303A1 (en)
WO (1) WO2021033303A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023127292A1 (en) * 2021-12-27 2023-07-06
KR102442591B1 (en) * 2022-01-24 2022-09-13 주식회사 에어스메디컬 Method, program, and apparatus for generating label

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006141903A (en) * 2004-11-25 2006-06-08 Hitachi Medical Corp Ultrasonic diagnostic apparatus
JP2008136646A (en) * 2006-12-01 2008-06-19 Toshiba Corp Medical support device
JP2012065735A (en) * 2010-09-22 2012-04-05 Hitachi Medical Corp Terminal for inputting image reading report, system for inputting image reading report, and method for inputting image reading report
JP2013106752A (en) * 2011-11-21 2013-06-06 National Cancer Center Electronic endoscope system
WO2018198327A1 (en) * 2017-04-28 2018-11-01 オリンパス株式会社 Endoscope diagnosis assist system, endoscope diagnosis assist program, and endoscope diagnosis assist method
WO2019012586A1 (en) * 2017-07-10 2019-01-17 オリンパス株式会社 Medical image processing apparatus and medical image processing method
WO2019088121A1 (en) * 2017-10-30 2019-05-09 公益財団法人がん研究会 Image diagnosis assistance apparatus, data collection method, image diagnosis assistance method, and image diagnosis assistance program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006141903A (en) * 2004-11-25 2006-06-08 Hitachi Medical Corp Ultrasonic diagnostic apparatus
JP2008136646A (en) * 2006-12-01 2008-06-19 Toshiba Corp Medical support device
JP2012065735A (en) * 2010-09-22 2012-04-05 Hitachi Medical Corp Terminal for inputting image reading report, system for inputting image reading report, and method for inputting image reading report
JP2013106752A (en) * 2011-11-21 2013-06-06 National Cancer Center Electronic endoscope system
WO2018198327A1 (en) * 2017-04-28 2018-11-01 オリンパス株式会社 Endoscope diagnosis assist system, endoscope diagnosis assist program, and endoscope diagnosis assist method
WO2019012586A1 (en) * 2017-07-10 2019-01-17 オリンパス株式会社 Medical image processing apparatus and medical image processing method
WO2019088121A1 (en) * 2017-10-30 2019-05-09 公益財団法人がん研究会 Image diagnosis assistance apparatus, data collection method, image diagnosis assistance method, and image diagnosis assistance program

Also Published As

Publication number Publication date
WO2021033303A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
US11024066B2 (en) Presentation generating system for medical images, training method thereof and presentation generating method
JP5178119B2 (en) Image processing apparatus and image processing method
US20240070440A1 (en) Multimodal representation learning
US20080133233A1 (en) Medical assistance device
KR102453580B1 (en) Data input method at location of detected lesion during endoscope examination, computing device for performing the data input method
JP7203000B2 (en) Program, information processing method and information processing apparatus
CN117524402A (en) Method for analyzing endoscope image and automatically generating diagnostic report
JP2024528522A (en) System and method for real-time processing of medical images - Patents.com
CN109192261B (en) Information processing method and device, electronic device and storage medium
US20240212812A1 (en) Intelligent medical report generation
US12125196B2 (en) Computer program, processor for endoscope, and information processing method
WO2021014584A1 (en) Program, information processing method, and information processing device
JPWO2021033303A1 (en) Training data generation method, trained model and information processing device
CN119205736B (en) Multi-mode small sample data driven abnormality detection method, system and storage medium
US12426774B2 (en) Endoscopy support apparatus, endoscopy support method, and computer readable recording medium
JP2018028562A (en) Medical image display device and image interpretation report generation assistance device
CN113889103A (en) Voice-controlled pathological material control method and system
CN115904237A (en) Video file processing method, device and equipment
CN115171889A (en) Small sample gastric tumor diagnosis system
US20240203552A1 (en) Video surgical report generation
JP2021083959A (en) Computer program, information processing method, and processor for endoscope
Takayama et al. Speech recognition system generates highly accurate endoscopic reports in clinical practice
US20250120631A1 (en) Apparatus and method for diagnosing disease based on image
JP7731771B2 (en) Information processing method, information processing device, and computer system
CN112419251B (en) Upper digestive tract endoscopy image generation method, device, electronic device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221108