[go: up one dir, main page]

WO2019030840A1 - 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム - Google Patents

疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム Download PDF

Info

Publication number
WO2019030840A1
WO2019030840A1 PCT/JP2017/028872 JP2017028872W WO2019030840A1 WO 2019030840 A1 WO2019030840 A1 WO 2019030840A1 JP 2017028872 W JP2017028872 W JP 2017028872W WO 2019030840 A1 WO2019030840 A1 WO 2019030840A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
disease
receipt
predetermined
insured person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2017/028872
Other languages
English (en)
French (fr)
Inventor
広晃 福西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to PCT/JP2017/028872 priority Critical patent/WO2019030840A1/ja
Priority to US16/637,492 priority patent/US11437146B2/en
Priority to JP2019535490A priority patent/JP6988895B2/ja
Publication of WO2019030840A1 publication Critical patent/WO2019030840A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Definitions

  • the present invention relates to a disease onset risk prediction system, a disease onset risk prediction method, and a disease onset risk prediction program, and in particular, a disease onset risk prediction system that predicts the risk that a predetermined disease will develop in the insured person in the future, a disease onset risk prediction method And the disease onset risk prediction program.
  • the analysis of the health condition is performed by, for example, artificial intelligence (AI). If it is predicted that the health condition of the insured person will deteriorate in the future, each local government or health insurance association can plan measures such as the execution of a business to prevent the deterioration of the health condition of the insured person.
  • AI artificial intelligence
  • Expenses for patient care include medical expenses, care expenses, informal care costs, etc. That is, as the number of patients increases, societal costs, which are the costs incurred by the state or local government, also increase.
  • Patent Document 1 and Patent Document 2 describe techniques for predicting the risk of developing a predetermined disease.
  • Patent Document 1 describes a method for predicting the risk of developing Alzheimer's disease.
  • Patent Document 1 The method described in Patent Document 1 is by quantifying human lipocalin-type prostaglandin D synthetase ( ⁇ -trace) which has lost chaperone activity of amyloid ⁇ peptide present in biological fluid collected from human , Predict the risk of developing Alzheimer's disease. Alternatively, the method described in Patent Document 1 predicts the risk of developing Alzheimer's disease by measuring the chaperone activity of amyloid ⁇ peptide in biological fluid collected from humans.
  • ⁇ -trace human lipocalin-type prostaglandin D synthetase
  • Patent Document 2 when treating primary breast cancer, the occurrence of metastasis (AxLN metastasis) to axillary lymph node (AxLN) is generated using a prediction model composed of ADTree (Alternative Decisio Tree). How to predict is described.
  • the learning device for learning the prediction model described in Patent Document 2 uses, as training data, for example, clinical data obtained retroactively to the past time point.
  • Patent Document 3 the medical expenses reduction effect by health guidance is created by creating and visualizing a graphical model having each item of health checkup information and receipt information as a random variable based on health checkup information and receipt information.
  • a medical data analysis system to predict is described.
  • Patent Document 1 When the method described in Patent Document 1 is performed, a special test is required to predict the risk of developing Alzheimer's disease as described above. That is, in the method described in Patent Document 1, it is not supposed to predict the onset risk of Alzheimer's disease using information that already exists that can be obtained even if a special test is not performed.
  • the learning device described in Patent Document 2 uses clinical data, which is information that already exists, as training data. However, in the learning device described in Patent Document 2, it is not assumed to use data other than clinical data as training data.
  • the medical data analysis system described in Patent Document 3 combines a plurality of data from different sources as described above to create and visualize a graphical model. However, in the medical data analysis system described in Patent Document 3, concealing information for identifying an individual when a plurality of data are combined is not assumed.
  • the present invention solves the above-mentioned problems, a disease onset risk prediction system capable of predicting a disease onset risk based on a plurality of data whose source is different after protection of personal information, a disease onset risk prediction method, and a disease onset It aims to provide a risk forecasting program.
  • the disease onset risk prediction system is a data including the insured person number of the insured person converted by a predetermined method and the date of birth or birth date of the insured person and the gender.
  • Data that generates combined data by combining at least two receipt data of different types among certain receipt data with a combined key, which is a key combining the converted insured number, the age identifiable item, and the gender It is characterized by comprising generation means and model generation means for generating a prediction model for predicting the risk of developing a predetermined disease in the insured using the generated combined data.
  • the disease onset risk prediction method is a data including the insured person number of the insured person converted by a predetermined method and the date of birth or birth date of the insured person and gender and the sex.
  • Combined data is generated by combining at least two receipt data of different types among certain receipt data with a combined key which is a key combining the converted insured number, the age identifiable item and the gender, The generated combined data are used to generate a prediction model that predicts the risk of developing a given disease in the insured.
  • the disease onset risk prediction program comprises, on a computer, the insured number of the insured who has been converted in a predetermined method, and the date of birth or birth date of the insured and gender and the sex.
  • the combined data is obtained by combining at least two receipt data of different types among the included receipt data with a combined key which is a key combining the converted insured number, the age identifiable item and the gender. It is characterized in that the first generation process to generate and the second generation process to generate a prediction model to predict the risk of developing a predetermined disease using the generated combined data are generated.
  • the present invention it is possible to predict the disease onset risk based on a plurality of data whose source is different after personal information is protected.
  • FIG. 6 is an explanatory view showing an example of a medical receipt stored in the medical receipt storage means 111. It is explanatory drawing which shows the example of the item contained in medical treatment receipt. It is explanatory drawing which shows the example of the dispensing receipt memorize
  • FIG. 14 is an explanatory view showing an example of processing of processed data by the data classification unit 123
  • FIG. 16 is an explanatory view showing another processing example of processed data by the data classification means 123.
  • FIG. It is a flowchart which shows operation
  • FIG. 14 is an explanatory view showing an example of data classification processing by the data classification unit 123; It is an explanatory view showing an example of training data and evaluation data.
  • FIG. 14 is an explanatory view showing an example of processing of training data by the data classification means 123;
  • FIG. 14 is an explanatory view showing an example of performance evaluation processing by the performance evaluation means 132;
  • It is explanatory drawing which shows the example of the value showing the performance calculated based on the mixing matrix.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of a disease onset risk prediction system according to the present invention.
  • the disease onset risk prediction system of the present embodiment is a system that predicts the risk of the onset of a predetermined disease in the insured person in the future.
  • the disease onset risk prediction system 100 is used to generate a prediction model for predicting the disease onset risk, data obtained by aggregating various data such as medical recepts and dispensing receipts on an individual basis. Use as training data.
  • the disease onset risk prediction system 100 of the present embodiment includes a storage unit 110, a data processing unit 120, a prediction model generation unit 130, and a prediction unit 140.
  • the storage unit 110 has a medical recept storage means 111, a dispensing receipt storage means 112, and a care insurance data storage means 113.
  • the data stored in each storage means may be raw data which is data not subjected to editing or the like, or may be data obtained by processing the raw data by a data provider.
  • FIG. 2 is an explanatory view showing an example of a medical receipt stored in the medical receipt storage means 111.
  • a medical receipt is a statement showing the cost paid for medical treatment in a hospital, for example.
  • Medical care receipts are data provided for each medical institution.
  • the medical care receipt includes, for example, a receipt number, a national insurance insured number, a gender, a date of birth, a medical score, and a disease and illness code.
  • the receipt number is a number uniquely identifying a medical receipt.
  • the National Health Insurance Number is a number in the National Health Insurance system that uniquely identifies the household of the insured who has received the medical treatment corresponding to the receipt number.
  • the gender indicates a number representing the sex of the insured who has received the medical service corresponding to the receipt number.
  • the date of birth indicates a number representing the date of birth of the insured person who has received the medical service corresponding to the receipt number.
  • the medical score indicates a number representing the expense paid for the medical treatment corresponding to the receipt number.
  • the disease code is a number uniquely identifying the disease of the subject of the medical treatment corresponding to the receipt number.
  • a medical treatment receipt is provided as data on a monthly basis. Also, when a medical receipt is provided, the National Insurance Card Number is usually hashed to protect personal information.
  • FIG. 3 is an explanatory view showing an example of items included in a medical receipt.
  • FIG. 4 is an explanatory view showing an example of the dispensing receipt stored in the dispensing receipt storage means 112.
  • the dispensing receipt is, for example, a statement indicating the cost to be paid for the dispensing operation at the dispensing pharmacy.
  • the dispensing receipt is data provided for each dispensing pharmacy.
  • the dispensing receipt includes, for example, a receipt number, a national insurance insured number, a gender, a date of birth, a dispensing score, a drug price reference listed drug code, and a unit price.
  • the receipt number is a number uniquely identifying the dispensing receipt.
  • the National Health Insurance Number, gender, and date of birth respectively represent the same contents as the contents represented by each item in the medical receipt.
  • the dispensing score indicates a number representing the cost to be paid for the dispensing operation corresponding to the receipt number.
  • the drug price reference listing drug code is a number uniquely identifying the drug prescribed in the dispensing operation corresponding to the receipt number.
  • the unit price indicates the price of the medicine represented by the drug price standard listed medicine code.
  • the dispensing receipt is provided as monthly data. Also, when a dispensing receipt is provided, the National Insurance Card Number is usually hashed to protect personal information.
  • the dispensing receipt may include other items other than the items shown in FIG.
  • FIG. 5 is an explanatory view showing an example of items included in the dispensing receipt.
  • FIG. 6 is an explanatory view showing an example of care insurance data stored in the care insurance data storage means 113.
  • the care insurance data is, for example, a statement indicating the cost to be paid for the care service at the care facility.
  • the care insurance data is data provided for each nursing home.
  • the care insurance data includes a receipt number, a national insurance insured number, an insured person number, a gender, a date of birth, a service item score, and a care status division code ) And the burden amount.
  • the receipt number is a number that uniquely identifies care insurance data.
  • the National Health Insurance Number, gender, and date of birth respectively represent the same contents as the contents represented by each item in the medical receipt.
  • the care insurance data of the same household and the medical and dispensing receipts are combined.
  • the insured person number is a number in the long-term care insurance system that uniquely identifies the insured person who received the care service corresponding to the receipt number.
  • the service item score indicates a number representing the cost to be paid for the care service corresponding to the receipt number.
  • a care condition division code (degree of care) is a number representing the degree of care required for the insured person indicated by the insured person number.
  • the care status division code takes any of the numbers 1-7.
  • the burden amount indicates the amount of the expenses paid to the care service corresponding to the receipt number, which the insured person bears.
  • the care insurance data is provided as monthly data. Also, when care insurance data is provided, the insured person number and the insured person number are usually hashed for the protection of personal information.
  • the care insurance data may include other items other than the items shown in FIG.
  • FIG. 7 is an explanatory view showing an example of items included in the care insurance data.
  • the medical receipt, dispensing receipt, and care insurance data formats depend on the system of the data provider and the processing performed by the data provider, so the examples shown in FIGS. 2, 4 and 6 are used. It is not limited to.
  • the National Health Insurance number of each data in the present embodiment has the same value when hashed if it is the same number.
  • the storage unit 110 may have storage means for storing a ledger indicating a list of insured person numbers of the National Health Insurance, and storage means for storing a ledger indicating a list of the insured person numbers.
  • the data processing unit 120 has a function of acquiring data relating to a predetermined disease for each insured person from medical receipt, dispensing receipt, and long-term care insurance data in order to generate a prediction model of the onset risk of the predetermined disease.
  • the data processing unit 120 includes a generation data processing unit 121, a generation processing data storage unit 122, a data classification unit 123, a training data storage unit 124, and an evaluation data storage unit 125.
  • a generation data processing unit 121 the data processing unit 120 includes a generation data processing unit 121, a generation processing data storage unit 122, a data classification unit 123, a training data storage unit 124, and an evaluation data storage unit 125.
  • the generation data processing unit 121 has a function of generating processing data which is data in which various data input from the storage unit 110 are aggregated in an individual unit.
  • processing data is data in which various data input from the storage unit 110 are aggregated in an individual unit.
  • the generation data processing means 121 uses, as a combination key, data to which a national insurance insured person number, gender, and age are combined.
  • the generation data processing means 121 when generating the processing data, the generation data processing means 121 combines various data input using, for example, data in which the hashed National Insurance Insurance number, gender and age are combined as a combination key . According to the above method, processed data of each insured person that can be identified almost uniquely can be generated while the personal information is protected.
  • the generation data processing means 121 can generate processing data that can be distinguished for each insured except for twins with the same sex in the same household.
  • the generation data processing means 121 may count various data in individual units directly using the personal code.
  • FIG. 8 is an explanatory view showing an example of processed data collected on an individual basis generated by the generation data processing means 121.
  • the processing data shown in FIG. 8 includes personal identification, year, gender, age, annual medical expenses, annual number of receipts of each disease, annual dispensing expenses, number of annual medical receipts, number of nursing care service items, care status division code (care Degree), burden amount, and the number of annual use of each nursing care service.
  • the personal identification indicates a number representing the combined data described above.
  • the year indicates the year for which data is to be collected.
  • the generation data processing means 121 of this embodiment generates processing data on a yearly basis.
  • the gender represents the same content as the content represented by the gender in the medical care receipt and the like.
  • the age is the age of the insured indicated by the personal identification calculated on a yearly basis.
  • the age is calculated, for example, from the date of birth.
  • the age may be calculated based on the year.
  • the annual medical expenses and the annual number of receipts of each disease are calculated by calculating the sum of medical expenses for the target year and the total number of medical recepts of each disease based on the medical receipt.
  • the annual number of receipts of each illness and injury indicates the number of times the insured person was treated at the medical institution for the illness and illness of the subject in one year.
  • the annual receipt number of each disease may be determined in the international unit ICD-10 code unit instead of the disease code unit.
  • the ICD-10 code is divided into a major classification code, a middle classification code, and a minor classification code.
  • the minor classification code is the smallest unit.
  • the disease name disease code "diabetic nephropathy” is represented by ICD-10 code
  • the minor classification code is “E142 (diabetic nephropathy)”
  • the middle classification code is “E14 (diabetic)”
  • Major classification codes are "E00-E90 (endocrine, nutritional and metabolic diseases)” respectively.
  • explanatory variables of the prediction model either a minor classification code, a minor classification code, or a major classification code is used.
  • the small classification code is used as an explanatory variable
  • the types of explanatory variables increase.
  • a large classification code is used as an explanatory variable, the disease is too generalized.
  • the middle classification code is the most appropriate code as an explanatory variable.
  • a middle classification code is used as an explanatory variable.
  • the annual dispensing cost and the number of annual receipts of each medicine are determined by calculating the sum of the dispensing costs for the target year and the total number of dispensing recepts of each medicine based on the dispensing receipt.
  • the annual receipt number of each medicine shows the number of times the insured person was prescribed the medicine at the dispensing pharmacy in one year.
  • the drug price standard listed drug code representing the prescribed drug described in the dispensing receipt is the minimum unit. That is, if the drug price standard listed drug code itself is used as an explanatory variable, the types of explanatory variables increase to 50,000 to 100,000.
  • a code representing the efficacy of the drug price reference drug code generalized As an explanatory variable.
  • codes representing medicinal effects For example, the drug price standard listing drug code of aspirin is "1143001 X 1015". The first digit to the third digit of the drug price standard listed drug code is a code representing the drug effect. That is, the code representing the efficacy of aspirin is "114 (antipyretic analgesic and anti-inflammatory drug)".
  • the total number of nursing care service item points for the target fiscal year, the total burden amount, and the total number of nursing care insurance data for each nursing care service are calculated based on the nursing care insurance data. It is sought by each being done.
  • the care status division code (degree of care) is directly obtained from the care insurance data because it is the care status division code of the insured person indicated by the personal identification.
  • the processed data shown in FIG. 8 may include data representing the date of birth of the insured person. However, since there is a possibility that an individual is identified from the date of birth, it is better not to include data representing the date of birth from the viewpoint of protection of personal information.
  • data representing the date of birth of the insured person, in which the date is deleted from data representing the date of birth of the insured person may be included in the processed data shown in FIG.
  • the generation data processing means 121 can generate processing data that can be distinguished for each insured except for twins with the same gender of the same household even when using the birth month.
  • the generation processing data storage unit 122 has a function of storing the processing data collected in the individual unit generated by the generation data processing unit 121.
  • the data classification unit 123 uses the processing data stored in the generation processing data storage unit 122 as data used to generate a prediction model (hereinafter referred to as training data) and data used to evaluate the prediction model. It has a function of classifying it into (hereinafter referred to as evaluation data).
  • the training data is stored in the training data storage means 124.
  • the evaluation data is stored in the evaluation data storage unit 125.
  • the data classification unit 123 When processing data is generated based on medical receipts, dispensing receipts, and long-term care insurance data for several years, the data classification unit 123 generates the objective variable and the number of years of processing data used for generating explanatory variables. Designate the number of years of processing data to be used.
  • the data classification means 123 extracts only processed data of an insured person who has not developed a predetermined disease in the past including X year data. That is, the data classification unit 123 processes the processed data of the insured person whose number of annual claims of disease and illness Y corresponding to a predetermined disease is all zero among the designated years among the processed data collected in individual units. Extract.
  • the data classification unit 123 generates, as a target variable, a flag which is an attribute indicating whether or not a predetermined disease has developed in the insured person after (X + 1) years.
  • the flag "1" indicates that the insured person has developed a predetermined disease.
  • the flag "0" indicates that the insured person did not develop a predetermined disease.
  • the data classification means 123 determines whether or not a predetermined disease has developed, based on the annual number of claims of disease Y in a designated number of years in the processed data aggregated into individual units.
  • processing data including the target variable of the flag “1” is referred to as a positive example, and processing data including the target variable of the flag “0” is referred to as a negative example.
  • FIG. 9 is an explanatory view showing an example of application of processing data.
  • One row shown in FIG. 9 corresponds to one processing data.
  • processed data before year X is used as an explanatory variable of a model that predicts the risk of developing a predetermined disease.
  • flags of processed data after (X + 1) year are used as a target variable of the model.
  • FIG. 10 is an explanatory view showing an example of processing of processed data by the data classification unit 123. As shown in FIG. One row shown in FIG. 10 corresponds to one processing data.
  • the prediction model of the present embodiment predicts the risk of the first occurrence of a given disease in the future for an insured person who has not developed a given disease at the predicted time.
  • the data classification unit 123 processes the processed data before X years for which the annual number of receipts of the disease Y corresponding to the predetermined disease is 1 or more (the disease Y in the double frame shown in FIG. Processed data with annual receipt number of 1 or more is removed from the sample. That is, the data classification means 123 extracts only processed data of the insured person who has not developed a predetermined disease before X years.
  • the data classification means 123 may extract the processing data for the explanatory variable regarding a predetermined disease as follows. In this example, it is assumed that processing data for explanatory variables is extracted from processing data for Z years among processing data before X years. The processing data for Z years corresponds to the set of medical receipts for Z ⁇ 12 months.
  • the data classification unit 123 of the present embodiment has caused a disease code representing the disease Y to the set of medical receipts. If the number of times is less than the threshold value k, target processing data may be removed from the processing data for the explanatory variable.
  • the threshold k is a value that may be arbitrarily changed. The above determination method is particularly effective for diseases that are difficult to diagnose.
  • FIG. 11 is an explanatory view showing another example of processing of processed data by the data classification means 123. As shown in FIG. One row shown in FIG. 11 corresponds to one processing data.
  • the data classification unit 123 calculates the number of annual claims of disease Y corresponding to the predetermined disease after (X + 1) year on the processed data of the insured who did not develop the predetermined disease before X years (see FIG. 11). If the yearly number of diseases and illnesses Y in the double frame of the processing data to be shown is equal to or more than the threshold value k, the flag “1” is set as the objective variable.
  • the data classification unit 123 In the case of a disease with a low incidence rate, the number of years in which the annual number of claims of an injury is confirmed for acquiring a positive case will be long.
  • the data classification unit 123 By setting the flag, the data classification unit 123 generates a target variable used to learn a model that predicts the risk of developing a predetermined disease.
  • the data classification unit 123 classifies the processing data generated by the above method into training data and evaluation data at a predetermined rate.
  • the prediction model generation unit 130 has a function of generating a model to be used for discrimination of an insured person who may become an onset person of a predetermined disease in the future using AI, machine learning, or the like. As shown in FIG. 1, the prediction model generation unit 130 includes a prediction model learning unit 131 and a performance evaluation unit 132.
  • the prediction model learning unit 131 has a function of learning a prediction model using the training data stored in the training data storage unit 124.
  • the prediction model learning unit 131 learns any model such as logistic regression, SVM (Support Vector Machine) and the like.
  • the performance evaluation unit 132 has a function of using the evaluation data stored in the evaluation data storage unit 125 to evaluate the performance of prediction of the onset risk of a predetermined disease of the generated prediction model.
  • the prediction unit 140 has a function of predicting an insured person who may become a patient of a predetermined disease in the future based on the new data. As shown in FIG. 1, the prediction unit 140 includes prediction data processing means 141, prediction processed data storage means 142, and prediction means 143.
  • the prediction data processing means 141 has the same function as the generation data processing means 121. That is, the prediction data processing means 141 generates processing data as shown in FIG. Further, the processing data storage unit for prediction 142 has a function of storing processing data generated by the processing unit for prediction data processing 141.
  • the prediction means 143 uses the prediction model learned by the prediction model learning means 131 to obtain an insured person who may become an onset person of a predetermined disease based on the processed data stored in the processed data storage means for prediction 142 Have the ability to predict
  • FIG. 12 is a flow chart showing the operation of the disease onset person prediction process by the disease onset risk prediction system 100 of the first embodiment.
  • the generation data processing unit 121 generates processing data for generating a prediction model by aggregating various data input from the storage unit 110 into individual units (step S101).
  • the generated processing data is stored in the generation processing data storage unit 122.
  • the data classification unit 123 respectively performs training data used for generating a prediction model and evaluation data used for evaluating the prediction model. It generates (step S102). Each generated data is stored in either the training data storage means 124 or the evaluation data storage means 125.
  • the prediction model learning unit 131 learns a prediction model using the training data stored in the training data storage unit 124 (step S103).
  • the performance evaluation unit 132 evaluates the prediction performance of the predicted model learned using the evaluation data stored in the evaluation data storage unit 125 (step S104). For example, only a prediction model in which the performance of the evaluated prediction meets a predetermined criterion is input to the prediction unit 140.
  • the prediction data processing unit 141 generates processing data for prediction by aggregating various data input from the storage unit 110 into individual units (step S105).
  • the generated processed data is stored in the predicted processed data storage unit 142.
  • the prediction means 143 may become the cause of a predetermined disease using the prediction model learned by the prediction model learning means 131 based on the processed data stored in the processed data storage means 142 for prediction.
  • An insured person is predicted (step S106). After prediction, the disease onset risk prediction system 100 ends the disease onset person prediction process.
  • FIG. 13 is an explanatory view showing an example of data collected on an individual basis generated by the data classification unit 123. As shown in FIG. 13
  • the data shown in FIG. 13 is data after the data classification unit 123 executes the processing shown in FIGS. 10 to 11 on the processed data stored in the generated processing data storage unit 122. That is, processing data of the insured person who suffered from the predetermined disease before the base year is excluded.
  • the data for one line shown in FIG. 13 corresponds to the data for one person. That is, the data shown in FIG. 13 is data for 10 people.
  • the age shown in FIG. 13 is the age in year X and is a continuous value. Moreover, in the sex shown in FIG. 13, "0" represents a male and "1" represents a female.
  • “1” represents “morbidity before X year”, and “0” represents “morbid nothing before X year”. For example, it is determined as "predisposed for X years before” if the target disease code appears at least k times before X years in the medical care receipt.
  • an objective variable is added to the last column.
  • "1" represents “prevalence with (X + 1) years or later”
  • "0" represents "no morbidity with (X + 1) years or later”.
  • FIG. 14 is an explanatory view showing an example of data classification processing by the data classification means 123.
  • the data classification unit 123 classifies the generated data into training data and evaluation data.
  • the ratio between training data and evaluation data is a ratio that can be specified arbitrarily.
  • FIG. 15 is an explanatory view showing an example of training data and evaluation data.
  • FIG. 15 (a) shows training data.
  • FIG.15 (b) shows evaluation data.
  • evaluation data is classified and stored in the evaluation data storage unit 125 as it is.
  • the training data is further classified into a positive example in which the objective variable is “1” and a negative example in which the objective variable is “0”.
  • the ratio of positive examples to negative examples is a ratio that can be specified arbitrarily.
  • FIG. 16 is an explanatory view showing an example of processing of training data by the data classification means 123.
  • FIG. 16 (a) shows the training data after being classified by the data classification means 123.
  • FIG. 16 (b) shows the training data after the negative cases have been removed randomly.
  • the ratio of “0” to “1” of the objective variable of the training data shown in FIG. 16 (b) is adjusted to “1: 1”.
  • the adjusted training data shown in FIG. 16 (b) is stored in the training data storage means 124.
  • the prediction model learning means 131 learns a prediction model.
  • the prediction model learning unit 131 learns a prediction model based on logistic regression expressed by the following equation.
  • B 0 to B p represent parameters, and X 1 to X p represent explanatory variables.
  • the value of log e (p / (1-p)) in equation (1) is logit (log odds) and is used as a discrimination score.
  • the discrimination score is a score that represents the risk of developing a predetermined disease.
  • the performance evaluation unit 132 uses the evaluation data stored in the evaluation data storage unit 125 to evaluate the prediction performance of the generated prediction model.
  • FIG. 17 is an explanatory view showing an example of the performance evaluation process by the performance evaluation means 132. As shown in FIG.
  • FIG. 17A shows evaluation data used by the performance evaluation means 132.
  • FIG. 17A the number of evaluation samples in this example is three.
  • each item of the discrimination score and the prediction is added to the final column of the evaluation data.
  • the discrimination score is a value calculated by the above equation (1) for each evaluation data. Also, in the prediction, a value corresponding to the discrimination score is stored. Specifically, “1” is stored in the prediction when the discrimination score is equal to or higher than an arbitrary threshold t, and “0” is stored when the discrimination score is less than t 2. Usually, any threshold t is set to zero.
  • FIG. 17 (b) shows the comparison processing by the performance evaluation means 132.
  • the performance evaluation unit 132 compares the target variable of each sample with the prediction.
  • the performance evaluation unit 132 converts the comparison result into a mixing matrix.
  • FIG. 18 is an explanatory view showing an example of values representing the performance calculated based on the mixing matrix. As shown in FIG. 18, the performance evaluation unit 132 can calculate a value representing performance such as accuracy rate and accuracy using the generated mixing matrix.
  • the performance evaluation unit 132 can use an evaluation index such as an f value or an AUC (Area under the reciver operator curve) as a value representing the performance. For example, only the prediction model whose value representing performance is equal to or more than a predetermined value is used in the prediction unit 140.
  • FIG. 19 is an explanatory view showing an example of a graph showing the disease onset prediction performance of the prediction model.
  • the prediction accuracy is displayed in the order of the insured person whose prediction score is high.
  • processing data for one year is used as an explanatory variable, and processing data for three years is used as a target variable. That is, the prediction model of this example predicts the onset risk of a predetermined disease within three years.
  • the minimum number of nursing care services used annually is equal to or higher than the threshold m times
  • the minimum number of diseases received is equal to or higher than the threshold k
  • the minimum prescription receipt number for dispensing is equal to or higher than the threshold n
  • “1” is set for service use, target disease, and target drug efficacy.
  • the data classification unit 123 classifies the generated data into training data and evaluation data at a ratio of “7: 3”. Furthermore, the data classification unit 123 adds a negative example to the training data so that the ratio of the positive example and the negative example is “1: 2”.
  • the data classification unit 123 adds a negative example to the evaluation data so that the ratio of the positive example to the negative example becomes the actual disease incidence rate.
  • the positive and negative examples used for learning or evaluation of the prediction model are randomly selected from training data or evaluation data, respectively.
  • the horizontal axis of the graph shown in FIG. 19 represents ranking (person) by the prediction score.
  • the insured persons are arranged in the descending order of the prediction score output by the prediction model. That is, the insured person whose value is smaller is the insured person who is predicted to be more likely to develop a predetermined disease in the future.
  • the left vertical axis of the graph shown in FIG. 19 represents the number of actual disease cases (person). Moreover, the dashed-dotted line shown in FIG. 19 represents the number of persons who actually developed the disease among the insured persons which the prediction model estimated. In addition, broken lines shown in FIG. 19 represent the number of people who actually developed the disease among the randomly extracted insured persons.
  • the vertical axis on the right of the graph shown in FIG. 19 represents the ratio to no prediction (random extraction).
  • the solid line shown in FIG. 19 represents the ratio of the number of people represented by the dashed-dotted line in FIG. 19 to the number of people represented by the dashed line in FIG.
  • the graph shown in FIG. 19 represents the ratio of the extraction power of the prediction model to random sampling.
  • the insured person who will develop a predetermined disease in the future is predicted with a higher probability than when the insured person is randomly extracted.
  • the accuracy rate or accuracy, AUC or the like shown in FIG. 18 may be used for the scale of the left vertical axis of the graph shown in FIG.
  • the data processing unit 120 of the present embodiment can generate a record for each individual based on the healthcare related data. Also, the data processing unit 120 can generate a record in a state where the anonymity of the individual is maintained.
  • the prediction model generation unit 130 of the present embodiment learns a prediction model, the anonymity of the individual is maintained. Therefore, when the disease onset risk prediction system 100 of the present embodiment is used, a plurality of data whose source is different after protection of personal information is used as learning data of a prediction model of disease onset risk.
  • the prediction unit 140 of the present embodiment can predict the onset risk of a predetermined disease of the insured who has agreed to use the personal information by the third party. Therefore, the disease onset risk prediction system 100 according to the present embodiment can predict an insured person who may be a patient of a predetermined disease.
  • the disease onset risk prediction system 100 of the present embodiment may be realized by, for example, a processor that executes processing in accordance with a program stored in a non-temporary storage medium. That is, the generation data processing unit 121, the data classification unit 123, the prediction model learning unit 131, the performance evaluation unit 132, the prediction data processing unit 141, and the prediction unit 143 are realized by, for example, a processor that executes processing according to program control. It may be done.
  • the processor is, for example, a central processing unit (CPU) or a graphics processing unit (GPU).
  • Medical medical claim storage means 111 dispensing receipt storage means 112, care insurance data storage means 113, processing data storage means for generation 122, training data storage means 124, evaluation data storage means 125, and predicted processing data storage means 142
  • RAM Random Access Memory
  • each part in the disease onset risk prediction system 100 of this embodiment may be realized by a hardware circuit.
  • the storage unit 125, the prediction model learning unit 131, the performance evaluation unit 132, the prediction data processing unit 141, the processing data storage unit for prediction 142, and the prediction unit 143 are LSI (Large Scale) such as FPGA (Field Programmable Gate Array). Integration). Also, they may be realized by one FPGA.
  • FIG. 20 is a block diagram showing an outline of a disease onset risk prediction system according to the present invention.
  • the disease onset risk prediction system 10 includes data including the insured person number of the insured person converted by a predetermined method, and the date of birth or birth date of the insured person and the gender.
  • the combined data is generated by combining at least two receipt data of different types among the combined receipt data with a combined key which is a key combining the converted insured number, the age identifiable item and the gender.
  • Data generation means 11 for example, generation data processing means 121) and model generation means 12 (for example, for generating a prediction model for predicting the risk of developing a predetermined disease in the insured person using the generated combined data)
  • prediction model learning means 13 for example, for generating a prediction model for predicting the risk of developing a predetermined disease in the insured person using the generated combined data.
  • the disease onset risk prediction system can predict the disease onset risk based on multiple data protected from personal information.
  • the data generation unit 11 may combine at least two types of receipt data of different types with a combination key including an insured number anonymized by hashing or encryption.
  • the disease onset risk prediction system can generate a prediction model with a higher degree of protection of personal information.
  • receipt data is any one of medical receipt data indicating receipt for medical treatment, dispensing receipt data indicating receipt for dispensing, or care insurance data indicating receipt for care service. May be.
  • the disease onset risk prediction system 10 is provided with a prediction unit (for example, the prediction unit 143) that predicts an insured person who is likely to be a patient of a predetermined disease using the generated prediction model, and generates data
  • the means 11 generates combined data at least using medical receipt data, and excludes data of an insured person who has developed a predetermined disease before a predetermined year from the generated combination data, and receives an insured after the next year of the predetermined year
  • the attribute indicating whether the insurer has developed the predetermined disease is added to the combined data from which the data of the insured who has developed the predetermined disease is excluded, and the model generation means 12 aims the added attribute
  • the prediction model may be generated using information as a variable before the predetermined year included in the combined data from which the data of the insured who has developed a predetermined disease is excluded.
  • the disease onset risk prediction system can generate a prediction model that predicts the onset risk of the first occurrence of a predetermined disease in the insured person.
  • the data generation means 11 is configured such that the insured person whose medical disease data corresponding to a predetermined disease is included in the medical receipt data more than the specified number of times before the predetermined year or after the predetermined year is the predetermined year or the predetermined year It may be determined that the insured person has developed a predetermined disease the year after the following year.
  • the disease onset risk prediction system can more reliably determine the presence or absence of a disease that is difficult to diagnose.
  • model generation unit 12 may use a middle classification code corresponding to the ICD-10 code included in the medical reception data as an explanatory variable.
  • data generation means 11 generates binding data using at least the dispensing receipt data, and the model generating means 12 uses a number representing the drug efficacy in the drug price reference listed medicine code included in the dispensing receipt data as an explanatory variable. It is also good.
  • the disease onset risk prediction system can generate a prediction model with higher prediction accuracy.
  • the data generation means 11 generates combined data using the care insurance data, and the insured person who has been included in the dispensing receipt data more than the number of times the predetermined drug price standard listed medicine code is designated before the predetermined year is predetermined. It is determined that the medicine indicated by the prescribed drug price standard listed drug code is a prescribed insured person before the year, and the information corresponding to the prescribed care service is included in the care insurance data more than the number of times designated before the prescribed year It may be determined that the insured person being insured is the insured person who has utilized the prescribed care service prior to the prescribed year.
  • the disease onset risk prediction system can more reliably determine the presence or absence of prescription for a medicine and the presence or absence of use of a care service.
  • a predetermined disease occurs in the insured using data generation means for generating combined data by combining the insured number and the age with a combined key which is a key and using the generated combined data
  • a disease onset risk prediction system comprising: model generation means for generating a prediction model for predicting a risk.
  • the receipt data includes the date of birth of the insured, and the data generation means is a key obtained by combining at least two receipt data of different types with the transformed insured number and the date of birth.
  • the receipt data includes the sex of the insured, and the data generation means uses at least two receipt data of different types, with a key combining the converted insured number, the date of birth, and the gender.
  • the disease onset risk prediction system according to appendix 2, wherein the system is linked by a link key.
  • the data generation means combines at least two receipt data of different types with a combination key including a hashed insured person number according to any one of supplementary notes 1 to 4. Disease onset risk prediction system.
  • the data generation means combines at least two receipt data of different types with a combination key including an encrypted insured number, according to any one of supplementary notes 1 to 4. Disease onset risk prediction system.
  • Receipt data is medical receipt data indicating receipt for medical treatment, dispensing receipt data indicating receipt for dispensing, or care insurance data indicating receipt for care service.
  • the disease onset risk prediction system according to any one of Appendixes 1 to 6, which is any one of the above.
  • the data generation means excludes data of an insured person who has developed a predetermined disease before a predetermined year among the generated combined data, and the model generation means excludes the data of the insured person
  • the disease onset risk prediction system according to appendix 8 wherein a prediction model is generated using the combined data.
  • the data generation means is configured such that an insured person whose medical disease data corresponding to a predetermined disease is included in medical receipt data more than the specified number of times before the predetermined year develops the predetermined disease before the predetermined year.
  • the disease onset risk prediction system according to appendix 9, wherein it is determined that the insured person is a insured person.
  • the data generation means adds an attribute indicating whether the insured person has developed a predetermined disease after the year following the predetermined year to the generated combined data, and the model generation means is added.
  • the disease onset risk prediction system according to any one of appendices 9 or 10, wherein an attribute is a target variable, and the information before the predetermined year included in the combined data is a predictor variable.
  • supplementary note 14 The disease according to any one of supplementary notes 1 to 13, comprising prediction means for predicting an insured person who may be a patient of a predetermined disease using the generated prediction model Onset risk prediction system.
  • receipt data that is data including the insured person number of the insured person converted by a predetermined method and the age of the insured person
  • at least two receipt data of different types are converted
  • Combined data is generated by combining the insured person number and the birth date by a combined key which is a key, and the generated combined data is used to predict the risk of developing a predetermined disease in the insured person
  • the disease onset risk prediction method characterized by generating a prediction model.
  • receipt data combines at least two receipt data of different types including the insured person's date of birth with a combined key which is a key combining the converted insured number and the date of birth
  • At least two receipt data of different types among the receipt data which is data including the insured person number of the insured person converted by a predetermined method and the age of the insured person
  • a first generation process for generating combined data by combining the converted insured number with the birth year using a combined key, which is a combined key, and using the generated combined data to specify the insured person.
  • a disease onset risk prediction program for executing a second generation process that generates a prediction model that predicts the risk of developing a disease.
  • the receipt data includes the date of birth of the insured person, and combines at least two receipt data of different types in the first generation processing into the computer, the converted insured number and the date of birth Clause 17.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Technology Law (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Toxicology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical & Material Sciences (AREA)
  • Power Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

疾病発症リスク予測システム10は、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段11と、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段12とを備える。

Description

疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム
 本発明は、疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラムに関し、特に被保険者に将来所定の疾病が発症するリスクを予測する疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラムに関する。
 各自治体が運営する国民健康保険制度や企業が設立した健康保険組合が運営する健康保険制度において、制度を利用する被保険者に掛かる医療費を削減するための施策の策定が進められている。施策が策定される際、例えばレセプト等のヘルスケアデータが用いられて被保険者の健康状態が分析される。
 健康状態の分析は、例えば人工知能(AI;Artificial Intelligence)によって実行される。被保険者の健康状態が将来悪化することが予測されれば、各自治体や健康保険組合は、被保険者の健康状態の悪化を予防するための事業の実行等の対策を計画できる。
 健康状態の悪化の原因の1つとして、人口の高齢化が挙げられる。人口の高齢化に伴う患者の増加は、現在の日本において大きな社会問題として捉えられている。患者の増加が大きな社会問題として捉えられている理由の1つは、患者のケアに多額の費用が掛かるためである。
 患者のケアに掛かる費用には、医療費、介護費、インフォーマルケアコスト等が含まれる。すなわち、患者が増えると、国や自治体が負担するコストである社会的コストも大きくなる。
 なお、インフォーマルケアは、自治体や専門機関等、フォーマル(正式)な制度に基づいて提供される支援ではなく、家族や友人、地域住民、ボランティア等によるフォーマルな制度に基づかない非公式な支援を意味する。インフォーマルケアは、インフォーマルサービスともいう。
 従って、被保険者に将来所定の疾病が発症するリスクが早期に予測されれば、各自治体や各健康保険組合は、予防事業の実行により所定の疾病の発症を抑制できる可能性がある。被保険者の所定の疾病の発症が抑制されると、上記の社会的コストが削減される。
 特許文献1および特許文献2には、所定の疾病が発症するリスク等を予測する技術が記載されている。例えば、特許文献1には、アルツハイマー病の発症リスクを予測する方法が記載されている。
 特許文献1に記載されている方法は、ヒトから採取された生体液中に存在するアミロイドβペプチドのシャペロン活性を喪失したヒトリポカリン型プロスタグランジンD合成酵素(β-トレース)を定量することによって、アルツハイマー病の発症リスクを予測する。または、特許文献1に記載されている方法は、ヒトから採取された生体液におけるアミロイドβペプチドのシャペロン活性を測定することによって、アルツハイマー病の発症リスクを予測する。
 特許文献2には、例えば原発性乳がんの治療の際、腋窩リンパ節(AxLN)への転移(AxLN転移)の発生をADTree(Alternative Decisio Tree:交互決定木)で構成される予測モデルを用いて予測する方法が記載されている。特許文献2に記載されている予測モデルを学習する学習装置は、訓練データとして、例えば過去の時点にさかのぼって後ろ向きに得られた臨床データを用いる。
 また、特許文献3には、健診情報およびレセプト情報に基づいて、健診情報とレセプト情報の各項目を確率変数とするグラフィカルモデルを作成および可視化することによって、保健指導による医療費削減効果を予測する医療データ分析システムが記載されている。
特許第4981305号公報 特許第5603639号公報 特開2015-090689号公報
 特許文献1に記載されている方法が実行される際、上述したようにアルツハイマー病の発症リスクの予測のために特別な検査が要求される。すなわち、特許文献1に記載されている方法では、特別な検査が実行されなくても入手可能な、既に存在する情報を用いてアルツハイマー病の発症リスクを予測することが想定されていない。
 また、特許文献2に記載されている学習装置は、上述したように訓練データとして、既に存在する情報である臨床データを用いる。しかし、特許文献2に記載されている学習装置では、臨床データ以外のデータを訓練データとして利用することが想定されていない。
 また、特許文献3に記載されている医療データ分析システムは、上述したように出所が異なる複数のデータを結合してグラフィカルモデルを作成および可視化する。しかし、特許文献3に記載されている医療データ分析システムでは、複数のデータが結合される際に個人を識別する情報を秘匿することが想定されていない。
[発明の目的]
 そこで、本発明は、上述した課題を解決する、個人情報が保護された上で出所が異なる複数のデータを基に疾病発症リスクを予測できる疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラムを提供することを目的とする。
 本発明による疾病発症リスク予測システムは、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段と、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段とを備えることを特徴とする。
 本発明による疾病発症リスク予測方法は、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成し、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成することを特徴とする。
 本発明による疾病発症リスク予測プログラムは、コンピュータに、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成する第1生成処理、および生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する第2生成処理を実行させることを特徴とする。
 本発明によれば、個人情報が保護された上で出所が異なる複数のデータを基に疾病発症リスクを予測できる。
本発明による疾病発症リスク予測システムの第1の実施形態の構成例を示すブロック図である。 医科レセプト記憶手段111に記憶されている医科レセプトの例を示す説明図である。 医科レセプトに含まれる項目の例を示す説明図である。 調剤レセプト記憶手段112に記憶されている調剤レセプトの例を示す説明図である。 調剤レセプトに含まれる項目の例を示す説明図である。 介護保険データ記憶手段113に記憶されている介護保険データの例を示す説明図である。 介護保険データに含まれる項目の例を示す説明図である。 生成用データ加工手段121が生成する個人単位で集計された加工データの例を示す説明図である。 加工データの用途の例を示す説明図である。 データ分類手段123による加工データの処理例を示す説明図である。 データ分類手段123による加工データの他の処理例を示す説明図である。 第1の実施形態の疾病発症リスク予測システム100による疾病発症者予測処理の動作を示すフローチャートである。 データ分類手段123が生成する個人単位で集計されたデータの例を示す説明図である。 データ分類手段123によるデータ分類処理の例を示す説明図である。 訓練データと評価データの例を示す説明図である。 データ分類手段123による訓練データの処理例を示す説明図である。 性能評価手段132による性能評価処理の例を示す説明図である。 混合行列を基に算出される性能を表す値の例を示す説明図である。 予測モデルの疾病発症予測性能を表すグラフの例を示す説明図である。 本発明による疾病発症リスク予測システムの概要を示すブロック図である。
実施形態1.
[構成の説明]
 以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による疾病発症リスク予測システムの第1の実施形態の構成例を示すブロック図である。本実施形態の疾病発症リスク予測システムは、被保険者に将来所定の疾病が発症するリスクを予測するシステムである。
 本実施形態の疾病発症リスク予測システム100は、疾病発症リスクを予測する予測モデルの生成のために、医科レセプトや調剤レセプト等の多様なデータが個人単位で集計されたデータを予測モデル生成用の訓練データとして利用する。
 図1に示すように、本実施形態の疾病発症リスク予測システム100は、記憶部110と、データ加工部120と、予測モデル生成部130と、予測部140とを含む。
 また、図1に示すように、記憶部110は、医科レセプト記憶手段111と、調剤レセプト記憶手段112と、介護保険データ記憶手段113とを有する。なお、各記憶手段に記憶されているデータは、編集等が施されていないデータである生データでもよいし、生データがデータ提供者によって加工されたデータでもよい。
 図2は、医科レセプト記憶手段111に記憶されている医科レセプトの例を示す説明図である。医科レセプトは、例えば病院での診療行為に対して支払われる費用を示す明細書である。医科レセプトは、医療機関ごとに提供されるデータである。
 図2に示すように、医科レセプトは、例えばレセプト番号と、国保被保険者番号と、性別と、生年月日と、医療点数と、傷病コードとを含む。レセプト番号は、医科レセプトを一意に識別する番号である。
 また、国保被保険者番号は、レセプト番号に対応する診療行為を受けた被保険者の世帯を一意に識別する国民健康保険制度における番号である。また、性別は、レセプト番号に対応する診療行為を受けた被保険者の性別を表す数字を示す。また、生年月日は、レセプト番号に対応する診療行為を受けた被保険者の生年月日を表す数字を示す。
 また、医療点数は、レセプト番号に対応する診療行為に対して支払われる費用を表す数字を示す。また、傷病コードは、レセプト番号に対応する診療行為の対象の傷病を一意に識別する番号である。
 なお、図2に示すように、医科レセプトは、月単位のデータとして提供される。また、医科レセプトが提供される際、国保被保険者番号は、個人情報の保護のために通常ハッシュ化されている。
 また、医科レセプトには、図2に示す項目以外の他の項目が含まれていてもよい。図3は、医科レセプトに含まれる項目の例を示す説明図である。
 図4は、調剤レセプト記憶手段112に記憶されている調剤レセプトの例を示す説明図である。調剤レセプトは、例えば調剤薬局での調剤行為に対して支払われる費用を示す明細書である。調剤レセプトは、調剤薬局ごとに提供されるデータである。
 図4に示すように、調剤レセプトは、例えばレセプト番号と、国保被保険者番号と、性別と、生年月日と、調剤点数と、薬価基準収載医薬品コードと、単価とを含む。
 レセプト番号は、調剤レセプトを一意に識別する番号である。また、国保被保険者番号、性別、および生年月日は、医科レセプトにおける各項目が表す内容と同様の内容をそれぞれ表す。
 調剤点数は、レセプト番号に対応する調剤行為に対して支払われる費用を表す数字を示す。また、薬価基準収載医薬品コードは、レセプト番号に対応する調剤行為において処方された医薬品を一意に識別する番号である。また、単価は、薬価基準収載医薬品コードが表す医薬品の値段を示す。
 なお、図4に示すように、調剤レセプトは、月単位のデータとして提供される。また、調剤レセプトが提供される際、国保被保険者番号は、個人情報の保護のために通常ハッシュ化されている。
 また、調剤レセプトには、図4に示す項目以外の他の項目が含まれていてもよい。図5は、調剤レセプトに含まれる項目の例を示す説明図である。
 図6は、介護保険データ記憶手段113に記憶されている介護保険データの例を示す説明図である。介護保険データは、例えば介護施設での介護サービスに対して支払われる費用を示す明細書である。介護保険データは、介護施設ごとに提供されるデータである。
 図6に示すように、介護保険データは、例えばレセプト番号と、国保被保険者番号と、被保険者番号と、性別と、生年月日と、サービス項目点数と、介護状態区分コード(介護度)と、負担額とを含む。
 レセプト番号は、介護保険データを一意に識別する番号である。また、国保被保険者番号、性別、および生年月日は、医科レセプトにおける各項目が表す内容と同様の内容をそれぞれ表す。
 すなわち、国保被保険者番号が使用されると、同一世帯の介護保険データと医科レセプトおよび調剤レセプトとが結合される。また、被保険者番号は、レセプト番号に対応する介護サービスを受けた被保険者を一意に識別する介護保険制度における番号である。
 サービス項目点数は、レセプト番号に対応する介護サービスに対して支払われる費用を表す数字を示す。また、介護状態区分コード(介護度)は、被保険者番号が示す被保険者に要する介護の度合いを表す番号である。介護状態区分コードは、1~7のいずれかの数字をとる。また、負担額は、レセプト番号に対応する介護サービスに対して支払われる費用のうち被保険者が負担する額を示す。
 なお、図6に示すように、介護保険データは、月単位のデータとして提供される。また、介護保険データが提供される際、国保被保険者番号および被保険者番号は、個人情報の保護のために通常ハッシュ化されている。
 また、介護保険データには、図6に示す項目以外の他の項目が含まれていてもよい。図7は、介護保険データに含まれる項目の例を示す説明図である。
 なお、医科レセプト、調剤レセプト、および介護保険データの各フォーマットは、データの提供元のシステムやデータの提供元での加工処理等に依存するため、図2、図4、図6に示す各例に限られない。
 また、本実施形態の各データの国保被保険者番号は、同一の番号であればハッシュ化されると同一の値になる。なお、記憶部110は、国保被保険者番号の一覧を示す台帳を記憶する記憶手段や、被保険者番号の一覧を示す台帳を記憶する記憶手段を有していてもよい。
 データ加工部120は、所定の疾病の発症リスクの予測モデルの生成のために、医科レセプト、調剤レセプト、および介護保険データから被保険者ごとに所定の疾病に関わるデータを取得する機能を有する。
 図1に示すように、データ加工部120は、生成用データ加工手段121と、生成用加工データ記憶手段122と、データ分類手段123と、訓練データ記憶手段124と、評価データ記憶手段125とを有する。
 生成用データ加工手段121は、記憶部110から入力された多様なデータが個人単位に集計されたデータである加工データを生成する機能を有する。以下、生成用データ加工手段121による個人単位に集計された加工データの生成方法の例を説明する。
 個人を一意に識別する個人コードは、基本的に個人情報保護の観点で生データから削除されている。よって、多様なデータを個人単位で集計するために、生成用データ加工手段121は、国保被保険者番号、性別、および年齢が結合されたデータを結合キーとして用いる。
 すなわち、生成用データ加工手段121は、加工データを生成する際に、例えばハッシュ化された国保被保険者番号と性別と年齢が結合されたデータを結合キーとして入力された多様なデータを結合する。上記の方法によれば、個人情報が保護されたまま、ほぼ一意に識別可能な各被保険者の加工データが生成される。
 具体的には、生成用データ加工手段121は、同一世帯の性別が同じ双子を除いて被保険者ごとに区別可能な加工データを生成できる。また、マイナンバー等の個人コードが提供されている場合、生成用データ加工手段121は、直接個人コードを用いて多様なデータを個人単位で集計すればよい。
 図8は、生成用データ加工手段121が生成する個人単位で集計された加工データの例を示す説明図である。図8に示す加工データは、個人識別、年度、性別、年齢、年間医療費、各傷病の年間レセプト数、年間調剤費、各医薬品の年間レセプト数、介護サービス項目点数、介護状態区分コード(介護度)、負担額、および各介護サービスの年間利用数を含む。
 個人識別は、上記の結合データを表す数字を示す。また、年度は、データの集計対象の年度を示す。本実施形態の生成用データ加工手段121は、加工データを年単位で生成する。また、性別は、医科レセプト等における性別が表す内容と同様の内容を表す。
 年齢は、年度基準で算出された個人識別が示す被保険者の年齢である。年齢は、例えば生年月日から算出される。なお、年齢は、年基準で算出されてもよい。
 年間医療費と各傷病の年間レセプト数は、医科レセプトを基に対象年度の医療費の総和と各傷病の医科レセプト総数が算出されることによってそれぞれ求められる。各傷病の年間レセプト数は、1年間に被保険者が医療機関で対象の傷病に対する診療を受けた回数を示す。
 なお、各傷病の年間レセプト数は、傷病コード単位の代わりに、国際的な単位であるICD-10コード単位で求められてもよい。ICD-10コードは、大分類のコード、中分類のコード、小分類のコードに分けられる。小分類のコードが、最小単位である。
 例えば、「糖尿病腎症」という傷病名のコードは、ICD-10コードで表されると、小分類のコードが「E142(糖尿病腎症)」、中分類のコードが「E14 (糖尿病)」、大分類のコードが「E00-E90 (内分泌、栄養及び代謝疾患)」にそれぞれなる。
 予測モデルの説明変数として、小分類のコード、中分類のコード、大分類のコードのいずれかが用いられる。ただし、小分類のコードが説明変数として用いられると、説明変数の種類が増大してしまう。また、大分類のコードが説明変数として用いられると、疾病が汎化され過ぎる。
 よって、中分類のコードが、説明変数として最も適切なコードである。後述する実施例では、中分類のコードが説明変数として用いられている。
 年間調剤費と各医薬品の年間レセプト数は、調剤レセプトを基に対象年度の調剤費の総和と各医薬品の調剤レセプト総数が算出されることによってそれぞれ求められる。各医薬品の年間レセプト数は、1年間に被保険者が調剤薬局で対象の医薬品を処方された回数を示す。
 なお、調剤レセプトに記載されている処方された医薬品を表す薬価基準収載医薬品コードは、最小単位である。すなわち、薬価基準収載医薬品コードそのものが説明変数として用いられると、説明変数の種類が5万~10万に増大してしまう。
 よって、薬価基準収載医薬品コードが汎化された薬効を表すコードを、説明変数として用いることが考えられる。薬効を表すコードの種類は、数百程度である。例えば、アスピリンの薬価基準収載医薬品コードは、「1143001X1015」である。薬価基準収載医薬品コードの1桁目-3桁目が、薬効を表すコードである。すなわち、アスピリンの薬効を表すコードは、「114 (解熱鎮痛消炎剤)」である。
 介護サービス項目点数、負担額、および各介護サービスの年間利用数は、介護保険データを基に対象年度の介護サービス項目点数の総和、負担額の総和、および各介護サービスの介護保険データ総数が算出されることによってそれぞれ求められる。なお、介護状態区分コード(介護度)は、個人識別が示す被保険者の介護状態区分コードであるため、介護保険データから直接得られる。
 なお、図8に示す加工データに、被保険者の生年月日を表すデータが含まれてもよい。しかし、生年月日から個人が特定される可能性もあるため、個人情報の保護の観点では生年月日を表すデータは含まれない方がよい。
 例えば、被保険者の生年月日を表すデータから日が削除された、被保険者の生年月を表すデータが図8に示す加工データに含まれてもよい。生成用データ加工手段121は、生年月を用いても同一世帯の性別が同じ双子を除いて被保険者ごとに区別可能な加工データを生成できる。
 生成用加工データ記憶手段122は、生成用データ加工手段121が生成した個人単位に集計された加工データを記憶する機能を有する。
 データ分類手段123は、生成用加工データ記憶手段122に記憶されている加工データを予測モデルの生成に使用されるデータ(以下、訓練データと呼ぶ。)と、予測モデルの評価に使用されるデータ(以下、評価データと呼ぶ。)に分類する機能を有する。訓練データは、訓練データ記憶手段124に記憶される。また、評価データは、評価データ記憶手段125に記憶される。
 以下、データ分類手段123による所定の疾病の発症リスクの予測モデルの生成に用いられる訓練データと評価データの生成方法を説明する。数年分の医科レセプト、調剤レセプト、および介護保険データを基に加工データが生成されている場合、データ分類手段123は、説明変数の生成に用いられる加工データの年数と、目的変数の生成に用いられる加工データの年数をそれぞれ指定する。
 データ分類手段123は、X年のデータが含まれる過去に所定の疾病を発症していない被保険者の加工データのみ抽出する。すなわち、データ分類手段123は、個人単位に集計された加工データのうち、所定の疾病に対応する傷病Yの年間レセプト数が指定された年数に渡って全て0である被保険者の加工データを抽出する。
 次いで、データ分類手段123は、目的変数として(X+1)年以降に被保険者に所定の疾病が発症したか否かを示す属性であるフラグを生成する。フラグ「1」は、被保険者に所定の疾病が発症したことを示す。また、フラグ「0」は、被保険者に所定の疾病が発症しなかったことを示す。
 データ分類手段123は、所定の疾病が発症したか否かを、個人単位に集計された加工データ中の指定された年数における傷病Yの年間レセプト数を基に判定する。以下、フラグ「1」の目的変数を含む加工データを正例、フラグ「0」の目的変数を含む加工データを負例とそれぞれ呼ぶ。
 図9は、加工データの用途の例を示す説明図である。図9に示す1つの行が、1つの加工データに相当する。上述したように、本実施形態では、X年以前の加工データが、所定の疾病の発症リスクを予測するモデルの説明変数として使用される。また、(X+1)年以降の加工データのフラグが、モデルの目的変数として使用される。
 図10は、データ分類手段123による加工データの処理例を示す説明図である。図10に示す1つの行が、1つの加工データに相当する。本実施形態の予測モデルは、予測される時点で所定の疾病が発症していない被保険者に将来所定の疾病が初めて発症するリスクを予測する。
 従って、データ分類手段123は、図10に示すように所定の疾病に対応する傷病Yの年間レセプト数が1以上であるX年以前の加工データ(図10に示す二重枠内の傷病Yの年間レセプト数が1以上である加工データ)をサンプルから除去する。すなわち、データ分類手段123は、X年以前に所定の疾病を発症していない被保険者の加工データのみ抽出する。
 なお、データ分類手段123は、所定の疾病に関する説明変数用の加工データを以下のように抽出してもよい。本例では、X年以前の加工データのうちZ年分の加工データから説明変数用の加工データを抽出する場合を考える。Z年分の加工データは、Z×12ヶ月分の医科レセプトの組に対応する。
 医科レセプトの組に傷病Yを表す傷病コードが現れた回数が多いほど、該当の被保険者が傷病Yに罹患した確実性が高い。しかし、傷病Yを表す傷病コードが現れた回数が少ない場合、傷病が明確でなく医師が便宜的に該当の被保険者に対して傷病Yに罹患していると診断した可能性がある。
 よって、本実施形態のデータ分類手段123は、被保険者が過去に傷病Yに罹患していたか否かをより確実に判定するために、医科レセプトの組に傷病Yを表す傷病コードが現れた回数が閾値k未満である場合に対象の加工データを説明変数用の加工データから除去してもよい。なお閾値kは、任意に変更されてよい値である。上記の判定方法は、診断が困難な疾病に対して特に有効である。
 図11は、データ分類手段123による加工データの他の処理例を示す説明図である。図11に示す1つの行が、1つの加工データに相当する。データ分類手段123は、X年以前に所定の疾病を発症していない被保険者の加工データに対して、(X+1)年以降の所定の疾病に対応する傷病Yの年間レセプト数(図11に示す加工データの二重枠内の傷病Yの年間レセプト数)が閾値k以上であれば、目的変数としてフラグ「1」を設定する。
 例えば、発症率が低い疾病であれば、正例の取得のために傷病の年間レセプト数が確認される年数は大きくなる。フラグを設定することによって、データ分類手段123は、所定の疾病の発症リスクを予測するモデルの学習に使用される目的変数を生成する。
 データ分類手段123は、上記の方法で生成された加工データを所定の割合で訓練データと評価データに分類する。
 予測モデル生成部130は、AIや機械学習等を用いて将来所定の疾病の発症者になる可能性がある被保険者の判別に使用されるモデルを生成する機能を有する。図1に示すように、予測モデル生成部130は、予測モデル学習手段131と、性能評価手段132とを有する。
 予測モデル学習手段131は、訓練データ記憶手段124に記憶されている訓練データを用いて、予測モデルを学習する機能を有する。予測モデル学習手段131は、ロジスティック回帰、SVM(Support Vector Machine) 等の任意のモデルを学習する。
 性能評価手段132は、評価データ記憶手段125に記憶されている評価データを用いて、生成された予測モデルの所定の疾病の発症リスクの予測の性能を評価する機能を有する。
 予測部140は、新規データを基に将来所定の疾病の発症者になる可能性がある被保険者を予測する機能を有する。図1に示すように、予測部140は、予測用データ加工手段141と、予測用加工データ記憶手段142と、予測手段143とを有する。
 予測用データ加工手段141は、生成用データ加工手段121と同様の機能を有する。すなわち、予測用データ加工手段141は、図8に示すような加工データを生成する。また、予測用加工データ記憶手段142は、予測用データ加工手段141が生成した加工データを記憶する機能を有する。
 予測手段143は、予測モデル学習手段131が学習した予測モデルを用いて、予測用加工データ記憶手段142に記憶されている加工データを基に所定の疾病の発症者になる可能性がある被保険者を予測する機能を有する。
[動作の説明]
 以下、本実施形態の疾病発症リスク予測システム100が所定の疾病の発症者を予測する動作を図12を参照して説明する。図12は、第1の実施形態の疾病発症リスク予測システム100による疾病発症者予測処理の動作を示すフローチャートである。
 最初に、生成用データ加工手段121が、記憶部110から入力された多様なデータを個人単位に集計することによって、予測モデル生成用の加工データを生成する(ステップS101)。生成された加工データは、生成用加工データ記憶手段122に格納される。
 次いで、データ分類手段123は、生成用加工データ記憶手段122に記憶されている加工データを基に、予測モデルの生成に使用される訓練データ、および予測モデルの評価に使用される評価データをそれぞれ生成する(ステップS102)。生成された各データは、訓練データ記憶手段124または評価データ記憶手段125のいずれかに格納される。
 次いで、予測モデル学習手段131は、訓練データ記憶手段124に記憶されている訓練データを用いて予測モデルを学習する(ステップS103)。
 次いで、性能評価手段132は、評価データ記憶手段125に記憶されている評価データを用いて学習された予測モデルの予測の性能を評価する(ステップS104)。例えば、評価された予測の性能が所定の基準を満たす予測モデルのみが、予測部140に入力される。
 次いで、予測用データ加工手段141は、記憶部110から入力された多様なデータを個人単位に集計することによって、予測用の加工データを生成する(ステップS105)。生成された加工データは、予測用加工データ記憶手段142に格納される。
 次いで、予測手段143は、予測用加工データ記憶手段142に記憶されている加工データを基に、予測モデル学習手段131が学習した予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する(ステップS106)。予測した後、疾病発症リスク予測システム100は、疾病発症者予測処理を終了する。
 以下、本実施形態の疾病発症リスク予測システム100による所定の疾病の発症者を予測する具体例を図13~図19を参照して説明する。図13は、データ分類手段123が生成する個人単位で集計されたデータの例を示す説明図である。
 図13に示すデータは、生成用加工データ記憶手段122に記憶されている加工データに対してデータ分類手段123が図10~図11に示す各処理を実行した後のデータである。すなわち、基準年度以前に所定の疾病に罹患した被保険者の加工データは、除外されている。
 図13に示す1行分のデータが、1人分のデータに相当する。すなわち、図13に示すデータは、10人分のデータである。図13に示す年齢は、X年度での年齢であり、連続値である。また、図13に示す性別において、「0」は男性を表し、「1」は女性を表す。
 また、図13に示す介護度において、「1」は「要支援1」を表し、「2」は「要支援2」を表し、「3」は「要介護1」を表し、「4」は「要介護2」を表し、「5」は「要介護3」を表し、「6」は「要介護4」を表し、「7」は「要介護5」を表す。すなわち、X年度の介護度が上記のように連続値に変換されている。なお、介護度には、例えば年度末時点の被保険者の状態を表す値が設定される。
 また、図13に示す介護サービス利用において、「1」は「利用有」を表し、「0」は「利用無」を表す。例えば、サービス利用回数が閾値m回以上である場合に「利用有」と判定される。
 また、図13に示す疾病1~疾病5において、「1」は「X年以前の罹患有」を表し、「0」は「X年以前の罹患無」を表す。例えば、医科レセプトに対象の傷病コードがX年以前に閾値k回以上出現した場合に「X年以前の罹患有」と判定される。
 また、図13に示す薬効1~薬効5において、「1」は「X年以前の調剤有」を表し、「0」は「X年以前の調剤無」を表す。例えば、調剤レセプトに対象の薬価基準収載医薬品コードがX年以前に閾値n回以上出現した場合に「X年以前の調剤有」と判定される。
 また、図13に示すように、最終列に目的変数が追加されている。目的変数において、「1」は「(X+1)年以降の罹患有」を表し、「0」は「(X+1)年以降の罹患無」を表す。
 図14は、データ分類手段123によるデータ分類処理の例を示す説明図である。図13に示すようなデータ(図14に示す「全体」に相当)を生成した後、データ分類手段123は、生成されたデータを訓練データと評価データに分類する。
 図14に示す例では、「訓練用 7」「評価用 3」と記載されている。すなわち、データ分類手段123は、生成されたデータを「訓練データ:評価データ=7:3」の割合でランダムに分類する。なお、訓練データと評価データの割合は、任意に指定可能な割合である。
 図15は、訓練データと評価データの例を示す説明図である。図15(a)は、訓練データを示す。また、図15(b)は、評価データを示す。
 図14に示すように、評価データは、分類された後そのまま評価データ記憶手段125に格納される。また、訓練データは、さらに目的変数が「1」である正例と、目的変数が「0」である負例に分類される。
 上記の分類方法が用いられると、予測対象の疾病が発症率の低い疾病である場合、正例は負例よりも少なくなることが多い。正例が負例よりも極端に少ないと、予測モデルが適切に学習されない可能性がある。よって、図14に示すように、データ分類手段123は、「正例:負例=1:1」になるように負例をランダムに除去する。なお、正例と負例の割合は、任意に指定可能な割合である。
 図16は、データ分類手段123による訓練データの処理例を示す説明図である。図16(a)は、データ分類手段123により分類された後の訓練データを示す。データ分類手段123は、「正例:負例=1:1」になるように図16(a)に示す訓練データから負例をランダムに除去する。
 図16(b)は、負例がランダムに除去された後の訓練データを示す。図16(b)に示す訓練データの目的変数の「0」と「1」の割合は、「1:1」に調整されている。図16(b)に示す調整された後の訓練データは、訓練データ記憶手段124に格納される。
 訓練データ記憶手段124に記憶されている訓練データを用いて、予測モデル学習手段131は、予測モデルを学習する。本例では、予測モデル学習手段131が以下の式で表現されるロジスティック回帰に基づいた予測モデルを学習する。
loge(p/(1-p))=B0+B1X1+B2X2+・・・+BpXp ・・・式(1)
 なお、式(1)におけるB0~Bpはパラメータを表し、X1~Xpは説明変数を表す。式(1)におけるloge(p/(1-p)) の値はロジット(対数オッズ)であり、判別スコアとして使用される。判別スコアは、所定の疾病の発症リスクを表すスコアである。
 性能評価手段132は、評価データ記憶手段125に記憶されている評価データを用いて、生成された予測モデルの予測の性能を評価する。図17は、性能評価手段132による性能評価処理の例を示す説明図である。
 図17(a)は、性能評価手段132が用いる評価データを示す。図17(a)に示すように、本例における評価用サンプルの数は、3つである。また、評価データの最終列に判別スコアと予測の各項目が追加されている。
 判別スコアは、各評価データに対して上記の式(1)で算出された値である。また、予測には、判別スコアに対応する値が格納されている。具体的には、予測には判別スコアが任意の閾値t 以上である場合に「1」が格納され、判別スコアがt 未満である場合に「0」が格納されている。通常、任意の閾値t は、0に設定される。
 図17(b)は、性能評価手段132による比較処理を示す。図17(b)に示すように、性能評価手段132は、各サンプルの目的変数と予測とを比較する。次いで、性能評価手段132は、比較結果を混合行列に変換する。
 比較結果を参照すると、「実績:あり、予測:あり」のサンプルが1つ、「実績:あり、予測:なし」のサンプルが1つ、「実績:なし、予測:あり」のサンプルが1つ、それぞれ存在する。よって、図17(b)に示す混合行列において、「実績:なし、予測:なし」以外の升目にそれぞれ「1」が格納される。
 図18は、混合行列を基に算出される性能を表す値の例を示す説明図である。図18に示すように、性能評価手段132は、生成された混合行列を用いて、正解率や精度等の性能を表す値を算出できる。
 また、性能評価手段132は、f 値やAUC(Area under the reciver operator curve)等の評価指標も性能を表す値として用いることができる。例えば、性能を表す値が所定値以上の予測モデルのみが、予測部140で使用される。
 上記の処理で生成された予測モデルの性能を図19に示す。図19は、予測モデルの疾病発症予測性能を表すグラフの例を示す説明図である。図19に示すグラフには、予測スコアが高い被保険者順に、予測精度が表示されている。
 図19に示す例の予測モデルでは、説明変数に1年分の加工データが、目的変数に3年分の加工データがそれぞれ用いられている。すなわち、本例の予測モデルは、3年以内の所定の疾病の発症リスクを予測する。
 また、年間の介護サービスの最低利用数が閾値m回以上、疾病の最低レセプト数が閾値k以上、調剤の最低処方レセプト数が閾値n以上である場合に、図13に示す説明変数である介護サービス利用、対象の疾病、対象の薬効にそれぞれ「1」が設定されている。
 また、本例ではデータ分類手段123が、生成されたデータを「7:3」の割合で訓練データと評価データに分類している。さらに、データ分類手段123は、正例と負例の割合が「1:2」になるように訓練データに負例を追加している。
 また、データ分類手段123は、正例と負例の割合が実際の疾病の発症率になるように評価データに負例を追加している。予測モデルの学習または評価に使用される正例と負例は、訓練データまたは評価データからそれぞれランダムに選択される。
 図19に示すグラフの横軸は、予測スコアによるランキング(人)を表す。図19に示すグラフでは、予測モデルが出力した予測スコアの高い順に被保険者が並べられている。すなわち、値が小さい被保険者程、将来所定の疾病を発症しやすいと予測されている被保険者である。
 図19に示すグラフの左の縦軸は、実際の疾病の発症数(人)を表す。また、図19に示す一点鎖線は、予測モデルが予測した被保険者のうち実際に疾病を発症した人数を表す。また、図19に示す破線は、ランダムに抽出された被保険者のうち実際に疾病を発症した人数を表す。
 図19に示すグラフの右の縦軸は、予測なし(ランダム抽出)に対する比率を表す。また、図19に示す実線は、図19に示す破線が表す人数に対する図19に示す一点鎖線が表す人数の比率を表す。図19に示すグラフは、ランダムサンプリングに対する予測モデルの抽出力の比率を表す。
 すなわち、本例で生成された予測モデルが使用された時の方が、ランダムに被保険者が抽出された時に比べて、将来所定の疾病を発症する被保険者が高い確率で予測される。なお、図19に示すグラフの左の縦軸の目盛には、図18に示す正解率や精度、またはAUC 等が用いられてもよい。
[効果の説明]
 本実施形態のデータ加工部120は、AI関連技術がレセプト等のヘルスケア関連データに適用される際、ヘルスケア関連データを基に個人ごとのレコードを生成できる。また、データ加工部120は、個人の匿名性が保たれた状態でレコードを生成できる。
 すなわち、本実施形態の予測モデル生成部130が予測モデルを学習する場合であっても、個人の匿名性は保たれたままである。従って、本実施形態の疾病発症リスク予測システム100が使用されると、個人情報が保護された上で出所が異なる複数のデータが、疾病発症リスクの予測モデルの学習データに活用される。
 また、本実施形態の予測部140は、個人情報の第三者の利用を合意した被保険者の所定の疾病の発症リスクを予測できる。従って、本実施形態の疾病発症リスク予測システム100は、所定の疾病の発症者になる可能性がある被保険者を予測できる。
 なお、本実施形態の疾病発症リスク予測システム100は、例えば、非一時的な記憶媒体に格納されているプログラムに従って処理を実行するプロセッサによって実現されてもよい。すなわち、生成用データ加工手段121、データ分類手段123、予測モデル学習手段131、性能評価手段132、予測用データ加工手段141、および予測手段143は、例えば、プログラム制御に従って処理を実行するプロセッサによって実現されてもよい。プロセッサは、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit) である。
 また、医科レセプト記憶手段111、調剤レセプト記憶手段112、介護保険データ記憶手段113、生成用加工データ記憶手段122、訓練データ記憶手段124、評価データ記憶手段125、および予測用加工データ記憶手段142は、例えばRAM(Random Access Memory) で実現されてもよい。
 また、本実施形態の疾病発症リスク予測システム100における各部は、ハードウェア回路によって実現されてもよい。一例として、医科レセプト記憶手段111、調剤レセプト記憶手段112、介護保険データ記憶手段113、生成用データ加工手段121、生成用加工データ記憶手段122、データ分類手段123、訓練データ記憶手段124、評価データ記憶手段125、予測モデル学習手段131、性能評価手段132、予測用データ加工手段141、予測用加工データ記憶手段142、および予測手段143が、それぞれFPGA(Field Programmable Gate Array) 等のLSI(Large Scale Integration)で実現される。また、それらが1つのFPGAで実現されていてもよい。
 次に、本発明の概要を説明する。図20は、本発明による疾病発症リスク予測システムの概要を示すブロック図である。本発明による疾病発症リスク予測システム10は、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段11(例えば、生成用データ加工手段121)と、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段12(例えば、予測モデル学習手段131)とを備える。
 そのような構成により、疾病発症リスク予測システムは、個人情報が保護された上で出所が異なる複数のデータを基に疾病発症リスクを予測できる。
 また、データ生成手段11は、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化または暗号化により匿名化されている被保険者番号を含む結合キーで結合してもよい。
 そのような構成により、疾病発症リスク予測システムは、個人情報の保護の度合いがより高い状態で予測モデルを生成できる。
 また、レセプトデータは、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかでもよい。
 また、疾病発症リスク予測システム10は、生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測手段(例えば、予測手段143)を備え、データ生成手段11は、少なくとも医科レセプトデータを用いて結合データを生成し、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、所定の疾病を発症した被保険者のデータが除外された結合データに追加し、モデル生成手段12は、追加された属性を目的変数とし、所定の疾病を発症した被保険者のデータが除外された結合データに含まれる所定年以前の情報を説明変数として予測モデルを生成してもよい。
 そのような構成により、疾病発症リスク予測システムは、被保険者に初めて所定の疾病が発症する場合の発症リスクを予測する予測モデルを生成できる。
 また、データ生成手段11は、所定の疾病に対応する傷病コードが所定年以前または所定年の翌年以降に指定された回数以上医科レセプトデータに含まれている被保険者が所定年以前または所定年の翌年以降に所定の疾病を発症した被保険者であると判定してもよい。
 そのような構成により、疾病発症リスク予測システムは、診断が困難な疾病の発症の有無をより確実に判定できる。
 また、モデル生成手段12は、医科レセプトデータに含まれるICD-10コードに対応する中分類のコードを説明変数として用いてもよい。また、データ生成手段11は、少なくとも調剤レセプトデータを用いて結合データを生成し、モデル生成手段12は、調剤レセプトデータに含まれる薬価基準収載医薬品コード中の薬効を表す数字を説明変数として用いてもよい。
 そのような構成により、疾病発症リスク予測システムは、より予測精度の高い予測モデルを生成できる。
 また、データ生成手段11は、介護保険データを用いて結合データを生成し、所定の薬価基準収載医薬品コードが所定年以前に指定された回数以上調剤レセプトデータに含まれている被保険者が所定年以前に所定の薬価基準収載医薬品コードが示す医薬品が処方された被保険者であると判定し、所定の介護サービスに対応する情報が所定年以前に指定された回数以上介護保険データに含まれている被保険者が所定年以前に所定の介護サービスを利用した被保険者であると判定してもよい。
 そのような構成により、疾病発症リスク予測システムは、医薬品の処方の有無、および介護サービスの利用の有無をより確実に判定できる。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
 (付記1)所定の方法で変換された被保険者の被保険者番号と当該被保険者の生年とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段と、生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段とを備えることを特徴とする疾病発症リスク予測システム。
 (付記2)レセプトデータは、被保険者の生年月を含み、データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年月とを結合したキーである結合キーで結合する付記1記載の疾病発症リスク予測システム。
 (付記3)レセプトデータは、被保険者の性別を含み、データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と生年月と前記性別とを結合したキーである結合キーで結合する付記2記載の疾病発症リスク予測システム。
 (付記4)データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、被保険者の年齢を含む結合キーで結合する付記1から付記3のうちのいずれか1項に記載の疾病発症リスク予測システム。
 (付記5)データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化されている被保険者番号を含む結合キーで結合する付記1から付記4のうちのいずれか1項に記載の疾病発症リスク予測システム。
 (付記6)データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、暗号化されている被保険者番号を含む結合キーで結合する付記1から付記4のうちのいずれか1項に記載の疾病発症リスク予測システム。
 (付記7)レセプトデータは、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかである付記1から付記6のうちのいずれか1項に記載の疾病発症リスク予測システム。
 (付記8)データ生成手段は、少なくとも医科レセプトデータと調剤レセプトデータを用いて結合データを生成する付記7記載の疾病発症リスク予測システム。
 (付記9)データ生成手段は、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、モデル生成手段は、前記被保険者のデータが除外された前記結合データを用いて予測モデルを生成する付記8記載の疾病発症リスク予測システム。
 (付記10)データ生成手段は、所定の疾病に対応する傷病コードが所定年以前に指定された回数以上医科レセプトデータに含まれている被保険者が前記所定年以前に前記所定の疾病を発症した被保険者であると判定する付記9記載の疾病発症リスク予測システム。
 (付記11)データ生成手段は、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、生成された結合データに追加し、モデル生成手段は、追加された属性を目的変数とし、前記結合データに含まれる前記所定年以前の情報を説明変数として予測モデルを生成する付記9または付記10記載の疾病発症リスク予測システム。
 (付記12)モデル生成手段は、医科レセプトデータに含まれるICD-10コードに対応する中分類のコードを説明変数として用いる付記11記載の疾病発症リスク予測システム。
 (付記13)モデル生成手段は、調剤レセプトデータに含まれる薬価基準収載医薬品コード中の薬効を表す数字を説明変数として用いる付記11または付記12記載の疾病発症リスク予測システム。
 (付記14)生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測手段を備える付記1から付記13のうちのいずれか1項に記載の疾病発症リスク予測システム。
 (付記15)所定の方法で変換された被保険者の被保険者番号と当該被保険者の生年とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年とを結合したキーである結合キーで結合することによって結合データを生成し、生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成することを特徴とする疾病発症リスク予測方法。
 (付記16)レセプトデータは、被保険者の生年月を含み、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年月とを結合したキーである結合キーで結合する付記15記載の疾病発症リスク予測方法。
 (付記17)コンピュータに、所定の方法で変換された被保険者の被保険者番号と当該被保険者の生年とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年とを結合したキーである結合キーで結合することによって結合データを生成する第1生成処理、および生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する第2生成処理を実行させるための疾病発症リスク予測プログラム。
 (付記18)レセプトデータは、被保険者の生年月を含み、コンピュータに、第1生成処理で、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年月とを結合したキーである結合キーで結合させる付記17記載の疾病発症リスク予測プログラム。
10、100 疾病発症リスク予測システム
11 データ生成手段
12 モデル生成手段
110 記憶部
111 医科レセプト記憶手段
112 調剤レセプト記憶手段
113 介護保険データ記憶手段
120 データ加工部
121 生成用データ加工手段
122 生成用加工データ記憶手段
123 データ分類手段
124 訓練データ記憶手段
125 評価データ記憶手段
130 予測モデル生成部
131 予測モデル学習手段
132 性能評価手段
140 予測部
141 予測用データ加工手段
142 予測用加工データ記憶手段
143 予測手段

Claims (10)

  1.  所定の方法で変換された被保険者の被保険者番号と当該被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記年齢特定可能項目と前記性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段と、
     生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段とを備える
     ことを特徴とする疾病発症リスク予測システム。
  2.  データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化または暗号化により匿名化されている被保険者番号を含む結合キーで結合する
     請求項1記載の疾病発症リスク予測システム。
  3.  レセプトデータは、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかである
     請求項1または請求項2記載の疾病発症リスク予測システム。
  4.  生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測手段を備え、
     データ生成手段は、
     少なくとも医科レセプトデータを用いて結合データを生成し、
     生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、
     前記所定年の翌年以降に被保険者が前記所定の疾病を発症したか否かを示す属性を、前記所定の疾病を発症した被保険者のデータが除外された前記結合データに追加し、
     モデル生成手段は、
     追加された属性を目的変数とし、前記所定の疾病を発症した被保険者のデータが除外された前記結合データに含まれる前記所定年以前の情報を説明変数として予測モデルを生成する
     請求項3記載の疾病発症リスク予測システム。
  5.  データ生成手段は、所定の疾病に対応する傷病コードが所定年以前または前記所定年の翌年以降に指定された回数以上医科レセプトデータに含まれている被保険者が前記所定年以前または前記所定年の翌年以降に前記所定の疾病を発症した被保険者であると判定する
     請求項4記載の疾病発症リスク予測システム。
  6.  モデル生成手段は、医科レセプトデータに含まれるICD-10コードに対応する中分類のコードを説明変数として用いる
     請求項4または請求項5記載の疾病発症リスク予測システム。
  7.  データ生成手段は、
     少なくとも調剤レセプトデータを用いて結合データを生成し、
     モデル生成手段は、
     前記調剤レセプトデータに含まれる薬価基準収載医薬品コード中の薬効を表す数字を説明変数として用いる
     請求項4から請求項6のうちのいずれか1項に記載の疾病発症リスク予測システム。
  8.  データ生成手段は、
     介護保険データを用いて結合データを生成し、
     所定の薬価基準収載医薬品コードが所定年以前に指定された回数以上調剤レセプトデータに含まれている被保険者が前記所定年以前に前記所定の薬価基準収載医薬品コードが示す医薬品が処方された被保険者であると判定し、
     所定の介護サービスに対応する情報が前記所定年以前に指定された回数以上前記介護保険データに含まれている被保険者が前記所定年以前に前記所定の介護サービスを利用した被保険者であると判定する
     請求項7記載の疾病発症リスク予測システム。
  9.  所定の方法で変換された被保険者の被保険者番号と当該被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記年齢特定可能項目と前記性別とを結合したキーである結合キーで結合することによって結合データを生成し、
     生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する
     ことを特徴とする疾病発症リスク予測方法。
  10.  コンピュータに、
     所定の方法で変換された被保険者の被保険者番号と当該被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記年齢特定可能項目と前記性別とを結合したキーである結合キーで結合することによって結合データを生成する第1生成処理、および
     生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する第2生成処理
     を実行させるための疾病発症リスク予測プログラム。
PCT/JP2017/028872 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム Ceased WO2019030840A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2017/028872 WO2019030840A1 (ja) 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム
US16/637,492 US11437146B2 (en) 2017-08-09 2017-08-09 Disease development risk prediction system, disease development risk prediction method, and disease development risk prediction program
JP2019535490A JP6988895B2 (ja) 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/028872 WO2019030840A1 (ja) 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Publications (1)

Publication Number Publication Date
WO2019030840A1 true WO2019030840A1 (ja) 2019-02-14

Family

ID=65272086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/028872 Ceased WO2019030840A1 (ja) 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Country Status (3)

Country Link
US (1) US11437146B2 (ja)
JP (1) JP6988895B2 (ja)
WO (1) WO2019030840A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110993103A (zh) * 2019-11-28 2020-04-10 阳光人寿保险股份有限公司 疾病风险预测模型的建立方法和疾病保险产品的推荐方法
CN111008902A (zh) * 2019-11-25 2020-04-14 泰康保险集团股份有限公司 核保数据处理方法、装置、设备和介质
JP2020140572A (ja) * 2019-02-28 2020-09-03 富士通株式会社 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
JP2020205054A (ja) * 2020-07-06 2020-12-24 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム
JP2020204911A (ja) * 2019-06-17 2020-12-24 株式会社エクサウィザーズ 情報処理装置、情報処理方法及びプログラム
JP2022035097A (ja) * 2020-08-20 2022-03-04 富士通株式会社 レセプトデータ有意性判定プログラム、レセプトデータ有意性判定方法、及び、情報処理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891352B1 (en) * 2018-03-21 2021-01-12 Optum, Inc. Code vector embeddings for similarity metrics
US10978189B2 (en) 2018-07-19 2021-04-13 Optum, Inc. Digital representations of past, current, and future health using vectors
CN116029839B (zh) * 2023-02-10 2023-09-26 中国人民健康保险股份有限公司深圳分公司 一种业务系统操作自动化执行操作系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083847A (ja) * 2006-09-26 2008-04-10 Fuji Xerox Co Ltd 医療情報処理システムおよび医療情報処理プログラム
JP2014052822A (ja) * 2012-09-06 2014-03-20 Mebix Kk 電子カルテスクリーニング結果出力装置、電子カルテスクリーニング結果出力方法及び電子カルテスクリーニング結果出力プログラム
JP2015090689A (ja) * 2013-11-07 2015-05-11 株式会社日立製作所 医療データ分析システム、及び医療データを分析する方法
WO2015071968A1 (ja) * 2013-11-13 2015-05-21 株式会社日立製作所 分析システム
JP2017117469A (ja) * 2015-12-22 2017-06-29 国立研究開発法人理化学研究所 リスク評価方法、リスク評価装置及びリスク評価プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2514950A1 (en) * 2003-01-30 2004-08-12 Applera Corporation Genetic polymorphisms associated with rheumatoid arthritis, methods of detection and uses thereof
JP4981305B2 (ja) 2005-11-11 2012-07-18 公益財団法人大阪バイオサイエンス研究所 アルツハイマー病の発症リスク又はアルツハイマー病発症予後の予測方法
JP5603639B2 (ja) 2010-04-23 2014-10-08 国立大学法人京都大学 予測装置の学習装置及びそのコンピュータプログラム
US9536052B2 (en) * 2011-10-28 2017-01-03 Parkland Center For Clinical Innovation Clinical predictive and monitoring system and method
US9147041B2 (en) * 2012-09-13 2015-09-29 Parkland Center For Clinical Innovation Clinical dashboard user interface system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083847A (ja) * 2006-09-26 2008-04-10 Fuji Xerox Co Ltd 医療情報処理システムおよび医療情報処理プログラム
JP2014052822A (ja) * 2012-09-06 2014-03-20 Mebix Kk 電子カルテスクリーニング結果出力装置、電子カルテスクリーニング結果出力方法及び電子カルテスクリーニング結果出力プログラム
JP2015090689A (ja) * 2013-11-07 2015-05-11 株式会社日立製作所 医療データ分析システム、及び医療データを分析する方法
WO2015071968A1 (ja) * 2013-11-13 2015-05-21 株式会社日立製作所 分析システム
JP2017117469A (ja) * 2015-12-22 2017-06-29 国立研究開発法人理化学研究所 リスク評価方法、リスク評価装置及びリスク評価プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7310171B2 (ja) 2019-02-28 2023-07-19 富士通株式会社 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
CN111626760B (zh) * 2019-02-28 2023-09-08 富士通株式会社 分配方法和设备、提取方法和设备及计算机可读记录介质
JP2020140572A (ja) * 2019-02-28 2020-09-03 富士通株式会社 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
CN111626760A (zh) * 2019-02-28 2020-09-04 富士通株式会社 分配方法和设备、提取方法和设备及计算机可读记录介质
EP3702977A3 (en) * 2019-02-28 2020-11-18 Fujitsu Limited Allocation program, extraction program, allocation method, extraction method, allocation apparatus, and extraction apparatus
JP2020204911A (ja) * 2019-06-17 2020-12-24 株式会社エクサウィザーズ 情報処理装置、情報処理方法及びプログラム
CN111008902B (zh) * 2019-11-25 2023-07-18 泰康保险集团股份有限公司 核保数据处理方法、装置、设备和介质
CN111008902A (zh) * 2019-11-25 2020-04-14 泰康保险集团股份有限公司 核保数据处理方法、装置、设备和介质
CN110993103A (zh) * 2019-11-28 2020-04-10 阳光人寿保险股份有限公司 疾病风险预测模型的建立方法和疾病保险产品的推荐方法
CN110993103B (zh) * 2019-11-28 2023-06-02 阳光人寿保险股份有限公司 疾病风险预测模型的建立方法和疾病保险产品的推荐方法
JP2020205054A (ja) * 2020-07-06 2020-12-24 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム
JP2022035097A (ja) * 2020-08-20 2022-03-04 富士通株式会社 レセプトデータ有意性判定プログラム、レセプトデータ有意性判定方法、及び、情報処理装置
JP7355303B2 (ja) 2020-08-20 2023-10-03 株式会社クオリティライフ・クリエイト レセプトデータ有意性判定プログラム、レセプトデータ有意性判定方法、及び、情報処理装置

Also Published As

Publication number Publication date
JPWO2019030840A1 (ja) 2020-07-30
US11437146B2 (en) 2022-09-06
JP6988895B2 (ja) 2022-01-05
US20200251219A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
JP6988895B2 (ja) 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム
Yu et al. Predicting readmission risk with institution-specific prediction models
Das et al. Predicting frequent emergency department visits among children with asthma using EHR data
Coley et al. Predicting outcomes of psychotherapy for depression with electronic health record data
WO2015071968A1 (ja) 分析システム
Jain et al. Predicting hospital length of stay using machine learning on a large open health dataset
Liu et al. Mining patient-specific and contextual data with machine learning technologies to predict cancellation of children’s surgery
Maia et al. Ex-ante moral hazard: empirical evidence for private health insurance in Brazil
Jahandideh et al. Using machine learning models to predict falls in hospitalised adults
Liu et al. Preparing for the bedside—optimizing a postpartum depression risk prediction model for clinical implementation in a health system
Coley et al. Clinical risk prediction models and informative cluster size: Assessing the performance of a suicide risk prediction algorithm
World Health Organization Trends in maternal mortality 2000 to 2023: estimates by WHO, UNICEF, UNFPA, World Bank Group and UNDESA/Population Division
Lee et al. Artificial intelligence in applied family research involving families with young children: A scoping review
Gholamazad et al. Determination of disease risk factors using binary data envelopment analysis and logistic regression analysis (case study: a stroke risk factors)
Deschepper et al. A literature-based approach to predict continuous hospital length of stay in adult acute care patients using admission variables: A single university center experience
Lobo-Guerrero Life securitisation, the event object of insurance and the strategisation of time
Hung et al. Prediction of 30-day hospital readmissions for all-cause dental conditions using machine learning
Luciano et al. Longitudinal fragility phenotyping predicts lifespan and age-associated morbidity in C57BL/6 and diversity outbred mice
Alshehri et al. A decision support system based on classification algorithms for the diagnosis of periodontal disease
Luciano et al. Longitudinal fragility phenotyping contributes to the prediction of lifespan and age-associated morbidity in C57BL/6 and diversity outbred mice
Oladoyin et al. The assessment of routine health information system performance towards improvement of quality of reproductive, maternal, newborn, child and adolescent health services in Ondo and Ekiti States, Nigeria
Peng et al. Refining hypertension surveillance to account for potentially misclassified cases
Paramasivan AI-Powered Population Health Management: Addressing Public Health Challenges with Predictive Insights
Alves et al. A machine learning model using clinical notes to estimate PHQ-9 symptom severity scores in depressed patients
Liu et al. Estimating the role of uninsured in the spread of COVID-19 via geospatial Bayesian models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17920853

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019535490

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17920853

Country of ref document: EP

Kind code of ref document: A1