[go: up one dir, main page]

KR101860258B1 - Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism - Google Patents

Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism Download PDF

Info

Publication number
KR101860258B1
KR101860258B1 KR1020170037719A KR20170037719A KR101860258B1 KR 101860258 B1 KR101860258 B1 KR 101860258B1 KR 1020170037719 A KR1020170037719 A KR 1020170037719A KR 20170037719 A KR20170037719 A KR 20170037719A KR 101860258 B1 KR101860258 B1 KR 101860258B1
Authority
KR
South Korea
Prior art keywords
value
supply chain
supply
mdp
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020170037719A
Other languages
Korean (ko)
Inventor
김형준
김정일
Original Assignee
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Priority to KR1020170037719A priority Critical patent/KR101860258B1/en
Application granted granted Critical
Publication of KR101860258B1 publication Critical patent/KR101860258B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/5009
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N99/005

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Factory Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 대한 것이다.
보다 상세하게는 원자재를 이용한 완제품이 소비자에 이르기까지 상기 완제품의 생산 및 유통에 기여하는 적어도 하나 이상의 상태(S) 또는 행동(A)이 가상의 체인-(Chain) 구조를 형성하고, 상태(S)에 따른 상기 원자재 또는 상기 원자재를 이용한 반재품 또는 상기 완재품의 재고량 또는 출하량 정보를 포함하는 현장보상값(R)를 생성하는 공급망을 최적화 하는 제조업 공급망 최적화 설계 시스템에 있어서, 상기 상태(S) 또는 상기 행동(A) 간의 전이확률(P, Transition Probability)이

Figure 112017029430763-pat00070
인 관계식을 만족하도록 상기 가상의 체인 구조를 구성하고 하기 수학식1을 만족하는 상태가치함수(
Figure 112017029430763-pat00071
)와 하기 수학식2를 만족하는 행동가치함수(
Figure 112017029430763-pat00072
) 및 하기 수학식3을 만족하는 정책(policy,
Figure 112017029430763-pat00073
)을 포함하는 MDP(Markov Decision Process) Factor 생성하는 공급망구성부와, 상기 현장보상값를 입력받는 현장보상값수집부 및, 현재시점에서 상기 현장보상값수집부를 통하여 입력 받은 상기 현장보상값과 상기 MDP Factor를 기반으로 특정한 미래시점에서 모든 상태(S)의 상기 상태가치함수의 총합이 특정한 미래목표값에 수렴하도록 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 공급망학습부를 포함하는 공급망설계단; 및 상기 공급망예측제어정보를 기반으로 상기 공급망을 제어하는 공급망제어단;을 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템:
[수학식]
Figure 112017029430763-pat00074

Figure 112017029430763-pat00075
,
Figure 112017029430763-pat00076
,
Figure 112017029430763-pat00077
,
상기 [수학식]에서
Figure 112017029430763-pat00078
는 미래가중치(discount factor)이고,
R는 현장보상값 이다.
에 관한 것이다. The present invention relates to a manufacturing-based supply chain optimization design system using Markov decision processes and machine learning algorithms.
More specifically, at least one state (S) or behavior (A) contributing to the production and distribution of the finished product from the finished product to the consumer forms a virtual chain structure, and the state (S (S) for producing a site compensation value (R) including the raw material or the semi-finished product using the raw material or the finished goods or the shipment amount information of the finished product according to the state (S) Or transition probability (P) between the behavior (A)
Figure 112017029430763-pat00070
And a state value function (< RTI ID = 0.0 >
Figure 112017029430763-pat00071
) And a behavior value function satisfying the following equation (2)
Figure 112017029430763-pat00072
) And a policy (policy,
Figure 112017029430763-pat00073
A field compensation value collection unit for receiving the field compensation value, and a compensation unit for calculating an on-site compensation value, which is input through the field compensation value collection unit at the current point of time, and the MDP The supply chain prediction control information including the policy prediction value, the future weighted prediction value, the MDP factor predicted value, and the on-site compensation predicted value is calculated so that the sum of the state value functions of all states S at a specific future time point converges to a specific future target value A supply-demanding staircase including a supply-chain learning unit for performing supply-chain learning; And a supply chain control unit for controlling the supply chain based on the supply chain prediction control information. The manufacturing-based supply chain optimization design system using a Markov decision process and a machine learning algorithm,
[Mathematical Expression]
Figure 112017029430763-pat00074

Figure 112017029430763-pat00075
,
Figure 112017029430763-pat00076
,
Figure 112017029430763-pat00077
,
In the above equation,
Figure 112017029430763-pat00078
Is a future discount factor,
R is the field compensation value.
.

Figure 112017029430763-pat00079
Figure 112017029430763-pat00079

Description

마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템 및 그 방법{Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism}Technical Field [0001] The present invention relates to a manufacturing-based supply chain optimization design system and method using a Markov decision process and a machine learning algorithm,

본 발명은 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 대한 것이다.The present invention relates to a manufacturing-based supply chain optimization design system using Markov decision processes and machine learning algorithms.

보다 상세하게는, 다양한 SCM 구조를 시간에 따라 행동에 대한 보상 가치가 달라지는 것을 discount factor로 표시하는 마르코프 결정 프로세스(Markov Decision Process)로 구성하고, 강화학습 기반의 딥러닝을 적용함으로써, 최적화된 공급망 구조 및 이를 위한 공급망관리정책과 연동된 discount factor를 도출할 수 있는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 관한 것이다. More specifically, the Markov Decision Process is used to display various SCM structures as a discount factor indicating that the compensation value for behavior changes with time, and by applying deep learning based on reinforcement learning, Based supply chain optimization system using a Markov decision process and a machine learning algorithm that can derive a discount factor linked to the structure and supply chain management policy for the system.

공급망(Supply Chain, SC)은 제품 이나 서비스를, 원천에서 소비에 이르도록 공급하기 위해, 원재료 공급업체, 제조업체의 제조공장, 완제품 출하 및 유통, 소매할인점 및 고객을 연결하는 조직 및 비즈니스 프로세스의 네트워크이다.Supply Chain (SC) is a network of organizations and business processes that connect raw materials suppliers, manufacturers' manufacturing plants, finished goods shipment and distribution, retail discount stores and customers to supply products or services from source to consumption. to be.

이러한 공급망을 제공업자로부터 생산자, 배포자, 고객에 이르는 물류의 흐름을 하나의 가치사슬 관점에서 파악하고, 필요한 정보가 원활히 흐르도록 지원하는 시스템을 공급망관리(Supply Chain Management, SCM)이다. 기업 내에 부문별 최적화나 개별 기업단위의 최적화에서 탈피하여 공급망의 구성요소들 간에 이루어지는 전체프로세스 최적화를 달성하고자 하는 경영혁신기법중에 하나이다. Supply Chain Management (SCM) is a system that grasps the flow of logistics from the supplier to the producer, distributor, and customer from the viewpoint of one value chain and supports the flow of necessary information smoothly. It is one of the management innovation techniques that aims to achieve the whole process optimization among the components of the supply chain by avoiding sectoral optimization within an enterprise or individual enterprise unit optimization.

사회구조가 복잡해지면서, 그에 맞는 새로운 형태와 기능의 상품들이 개발되고 있으며, 기존에 인간 생활에서 사용되어오던 상품들의 그 특징과 기능에 큰 변화가 일어나고 있다.As the social structure becomes complicated, new types and functions of products are being developed, and major changes are taking place in the characteristics and functions of the products that have been used in human life.

의류 업계의 선두 주자인 Zara사와 UNIQLO사는 뛰어난 공급망 관리가 우수한 업체이지만, 두 브랜드는 정 반대의 공급망관리정책을 선택하고 있다. Zara and UNIQLO, leading apparel companies, have excellent supply chain management, but both brands are choosing opposite supply chain management policies.

UNIQLO사는 기본 아이템의 소품종 대량생산의 제품과 생산전략을 선택함으로써 높은 재고 수준을 유지하는 재고 전략을 유지하며, 많은 제조 기능을 아웃소싱하며, 연령대 별로 고른 비율로 주요 고객층이 분포한다. 따라서 공급망관리에 있어서, 효율성을 최우선으로 한다.UNIQLO maintains its inventory strategy to maintain high inventory levels by selecting products and production strategies for small items of basic items, outsourcing many manufacturing functions, and distributing key customer segments at an even rate. Therefore, efficiency is the top priority in supply chain management.

이에 비하여 ZARA사는 패션을 민감한 아이템의 다품종 소량생산의과 제품, 생산전략을 선택함으로써 낮은 재고 수준을 유지하는 재고 전략을 유지하며, 디자인부터 제조 및 판매까지 수직계열화하며, 주로 ?은 여성들이 고객층이 분포한다. 따라서 공급망관리에 있어서,속도를을 최우선으로 한다.ZARA, on the other hand, maintains a low inventory level inventory strategy by selecting a variety of products, production strategies for a small quantity of sensitive items, and vertical integration from design to manufacture and sales. do. Therefore, for supply chain management, speed is the top priority.

시장조사 및 컨설팅 기관인 가트너(Gartner)가 2013년도에 발표한 Supply Chain Top 25에 의하면, 스마트폰 업계의 국제적 선도기업인 Apple사는 종합점수 10점 만점에 9.51을 기록하여, 5.87에 불과한 종합점수를 기록한 세계적인 햄버거 프랜차이즈업체인 McDonald's 를 월등히 앞서 1위를 기록했다. 또한 SCM이라면 세계적 판매 유통업체인 Amazone.com도 5.86에 불과한 점수로 3위에 그친 것으로 보면, Apple 사의 세계적 시장 지배력은 제품 성능과 혁신뿐만이 아니라 공급망관리도 큰 역할을 하고 있다고 판단할 수 있다. 특히 현재 Apple사의 CEO를 맞고 있는 팀쿡(Tim Cook)이 SCM 전문가라는 점을 주지하면, 앞으로의 산업 생태계에서 공급망관리가 얼마나 중요한 기업의 경쟁력 요소인지를 잘 알 수 있다. Apple's global leader in the smartphone industry, according to Gartner, a Gartner researcher in Supply Chain Top 25 in 2013, has a total score of 9.51 out of a total score of 10, McDonald's, a hamburger franchise company. Also, SCM is the world's largest sales distributor, Amazone.com, with a score of only 5.86, and Apple's global market dominance can be attributed not only to product performance and innovation, but also to supply chain management. In particular, given that Tim Cook, currently the CEO of Apple, is an SCM expert, you can see how important supply chain management is in a competitive industry in future industrial ecosystems.

종래의 공급망관리는, 실제 비즈니스 환경과 제조업체 및 유통 구조 현황을 고려하지 않은 상황에서, 기업 내부에서 결정된 주요 정책(Policy)을 검증이나 확인 없이 적용하여 SCM을 수행해 왔다. 또한 산업별, 고객별로 다양한 SCM 정책이 사용되고 있지만, 이를 선택하기 위한 기준과 권한이 SCM을 수행하는 기업의 관계자들에게 제대로 제공되지 못하고 있다. Conventional Supply Chain Management has implemented SCM by applying major policies determined within the enterprise without verification or confirmation, in consideration of actual business environment and current status of manufacturers and distribution structures. In addition, although various SCM policies are used for each industry and each customer, the criteria and authority for selecting them are not properly provided to the employees of the company performing the SCM.

따라서 다양한 SCM 구조를 시간에 따라 행동에 대한 보상 가치가 달라지는 것을 discount factor로 표시하는 마르코프 결정 프로세스(Markov Decision Process)로 구성하고, 강화학습 기반의 딥러닝을 적용함으로써, 최적화된 공급망 구조 및 이를 위한 공급망관리정책과 연동된 discount factor를 도출할 수 있는 제조업 기반의 공급 체인 최적화 설계 시스템 개발의 필요성이 대두되고 있다. Therefore, the Markov Decision Process (Markov Decision Process), which shows the diversification of various SCM structures according to the behavior as a discount factor over time, and applying deep learning based on reinforcement learning, It is necessary to develop a manufacturing - based supply chain optimization design system that can derive a discount factor linked to supply chain management policy.

공개특허 10-2016-0071776Patent Document 10-2016-0071776 공개특허 10-2016-0063006Patent Document 10-2016-0063006 공개특허 10-2009-0003488Patent Document 10-2009-0003488 등록특허 10-1573985Patent No. 10-1573985

따라서 본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 일 실시예에 따르면, 마르코프 결정 프로세스에서 규정하고 있는 상태(S), 행동(A) 및 상태 전이 확률(P)의 특징을 만족하도록 특정 기업의 상황에 맞는 공급망을 구성하고, 이렇게 구성된 공급망 구성에 해당 기업의 내외 상황을 고려한 정책(

Figure 112017029430763-pat00001
)과 미래가중치(
Figure 112017029430763-pat00002
)를 입력하여 각 상태(S)에 따른 보상(R)의 예상치를 도출할 수 있으며, 모든 상태가치함수의 총합이 미리 설정한 특정 목표값에 근접수렴 하도록, 입력으로 사용한 정책(
Figure 112017029430763-pat00003
) 또는 미래가중치(
Figure 112017029430763-pat00004
)를 변화시키면서 공급망 구성을 최적화함으로써, 기업이 목표로 하는 가치에 도달하기 위해서 필요한 비즈니스 전략 수립에 활용할 수 있는 정책(
Figure 112017029430763-pat00005
)과 현재와 미래가치의 중요도를 안배할 수 있는 미래가중치(
Figure 112017029430763-pat00006
)를 도출 할 수 있는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템을 제공하는데 목적이 있다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made to solve the above-mentioned problems occurring in the prior art, and it is an object of the present invention to provide a method and apparatus for detecting a state S, a behavior A and a state transition probability P, , And a policy that takes into consideration the internal and external conditions of the company in the supply chain structure thus configured
Figure 112017029430763-pat00001
) And future weights
Figure 112017029430763-pat00002
) Can be input to derive an estimate of the compensation (R) according to each state (S), and the policy used as the input so that the sum of all the state value functions converges to a predetermined target value
Figure 112017029430763-pat00003
) Or future weighting (
Figure 112017029430763-pat00004
) To optimize the supply chain structure, thereby enabling the company to use its business strategies to achieve the desired value
Figure 112017029430763-pat00005
) And future weights (which can assign the importance of present and future values)
Figure 112017029430763-pat00006
), And a manufacturing-based supply chain optimization design system using machine learning algorithms.

한편, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description of the present invention are exemplary and explanatory and are not intended to limit the invention to the precise form disclosed. It can be understood.

본 발명의 제1목적은 원자재를 이용한 완제품이 소비자에 이르기까지 상기 완제품의 생산 및 유통에 기여하는 적어도 하나 이상의 상태(S) 또는 행동(A)이 가상의 체인-(Chain) 구조를 형성하고, 상태(S)에 따른 상기 원자재 또는 상기 원자재를 이용한 반제품 또는 상기 완제품의 재고량 또는 출하량 정보를 포함하는 현장보상값(R)를 생성하는 공급망을 최적화 하는 제조업 공급망 최적화 설계 시스템에 있어서, 상기 상태(S) 또는 상기 행동(A) 간의 전이확률(P, Transition Probability)이

Figure 112017029430763-pat00007
인 관계식을 만족하도록 상기 가상의 체인 구조를 구성하고 하기 수학식1을 만족하는 상태가치함수(
Figure 112017029430763-pat00008
)와 하기 수학식2를 만족하는 행동가치함수(
Figure 112017029430763-pat00009
) 및 하기 수학식3을 만족하는 정책(policy,
Figure 112017029430763-pat00010
)을 포함하는 MDP(Markov Decision Process) Factor 생성하는 공급망 구성부와, 상기 현장보상값를 입력 받는 현장보상값 수집부 및, 현재시점에서 상기 현장보상값 수집부를 통하여 입력 받은 상기 현장보상값과 상기 MDP Factor를 기반으로 특정한 미래시점에서 모든 상태(S)의 상기 상태가치함수의 총합이 특정한 미래목표값에 수렴하도록 정책예측값과 미래가중치 예측값와 MDP Factor 예측값 및 현장보상값 예측값를 포함하는 공급망예측제어정보를 산출하는 공급망학습부를 포함하는 공급망설계단; 및 상기 공급망예측제어정보를 기반으로 상기 공급망을 제어하는 공급망제어단;을 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템:A first object of the present invention is to provide a method and apparatus for forming a virtual chain structure in which at least one state (S) or behavior (A) contributing to the production and circulation of the finished article from the raw material to the consumer forms a virtual chain- A manufacturing supply chain optimization design system for optimizing a supply chain that generates an on-site compensation value (R) including semi-finished products using the raw materials or the raw materials according to a state (S) or inventory quantity or shipment quantity information of the finished product, ) Or the transition probability (P, Transition Probability) between the actions (A)
Figure 112017029430763-pat00007
And a state value function (< RTI ID = 0.0 >
Figure 112017029430763-pat00008
) And a behavior value function satisfying the following equation (2)
Figure 112017029430763-pat00009
) And a policy (policy,
Figure 112017029430763-pat00010
A field compensation value collection unit for receiving the field compensation value, and a compensation unit for calculating an on-site compensation value, which is input through the field compensation value collection unit at the current point of time, and the MDP The supply chain prediction control information including the policy prediction value, the future weighted prediction value, the MDP factor predicted value, and the on-site compensation predicted value is calculated so that the sum of the state value functions of all states S at a specific future time point converges to a specific future target value A supply-demanding staircase including a supply-chain learning unit for performing supply-chain learning; And a supply chain control unit for controlling the supply chain based on the supply chain prediction control information. The manufacturing-based supply chain optimization design system using a Markov decision process and a machine learning algorithm,

[수학식][Mathematical Expression]

Figure 112017029430763-pat00011
Figure 112017029430763-pat00011

Figure 112017029430763-pat00012
,
Figure 112017029430763-pat00012
,

Figure 112017029430763-pat00013
,
Figure 112017029430763-pat00013
,

Figure 112017029430763-pat00014
,
Figure 112017029430763-pat00014
,

상기 [수학식]에서 In the above equation,

Figure 112017029430763-pat00015
는 미래가중치(discount factor)이고,
Figure 112017029430763-pat00015
Is a future discount factor,

R는 현장보상값 이다.R is the field compensation value.

을 제공함으로써 달성될 수 있다.. ≪ / RTI >

또한, 상기 공급망설계단은 상기 현상보상값과 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보를 시계열적으로 저장하는 설계단저장부를 더 포함하는 것을 특징으로 할 수 있다.The supply stop step may further include a design stage storage unit that stores the development compensation value, the MDP factor, the future target value, and the supply chain prediction control information in a time series manner.

그리고, 상기 공급망설계단은 상기 설계단저장부에 시계열로 저장된 상기 현상보상값 상기 현장보상예측값을 비교하여 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보의 예측정확도를 산출하는 설계단평가부를 더 포함하는 것을 특징으로 하는 할 수 있다. The supply-demand step includes a design stage evaluation unit that compares the compensation value of the development compensation value stored in the design stage storage unit with the in-situ compensation predictive value to calculate the prediction accuracy of the MDP factor, the future target value, And further comprising:

또한, 상기 설계단저장부는, 상기 현상보상값과 상기 MDP Factor과 상기 미래목표값와 상기 공급망예측제어정보 및 상기 예측정확도 중에 적어도 하나 이상을 표시하는 설계단저장부표시유닛을 더 포함하는 것을 특징으로 할 수 있다. The design stage storage unit may further include a design stage storage unit display unit for displaying at least one of the development compensation value, the MDP factor, the future target value, the supply chain prediction control information, and the prediction accuracy. can do.

그리고, 상기 공급망설계단는 관리자로부터 정보를 입력받는 설계단입력부;을 더 포함시켜, 상기 미래목표값과 상기 현장보상값과 상기 MDP Factor의 초기값(initial value)를 입력 받는 것을 특징으로 할 수 있다.The supply stop step may further include a design stage input part for receiving information from an administrator, and receives the future target value, the on-site compensation value, and an initial value of the MDP factor .

또한, 상기 공급망학습부는 마르코프 결정 프로세스(Markov Decision Process) 또는 벨만 방정식(Bellman Equation)을 기반으로 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 학습부계산유닛과, 상기 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 상기 관리자에게 표시하는 학습부표시유닛을 더 포함하는 것을 특징으로 할 수 있다. The supply network learning unit may further include a learning unit calculation unit for calculating supply policy prediction control information including a policy prediction value, a future weighting prediction value, an MDP factor prediction value, and a site compensation value prediction value based on a Markov Decision Process or a Bellman Equation Unit and a learning unit display unit for displaying to the manager supply policy predictive control information including the policy predictive value, the future weight predictive value, the MDP factor predictive value and the on-site compensation value predictive value.

그리고, 상기 공급망구성부는 관리자로부터 상기 체인 구조를 입력받는 구성부입력유닛을 더 포함하는 것을 특징으로 할 수 있다.The supply chain configuration unit may further include a configuration input unit that receives the chain structure from an administrator.

또한, 상기 공급망구성부는 공급자재고관리(VMI, Vendor Managed Inventory)와 즉시대응체제(QR, Quick Response)와 협력적 예약보충시스템(CPFR, Collaborative Planning, Forecasting and Replenishment)와 연속상품보충(CRP, Continuous Replenishment Program) 및 효율적소비자반응시스템(ECR, Efficient Consumer Response) 등 제조업 기본 SCM policy 를 포함하는 구성부제조업기본SCM저장부를 더 구비하여, 상기 관리자가 제조업기본SCM체인구조중 적어도 하나를 선택할 수 있는 것을 특징으로 할 수 있다.In addition, the supply chain component includes Vendor Managed Inventory (VMI), Quick Response (QR), Collaborative Planning, Forecasting and Replenishment (CPFR) and Continuous Replenishment Replenishment Program, and Efficient Consumer Response (ECR). The administrator can select at least one of the manufacturing-based SCM chain structures .

본 발명의 제2목적은, 원자재를 이용한 완제품이 소비자에 이르기까지 상기 완제품의 생산 및 유통에 기여하는 적어도 하나 이상의 상태(S) 또는 행동(A)이 가상의 체인(Chain) 구조를 형성하고, 상태(S)에 따른 상기 원자재 또는 상기 원자재를 이용한 반재품 또는 상기 완재품의 재고량 또는 출하량 정보를 포함하는 현장보상값을 생성하는 공급망을 최적화 하는 제조업 공급망 최적화 설계 방법에 있어서, 공급망구성부가, 상기 상태(S) 또는 행동(A)간의 전이확률(P, Transition Probability)이

Figure 112017029430763-pat00016
인 관계식을 만족하도록 상기 체인 구조를 구성하는 단계(S01); 공급망구성부가, 하기의 수학식1을 만족하는 상태가치함수(
Figure 112017029430763-pat00017
)와 하기의 수학식2를 만족하는 행동가치함수(
Figure 112017029430763-pat00018
) 및 하기의 수학식3을 만족하는 정책(policy,
Figure 112017029430763-pat00019
)을 포함하는 MDP(Markov Decision Process) Factor 생성하는 단계(S02); 공급망학습부가, 현재시점에서 입력 받은 상기 현장보상값과 상기 MDP Factor를 기반으로 특정한 미래시점에서 모든 상태(S)의 상기 상태가치함수의 총합이 특정한 미래목표값에 수렴하도록 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 단계(S03); 및 공급망제어단은, 상기 공급망예측제어정보를 기반으로 공급망제어부가 상기 공급망을 제어하는 단계(S04);를 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법:A second object of the present invention is to provide a method and apparatus for forming a virtual chain structure in which at least one state (S) or behavior (A) contributing to the production and distribution of the finished article from the raw material to the consumer forms a virtual chain structure, A manufacturing supply chain optimizing design method for optimizing a supply chain that generates an on-site compensation value using the raw material or the raw material according to a state (S) or an in-product value including an inventory quantity or shipment quantity information of the finished product, The transition probability (P) between state (S) and behavior (A)
Figure 112017029430763-pat00016
Constructing the chain structure to satisfy the in-relational expression (S01); The supply chain constructing unit may include a state value function (
Figure 112017029430763-pat00017
) And a behavior value function satisfying the following expression (2)
Figure 112017029430763-pat00018
) And a policy (policy,
Figure 112017029430763-pat00019
A step (S02) of generating a Markov Decision Process (MDP) Factor including a Markov Decision Process (MDP) Factor; The supply network learning unit may calculate the sum of the state value functions of all states S at a specific future point based on the on-site compensation value and the MDP factor input at the current point in time so as to converge to a specific future target value, (S03) of supply chain prediction control information including an MDP factor prediction value and a site compensation value prediction value; And a supply chain control stage (S04), wherein the supply chain control section controls the supply chain based on the supply chain prediction control information (S04). The manufacturing-based supply chain optimization design using the Markov decision process and machine learning algorithm Way:

[수학식][Mathematical Expression]

Figure 112017029430763-pat00020
Figure 112017029430763-pat00020

Figure 112017029430763-pat00021
,
Figure 112017029430763-pat00021
,

Figure 112017029430763-pat00022
,
Figure 112017029430763-pat00022
,

Figure 112017029430763-pat00023
,
Figure 112017029430763-pat00023
,

상기 [수학식]에서 In the above equation,

Figure 112017029430763-pat00024
는 미래가중치(discount factor)이고,
Figure 112017029430763-pat00024
Is a future discount factor,

R는 현장보상값 이다.R is the field compensation value.

을 제공함으로써 달성될 수 있다.. ≪ / RTI >

그리고, 상기 S03단계와 상기 S04단계 사이에, 상기 현장보상값과 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보가 설계단저장부에 시계열적으로 저장되는 단계(S05);를 더 포함하는 것을 특징으로 할 수 있다.The step (S05) includes, between the steps S03 and S04, the on-scene compensation value, the MDP factor, the future target value and the supply-demand forecast control information are stored in the design stage storage unit in a time-series manner .

또한 상기 S04단계 이후에, 설계단평가부는, 상기 설계단저장부에 시계열적으로 저장된 상기 현장보상값 상기 현장보상예측값을 비교하여 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보의 예측정확도를 산출하는 단계(S06);를 더 포함하는 것을 특징으로 할 수 있다.In addition, after step S04, the design stage evaluation unit compares the on-site compensation value stored in the design stage storage unit with the in-situ compensation value stored in the design stage storage unit, and calculates a prediction accuracy of the MDP factor, the future target value, (Step S06) of calculating the number of times that the image is displayed.

그리고, 상기 S02 단계와 상기 S03단계 사이에, 설계단저장부표시유닛은, 상기 현장보상값과 상기 MDP Factor과 상기 미래목표값와 상기 공급망예측제어정보 및 상기 예측정확도 중에 적어도 하나 이상을 표시하는 단계(S07);를 더 포함하는 것을 특징으로 할 수 있다.Between step S02 and step S03, the design stage storage unit display unit displays at least one of the on-scene compensation value, the MDP factor, the future target value, the supply chain prediction control information, and the prediction accuracy (S07). ≪ / RTI >

또한, 상기 S02단계와 상기 S03단계 사이에, 설계부입력단을 통하여, 관리자로부터 상기 미래목표값과 상기 현장보상값과 상기 MDP Factor의 초기값(initial value)를 입력 받는 단계(S08);를 더 포함하는 것을 특징으로 할 수 있다.The method further includes the step (S08) of inputting the future target value, the field compensation value, and the initial value of the MDP Factor from the manager through the designing unit input terminal between the steps S02 and S03 .

그리고, 상기 S03단계는, 마르코프 결정 프로세스(Markov Decision Process) 또는 벨만 방정식(Bellman Equation)을 이용하여 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 것을 특징으로 할 수 있다.In step S03, the supply chain prediction control information including the policy prediction value, the future weighted prediction value, the MDP factor predicted value, and the on-site compensation predicted value is calculated using the Markov Decision Process or Bellman Equation .

또한, 상기 S01단계는 관리자로부터 상기 체인 구조를 입력받는 단계(S10);를 더 포함하는 것을 특징으로 할 수 있다.In addition, the step S01 may further include receiving the chain structure from the manager (S10).

본 발명의 일 실시예에 따르면, 마르코프 결정 프로세스에서 규정하고 있는 상태(S), 행동(A) 및 상태 전이 확률(P)의 특징을 만족하도록 특정 기업의 상황에 맞는 공급망을 구성하고, 이렇게 구성된 공급망 구성에 해당 기업의 내외 상황을 고려한 정책(

Figure 112017029430763-pat00025
)과 미래가중치(
Figure 112017029430763-pat00026
)를 입력하여 각 상태(S)에 따른 보상(R)의 예상치를 도출할 수 있으며, 모든 상태가치함수의 총합이 미리 설정한 특정 목표값에 근접수렴하도록, 입력으로 사용한 정책(
Figure 112017029430763-pat00027
) 또는 미래가중치(
Figure 112017029430763-pat00028
)를 변화시키면서 공급망 구성을 최적화함으로써, 기업이 목표로하는 가치에 도달하기 위해서 필요한 비즈니스 전략 수립에 활용할 수 있는 정책(
Figure 112017029430763-pat00029
)과 현재와 미래가치의 중요도를 안배할 수 있는 미래가중치(
Figure 112017029430763-pat00030
)를 도출 할 수 있는 장점이 있다.According to an embodiment of the present invention, a supply chain suited to the situation of a specific company is constructed so as to satisfy the characteristics of the state (S), the behavior (A) and the state transition probability (P) specified in the Markov decision process, Policies that take into consideration the internal and external situation of the company in the supply chain
Figure 112017029430763-pat00025
) And future weights
Figure 112017029430763-pat00026
) Can be input to derive an estimate of the compensation (R) according to each state (S), and the policy used as the input so that the sum of all the state value functions converges to a predetermined target value
Figure 112017029430763-pat00027
) Or future weighting (
Figure 112017029430763-pat00028
) To optimize the supply chain structure, thereby enabling the company to use its business strategies to achieve the desired value
Figure 112017029430763-pat00029
) And future weights (which can assign the importance of present and future values)
Figure 112017029430763-pat00030
) Can be derived.

한편, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It should be understood, however, that the effects obtained by the present invention are not limited to the above-mentioned effects, and other effects not mentioned may be clearly understood by those skilled in the art to which the present invention belongs It will be possible.

도 1a. 일반적인 강화학습 매커니즘 개념도.
도 1b. 마르코프 프로세스 개념도.
도 1c. 마르코프 보상 프로세스 개념도.
도 2. 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 적용되는 공급망 구성의 예시.
도 3. 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 적용되는 공급망 구성을 활용하여 정책(π)과 미래가중치(η) 예측값을 도출하기 위한 계산 방법.
도 4. 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템의 블럭 구성도.
1a. A general reinforced learning mechanism conceptual diagram.
1b. Concept of Markov process.
1C. Concept of Markov compensation process.
Figure 2. Example of a supply chain configuration applied to a manufacturing-based supply chain optimization design system using the Markov decision process and machine learning algorithm in accordance with an embodiment of the present invention.
Figure 3. Deriving a policy (π) and future weighted (η) predictions using the supply chain structure applied to the manufacturing-based supply chain optimization design system using the Markov decision process and the machine learning algorithm according to an embodiment of the present invention Calculation method for.
FIG. 4 is a block diagram of a manufacturing-based supply chain optimization design system using a Markov decision process and a machine learning algorithm according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the detailed description of known functions and configurations incorporated herein will be omitted when it may unnecessarily obscure the subject matter of the present invention.

또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.The same reference numerals are used for portions having similar functions and functions throughout the drawings. Throughout the specification, when a part is connected to another part, it includes not only a case where it is directly connected but also a case where the other part is indirectly connected with another part in between. In addition, the inclusion of an element does not exclude other elements, but may include other elements, unless specifically stated otherwise.

이하에서는 본 발명의 일실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템의 구성 및 기능에 대해 설명하도록 한다. Hereinafter, the structure and functions of a manufacturing-based supply chain optimization design system using the Markov decision process and machine learning algorithm according to an embodiment of the present invention will be described.

도 1a에는 일반적인 강화학습 매커니즘의 개념도를 도시하였다. 강화학습(reinforcement learning)은 귀납적학습(inductive learning)인 기계학습(machine learning)의 한 종류로서, 행동(Action)에 대응하는 정확한 출력 정보를 제공하지는 않지만, 보상(Reward)라는 평가 정보는 주어지는 문제에 대해, 행동(Action)과 보상(Reward)의 연관성으로부터 각 상태의 최적 행동을 결정할 수 있다. FIG. 1A shows a conceptual diagram of a general reinforcement learning mechanism. Reinforcement learning is a type of machine learning that is inductive learning. It does not provide accurate output information corresponding to an action. However, evaluation information called reward is a problem given , The optimal behavior of each state can be determined from the relationship between action and reward.

예를 들어, 임의의 공급망의 생산 상태에서 매출 증대를 목표로 제품의 증산 계획을 수립하여 수행하였을 경우에, 시장 수요가 감소하면 증산에 투입한 자재 및 인건비를 비롯한 생산 비용의 증가, 재고 증가로 인한 창고비 증가 등의 부정적 요인으로 인해, 생산중단 또는 생산량 감소와 같은 생산 상태에서의 손실요소가 발생할 수 있고, 결국 증산이라는 행동(Action)에 대해 생산중단 또는 생산량 감소라는 음의 실수값으로 표시되는 보상(Reward)이 주어진 것으로 간주할 수 있다.For example, if a production plan for an increase in sales is made with the aim of increasing sales in a production state of any supply chain, if the market demand decreases, the increase in production costs, including material and labor costs, And the increase of the warehouse ratio caused by the increase of the production cost, such as the discontinuation of production or production, such as loss of production may result in loss factors, and eventually the action (Action) Reward can be considered as given.

반대로, 시장 수요가 증가하면 매출 증가, 이익 구조개선 등으로 생산량 유지 또는 증가와 같은 이익 요소가 발생할 수 있으며, 결국 증산이라는 행동(Action)에 대해 생산증가라는 양의 이를 양의 실수값으로 표시되는 보상(Reward)이 주어진 것으로 간주할 수 있다. On the other hand, if market demand increases, profit factors such as sales increase and profit structure improvement may occur, and as a result, the amount of increase in production will be expressed as a positive real value Rewards can be considered given.

따라서 과거의 행동(Action)과 행동에 따른 보상(Reward)의 반복 경험을 통하여, 최적화된 미래의 행동을 예측할 수 있다. Therefore, it is possible to predict the behavior of the future optimally through the experience of past actions and rewards of action.

그러나, 실제 공급망 관리에서는 도 1a와 같이, 단순한 구조의 행동(Action)과 보상(Reward)로 표현되지 않으며, 다수개의 상태(State)와 상태 전이 확률(state transition probability)이 복잡한 형태를 구성한다.However, in the actual supply chain management, as shown in FIG. 1A, it is not represented by actions and rewards of a simple structure, and a plurality of states and state transition probabilities constitute a complicated form.

앞서 인용한 생산 상태에서 증산할 수도 있으며, 감산할 수도 있다. 따라서 생산 상태에서 가능한 행동은 두 가지 이며, 각각은 확률로 표현될 수 있다. 만약에 감산할 확률이 10%라고 가정하면, 증산할 확률은 90%로 분할 될 수 있다. It can be increased or subtracted from the production conditions cited above. Thus, there are two possible behaviors in the production state, each of which can be expressed as a probability. Assuming that the probability of a subtraction is 10%, the probability of being multiplied can be divided by 90%.

또한 상태(state)의 개수가 많아지면, 보상(reward)가 주어지기까지 여러 단계의 상태 전이를 거쳐야 한다. 앞서 인용한 생산 상태에서 증산 또는 감산의 행동(action)에 대한 보상(reward)은, 증산 또는 감산이라는 행동(action)에 대한 구매-생산-유통-판매로 연결되는 공급망 전체의 영향을 모두 고려하여야 한다. Also, if the number of states increases, the state transition must take place at various stages until a reward is given. The reward for the action of increase or decrease in the production state cited above should take into account all the effects of the supply chain on the purchase-production-distribution-sale of the action of the increase or decrease. do.

따라서 강화 학습을 통하여, 현재 행동(action)에 의해 결정되는 상태(state)별 보상(reward)를 예측함으로써, 최적 행동(action)을 도출할 수 있는 공급망 구조를 설계할 수 있어 한다. Therefore, through the reinforcement learning, it is possible to design a supply chain structure that can derive the optimal action by predicting the state reward that is determined by the current action.

도 1b는 마르코프(Markov Process) 프로세스 개념도를 도시하였다.Figure 1B shows a conceptual diagram of the Markov Process process.

도 1b를 참조하면, 각각의 상태(state)는 일년의 시간적 사건을 의미하며, 현재 단계의 상태에서 예상되는 다음 단계의 상태는 과거의 사건과 무관한 것으로 기술된다. 즉, 상태1은 상태2 또는 상태3에 영향을 미치지만, 상태4에는 영향을 미치지 않으며, 아래의 [수학식1]로 정의될 수 있다. Referring to FIG. 1B, each state represents a one-year temporal event, and the state of the next step expected in the state of the current state is described as being independent of the past event. That is, state 1 affects state 2 or state 3, but does not affect state 4, and can be defined by the following equation (1).

Figure 112017029430763-pat00031
Figure 112017029430763-pat00031

[수학식1]에서

Figure 112017029430763-pat00032
는 상태b에서 상태a로의 상태 전이확률이다.In Equation (1)
Figure 112017029430763-pat00032
Is the state transition probability from state b to state a.

앞서 언급한 바와 같이 일반적인 실제 공급망 관리에서는 다수의 상태(state)와 상태와 상태 사이의 전이 확률(state transition probability)가 복잡하게 연결되어있다. 도 1b에 도시한 바와 같은 마르코프 프로세스를 활용하여 실제 공급망을 구성하면, 물류 또는 자금의 흐름에서 각 상태(state) 사이의 연관성을 명확히 규정할 수 있는 장점이 있다. 또한 수학식 1에서 확인할 수 있듯이, 마르코프 프로세스는 현재 단계 상태(state)에서 예상되는 다음 단계 상태는 과거사건과 무관하다고 전제하고 있기 때문에, 각 상태 사이의 연관성, 즉 상태 전이 확률(state transition probability) 산출이 명확해지며, 전체 프로세스 전체의 예측 기능을 가능하게 한다. As mentioned earlier, in a typical real-world supply chain management, there are many state transitions between states and state transitions. When the actual supply chain is constructed by using the Markov process as shown in FIG. 1B, there is an advantage that the relation between the states in the logistics or the flow of funds can be clearly defined. As shown in Equation (1), since the Markov process assumes that the next step state expected in the current step state is not related to the past event, the relation between each state, that is, the state transition probability, The output becomes clear, and the prediction function of the entire process is enabled.

도 1c에는 마르코프 보상 프로세스를 도시하였다. 도 1b에 도시한 마르코프 프로세스에 보상(reward, R)과 미래가중치(discount factor, η)를 적용하여 마르코프 보상 프로세스를 구성할 수 있으며 이때의 상태 가치 함수는 아래의 [수학식2]로 정의될 수 있다.Figure 1C illustrates the Markov compensation process. A Markov compensation process can be configured by applying a reward R and a discount factor? To the Markov process shown in FIG. 1B. The state value function at this time can be defined by the following Equation 2 .

Figure 112017029430763-pat00033
Figure 112017029430763-pat00033

도 1c에 도시한 마르코프 보상 프로세스는 도 1b에 도시한 마르코프 프로세스에, 마르코프 프로세스에 임의의 상태(state)에서 다음 단계로 이동하는 행동(action)을 취할 때, 마르코프 프로세스를 만족하도록 구성된 공급망으로부터 피드백 받는 보상(reward)를 포함한 것이다. The Markov compensation process shown in FIG. 1C can be applied to the Markov process shown in FIG. 1B by feedback from a supply chain configured to satisfy the Markov process when taking a Markov process to move from one state to another in a Markov process. It includes reward to receive.

도 2에는 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 적용되는 공급망 구성의 예시를 도시하였다. FIG. 2 illustrates an example of a supply chain configuration applied to a manufacturing-based supply chain optimization design system using a Markov decision process and a machine learning algorithm according to an embodiment of the present invention.

도 2는 도 1c의 마르코프 보상프로세스에, 행동(action) 및 정책(π)을 포함함으로써 실제 공급망 구조를 모사한 구성의 예시를 도시한 것이다.Figure 2 illustrates an example of a configuration that simulates an actual supply chain structure by including the action and policy ([pi]) in the Markov compensation process of Figure 1C.

이때 상태(state)와 행동(action)을 연결해주는 함수로서 상태(state)가 주어졌을 때 행동(action)을 할 확률로 정의되는 정책(policy, π)를 규정할 수 있으며, 정책(π)은 수학식 3으로 표현될 수 있다. In this case, a function that connects state and action can define a policy (π) that is defined as a probability to perform an action when a state is given, and the policy (π) Can be expressed by Equation (3).

Figure 112017029430763-pat00034
Figure 112017029430763-pat00034

Figure 112017029430763-pat00035
Figure 112017029430763-pat00035

또한, 상태 s에서 행동 a를 취하고 정책 π를 따랐을 때 기대할 수 있는 가치의 총합은 수학식 4와 같이 표현될 수 있다. Also, the sum of the values that can be expected when the behavior a is taken in the state s and the policy π is followed can be expressed as Equation (4).

Figure 112017029430763-pat00036
Figure 112017029430763-pat00036

이때, [수학식 2]에 표시된 상태가치함수는 수학식 5와 같이 정책을 포함한 상태 가치함수로 수정될 수 있다. At this time, the state value function shown in Equation (2) can be modified to a state value function including a policy as shown in Equation (5).

Figure 112017029430763-pat00037
Figure 112017029430763-pat00037

도 2에 도시된 바와 같이 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에서는, 원자재 공급부터 소비자에 이르기까지 부품제조, 완제품 제조, 및 판매자를 포함하는 여러 단계의 상태(state)와 구매, 마케팅, 출하, 공정개선, 개발과 같은 다양한 행동(action)이 서로 연결되어 공급망을 구성할 수 있다. As shown in FIG. 2, in the manufacturing-based supply chain optimization design system using the Markov decision process and the machine learning algorithm according to an embodiment of the present invention, parts manufacturing, The various stages of inclusion and the various actions such as purchasing, marketing, shipment, process improvement, and development can be interconnected to form a supply chain.

이러한 공급망 구성은 산업과 고객, 기업 내외부의 환경 및 기업의 비즈니스 정책에 따라서 기업 고유의 공급망이 구성될 수 있다. 예를 들어 부품이나 원자재의 안정적인 공급을 위해서 완제품 생산 업체는 원자재나 부품 제조공급업체에 완제품 생산 계획이나 추진계획을 공유하는 공급보증관리 또는 선지급을 공급망 관리에 포함하는 경우가 있다. 또한 제품 개발이나 공정개선과 같은 행동들을 공급망 구조에 포함시키는 경우도 있다. These supply chain configurations can be tailored to the company's own supply chain, depending on industry and customer, internal and external environment and corporate business policies. For example, for the stable supply of parts and raw materials, producers of finished products may include supply guarantee management or prepayment in supply chain management, which share raw material production or parts manufacturing suppliers with finished product production plans or plans. In some cases, actions such as product development or process improvement are included in the supply chain structure.

앞서 언급한 바와 같이 공급망 구성은 여러 가지 요인에 의해서 결정될 수 있는데, 기업 내외부의 산업 환경뿐만 아니라, 고도의 기술력이 보편화되고 소비자의 생활 패턴, 양적 질적 발전이 가속화되어 지리적 정치적 한계가 거의 없어지고 있는 물류시스템의 영향으로, 개별 기업에 가장 적합한 공급망을 구성하는 경향이 두드러지고 있다. As mentioned above, the supply chain structure can be determined by various factors. In addition to the industrial environment both inside and outside the company, advanced technological power is universalized and the life pattern, quantitative and qualitative development of consumers are accelerated, Due to the influence of the logistics system, there is a tendency to construct a supply chain most suitable for individual companies.

또한, 앞서 설명한 바와 같이 기업 내 외부의 비즈니스 환경은 복잡해지면서, 시장 선점에 시간이 무엇보다도 중요해지는 상황에서, 기업은 현재와 미래 가치를 명확히 하고 그에 따라서 경영 정책을 제시함으로써, 사업화의 성공여부가 결정된다. 그러므로, 도 2에 도시된 바와 같은 본 발명의 일 실시예에 따른 공급 체인 최적화 설계 시스템에서 정의하고 있는 정책(p)와 미래가중치(

Figure 112017029430763-pat00038
)를 변수로 하여, 임의의 시점의 임의의 단계에서 취할 수 있는 행동에 따른 보상을 예상할 수 있다.In addition, as described above, as the business environment outside the company becomes more complicated and time becomes more important than ever before, the company clarifies its present and future values and presents its management policies accordingly. . Therefore, the policy (p) and the future weight (p) defined in the supply chain optimization design system according to an embodiment of the present invention as shown in FIG. 2
Figure 112017029430763-pat00038
) As a variable, it is possible to predict the compensation according to an action that can be taken at an arbitrary stage at an arbitrary point in time.

따라서, 도 2에 도시된 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 적용된 공급망 구성을 활용하면, 마르코프 결정 프로세스에서 규정하고 있는 상태(S), 행동(A) 및 상태 전이 확률(P)의 특징을 만족하도록 특정 기업의 상황에 맞는 공급망을 구성하고, 이렇게 구성된 공급망 구성에 해당 기업의 내외 상황을 고려한 정책(π)과 미래가중치(

Figure 112017029430763-pat00039
)를 입력하여 각 상태(S)에 따른 보상(R)의 예상치를 도출할 수 있다. 이때, 모든 상태가치함수의 총합이 특정한 미리목표값에 근접수렴하도록, 입력으로 사용한 정책(π) 또는 미래가중치(
Figure 112017029430763-pat00040
)를 변화시키면서 공급망 구성을 최적화함으로써, 기업이 목표로 하는 가치에 도달하기 위해서 필요한 비즈니스 전략 수립에 활용할 수 있는 정책(π)과 현재와 미래가치의 중요도를 안배할 수 있는 미래가중치(η)를 도출 할 수 있다. Therefore, by utilizing the supply chain structure applied to the manufacturing-based supply chain optimization design system using the Markov decision process and the machine learning algorithm according to the embodiment of the present invention shown in FIG. 2, (Π) and future weights (π) that take into account the internal and external situation of the company in the supply chain structure thus constituted.
Figure 112017029430763-pat00039
) Can be input to derive an estimate of the compensation R according to each state S. At this time, the policy (?) Or the future weight (?) Used as the input so that the sum of all the state value functions converge to a specific predetermined target value
Figure 112017029430763-pat00040
(Π), which can be used to establish the business strategy needed to reach the target value, and the future weight (η), which can assign the importance of the present and future value .

도 3에는 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템에 적용되는 공급망 구성을 활용하여 정책(π)과 미래가중치(η)를 도출하기 위한 계산 방법을 도시하였다. FIG. 3 is a flow chart illustrating a method for deriving a policy (π) and a future weight (η) by utilizing a supply chain configuration applied to a manufacturing-based supply chain optimization design system using a Markov decision process and a machine learning algorithm according to an embodiment of the present invention The calculation method is shown.

도 2와 수학식 5를 참조하면, 정책(π)과 미래가중치(

Figure 112017029430763-pat00041
)의 최적값을 도출하기 위해서는 정책(π)과 미래가중치(
Figure 112017029430763-pat00042
)를 변수로 하되, 각각의 상태(S)가 상호 연결되어있으며, 특히 보상(R)은 특정 단계에서 다음 단계로 이동하는 행동을 취할 때 피드백(feedback)받는 스칼라 실수값이기 때문에, 정책(π)과 미래가중치(
Figure 112017029430763-pat00043
)의 입력 조건에 따라서, 상태(S) 가치 함수가 수렵(convergence)하지 못하고 발산(divergence)는 상황이 도출 될 수 있다. Referring to FIG. 2 and Equation 5, the policy (?) And the future weight (
Figure 112017029430763-pat00041
(Π) and future weights (π)
Figure 112017029430763-pat00042
(R) is a scalar real number value that is feedbacked when taking an action that moves from a specific step to the next step, and therefore the policy (? ) And future weights
Figure 112017029430763-pat00043
), The state (S) value function can not converge and divergence can be derived.

도 2 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 공급체인 최적화 설계 시스템은, 모든 상태(S)와 행동(A) 및 상태 전이 확률을 비롯한 공급망 구성에 대한 모든 정보를 알고 있기 때문에, 상태가치함수의 총합을 특정한 미래목표값에 수렴할 때까지 정책(π)과 미래가중치(

Figure 112017029430763-pat00044
)의 입력값 변경과 계산을 반복함으로써, 정책(π)과 미래가중치(
Figure 112017029430763-pat00045
)의 최적값이 도출될 수 있음을 알 수 있다.Referring to Figures 2 and 3, the supply chain optimization design system according to one embodiment of the present invention knows all the information about the supply chain configuration, including all states S and behavior (A) and state transition probability (Π) and future weights (π) until the sum of the state value functions converges to a specific future target value
Figure 112017029430763-pat00044
) And changing the input value of the policy (?) And the future weight
Figure 112017029430763-pat00045
) Can be derived.

이렇게 도출된 정책(π)과 미래가중치(

Figure 112017029430763-pat00046
) 정보를 기반으로 하여, 각각의 상태(S)에서 행동과 상태 전이를 선택할 수 있는데, 이때 선택된 행동이나 상태 전이를 취할 때 모든 상태(S)에서 보상(R)이 피드백 된다. These derived policies (π) and future weights
Figure 112017029430763-pat00046
Based on the information, we can choose the behavior and state transition in each state S, where the compensation (R) is fed back in all states (S) when taking the selected behavior or state transition.

따라서 시계열적으로 구분되는 특정한 단계에서 도출된 최적 정책(π)과 미래가중치(

Figure 112017029430763-pat00047
)의 예측값은, 다음 단계에서의 피드백되는 상태(S)별 보상(R)값을 이용하여 그 정확도를 검증할 수 있다. 즉, 도출된 입력값인 정책(π)과 미래가중치(
Figure 112017029430763-pat00048
)을 기반으로 각 상태(S)에서 행동(A)를 결정하고, 이에 대한 평가정보가 주어짐으로써, 구성된 공급망의 환경 변수를 학습하여, 정책(π)과 미래가중치(
Figure 112017029430763-pat00049
)의 입력과 보상(R)사이의 함수관계를 귀납적으로 도출할 수 있다. 이러한 학습 방법은 출력에 대한 정보는 제공하지 않지만, 평가정보는 주어지는 문제에 대해 각 상태에서의 행동을 결정하는 강화학습(reinforcement learning)에 해당한다.Therefore, the optimal policy (π) and the future weight (π)
Figure 112017029430763-pat00047
) Can be verified by using the compensation (R) value for each state S to be fed back in the next step. In other words, the derived input values (π) and future weights
Figure 112017029430763-pat00048
(Π) and future weights (π) by learning the environmental variables of the configured supply chain by determining the behavior (A) in each state (S)
Figure 112017029430763-pat00049
) And the compensation R can be derived in an inductive manner. This learning method does not provide information about the output, but the evaluation information corresponds to reinforcement learning that determines behavior in each state for a given problem.

도 4에는 본 발명의 일 실시예에 따른 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템의 블럭 구성도를 도시하였다. FIG. 4 shows a block diagram of a manufacturing-based supply chain optimization design system using a Markov decision process and a machine learning algorithm according to an embodiment of the present invention.

도 4에 도시한 바와 같이, 본 발명의 일 실시예에 따른 공급 체인 최적화 설계 시스템은 업체 내외부의 환경에 맞게 구성된 공급망(supply chain) 과 공급망의 각 구성인자들을 설계하는 공급망설계단, 그리고 공급망설계단에서 도출된 결과물을 기반으로 공급망을 제어하는 공급망제어단으로 구성됨을 알 수 있다. As shown in FIG. 4, the supply chain optimization design system according to an embodiment of the present invention includes a supply chain configured according to the environment inside and outside the company, a supply-demanding staircase designing each constituent element of the supply chain, And a supply chain control stage that controls the supply chain based on the results derived from the stairs.

도 2의 설명에서 언급한 바와 같이, 공급망의 상태(S)를 포함하는 모든 구성요소는, 산업별 고객별 특정에 따라서 업체에 적합하도록 구성될 수 있는데, 공급망 구성부는 수학식 1 내지 수학식 4를 만족하여, 공급망의 모든 구성이 마르코프 결정 프로세스 만족하도록 구성한다.2, all the components including the state S of the supply chain can be configured to be suitable for the vendor according to the customer-specific specification by industry. The supply chain component can be expressed as Equation 1 to Equation 4 And is configured so that all configurations of the supply chain satisfy the Markov decision process.

현장보상값수집부는, 공급망 구조에서 각 상태(S)별 보상값인 현장보상값을 입력 받으며, 공급망학습부는 최적 정책(π)과 미래가중치(

Figure 112017029430763-pat00050
) 예측값을 산출한다. The on-site compensation value collector receives the on-site compensation value, which is a compensation value for each state (S) in the supply chain structure, and the supply chain learning unit receives the optimal policy (?) And the future weight
Figure 112017029430763-pat00050
) Predicted value.

설계단 저장부는 반복계산에 따른 결과값과 예측된 정책(π)과 미래가중치(

Figure 112017029430763-pat00051
)등을 저장함으로써, 최적화 설계 시스템의 예측 정확도를 평가할 수 있으며, 이를 공급망 관리자에게 표시함으로써 공급망 설계의 효용성을 평가함과 동시에, 관리자로 하여금 설계시스템의 변경 또는 수정을 가능하도록 한다.The design stage storage unit stores the result of the iterative calculation and the predicted policy (π) and the future weight (
Figure 112017029430763-pat00051
) To estimate the predictive accuracy of the optimized design system and display it to the supply chain manager to assess the utility of the supply chain design and enable the manager to modify or modify the design system.

또한, 설계된 공급망 구조에서 상태(S) 및 행동(A)를 포함하는 일부 구성에 대한 정보가 없을 경우에는, 몬테-카를로 강화학습(Monte-Carlo Reinforcement Learning) 알고리즘을 적용할 수도 있다. In addition, the Monte-Carlo Reinforcement Learning algorithm may be applied when there is no information on some of the configurations including state (S) and behavior (A) in the designed supply chain structure.

또한, 상기와 같이 설명된 장치 및 방법은 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.It should be noted that the above-described apparatus and method are not limited to the configurations and methods of the embodiments described above, but the embodiments may be modified so that all or some of the embodiments are selectively combined .

Claims (15)

원자재를 이용한 완제품이 소비자에 이르기까지 상기 완제품의 생산 및 유통에 기여하는 적어도 하나 이상의 상태(S) 또는 행동(A)이 가상의 체인-(Chain) 구조를 형성하고, 상태(S)에 따른 상기 원자재 또는 상기 원자재를 이용한 반재품 또는 상기 완제품의 재고량 또는 출하량 정보를 포함하는 현장보상값(R)를 생성하는 공급망을 최적화 하는 제조업 공급망 최적화 설계 시스템에 있어서,
상기 상태(S) 또는 상기 행동(A) 간의 전이확률(P, Transition Probability)이
Figure 112017029430763-pat00052
인 관계식을 만족하도록 상기 가상의 체인 구조를 구성하고 하기 수학식을 만족하는 상태가치함수(
Figure 112017029430763-pat00053
)와 하기 수학식을 만족하는 행동가치함수(
Figure 112017029430763-pat00054
) 및 하기 수학식을 만족하는 정책(policy,
Figure 112017029430763-pat00055
)을 포함하는 MDP(Markov Decision Process) Factor 생성하는 공급망구성부와, 상기 현장보상값를 입력받는 현장보상값수집부 및, 현재시점에서 상기 현장보상값수집부를 통하여 입력 받은 상기 현장보상값과 상기 MDP Factor를 기반으로 특정한 미래시점에서 모든 상태(S)의 상기 상태가치함수의 총합이 특정한 미래목표값에 수렴하도록 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 공급망학습부를 포함하는 공급망설계단; 및
상기 공급망예측제어정보를 기반으로 상기 공급망을 제어하는 공급망제어단;을 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템:
[수학식]
Figure 112017029430763-pat00056

Figure 112017029430763-pat00057
,
Figure 112017029430763-pat00058
,
Figure 112017029430763-pat00059
,
상기 [수학식]에서
Figure 112017029430763-pat00060
는 미래가중치(discount factor)이고,
R는 현장보상값 이다.
At least one state S or action A contributing to the production and distribution of the finished product from the finished product using the raw material forms a virtual chain structure, CLAIMS 1. A manufacturing supply chain optimization design system for optimizing a supply chain that generates a site compensation value (R) comprising raw materials or semi-finished products using the raw materials or inventory or shipment information of the finished products,
The transition probability (P) between the state (S) and the behavior (A)
Figure 112017029430763-pat00052
And a state value function (< RTI ID = 0.0 >
Figure 112017029430763-pat00053
) And a behavior value function (
Figure 112017029430763-pat00054
) And a policy (policy,
Figure 112017029430763-pat00055
A field compensation value collection unit for receiving the field compensation value, and a compensation unit for calculating an on-site compensation value, which is input through the field compensation value collection unit at the current point of time, and the MDP The supply chain prediction control information including the policy prediction value, the future weighted prediction value, the MDP factor predicted value, and the on-site compensation predicted value is calculated so that the sum of the state value functions of all states S at a specific future time point converges to a specific future target value A supply-demanding staircase including a supply-chain learning unit for performing supply-chain learning; And
And a supply chain control unit for controlling the supply chain based on the supply chain prediction control information.
[Mathematical Expression]
Figure 112017029430763-pat00056

Figure 112017029430763-pat00057
,
Figure 112017029430763-pat00058
,
Figure 112017029430763-pat00059
,
In the above equation,
Figure 112017029430763-pat00060
Is a future discount factor,
R is the field compensation value.
제1항에 있어서,
상기 공급망설계단은 상기 현장보상값과 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보를 시계열적으로 저장하는 설계단저장부를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
The method according to claim 1,
Wherein the supply walks further comprise a design stage storage unit for storing the on-site compensation value, the MDP factor, the future target value, and the supply chain prediction control information in a time series manner. Manufacturing - based Supply Chain Optimization Design System.
제2항에 있어서,
상기 공급망설계단은 상기 설계단저장부에 시계열적으로 저장된 상기 현장보상값과 상기 현장보상값예측값을 비교하여 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보의 예측정확도를 산출하는 설계단평가부를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
3. The method of claim 2,
Wherein the supply stop step includes a design stage for calculating the predicted accuracy of the MDP factor, the future target value, and the supply-demand forecast control information by comparing the on-site compensation value stored in the design stage storage unit in a time- And an evaluating unit. The manufacturing-based supply chain optimization design system using the Markov decision process and the machine learning algorithm.
제3항에 있어서,
상기 설계단저장부는, 상기 현장보상값과 상기 MDP Factor과 상기 미래목표값와 상기 공급망예측제어정보 및 상기 예측정확도 중에 적어도 하나 이상을 표시하는 설계단저장부표시유닛을 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
The method of claim 3,
Wherein the design stage storage unit further comprises a design stage storage unit display unit for displaying at least one of the on-site compensation value, the MDP factor, the future target value, the supply chain prediction control information, and the prediction accuracy. Manufacturing - based Supply Chain Optimization Design System Using Decision Process and Machine Learning Algorithm.
제1항에 있어서,
상기 공급망설계단는 관리자로부터 정보를 입력받는 설계단입력부;을 더 구비하여,
상기 미래목표값과 상기 현장보상값과 상기 MDP Factor의 초기값(initial value)를 입력 받는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
The method according to claim 1,
The supply step includes a design stage input unit for receiving information from an administrator,
Wherein the future target value, the on-site compensation value, and the initial value of the MDP factor are input to the manufacturing-based supply chain optimization design system using the Markov decision process and machine learning algorithm.
제5항에 있어서,
상기 공급망학습부는 마르코프 결정 프로세스(Markov Decision Process) 또는 벨만 방정식(Bellman Equation)을 기반으로 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 학습부계산유닛과, 상기 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 상기 관리자에게 표시하는 학습부표시유닛을 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
6. The method of claim 5,
The supply network learning unit may include a learning unit calculation unit for calculating supply-side predictive control information including a policy prediction value, a future weighted prediction value, an MDP factor prediction value, and an on-site compensation value prediction value based on a Markov Decision Process or a Bellman Equation And a learning unit display unit for displaying to the manager supply policy predictive control information including the policy predictive value, the future weight predictive value, the MDP factor predictive value, and the on-site compensation value predictive value. Based supply chain optimization design system.
제1항에 있어서,
상기 공급망구성부는 관리자로부터 상기 체인 구조를 입력받는 구성부입력유닛을 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
The method according to claim 1,
Wherein the supply chain constructing unit further comprises a constructing unit input unit for receiving the chain structure from an administrator. The manufacturing-based supply chain optimization designing system using the Markov decision process and the machine learning algorithm.
제7항에 있어서,
상기 공급망구성부는 공급자재고관리(VMI, Vendor Managed Inventory)와 즉시대응체제(QR, Quick Response)와 협력적 예약보충시스템(CPFR, Collaborative Planning, Forecasting and Replenishment)와 연속상품보충(CRP, Continuous Replenishment Program) 및 효율적소비자반응시스템(ECR, Efficient Consumer Response)을 포함하는 제조업기본SCM체인구조를 저장하는 제조업기본SCM저장부를 더 구비하여, 상기 관리자가 제조업기본SCM체인구조중 적어도 하나를 선택할 수 있는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 시스템.
8. The method of claim 7,
The Supply Chain component includes Vendor Managed Inventory (VMI), Quick Response (QR), Collaborative Planning, Forecasting and Replenishment (CPFR) and Continuous Replenishment Program (CRP) ) And an EMS (Efficient Consumer Response), and the manager can select at least one of the manufacturing basic SCM chain structure Manufacturing - based supply chain optimization design system using Markov decision process and machine learning algorithm.
원자재를 이용한 완제품이 소비자에 이르기까지 상기 완제품의 생산 및 유통에 기여하는 적어도 하나 이상의 상태(S) 또는 행동(A)이 가상의 체인(Chain) 구조를 형성하고, 상태(S)에 따른 상기 원자재 또는 상기 원자재를 이용한 반재품 또는 상기 완제품의 재고량 또는 출하량 정보를 포함하는 현장보상값을 생성하는 공급망을 최적화 하는 제조업 공급망 최적화 설계 방법에 있어서,
공급망구성부가, 상기 상태(S) 또는 행동(A)간의 전이확률(P, Transition Probability)이
Figure 112017029430763-pat00061
인 관계식을 만족하도록 상기 체인 구조를 구성하는 단계(S01);
공급망구성부가, 하기의 수학식을 만족하는 상태가치함수(
Figure 112017029430763-pat00062
)와 하기의 수학식을 만족하는 행동가치함수(
Figure 112017029430763-pat00063
) 및 하기의 수학식을 만족하는 정책(policy,
Figure 112017029430763-pat00064
)을 포함하는 MDP(Markov Decision Process) Factor 생성하는 단계(S02);
공급망학습부가, 현재시점에서 입력 받은 상기 현장보상값과 상기 MDP Factor를 기반으로 특정한 미래시점에서 모든 상태(S)의 상기 상태가치함수의 총합이 특정한 미래목표값에 수렴하도록 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 단계(S03); 및
공급망제어단은, 상기 공급망예측제어정보를 기반으로 공급망제어부가 상기 공급망을 제어하는 단계(S04);를 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법:
[수학식]
Figure 112017029430763-pat00065

Figure 112017029430763-pat00066
,
Figure 112017029430763-pat00067
,
Figure 112017029430763-pat00068
,
상기 [수학식]에서
Figure 112017029430763-pat00069
는 미래가중치(discount factor)이고,
R는 현장보상값 이다.
At least one state (S) or action (A) contributing to the production and distribution of the finished product from the finished product using the raw material to the consumer forms a virtual chain structure, A manufacturing supply chain optimization design method for optimizing a supply chain that generates an on-site compensation value using the raw material or an in-process compensation value including an inventory quantity or a shipment quantity information of the finished product,
The supply chain constructor may determine the transition probability (P) between the state (S) or behavior (A)
Figure 112017029430763-pat00061
Constructing the chain structure to satisfy the in-relational expression (S01);
The supply chain component is a state value function that satisfies the following equation:
Figure 112017029430763-pat00062
) And a behavior value function satisfying the following equation (
Figure 112017029430763-pat00063
) And a policy satisfying the following equation (policy,
Figure 112017029430763-pat00064
A step (S02) of generating a Markov Decision Process (MDP) Factor including a Markov Decision Process (MDP) Factor;
The supply network learning unit may calculate the sum of the state value functions of all states S at a specific future point based on the on-site compensation value and the MDP factor input at the current point in time so as to converge to a specific future target value, (S03) of supply chain prediction control information including an MDP factor prediction value and a site compensation value prediction value; And
(S04) of controlling the supply chain control unit (S04) based on the supply chain predictive control information (S04). The manufacturing-based supply chain optimization design method using the Markov decision process and the machine learning algorithm :
[Mathematical Expression]
Figure 112017029430763-pat00065

Figure 112017029430763-pat00066
,
Figure 112017029430763-pat00067
,
Figure 112017029430763-pat00068
,
In the above equation,
Figure 112017029430763-pat00069
Is a future discount factor,
R is the field compensation value.
제9항에 있어서,
상기 S03단계와 상기 S04단계 사이에,
상기 현장보상값과 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보가 설계단저장부에 시계열적으로 저장되는 단계(S05);를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법.
10. The method of claim 9,
Between the steps S03 and S04,
Further comprising a step (S05) of storing the on-site compensation value, the MDP factor, the future target value, and the supply-demand forecast control information in a design stage storage unit in a time-series manner (S05) A Manufacturing - Based Supply Chain Optimization Design Method Using.
제10항에 있어서,
상기 S04단계 이후에,
설계단평가부는, 상기 설계단저장부에 시계열적으로 저장된 상기 현장보상값 상기 현장보상값예측값을 비교하여 상기 MDP Factor과 상기 미래목표값 및 상기 공급망예측제어정보의 예측정확도를 산출하는 단계(S06);를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법.
11. The method of claim 10,
After the step S04,
The design stage evaluation unit calculates the prediction accuracy of the MDP factor, the future target value, and the supply-demand forecast control information by comparing the on-site compensation value stored in the design stage storage unit in a time-series manner with the in- ); And a manufacturing-based supply chain optimization design method using a Markov decision process and a machine learning algorithm.
제11항에 있어서,
상기 S02 단계와 상기 S03단계 사이에,
설계단저장부표시유닛은, 상기 현장보상값과 상기 MDP Factor과 상기 미래목표값와 상기 공급망예측제어정보 및 상기 예측정확도 중에 적어도 하나 이상을 표시하는 단계(S07);를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법.
12. The method of claim 11,
Between step S02 and step S03,
Wherein the design stage storage unit display step further comprises the step of displaying at least one of the on-site compensation value, the MDP factor, the future target value, the supply chain prediction control information and the prediction accuracy (S07) Manufacturing - based Supply Chain Optimization Design Method Using Markov Decision Process and Machine Learning Algorithm.
제9항에 있어서,
상기 S02단계와 상기 S03단계 사이에,
설계부입력단을 통하여, 관리자로부터 상기 미래목표값과 상기 현장보상값과 상기 MDP Factor의 초기값(initial value)를 입력 받는 단계(S08);를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법.
10. The method of claim 9,
Between step S02 and step S03,
(S08) of inputting the future target value, the on-site compensation value, and an initial value of the MDP Factor from an administrator through an input terminal of a designing unit (S08) A Manufacturing - Based Supply Chain Optimization Design Method Using.
제13항에 있어서,
상기 S03단계는,
마르코프 결정 프로세스(Markov Decision Process) 또는 벨만 방정식(Bellman Equation)을 이용하여 정책예측값과 미래가중치예측값와 MDP Factor예측값 및 현장보상값예측값를 포함하는 공급망예측제어정보를 산출하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법.
14. The method of claim 13,
In operation S03,
The supply chain prediction control information including the policy prediction value, the future weight prediction value, the MDP factor prediction value and the on-site compensation value prediction value is calculated using the Markov Decision Process or the Bellman Equation. Manufacturing - based Supply Chain Optimization Design Method Using Learning Algorithm.
제9항에 있어서,
상기 S01단계는
관리자로부터 상기 체인 구조를 입력받는 단계(S10);를 더 포함하는 것을 특징으로 하는 마르코프 결정 프로세스와 기계학습 알고리즘을 이용한 제조업 기반의 공급 체인 최적화 설계 방법.
10. The method of claim 9,
In operation S01,
And receiving the chain structure from the manager (S10). The manufacturing-based supply chain optimization design method using the Markov decision process and the machine learning algorithm.
KR1020170037719A 2017-03-24 2017-03-24 Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism Active KR101860258B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170037719A KR101860258B1 (en) 2017-03-24 2017-03-24 Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170037719A KR101860258B1 (en) 2017-03-24 2017-03-24 Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism

Publications (1)

Publication Number Publication Date
KR101860258B1 true KR101860258B1 (en) 2018-06-28

Family

ID=62780304

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170037719A Active KR101860258B1 (en) 2017-03-24 2017-03-24 Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism

Country Status (1)

Country Link
KR (1) KR101860258B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109633716A (en) * 2018-12-10 2019-04-16 东南大学 City distribution vehicle driving chain and its characteristic recognition method and equipment based on GPS
KR102145361B1 (en) 2020-03-24 2020-08-19 연세대학교 산학협력단 Method and Apparatus for Optimizing Control Logic of Production Line
KR102371183B1 (en) * 2021-12-15 2022-03-04 가천대학교 산학협력단 Method, Computing Device and Computer Program for Feature Selection using Guide Agents based Multiple Main Agents Reinforcement Learning Method
WO2024215996A1 (en) * 2023-04-14 2024-10-17 Kraft Foods Group Brands Llc Machine learning-based supply chain management
CN118966596A (en) * 2024-07-05 2024-11-15 电子科技大学 An enterprise production control optimization strategy taking into account environmental carrying capacity

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117130B1 (en) * 2000-06-28 2006-10-03 International Business Machines Corporation Method for solving stochastic control problems of linear systems in high dimension
KR20090003488A (en) 2007-06-13 2009-01-12 씨제이제일제당 (주) Logistics Information System
JP2011073883A (en) * 2009-09-30 2011-04-14 Xerox Corp Method for supply chain management
KR101573985B1 (en) 2013-11-28 2015-12-03 김인동 The Method for Collecting Combined Material Information in Supply Chain Management System and The System Using the Same
KR20160063006A (en) 2014-11-26 2016-06-03 (주)엠아이시스 The system and the method for tracking distribution history in supply chain
KR20160071776A (en) 2014-12-12 2016-06-22 (주)엠아이시스 The method and the system for grouping customized for user by issue of information management in supply chain

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117130B1 (en) * 2000-06-28 2006-10-03 International Business Machines Corporation Method for solving stochastic control problems of linear systems in high dimension
KR20090003488A (en) 2007-06-13 2009-01-12 씨제이제일제당 (주) Logistics Information System
JP2011073883A (en) * 2009-09-30 2011-04-14 Xerox Corp Method for supply chain management
KR101573985B1 (en) 2013-11-28 2015-12-03 김인동 The Method for Collecting Combined Material Information in Supply Chain Management System and The System Using the Same
KR20160063006A (en) 2014-11-26 2016-06-03 (주)엠아이시스 The system and the method for tracking distribution history in supply chain
KR20160071776A (en) 2014-12-12 2016-06-22 (주)엠아이시스 The method and the system for grouping customized for user by issue of information management in supply chain

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Markov Model for Inventory Level Optimization in Supply-Chain Management", Institute for Information Technology -e-Business(pp. 133-144), 2005. 05. *
"재 제조시스템의 가용도 분석모델과 평가척도", 한국정밀공학회지 제27권 2호(pp. 78-85), 2010년 02월 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109633716A (en) * 2018-12-10 2019-04-16 东南大学 City distribution vehicle driving chain and its characteristic recognition method and equipment based on GPS
KR102145361B1 (en) 2020-03-24 2020-08-19 연세대학교 산학협력단 Method and Apparatus for Optimizing Control Logic of Production Line
KR102371183B1 (en) * 2021-12-15 2022-03-04 가천대학교 산학협력단 Method, Computing Device and Computer Program for Feature Selection using Guide Agents based Multiple Main Agents Reinforcement Learning Method
WO2024215996A1 (en) * 2023-04-14 2024-10-17 Kraft Foods Group Brands Llc Machine learning-based supply chain management
CN118966596A (en) * 2024-07-05 2024-11-15 电子科技大学 An enterprise production control optimization strategy taking into account environmental carrying capacity

Similar Documents

Publication Publication Date Title
Lotfi et al. Robust optimization of risk-aware, resilient and sustainable closed-loop supply chain network design with Lagrange relaxation and fix-and-optimize
KR101860258B1 (en) Supply Chain based on Manufacturing System Optimum Design System and Method Using Markov Decision Process and Machine Learning Algorism
Lotfi et al. Viable closed-loop supply chain network by considering robustness and risk as a circular economy
Li et al. An integrated location-inventory problem in a closed-loop supply chain with third-party logistics
JP7105336B2 (en) smart supply chain system
US10740773B2 (en) Systems and methods of utilizing multiple forecast models in forecasting customer demands for products at retail facilities
CN102968670B (en) The method and apparatus of prediction data
Nayeri et al. A robust fuzzy stochastic model for the responsive-resilient inventory-location problem: comparison of metaheuristic algorithms
Li et al. An integrated model of material supplier selection and order allocation using fuzzy extended AHP and multiobjective programming
JP2019192002A (en) Inventory management apparatus, inventory management method, and program
Mok et al. Intelligent production planning for complex garment manufacturing
Minnaar et al. Quantitative methods required for implementing PAS 55 or the ISO 55000 series for asset management
Aktunc et al. Inventory control through ABC/XYZ analysis
CN108133339A (en) Inventory management system and inventory management method
KR20180115144A (en) Artificial intelligence-based key performance indicator simulation system and method
US10977609B1 (en) Distribution-independent inventory approach under multiple service level targets
Mahbub et al. A neural approach to product demand forecasting
CN113469397A (en) Intelligent supply chain system and server platform
Farazi Enhancing supply chain resilience with multi-agent systems and machine learning: a framework for adaptive decision-making
El Haoud et al. Stochastic artificial intelligence benefits and supply chain management inventory prediction
Pramodhini et al. E-Commerce Inventory Management System Using Machine Learning Approach
Ganesan et al. Adaptive inventory replenishment for dynamic supply chains with uncertain market demand
Robles et al. Methods and tools for hydrogen supply chain design
Hajej et al. Improved preventive maintenance in the framework of forecasting problem under subcontractor constraint
Azadi et al. Developing a WPF-CCR model for selecting suppliers in the presence of stochastic data

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20170324

PA0201 Request for examination
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20180223

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20180515

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20180515

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20210430

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20240429

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20250402

Start annual number: 8

End annual number: 8