KR102487901B1

KR102487901B1 - 표적화된 변형의 표적화 벡터로의 무흔적 도입을 위한 방법

Info

Publication number: KR102487901B1
Application number: KR1020217027439A
Authority: KR
Inventors: 수잔나 브릿지스; 호세 에프. 로하스; 그렉 에스. 워쇼; 치아-젠 시아오
Original assignee: 리제너론 파마슈티칼스 인코포레이티드
Priority date: 2019-04-04
Filing date: 2020-04-02
Publication date: 2023-01-12
Anticipated expiration: 2040-04-02
Also published as: US20210254099A1; WO2020206134A1; SG11202108524SA; EP3775201A1; AU2020253531C1; RU2771374C1; JP2022522452A; CA3133359C; AU2020253531A1; US20200318134A1; EP3775201B1; JP7065260B2; ES2923629T3; US11499164B2; IL286917B; CN113795588A; WO2020206134A9; AU2020253531B2; CA3133359A1; IL286917A

Abstract

기존의 표적화 벡터에 무흔적 표적화된 유전자 변형을 도입하는 방법이 제공된다. 방법은 박테리아 상동 재조합 (BHR) 및 시험관내 조립의 조합을 사용하여, 무흔적 방식으로 기존의 표적화 벡터에 이러한 표적화된 유전자 변형을 도입할 수 있다.

Description

표적화된 변형의 표적화 벡터로의 무흔적 도입을 위한 방법

관련 출원에 대한 교차-참조

본 출원은 2019년 4월 4일자로 출원된 미국 출원 번호 62/829,327의 이익을 주장하며, 이는 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

EFS 웹을 통해 텍스트 파일로서 제출된 서열 목록에 대한 참조

파일 544999SEQLIST.txt로 기재된 서열 목록은 20.7 킬로바이트이고, 2020년 3월 21일에 생성되었으며, 본원에 참조로 원용된다.

제한 부위 또는 다른 조작에 의해 생산된 흔적이 조절에 중요한 영역을 차지하는 경우 유전자 발현에 부정적으로 영향을 미칠 수 있기 때문에, 이음매 없는 DNA 구축물은 트랜스제닉 동물 계통을 생성할 때 특히 중요하다. 포유동물 게놈을 표적화하는 것은 종종 상동 재조합을 지시하는 긴 DNA 아암을 갖는 큰 표적화 벡터, 뿐만 아니라 배아 줄기 세포 클론의 선택을 위한 항생제 저항성 카세트의 구축을 필요로 한다. 정확하게 표적화된 클론은 저항성 카세트 자체를 언급하는 것은 아니지만, 벡터의 구축에 필요한 다중 흔적을 종종 함유한다. 유전자 절제의 경우, 이들 병변은 최후 결과 (널(null) 대립유전자)에 문제가 되지 않을 수 있지만, 이웃 유전자에 의한 발현이 불리한 영향을 받을 가능성이 항상 있다. 녹-아웃 이외의 변형, 예컨대, 녹-인의 경우, 표적화된 유전자좌의 충실한 발현은 보통 해당 연구에 중요하다.

특히, 인간화, 마우스 유전자의 이의 인간 대응물로의 직접 대체는 마우스 전사 기구가 새로운 대립유전자의 발현을 충실하게 복제할 수 있도록 마우스 및 인간 서열 사이의 이음매 없는 접합부를 필요로 한다. 유전자 조절에 영향을 주지 않는 비-코딩 영역에서 구축 흔적 및 선택 카세트를 매립하기 위해 주의를 기울여야 한다. 동물 모델이 보다 복잡해짐에 따라, 기존의 것의 상부에 보다 많은 변형, 예컨대, 인간화된 대립유전자의 상부에 인간 질환-유발 돌연변이가 첨가될 수 있다. 이어서, 추가적인 변화는 훨씬 더 많은 흔적 및 또 다른 선택 카세트를 이미 고도로 조작된 마우스 유전자좌에 첨가하여, 발현이 변경되고 마우스 모델이 인간 질환에 충실하지 않을 가능성을 증가시킬 수 있다. 구축 관점으로부터, 2개의 카세트가 상이한 선택을 코딩하더라도, 공유된 카세트 요소, 예컨대, 프로모터 및 폴리(A) 신호 사이의 원하지 않는 재조합으로 인해, 하나를 이미 함유하는 벡터에 새로운 카세트를 첨가하는 것은 복잡해질 수 있다. 결과적으로, 다중 변화 (예컨대, 인간화된 대립유전자 및 상부에 적층된 질환 돌연변이)를 운반하는 표적화의 생성을 단순화하고, 최종 동물 모델에 혼입된 흔적을 최소화하기 위해 새로운 방법이 필요하다.

요약

표적화된 유전자 변형의 기존의 표적화 벡터로의 무흔적 도입 방법이 제공된다.

일 양태에서, 일부 이러한 방법은 다음을 포함한다: (a) 박테리아 세포 집단에서 기존의 표적화 벡터 및 변형 카세트 사이의 박테리아 상동 재조합을 수행하는 단계이되, 여기서 변형 카세트는 표적화된 유전자 변형을 포함하며, 기존의 표적화 벡터의 5' 표적 서열에 상응하는 5' 상동성 아암 및 기존의 벡터의 3' 표적 서열에 상응하는 3' 상동성 아암이 플랭킹된 삽입 핵산을 포함하며, 여기서 삽입 핵산은 다음을 5'에서 3'으로 포함하는, 단계: (i) 제1 반복 서열; (ii) 제1 뉴클레아제 약제에 대한 제1 표적 부위; (iii) 선택 카세트; (iv) 제2 뉴클레아제 약제에 대한 제2 표적 부위; 및 (v) 제1 반복 서열과 동일한 제2 반복 서열; (b) 선택 카세트를 포함하는 변형된 표적화 벡터를 포함하는 박테리아 세포를 선택하는 단계; (c) 변형된 표적화 벡터의 제1 표적 부위를 제1 뉴클레아제 약제로 분절하고, 변형된 표적화 벡터의 제2 표적 부위를 제2 뉴클레아제 약제로 분절하여, 선택 카세트를 제거하고 변형된 표적화 벡터의 제1 반복 서열 및 제2 반복 서열을 노출시키는 단계; 및 (d) 분자내 시험관내 조립 반응에서 노출된 제1 반복 서열을 노출된 제2 반복 서열과 조립하여, 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터를 생성하는 단계이되, 여기서 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 존재하지 않으며, 반복 서열의 단일 카피만이 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 존재하는, 단계.

일부 이러한 방법에서, 반복 서열은 기존의 표적화 벡터의 서열과 동일하다. 일부 이러한 방법에서, 표적화된 유전자 변형은 삽입을 포함하며, 반복 서열은 삽입의 5' 단부 또는 3' 단부와 동일하다.

일부 이러한 방법에서, 반복 서열은 약 20개 이상의 뉴클레오티드 길이이다. 임의로, 반복 서열은 약 20개의 뉴클레오티드 내지 약 100개의 뉴클레오티드 길이이다.

일부 이러한 방법에서, 변형 카세트는 선형, 이중-가닥 핵산이다. 일부 이러한 방법에서, 변형 카세트는 약 1 kb 내지 약 15 kb 길이이다. 일부 이러한 방법에서, 5' 상동성 아암 및 3' 상동성 아암은 각각 약 35개 이상의 뉴클레오티드 길이이다. 일부 이러한 방법에서, 5' 상동성 아암 및 3' 상동성 아암은 각각 약 35개의 뉴클레오티드 내지 약 500개의 뉴클레오티드 길이이다.

일부 이러한 방법에서, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 희귀-절단 뉴클레아제 약제이다. 일부 이러한 방법에서, 제1 표적 부위 및/또는 제2 표적 부위는 기존의 표적화 벡터에 존재하지 않는다. 일부 이러한 방법에서, 제1 표적 부위는 제2 표적 부위와 동일하며, 제1 뉴클레아제 약제는 제2 뉴클레아제 약제와 동일하다.

일부 이러한 방법에서, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 희귀-절단 제한 효소를 포함한다. 임의로, 희귀-절단 제한 효소는 NotI, XmaIII, SstII, Sall, NruI, NheI, Nb.BbvCI, BbvCI, AscI, AsiSI, FseI, PacI, PmeI, SbfI, SgrAI, SwaI, BspQI, SapI, SfiI, CspCI, AbsI, CciNI, FspAI, MauBI, MreI, MssI, PalAI, RgaI, RigI, SdaI, SfaAI, SgfI, SgrDI, SgsI, SmiI, SrfI, Sse2321, Sse83871, LguI, PciSI, AarI, AjuI, AloI, BarI, PpiI 또는 PsrI이다.

일부 이러한 방법에서, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 클러스터링된 규칙적으로 이격된 짧은 회문식 반복체 (CRISPR)-연관된 (Cas) 단백질 및 가이드 RNA (gRNA), 징크 핑거 뉴클레아제 (ZFN), 전사 활성화제-유사 이펙터 뉴클레아제 (TALEN) 또는 조작된 메가뉴클레아제이다. 임의로, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 Cas 단백질 및 gRNA이며, 여기서 Cas 단백질은 Cas9이고, gRNA는 표적화하는 CRISPR RNA (crRNA) 및 트랜스-활성화 CRISPR RNA (tracrRNA)를 포함한다.

일부 이러한 방법에서, 표적화된 유전자 변형은 5' 상동성 아암 또는 3' 상동성 아암에서의 변형을 포함한다. 일부 이러한 방법에서, 표적화된 유전자 변형은 삽입 핵산에서의 변형을 포함한다. 일부 이러한 방법에서, 표적화된 유전자 변형은 점 돌연변이, 결실, 삽입, 대체 또는 이들의 조합을 포함한다.

일부 이러한 방법에서, 선택 카세트는 항생제에 대한 저항성을 부여한다. 임의로, 선택 카세트는 암피실린, 클로람페니콜, 테트라사이클린, 카나마이신, 스펙티노마이신, 스트렙토마이신, 카베니실린, 블레오마이신, 에리트로마이신 또는 폴리믹신 B에 대한 저항성을 부여한다.

일부 이러한 방법에서, 기존의 표적화 벡터는 약 10 kb 이상의 길이의 큰 표적화 벡터이다. 임의로, 기존의 표적화 벡터는 약 100 kb 이상의 길이이다.

일부 이러한 방법에서, 기존의 표적화 벡터는 제2 선택 카세트를 포함한다. 임의로, 제2 선택 카세트는 항생제에 대한 저항성을 부여한다. 임의로, 변형 카세트의 선택 카세트 및 기존의 표적화 벡터의 제2 선택 카세트는 각각 상이한 항생제에 대한 저항성을 부여한다. 임의로, 제2 선택 카세트는 박테리아 및 포유동물 세포 둘 모두에서의 선택을 허용한다.

일부 이러한 방법에서, 단계 (c)는 시험관내에서 발생한다.

일부 이러한 방법에서, 단계 (d)는 다음을 포함한다: (i) 변형된 표적화 벡터를 엑소뉴클레아제와 접촉시켜, 제1 반복 서열 및 제2 반복 서열 사이의 상보적 서열을 노출시키는 단계; (ii) 노출된 상보적 서열을 어닐링하는 단계; (iii) 어닐링된 상보적 서열의 3' 단부를 연장시키는 단계; 및 (iv) 어닐링된 상보적 서열을 결찰시키는 단계. 임의로, 단계 (d)는 변형된 표적화 벡터를 엑소뉴클레아제, DNA 폴리머라제 및 DNA 리가제와 함께 항온처리하는 것을 포함한다.

일부 이러한 방법은 다음을 추가로 포함한다: (e) 단계 (d)에서의 시험관내 조립 후에 제1 뉴클레아제 약제 및 제2 뉴클레아제 약제로 표적화 벡터를 처리하여, 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 존재하지 않음을 확인하는 단계.

다른 양태에서, 일부 이러한 방법은 다음을 포함한다: (a) 박테리아 세포 집단에서 기존의 표적화 벡터 및 결실 카세트 사이의 박테리아 상동 재조합을 수행하는 단계이되, 여기서 결실 카세트는 기존의 표적화 벡터의 5' 표적 서열에 상응하는 5' 상동성 아암 및 기존의 벡터의 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹된 삽입 핵산을 포함하며, 여기서 5' 표적 서열 및 3' 표적 서열은 표적화된 유전자 변형이 도입될 기존의 표적화 벡터의 영역에 플랭킹되고, 여기서 삽입 핵산은 다음을 5'에서 3'으로 포함하는, 단계: (i) 제1 뉴클레아제 약제에 대한 제1 표적 부위; (ii) 선택 카세트; 및 (iii) 제2 뉴클레아제 약제에 대한 제2 표적 부위; (b) 선택 카세트를 포함하는 변형된 표적화 벡터를 포함하는 박테리아 세포를 선택하는 단계; (c) 변형된 표적화 벡터의 제1 표적 부위를 제1 뉴클레아제 약제로 분절하고, 변형된 표적화 벡터의 제2 표적 부위를 제2 뉴클레아제 약제로 분절하여, 선택 카세트를 제거하고 변형된 표적화 벡터의 상류 단부 서열 및 하류 단부 서열을 노출시키는 단계; 및 (d) 시험관내 조립 반응에서 분절된 표적화 벡터를, 변형된 표적화 벡터의 상류 단부 서열과 중첩되는 상류 단부 서열 및 변형된 표적화 벡터의 하류 단부 서열과 중첩하는 하류 단부 서열에 의해 플랭킹된 표적화된 유전자 변형을 포함하는 변형 카세트로 조립하여, 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터를 생성하는 단계이되, 여기서 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 존재하지 않는, 단계

일부 이러한 방법에서, 결실 카세트는 약 1 kb 내지 약 15 kb의 길이이다. 일부 이러한 방법에서, 5' 상동성 아암 및 3' 상동성 아암은 각각 약 35개 이상의 뉴클레오티드 길이이다. 임의로, 5' 상동성 아암 및 3' 상동성 아암은 각각 약 35개의 뉴클레오티드 내지 약 500개의 뉴클레오티드 길이이다. 일부 이러한 방법에서, 결실 카세트는 선형, 이중-가닥 핵산이다.

일부 이러한 방법에서, 기존의 표적화 벡터는 10 kb 이상의 길이의 큰 표적화 벡터이다. 임의로, 기존의 표적화 벡터는 100 kb 이상의 길이이다.

일부 이러한 방법에서, 기존의 표적화 벡터는 제2 선택 카세트를 포함한다. 임의로, 제2 선택 카세트는 항생제에 대한 저항성을 부여한다. 임의로, 결실 카세트의 선택 카세트 및 기존의 표적화 벡터의 제2 선택 카세트는 각각 상이한 항생제에 대한 저항성을 부여한다. 임의로, 제2 선택 카세트는 박테리아 및 포유동물 세포 둘 모두에서의 선택을 허용한다.

일부 이러한 방법에서, 변형 카세트의 상류 단부 서열 및 변형된 표적화 벡터의 상류 단부 서열 사이의 중첩의 길이 및/또는 변형 카세트의 하류 단부 서열 및 변형된 표적화 벡터의 하류 단부 서열 사이의 중첩의 길이는 약 20개 이상의 뉴클레오티드 길이이다. 일부 이러한 방법에서, 변형 카세트의 상류 단부 서열 및 변형된 표적화 벡터의 상류 단부 서열 사이의 중첩의 길이 및/또는 변형 카세트의 하류 단부 서열 및 변형된 표적화 벡터의 하류 단부 서열 사이의 중첩의 길이는 약 20 내지 약 100개의 뉴클레오티드 길이이다.

일부 이러한 방법에서, 단계 (c)는 시험관내에서 발생한다.

일부 이러한 방법에서, 단계 (d)는 다음을 포함한다: (i) 분절된 표적화 벡터 및 변형 카세트를 엑소뉴클레아제와 접촉시켜, 변형된 표적화 벡터의 단부 서열 및 변형 카세트의 단부 서열 사이의 상보적 서열을 노출시키는 단계; (ii) 노출된 상보적 서열을 어닐링하는 단계; (iii) 어닐링된 상보적 서열의 3' 단부를 연장시키는 단계; 및 (iv) 어닐링된 상보적 서열을 결찰시키는 단계. 임의로, 단계 (d)는 분절된 표적화 벡터 및 변형 카세트를 엑소뉴클레아제, DNA 폴리머라제 및 DNA 리가제와 함께 항온처리하는 것을 포함한다.

일부 이러한 방법에서, 변형 카세트는 선형, 이중-가닥 핵산이다. 일부 이러한 방법에서, 변형 카세트는 약 200개 이상의 뉴클레오티드 길이이다. 일부 이러한 방법에서, 변형 카세트 변형 카세트는 폴리머라제 연쇄 반응에 의해 직접 합성되거나 생성될 수 없는 크기이다. 일부 이러한 방법에서, 변형 카세트는 약 10 kb 이상의 길이이다.

일부 이러한 방법에서, 표적화된 유전자 변형은 점 돌연변이, 결실, 삽입, 대체 또는 이들의 조합을 포함한다.

도 1 (축척되지 않음)은 박테리아 상동 재조합 및 분자내 깁슨(Gibson) 조립을 통해 큰 표적화 벡터로의 점 돌연변이의 무흔적 도입을 위한 방법의 개략도를 도시한다.
도 2 (축척되지 않음)는 도 1의 개략도에 도시된 방법에 사용되는 합성된 핵산의 개략도를 도시한다.
도 3 (축척되지 않음)은 박테리아 상동 재조합 및 분자간 깁슨 조립을 통해 큰 표적화 벡터로의 점 돌연변이의 무흔적 도입을 위한 방법의 개략도를 도시한다.
도 4a 내지 도 4b 는 벡터 구축(도 4a)으로부터 F1 마우스 생성 (도 4b)까지 벡터로서 변형된 마우스 BAC 및 자가-결실 카세트 기술을 사용하는 전통적인 표적화 전략을 도시한다. 마우스 프로타민-발현된 Cre 재조합효소를 통한 카세트의 결실은 단일 loxP를 함유하는 78 bp 흔적을 남긴다.

정의

본원에 상호교환적으로 사용된 용어 "단백질", "폴리펩티드" 및 "펩티드"는 코딩된 및 비-코딩된 아미노산 및 화학적으로 또는 생화학적으로 변형된 또는 유도체화된 아미노산을 포함하는, 임의의 길이의 아미노산의 중합체 형태를 포함한다. 용어는 또한 변형된 중합체, 예컨대, 변형된 펩티드 백본을 갖는 폴리펩티드를 포함한다. 용어 "도메인"은 특정 기능 또는 구조를 갖는 단백질 또는 폴리펩티드의 임의의 부분을 지칭한다.

본원에 상호교환적으로 사용된 용어 "핵산" 및 "폴리뉴클레오티드"는 리보뉴클레오티드, 데옥시리보뉴클레오티드, 또는 이들의 유사체 또는 변형된 버전을 포함하는, 임의의 길이의 뉴클레오티드의 중합체 형태를 포함한다. 이들은 단일-, 이중- 및 다중-가닥 DNA 또는 RNA, 게놈 DNA, cDNA, DNA-RNA 하이브리드, 및 퓨린 염기, 피리미딘 염기 또는 기타 자연의, 화학적으로 변형된, 생화학적으로 변형된, 비-자연의 또는 유도체화된 뉴클레오티드 염기를 포함하는 중합체를 포함한다.

용어 "표적화 벡터"는 상동 재조합, 비-상동-단부-접합-매개된 결찰 또는 세포의 게놈의 표적 위치에 대한 임의의 다른 재조합 수단에 의해 도입될 수 있는 재조합 핵산을 지칭한다.

용어 "야생형"은 정상 (돌연변이의, 질환의 또는 변경된 등과 대조되는) 상태 또는 맥락에서 발견되는 바와 같은 구조 및/또는 활성을 갖는 엔티티를 포함한다. 야생형 유전자 및 폴리펩티드는 종종 다중 상이한 형태 (예컨대, 대립유전자)로 존재한다.

용어 "내인성 서열"은 세포 또는 비-인간 동물 내에서 자연적으로 발생하는 핵산 서열을 지칭한다. 예를 들어, 비-인간 동물의 내인성 Rosa26 서열은 비-인간 동물의 Rosa26 유전자좌에서 자연적으로 발생하는 천연 Rosa26 서열을 지칭한다.

"외인성" 분자 또는 서열은 그 형태 또는 위치 (예컨대, 게놈 유전자좌)에서 세포에 정상적으로 존재하지 않는 분자 또는 서열을 포함한다. 정상적인 존재는 세포의 특정 발달 단계 및 환경 조건과 관련된 존재를 포함한다. 외인성 분자 또는 서열은 예를 들어, 세포 내의 상응하는 내인성 서열의 돌연변이된 버전, 예컨대, 내인성 서열의 인간화된 버전을 포함할 수 있거나, 세포 내의 내인성 서열에 상응하지만 상이한 형태 (즉, 염색체 내에 존재하지 않음)인 서열을 포함할 수 있다. 대조적으로, 내인성 분자 또는 서열은 특정 환경 조건 하에서 특정 발달 단계의 특정 세포에서 그 형태 및 위치로 정상적으로 존재하는 분자 또는 서열을 포함한다.

핵산 또는 단백질의 맥락에서 사용되는 경우 용어 "이종"은 핵산 또는 단백질이 동일한 분자에서 자연적으로 함께 발생하지 않는 2개 이상의 세그먼트를 포함한다는 것을 나타낸다. 예를 들어, 핵산의 세그먼트 또는 단백질의 세그먼트와 관련하여 사용되는 경우, 용어 "이종"은 핵산 또는 단백질이 자연에서 서로에 대해 동일한 (예컨대, 함께 접합된) 관계로 발견되지 않는 2개 이상의 하위-서열을 포함한다는 것을 나타낸다. 일 예로서, 핵산 벡터의 "이종" 영역은 자연에서 다른 분자와 연관되어 발견되지 않는 또 다른 핵산 분자 내의 핵산 또는 이에 부착된 핵산의 세그먼트이다. 예를 들어, 핵산 벡터의 이종 영역은 자연에서 코딩 서열과 연관되어 발견되지 않는 서열에 의해 플랭킹된 코딩 서열을 포함할 수 있다. 마찬가지로, 단백질의 "이종" 영역은 자연에서 다른 펩티드 분자와 연관되어 발견되지 않는 또 다른 펩티드 분자 (예컨대, 융합 단백질, 또는 태그를 갖는 단백질) 내의 아미노산 또는 이에 부착된 아미노산의 세그먼트이다. 유사하게, 핵산 또는 단백질은 이종 표지 또는 이종 분비 또는 국지화 서열을 포함할 수 있다.

"코돈 최적화"는 아미노산을 명시하는 3-염기쌍 코돈 조합의 다중도에 의해 나타나는 바와 같이, 코돈의 축퇴성의 이점을 취하며, 일반적으로 천연 아미노산 서열을 유지하는 한편 천연 서열의 하나 이상의 코돈을 숙주 세포의 유전자에서 보다 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체함으로써 특정 숙주 세포에서의 향상된 발현을 위해 핵산 서열을 변형시키는 과정을 포함한다. 예를 들어, Cas9 단백질을 코딩하는 핵산은 자연 발생 핵산 서열과 비교하여, 박테리아 세포, 효모 세포, 인간 세포, 비-인간 세포, 포유동물 세포, 설치류 세포, 마우스 세포, 랫트 세포, 햄스터 세포 또는 임의의 다른 숙주 세포를 포함하는, 주어진 원핵 또는 진핵 세포에서 더 높은 사용 빈도를 갖는 코돈을 치환하기 위해 변형될 수 있다. 코돈 용법 표는 예를 들어, "코돈 용법 데이터베이스"에서 용이하게 이용가능하다. 이들 표는 다수의 방식으로 적응될 수 있다. Nakamura et al. (2000) Nucleic Acids Res. 28:292를 참고하며, 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 특정 숙주에서의 발현에 대한 특정 서열의 코돈 최적화를 위한 컴퓨터 알고리즘이 또한 이용가능하다 (예컨대, Gene Forge 참고).

용어 "유전자좌"는 유전자 (또는 유의한 서열), DNA 서열, 폴리펩티드-코딩 서열의 특이적 위치, 또는 유기체의 게놈의 염색체 상의 위치를 지칭한다. 예를 들어, Rosa26 유전자좌는 Rosa26 유전자, Rosa26 DNA 서열의 특이적 위치, 또는 이러한 서열이 존재하는 것으로서 식별된 유기체의 게놈의 염색체 상의 Rosa26 위치를 지칭할 수 있다. "Rosa26 유전자좌"는 예를 들어, 인핸서, 프로모터, 5' 및/또는 3' 비번역 영역 (UTR), 또는 이들의 조합을 포함하는, Rosa26 유전자의 조절 요소를 포함할 수 있다.

용어 "유전자"는 생산물 (예컨대, RNA 생산물 및/또는 폴리펩티드 생산물)을 코딩하고 유전자가 전장 mRNA (5' 및 3' 비번역 서열을 포함함)에 상응하도록 비-코딩 인트론으로 방해된 코딩 영역 및 5' 및 3' 단부 둘 모두 상의 코딩 영역에 인접하여 위치한 서열을 포함하는 염색체에서의 DNA 서열을 지칭한다. 용어 "유전자"는 또한 조절 서열 (예컨대, 프로모터, 인핸서 및 전사 인자 결합 부위), 폴리아데닐화 신호, 내부 리보솜 진입 부위, 사일렌서, 격리 서열, 및 기질 부착 영역을 포함하는 기타 비-코딩 서열을 포함한다. 이들 서열은 유전자의 코딩 영역에 가까울 수 있거나 (예컨대, 10 kb 이내), 먼 부위에 있을 수 있으며, 이들은 유전자의 전사 및 번역의 수준 또는 속도에 영향을 미친다.

"프로모터"는 보통 특정 폴리뉴클레오티드 서열에 대한 적절한 전사 개시 부위에서 RNA 합성을 개시하도록 RNA 폴리머라제 II를 지시할 수 있는 TATA 박스를 포함하는 DNA의 조절 영역이다. 프로모터는 추가적으로 전사 개시 속도에 영향을 주는 기타 영역을 포함할 수 있다. 본원에 개시된 프로모터 서열은 작동가능하게 연결된 폴리뉴클레오티드의 전사를 조정한다. 프로모터는 본원에 개시된 세포 유형 (예컨대, 원핵 세포 또는 진핵 세포 (예컨대, 포유동물 세포), 또는 이들의 조합) 중 하나 이상에서 활성일 수 있다. 프로모터는 예를 들어, 구성적으로 활성인 프로모터, 조건부 프로모터, 유도성 프로모터, 일시적으로 제한된 프로모터 (예컨대, 발달적으로 조절된 프로모터), 또는 공간적으로 제한된 프로모터 (예컨대, 세포-특이적 또는 조직-특이적 프로모터)일 수 있다. 프로모터의 예는 예를 들어, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2013/176772에서 찾아볼 수 있다.

"작동가능하게 연결" 또는 "작동가능하게 연결된"은 2 종 이상의 구성요소 (예컨대, 프로모터 및 또 다른 서열 요소)의 병치(juxtaposition)를 포함하여, 구성요소 둘 모두가 정상적으로 기능하고 구성요소 중 하나 이상이 다른 구성요소 중 하나 이상에 대해 발휘되는 기능을 매개할 수 있는 가능성을 허용한다. 예를 들어, 프로모터가 하나 이상의 전사 조절 인자의 존재 또는 부재에 대한 반응으로 코딩 서열의 전사 수준을 제어하는 경우, 프로모터는 코딩 서열에 작동가능하게 연결될 수 있다. 작동가능한 연결은 서로 연속적으로 존재하거나 트랜스로 작용하는 이러한 서열을 포함할 수 있다 (예컨대, 조절 서열은 코딩 서열의 전사를 제어하기 위해 거리를 두고 작용할 수 있다).

핵산의 "상보성"은 핵산의 한 가닥에서의 뉴클레오티드 서열이 이의 핵염기 기의 배향으로 인해 반대쪽 핵산 가닥 상의 또 다른 서열과 수소 결합을 형성하는 것을 의미한다. DNA에서의 상보적 염기는 전형적으로 A와 T 및 C와 G이다. RNA에서, 이들은 전형적으로 C와 G 및 U와 A이다. 상보성은 완벽하거나 실질적인/충분한 것일 수 있다. 2개의 핵산 사이의 완벽한 상보성은 2개의 핵산이 듀플렉스에서의 모든 염기가 왓슨-크릭 페어링에 의해 상보적 염기에 결합하는 듀플렉스를 형성할 수 있다는 것을 의미한다. "실질적인" 또는 "충분한" 상보적은 한 가닥에서의 서열이 반대쪽 가닥에서의 서열에 완전히 및/또는 완벽하게 상보적이지 않지만, 혼성화 조건 세트 (예컨대, 염 농도 및 온도)에서 안정한 하이브리드 복합체를 형성하도록 2개의 가닥 상의 염기 사이에 충분한 결합이 발생하는 것을 의미한다. 이러한 조건은 혼성화된 가닥의 Tm (용융 온도)을 예측하기 위한 서열 및 표준 수학적 계산을 사용함으로써, 또는 일상의 방법을 사용함으로써 Tm의 실험적 결정에 의해 예측될 수 있다. Tm은 2개의 핵산 가닥 사이에 형성된 혼성화 복합체의 집단이 50% 변성되는 (즉, 이중-가닥 핵산 분자의 집단이 단일 가닥으로 절반 해리되는) 온도를 포함한다. Tm 미만의 온도에서, 혼성화 복합체의 형성이 우선시되는 반면, Tm 초과의 온도에서, 혼성화 복합체에서의 가닥의 용융 또는 분리가 우선시된다. Tm은 예컨대, Tm = 81.5 + 0.41(% G+C)을 사용함으로써 1M NaCl 수용액 중 알려진 G+C 함량을 갖는 핵산에 대해 추정될 수 있지만, 다른 알려진 Tm 산정은 핵산 구조 특징을 고려한다.

혼성화는 2개의 핵산이 상보적 서열을 함유하는 것을 필요로 하지만, 염기 사이의 미스매치가 가능하다. 2개의 핵산 사이의 혼성화에 적절한 조건은 잘 알려져 있는 변수인 핵산의 길이 및 상보 정도에 따라 달라진다. 2개의 뉴클레오티드 서열 사이의 상보 정도가 더 클수록, 이들 서열을 갖는 핵산의 하이브리드에 대한 용융 온도(Tm)의 값이 더 커진다. 상보성의 짧은 스트레치(stretch) (예컨대, 35개 이하, 30개 이하, 25개 이하, 22개 이하, 20개 이하 또는 18개 이하의 뉴클레오티드에 걸친 상보성)를 갖는 핵산 사이의 혼성화의 경우, 미스매치의 위치가 중요해진다(Sambrook et al., 위와 동일, 11.7-11.8 참고). 전형적으로, 혼성화가능한 핵산의 길이는 약 10개 이상의 뉴클레오티드이다. 혼성화가능한 핵산에 대한 예시적인 최소 길이는 약 15개 이상의 뉴클레오티드, 약 20개 이상의 뉴클레오티드, 약 22개 이상의 뉴클레오티드, 약 25개 이상의 뉴클레오티드 및 약 30개 이상의 뉴클레오티드를 포함한다. 더욱이, 온도 및 세척 용액 염 농도는 인자, 예컨대, 상보 영역의 길이 및 상보 정도에 따른 필요에 따라 조정될 수 있다.

폴리뉴클레오티드의 서열은 특이적으로 혼성화가능하도록 이의 표적 핵산의 서열에 대해 100% 상보적일 필요는 없다. 게다가, 폴리뉴클레오티드는 개재하는 또는 인접한 세그먼트가 혼성화 사건 (예컨대, 루프 구조 또는 헤어핀 구조)에 관여되지 않도록 하나 이상의 세그먼트에 걸쳐 혼성화할 수 있다. 폴리뉴클레오티드 (예컨대, gRNA)는 표적화되는 표적 핵산 서열 내의 표적 영역에 대해 70% 이상, 80% 이상, 90% 이상, 95% 이상, 99% 이상 또는 100% 서열 상보성을 포함할 수 있다. 예를 들어, 20개의 뉴클레오티드 중 18 개가 표적 영역에 상보적이며, 따라서 특이적으로 혼성화할 gRNA는 90% 상보성을 나타낼 것이다. 이 예에서, 나머지 비상보적 뉴클레오티드는 클러스터링되거나 상보적 뉴클레오티드와 산재될 수 있으며, 서로 또는 상보적 뉴클레오티드에 연속적일 필요는 없다.

핵산 내의 핵산 서열의 특정 스트레치 사이의 상보성 퍼센트는 BLAST 프로그램 (염기성 국소 정렬 조사 도구) 및 PowerBLAST 프로그램 (Altschul et al. (1990) J. Mol. Biol. 215:403-410; Zhang and Madden (1997) Genome Res. 7:649-656, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용됨)을 사용하여 또는 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Smith and Waterman (1981) Adv. Appl. Math. 2:482-489의 알고리즘을 사용하는, 디폴트 설정을 사용하는 Gap 프로그램 (Wisconsin Sequence Analysis Package, Version 8 for Unix, Genetics Computer Group, University Research Park, Madison Wis.)을 사용함으로써 일상적으로 결정될 수 있다. 본원에 제공된 방법 및 조성물은 다양한 상이한 구성요소를 사용한다.

설명 전체에 걸쳐 일부 구성요소는 활성 변이체 및 단편을 가질 수 있다. 이러한 구성요소는 예를 들어, Cas 단백질, CRISPR RNA, tracrRNA 및 가이드 RNA를 포함한다. 이들 구성요소의 각각에 대한 생물학적 활성은 본원의 다른 곳에 기재되어 있다. 용어 "기능적"은 생물학적 활성 또는 기능을 나타내는 단백질 또는 핵산 (또는 이의 단편 또는 변이체)의 선천적 능력을 지칭한다. 이러한 생물학적 활성 또는 기능은 예를 들어, 가이드 RNA 및 표적 DNA 서열에 결합하는 Cas 단백질의 능력을 포함할 수 있다. 기능적 단편 또는 변이체의 생물학적 기능은 원래의 것과 비교하여 (예컨대, 이들의 특이성 또는 선택성 또는 효능과 관련하여) 동일할 수 있거나 사실상 변화될 수 있지만, 기본적인 생물학적 기능은 보유된다.

용어 "변이체"는 집단에서 가장 우세한 서열과 (예컨대, 1개의 뉴클레오티드만큼) 상이한 뉴클레오티드 서열 또는 집단에서 가장 우세한 서열과 (예컨대, 1개의 아미노산만큼) 상이한 단백질 서열을 지칭한다.

단백질을 언급하는 경우 용어 "단편"은 전장 단백질보다 더 짧거나 더 적은 아미노산을 갖는 단백질을 의미한다. 핵산을 언급하는 경우 용어 "단편"은 전장 핵산보다 더 짧거나 더 적은 뉴클레오티드를 갖는 핵산을 의미한다. 단편은 예를 들어, N-말단 단편 (즉, 단백질의 C-말단 단부의 일부분의 제거), C-말단 단편 (즉, 단백질의 N-말단 단부의 일부분의 제거), 또는 내부 단편일 수 있다.

2개의 폴리뉴클레오티드 또는 폴리펩티드 서열의 맥락에서 "서열 동일성" 또는 "동일성"은 명시된 비교 윈도우에 걸쳐 최대 상응성을 위해 정렬될 때 동일한 2개의 서열에서의 잔기를 언급한다. 서열 동일성의 백분율이 단백질을 언급하는 데 사용되는 경우, 동일하지 않은 잔기 위치는 종종 보존적 아미노산 치환에 의해 상이하며, 여기서 아미노산 잔기는 유사한 화학적 특성 (예컨대, 전하 또는 소수성)을 갖는 다른 아미노산 잔기로 치환되며, 따라서 분자의 기능적 특성을 변화시키지 않는다. 서열이 보존적 치환에서 상이한 경우, 서열 동일성 퍼센트는 치환의 보존적 성질을 보정하기 위해 상향 조정될 수 있다. 이러한 보존적 치환에 의해 상이한 서열은 "서열 유사성" 또는 "유사성"을 가지고 있다고 한다. 이러한 조정을 만들기 위한 수단은 잘 알려져 있다. 전형적으로, 이는 전체 미스매치보다는 부분적 미스매치로서 보존적 치환을 스코어링하여, 서열 동일성 백분율을 증가시키는 것을 포함한다. 따라서, 예를 들어, 동일한 아미노산이 1 의 스코어로 제공되고, 비-보존적 치환이 0의 스코어로 제공되는 경우, 보존적 치환은 0 내지 1의 스코어로 제공된다. 보존적 치환의 스코어링은 예컨대, 프로그램 PC/GENE (Intelligenetics, Mountain View, California)에서 시행된 바와 같이 계산된다.

"서열 동일성의 백분율"은 비교 윈도우에 걸쳐 2개의 최적으로 정렬된 서열 (완벽히 매칭된 잔기의 가장 큰 수)을 비교함으로써 결정된 값을 포함하며, 여기서 비교 윈도우의 폴리뉴클레오티드 서열의 일부분은 2개의 서열의 최적 정렬을 위해 참조 서열 (첨가 또는 결실을 포함하지 않음)과 비교하여 첨가 또는 결실 (즉, 갭)을 포함할 수 있다. 백분율은 서열 둘 모두에서 동일한 핵산 염기 또는 아미노산 잔기가 발생하는 위치의 수를 측정하여 매칭된 위치의 수를 산출하고, 매칭된 위치의 수를 비교 윈도우의 위치의 총 수로 나누고, 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산된다. 달리 명시되지 않는 한 (예컨대, 더 짧은 서열은 연결된 이종 서열을 포함함), 비교 윈도우는 비교되는 2개의 서열 중 더 짧은 것의 전장이다.

달리 언급되지 않는 한, 서열 동일성/유사성 값은 다음의 파라미터를 사용하여 GAP 버전 10을 사용하여 수득된 값을 포함한다: 50의 GAP 중량 및 3의 길이 중량, 및 nwsgapdna.cmp 스코어링 매트릭스를 사용하는 뉴클레오티드 서열에 대한 % 동일성 및 % 유사성; 8의 Gap 중량 및 2의 길이 중량, 및 BLOSUM62 스코어링 매트릭스를 사용하는 아미노산 서열에 대한 % 동일성 및 % 유사성; 또는 이들의 임의의 등가 프로그램. "등가 프로그램"은 문제의 임의의 2개의 서열에 대해, GAP 버전 10에 의해 생성된 상응하는 정렬과 비교할 때 동일한 뉴클레오티드 또는 아미노산 잔기 매치 및 동일한 퍼센트 서열 동일성을 갖는 정렬을 생성하는 임의의 서열 비교 프로그램을 포함한다.

용어 "보존적 아미노산 치환"은 서열에 정상적으로 존재하는 아미노산의 유사한 크기, 전하 또는 극성의 상이한 아미노산으로의 치환을 지칭한다. 보존적 치환의 예는 비-극성 (소수성) 잔기, 예컨대, 이소류신, 발린 또는 류신의 또 다른 비-극성 잔기로의 치환을 포함한다. 마찬가지로, 보존적 치환의 예는 하나의 극성 (친수성) 잔기의 또 다른 것으로의 치환, 예컨대, 아르기닌 및 리신 사이, 글루타민 및 아스파라긴 사이, 또는 글리신 및 세린 사이의 치환을 포함한다. 추가적으로, 염기성 잔기, 예컨대, 리신, 아르기닌 또는 히스티딘의 또 다른 것으로의 치환, 또는 하나의 산성 잔기, 예컨대, 아스파르트산 또는 글루탐산의 또 다른 산성 잔기로의 치환이 보존적 치환의 추가적인 예이다. 비-보존적 치환의 예는 비-극성 (소수성) 아미노산 잔기, 예컨대, 이소류신, 발린, 류신, 알라닌 또는 메티오닌의 극성 (친수성) 잔기, 예컨대, 시스테인, 글루타민, 글루탐산 또는 리신으로의 치환, 및/또는 극성 잔기의 비-극성 잔기로의 치환을 포함한다. 전형적인 아미노산 범주화는 하기 표 1에 요약되어 있다.

표 1.아미노산 범주화.

"상동" 서열 (예컨대, 핵산 서열)은 알려진 참조 서열에 대해 동일하거나 실질적으로 유사한 서열을 포함하여, 예를 들어, 알려진 참조 서열에 대해 50% 이상, 55% 이상, 60% 이상, 65% 이상, 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 95% 이상, 96% 이상, 97% 이상, 98% 이상, 99% 이상, 또는 100% 동일하다. 상동 서열은 예를 들어, 병렬상동(orthologous) 서열 및 직렬상동(paralogous) 서열을 포함할 수 있다. 상동 유전자는 예를 들어, 전형적으로 종분화 사건 (병렬상동 유전자) 또는 유전자 중복 사건 (직렬상동 유전자) 중 어느 하나를 통해 공통 조상 DNA 서열로부터 내려온다. "병렬상동" 유전자는 종분화에 의해 공통 조상 유전자로부터 진화된 상이한 종의 유전자를 포함한다. 오르토로그(Ortholog)는 전형적으로 진화 과정에서 동일한 기능을 보유한다. "직렬상동" 유전자는 게놈 내의 중복에 의해 관련된 유전자를 포함한다. 파라로그(paralog)는 진화 과정에서 새로운 기능으로 진화할 수 있다.

용어 "시험관내"는 인공 환경 및 인공 환경 (예컨대, 테스트 튜브) 내에서 발생하는 과정 또는 반응을 포함한다. 용어 "생체내"는 자연 환경 (예컨대, 세포 또는 유기체 또는 신체) 및 자연 환경 내에서 발생하는 과정 또는 반응을 포함한다. 용어 "생체외"는 개체의 신체로부터 제거된 세포 및 이러한 세포 내에서 발생하는 과정 또는 반응을 포함한다.

이중-가닥 손상 (DSB)에 대한 반응에서의 복구는 주로 2개의 보존된 DNA 복구 경로를 통해 발생한다: 상동 재조합 (HR) 및 비-상동 단부 접합 (NHEJ). 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Kasparek & Humphrey (2011) Seminars in Cell & Dev. Biol. 22:886-897을 참고한다. 마찬가지로, 외인성 공여자 핵산에 의해 매개된 표적 핵산의 복구는 2개의 폴리뉴클레오티드 사이의 유전자 정보의 임의의 교환 과정을 포함할 수 있다.

용어 "재조합"은 2개의 폴리뉴클레오티드 사이의 유전자 정보의 임의의 교환 과정을 포함하며, 임의의 메커니즘에 의해 발생할 수 있다. 재조합은 상동성 인도 복구 (HDR) 또는 상동 재조합 (HR)을 통해 발생할 수 있다. HDR 또는 HR은 뉴클레오티드 서열 상동성을 필요로 할 수 있는 핵산 복구의 형태를 포함하며, "표적" 분자 (즉, 이중-가닥 손상을 경험한 것)의 복구를 위한 주형으로서 "공여자" 분자를 사용하고, 공여자로부터 표적으로의 유전자 정보의 전달을 야기한다. 임의의 특정 이론에 얽매이는 것을 바라지 않지만, 이러한 전달은 손상된 표적 및 공여자 사이에 형성되는 헤테로듀플렉스 DNA의 미스매치 보정, 및/또는 공여자가 표적의 일부가 될 유전자 정보를 재합성하는 데 사용되는 합성-의존성 가닥 어닐링, 및/또는 관련 과정을 수반할 수 있다. 일부 경우에, 공여자 폴리뉴클레오티드, 공여자 폴리뉴클레오티드의 일부분, 공여자 폴리펩티드의 카피, 또는 공여자 폴리뉴클레오티드의 카피의 일부분은 표적 DNA에 통합된다. Wang et al. (2013) Cell 153:910-918; Mandalos et al. (2012) PLOS ONE 7:e45768:1-9; 및 Wang et al. (2013) Nat Biotechnol. 31:530-532를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

하나 이상의 언급된 요소를 "포함하는" 또는 "비롯한" 조성물 또는 방법은 구체적으로 언급되지 않은 다른 요소를 포함할 수 있다. 예를 들어, 단백질을 "포함하는" 또는 "비롯하는" 조성물은 단백질을 단독으로 또는 다른 성분과 조합하여 함유할 수 있다. 전환 어구 "본질적으로 이로 이루어진"은 청구범위의 범주가 청구범위에 언급된 명시된 요소 및 청구된 발명의 기본적 및 신규 특성(들)에 실질적으로 영향을 미치지 않는 것들을 포괄하는 것으로 해석되어야 하는 것을 의미한다. 따라서, 본 발명의 청구범위에서 사용되는 경우 용어 "본질적으로 이로 이루어진"은 "포함하는"과 등가인 것으로 해석되는 것으로 의도되지 않는다.

"임의적" 또는 "임의로"는 후속적으로 기재된 사건 또는 정황이 발생할 수 있거나 발생하지 않을 수 있으며, 그 설명이 사건 또는 정황이 발생하는 경우 및 그렇지 않은 경우를 포함하는 것을 의미한다.

값의 범위의 지정은 범위 내의 또는 범위를 정의하는 모든 정수, 및 범위 내의 정수에 의해 정의된 모든 하위범위를 포함한다.

맥락으로부터 달리 명백하지 않는 한, 용어 "약"은 진술된 값의 표준 측정 허용 오차 (예컨대, SEM) 내의 값을 포괄한다.

용어 "및/또는"은 연관된 나열된 항목 중 하나 이상의 임의의 및 모든 가능한 조합, 뿐만 아니라 대안 ("또는")으로 해석될 때 조합의 결여를 지칭하고 포괄한다.

용어 "또는"은 특정 목록의 임의의 하나의 구성원을 지칭하며, 또한 그 목록의 구성원의 임의의 조합을 포함한다.

관사의 단수 형태 "단수형"은 맥락상 달리 분명하게 지시되지 않는 한 복수의 지시대상을 포함한다. 예를 들어, 용어 "단백질" 또는 "하나 이상의 단백질"은 이들의 혼합물을 포함하여 복수의 단백질을 포함할 수 있다.

통계적으로 유의한은 p ≤ 0.05를 의미한다.

상세한 설명

I. 개요

본원은 기존의 표적화 벡터로의 무흔적 표적화된 유전자 변형의 도입 방법을 제공한다. 방법은 박테리아 상동 재조합 (BHR) 및 시험관내 조립 방법 (분자내 또는 분자간)의 조합을 사용하여, 이러한 표적화된 유전자 변형을 무흔적 방식으로 표적화 벡터로 도입할 수 있다. 용어 무흔적은 반응에 의해 조립된 DNA에 변화 또는 원하지 않는 서열이 도입되지 않는다는 사실을 지칭한다. 조합된 서열은 BHR 또는 시험관내 조립 절차에 의해 도입되는 변화 또는 인공물이 없는 원하는 정확한 서열에 상응할 것이다.

유전자 기능을 결정하기 위한 가장 효과적인 접근법 중 하나는 마우스 배아 줄기 (ES) 세포 (또는 기타 비-인간 동물 ES 세포)에서 유전자 돌연변이를 계획적으로 조작하고, 이어서 상응하는 유전자 변화를 보유하는 마우스 (또는 기타 비-인간 동물)를 생성하는 것을 포함한다. 2개의 제한 단계는 유전자 표적화 벡터의 생성 및 표적화 벡터가 정확하게 변경된 유전자를 갖는 희귀 ES 세포 클론의 후속 선택이다. ES 세포에서 원하는 유전자 변경을 생산하기 위해, 먼저 상동 재조합에 의해 ES 세포의 천연 유전자를 대체하는 데 후속적으로 사용되는 표적화 벡터에 변경을 도입해야 한다.

제한 부위 또는 다른 조작에 의해 생산된 흔적이 조절에 중요한 영역을 차지하는 경우 유전자 발현에 부정적으로 영향을 미칠 수 있기 때문에, 무흔적 DNA 구축은 트랜스제닉 동물 계통을 생성할 때 특히 중요하다. 포유동물 게놈을 표적화하는 것은 종종 상동 재조합을 지시하는 긴 DNA 아암을 갖는 큰 표적화 벡터, 뿐만 아니라 배아 줄기 세포 클론의 선택을 위한 항생제 저항성 카세트의 구축을 필요로 한다. 정확하게 표적화된 클론은 종종 벡터 및 저항성 카세트 자체의 구축에 필요한 다중 흔적을 함유한다. 자가-결실 카세트 기술을 이용하여도, 종종 변형된 유전자좌 뒤에 외인성 서열 "흔적"을 남기는 것을 피하는 것이 가능하지 않다. 예컨대, 도 4a 내지 4b를 참고한다. 이러한 흔적은 표적화된 유전자좌의 충실한 발현 또는 심지어 이웃 유전자의 발현에 영향을 미칠 수 있다. 동물 모델이 보다 복잡해짐에 따라, 기존의 것의 상부에 보다 많은 변형, 예컨대, 인간화된 대립유전자 상의 인간 질환-유발 돌연변이가 첨가될 수 있다. 이어서, 추가적인 변화는 훨씬 더 많은 흔적 및 또 다른 선택 카세트를 이미 고도로 조작된 마우스 유전자좌에 첨가하여, 발현이 변경되고 마우스 모델이 충실하지 않을 가능성을 증가시킬 수 있다. 또한, 2개의 카세트가 상이한 선택을 코딩하더라도, 공유된 카세트 요소, 예컨대, 프로모터 및 폴리(A) 신호 사이의 원하지 않는 재조합으로 인해, 하나를 이미 함유하는 벡터에 새로운 카세트를 첨가하는 것은 복잡해질 수 있다. 그러나, 이러한 선택 카세트가 중요하기 때문에 시간 및 자원이 원하는 변형을 위해 수천개의 ES 세포 클론을 스크리닝하는데 낭비될 필요가 없다.

대안적으로, 초기 표적화 벡터를 사용하여 초기 표적화 벡터로부터의 변형을 포함하는 변형된 ES 세포를 생성하고 스크리닝하고, 이어서 이들 세포를 제2 표적화 벡터 (예컨대, ssODN)로 재-표적화하여 이미 표적화된 유전자좌에 제2 변형을 만드는 것은 시간-소모적이며, (예컨대, ssODN으로) 재-표적화하는 것은 원하지 않는 변형, 예컨대, 원하지 않는 삽입, 원하지 않는 결실, 원하지 않는 점 돌연변이 또는 게놈의 다른 곳에 트랜스제닉 삽입과 커플링된 표적화가 없는 것을 야기할 수 있다.

본원에 개시된 방법은 초기의 기존의 표적화 벡터를 포함하는 ES 세포를 생성하고 스크리닝한 다음, 이들 세포를 재-표적화하여 이미 표적화된 유전자좌에 제2 변형을 만드는 대신에, 표적화 벡터를 제조하는 단계에서 기존의 표적화 벡터에 대한 변형을 만드는 효율적이고 무흔적 방법을 제공한다.

II. 박테리아 상동 재조합 및 분자내 시험관내 조립를 통한 표적화 벡터로의 표적화된 변형의 무흔적 도입

기존의 표적화 벡터로의 표적화된 유전자 변형의 무흔적 도입을 위한 본원에 개시된 일부 방법은 분자내 조립을 위한 시험관내 조립 방법의 이점을 취한다. 일 예로서, 이러한 방법은 박테리아 세포 집단에서 기존의 표적화 벡터 및 변형 카세트 사이의 박테리아 상동 재조합을 수행하는 것을 포함할 수 있다. 변형 카세트는 기존의 표적화 벡터의 5' 표적 서열에 상응하는 5' 상동성 아암 및 기존의 벡터의 3' 표적 서열에 상응하는 3' 상동성 아암이 플랭킹된 삽입 핵산을 포함할 수 있다. 삽입 핵산은 하나 이상의 뉴클레아제 약제 (예컨대, 희귀-절단 뉴클레아제 약제)에 대한 표적 부위 및 반복 서열이 플랭킹된 선택 카세트를 포함할 수 있다. 예를 들어, 삽입 핵산은 다음을 5'에서 3'으로 포함할 수 있다: (1) 제1 반복 서열; (2) 제1 뉴클레아제 약제에 대한 제1 표적 부위; (3) 선택 카세트; (4) 제2 뉴클레아제 약제에 대한 제2 표적 부위; 및 (5) 제2 반복 서열.

기존의 표적화 벡터는 임의의 크기의 표적화 벡터의 임의의 유형일 수 있다. 구체적인 예에서, 기존의 표적화 벡터는 약 10 kb 이상의 길이인 큰 표적화 벡터(LTVEC)이다. 또 다른 예에서, 이는 약 100 kb 이상의 길이이다. 표적화 벡터 및 큰 표적화 벡터는 본원의 다른 곳에 보다 상세하게 논의된다.

변형 카세트는 선형 핵산 또는 원형 핵산일 수 있고, 이는 단일-가닥 핵산 또는 이중-가닥 핵산일 수 있으며, 이는 데옥시리보핵산 (DNA) 또는 리보핵산 (RNA)을 포함할 수 있다. 구체적인 일 예에서, 변형 카세트는 선형, 이중-가닥 DNA이다.

변형 카세트의 상동성 아암은 본원에 5' 및 3' (즉, 상류 및 하류) 상동성 아암으로서 언급된다. 이 전문용어는 변형 카세트 내의 핵산 삽입물에 대한 상동성 아암의 상대적 위치에 관한 것이다. 5' 및 3' 상동성 아암은 변형시킬 기존의 표적화 벡터 내의 영역에 상응하며, 이는 각각 본원에 "5' 표적 서열" 및 "3' 표적 서열로서 언급된다.

상동성 아암 및 표적 서열은 2개의 영역이 상동 재조합 반응 (예컨대, 박테리아 상동 재조합)을 위한 기질로서 작용하기 위해 서로에 대해 충분한 수준의 서열 동일성을 공유하는 경우 서로에 대해 "상응하는 것"이거나 "상응한다". 용어 "상동성"은 상응하는 서열에 대해 동일하거나 서열 동일성을 공유하는 DNA 서열을 포함한다. 주어진 표적 서열 및 외인성 복구 주형에서 발견된 상응하는 상동성 아암 사이의 서열 동일성은 상동 재조합이 발생하는 것을 허용하는 임의의 정도의 서열 동일성일 수 있다. 예를 들어, 외인성 복구 주형 (또는 이의 단편)의 상동성 아암 및 표적 서열 (또는 이의 단편)에 의해 공유된 서열 동일성의 양은 서열이 상동 재조합을 진행하도록 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상, 또는 100% 서열 동일성일 수 있다. 게다가, 상동성 아암 및 상응하는 표적 서열 사이의 상응하는 상동성 영역은 상동 재조합을 촉진하기에 충분한 임의의 길이일 수 있다. 예를 들어, 상동성 아암은 박테리아 상동 재조합에 적합한 임의의 크기일 수 있다. 예를 들어, 상동성 아암은 약 35개 이상의 뉴클레오티드, 약 40개 이상의 뉴클레오티드, 약 50개 이상의 뉴클레오티드, 약 60개 이상의 뉴클레오티드, 약 70개 이상의 뉴클레오티드, 약 80개 이상의 뉴클레오티드, 약 90개 이상의 뉴클레오티드, 약 100개 이상의 뉴클레오티드일 수 있다. 예를 들어, 상동성 아암은 약 35개의 뉴클레오티드 내지 500개의 뉴클레오티드, 약 75개의 뉴클레오티드 내지 약 500개의 뉴클레오티드, 또는 약 50개의 뉴클레오티드 내지 약 200개의 뉴클레오티드 (예컨대, 약 100개의 뉴클레오티드)일 수 있다. 또 다른 예로서, 상동성 아암은 약 35개의 뉴클레오티드 내지 약 2.5 kb의 길이일 수 있거나, 약 35개의 뉴클레오티드 내지 약 1.5　kb의 길이이거나, 약 35 내지 약 500개의 뉴클레오티드 길이이다. 예를 들어, 주어진 상동성 아암 (또는 각각의 상동성 아암) 및/또는 상응하는 표적 서열은 상동성 아암이 표적 핵산 내의 상응하는 표적 서열과 상동 재조합을 진행하기에 충분한 상동성을 갖도록, 약 35 내지 약 40, 약 40 내지 약 50, 약 50 내지 약 60, 약 60 내지 약 70, 약 70 내지 약 80, 약 80 내지 약 90, 약 90 내지 약 100, 약 100 내지 약 150, 약 150 내지 약 200, 약 200 내지 약 250, 약 250 내지 약 300, 약 300 내지 약 350, 약 350 내지 약 400, 약 400 내지 약 450, 또는 약 450 내지 약 500개의 뉴클레오티드 길이인 상응하는 상동성 영역을 포함할 수 있다. 대안적으로, 주어진 상동성 아암 (또는 각각의 상동성 아암) 및/또는 상응하는 표적 서열은 약 0.5 kb 내지 약 1 kb, 약 1 kb 내지 약 1.5 kb, 약 1.5 kb 내지 약 2 kb, 또는 약 2 kb 내지 약 2.5 kb의 길이인 상응하는 상동성 영역을 포함할 수 있다. 예를 들어, 상동성 아암은 각각 약 100개의 뉴클레오티드 길이일 수 있다. 상동성 아암은 대칭 (각각 거의 길이가 동일한 크기)일 수 있거나, 이들은 비대칭 (하나가 다른 것보다 더 김)일 수 있다.

변형 카세트는 임의의 길이일 수 있다. 예를 들어, 변형 카세트는 약 10 kb 내지 약 400 kb, 약 20 kb 내지 약 400 kb, 약 20 kb 내지 약 30 kb, 약 30 kb 내지 약 40 kb, 약 40 kb 내지 약 50 kb, 약 50 kb 내지 약 75 kb, 약 75 kb 내지 약 100 kb, 약 100 kb 내지 125 kb, 약 125 kb 내지 약 150 kb, 약 150 kb 내지 약 175 kb, 약 175 kb 내지 약 200 kb, 약 200 kb 내지 약 225 kb, 약 225 kb 내지 약 250 kb, 약 250 kb 내지 약 275 kb 또는 약 275 kb 내지 약 300 kb, 약 200 kb 내지 약 300 kb, 약 300 kb 내지 약 350 kb, 또는 약 350 kb 내지 약 400 kb일 수 있다. 일 예에서, 변형 카세트는 약 100 kb 이상 또는 100 kb의 길이일 수 있다. 변형 카세트는 또한 약 50 kb 내지 약 500 kb, 약 100 kb 내지 약 125 kb, 약 300 kb 내지 약 325 kb, 약 325 kb 내지 약 350 kb, 약 350 kb 내지 약 375 kb, 약 375 kb 내지 약 400 kb, 약 400 kb 내지 약 425 kb, 약 425 kb 내지 약 450 kb, 약 450 kb 내지 약 475 kb, 또는 약 475 kb 내지 약 500 kb일 수 있다. 대안적으로, 변형 카세트는 10 kb 이상, 15 kb 이상, 20 kb 이상, 30 kb 이상, 40 kb 이상, 50 kb 이상, 60 kb 이상, 70 kb 이상, 80 kb 이상, 90 kb 이상, 100 kb 이상, 150 kb 이상, 200 kb 이상, 250 kb 이상, 300 kb 이상, 350 kb 이상, 400 kb 이상, 450 kb 이상, 또는 500 kb 이상 또는 그 초과일 수 있다. 일 예에서, 변형 카세트는 약 1 kb 내지 약 15　kb의 길이 또는 약 1 kb 내지 약 10 kb의 길이 (예컨대, 약 1.2 kb, 약 5 kb, 약 8 kb, 또는 약 15 kb)이다.

변형 카세트는 표적화된 유전자 변형을 포함할 수 있다. 예를 들어, 표적화된 유전자 변형 (예컨대, 작은 변형, 예컨대, 점 돌연변이 또는 표적 서열과 재조합하는 상동성 아암의 능력에 부정적으로 영향을 미치지 않을 것인 작은 결실, 삽입 또는 대체)은 5' 상동성 아암 또는 3' 상동성 아암에 있을 수 있다. 대안적으로, 표적화된 유전자 변형은 (예컨대, 표적화된 유전자 변형이 삽입 또는 대체인 경우) 삽입 핵산에 있을 수 있다. 유일한 표적화된 유전자 변형이 결실인 경우, 5' 상동성 아암 및 3' 상동성 아암은 기존의 표적화 벡터에서 결실에 대한 표적화된 서열을 플랭킹하는 각각 5' 및 3' 표적 서열을 표적화하도록 설계될 수 있다. 일 예로서, 표적화된 유전자 변형은 삽입 핵산에서 제1 반복 서열 및/또는 제2 반복 서열에 있을 수 있다. 가능한 표적화된 유전자 변형의 유형은 본원의 다른 곳에서 보다 상세하게 개시된다. 일부 예는 점 돌연변이, 결실, 삽입, 대체, 또는 이들의 조합을 포함한다.

변형 카세트의 제1 및 제2 반복 서열은 서로 동일할 수 있다. 반복 서열은 기존의 표적화 벡터의 서열과 동일할 수 있다. 대안적으로, 표적화된 유전자 변형이 삽입 (예컨대, 삽입 단독, 또는 결실 (즉, 대체)과 조합된 삽입)을 포함하는 경우, 반복 서열은 삽입의 5' 단부 또는 3' 단부와 동일할 수 있다.

반복 서열은 시험관내 조립 반응에서 제1 반복 서열 및 제2 반복 서열 사이의 후속 조립에 적합한 임의의 크기일 수 있다. 일 예로서, 반복 서열은 약 20개 이상의 뉴클레오티드, 약 30개 이상의 뉴클레오티드, 약 40개 이상의 뉴클레오티드, 또는 약 50개 이상의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 반복 서열은 약 20개의 뉴클레오티드 내지 약 100개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 90개의 뉴클레오티드, 약 0개의 뉴클레오티드 내지 약 80개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 70개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 60개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 50개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 40개의 뉴클레오티드, 약 30개의 뉴클레오티드 내지 약 60개의 뉴클레오티드, 또는 약 40개의 뉴클레오티드 내지 약 50개의 뉴클레오티드의 길이를 가질 수 있다. 구체적인 예에서, 반복 서열은 약 40개의 뉴클레오티드 내지 약 50개의 뉴클레오티드 (예컨대, 약 40개의 뉴클레오티드 또는 약 50개의 뉴클레오티드)의 길이를 가질 수 있다.

박테리아 상동 재조합 후, 선택 카세트를 포함하는 (및 표적화된 유전자 변형을 포함하는) 변형된 표적화 벡터를 포함하는 박테리아 세포가 선택될 수 있다. 선택 카세트 및 선택 방법의 예는 본원의 다른 곳에 보다 상세히 개시되어 있다. 구체적인 예에서, 선택 카세트는 항생제에 대한 저항성을 부여한다. 예를 들어, 이것은 암피실린, 클로람페니콜, 테트라사이클린, 카나마이신, 스펙티노마이신, 스트렙토마이신, 카베니실린, 블레오마이신, 에리트로마이신 또는 폴리믹신 B 중 어느 하나에 대한 저항성을 부여할 수 있다. 일부 방법에서, 기존의 표적화 벡터는 또한 제2 선택 카세트를 포함한다. 제2 선택 카세트는 예를 들어, 또한 항생제에 대한 저항성을 부여할 수 있다. 변형 카세트의 선택 카세트 및 기존의 표적화 벡터의 제2 선택 카세트는 각각 상이한 항생제에 대한 저항성을 부여할 수 있다. 예를 들어, 변형 카세트의 선택 카세트는 제1 항생제에 대한 저항성을 부여할 수 있고, 기존의 표적화 벡터의 제2 선택 카세트는 제2의 상이한 항생제에 대한 저항성을 부여할 수 있다. 일부 방법에서, 제2 선택 카세트는 박테리아 세포 및 진핵 또는 포유동물 세포 둘 모두에서 선택을 허용할 수 있다.

선택 후, 변형된 표적화 벡터의 제1 표적 부위는 제1 뉴클레아제 약제로 분절될 수 있고, 변형된 표적화 벡터의 제2 표적 부위는 제2 뉴클레아제 약제로 분절되어, 선택 카세트를 제거하고 변형된 표적화 벡터의 제1 반복 서열 및 제2 반복 서열을 노출시킬 수 있다. 예를 들어, 이 단계는 시험관내에서 수행될 수 있다. 예로서, DNA는 박테리아 상동 재조합 및 선택 후에 박테리아 세포로부터 단리될 수 있고, 그 후에 변형된 표적화 벡터의 제1 표적 부위는 시험관내에서 제1 뉴클레아제 약제로 분절될 수 있으며, 변형된 표적화 벡터의 제2 표적 부위는 시험관 내에서 제2 뉴클레아제 약제로 분절되어, 선택 카세트를 제거하고 변형된 표적화 벡터의 제1 반복 서열 및 제2 반복 서열을 노출시킬 수 있다.

제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 본원의 다른 곳에 기재된 바와 같은 희귀-절단 뉴클레아제 약제일 수 있다. 예를 들어, 일부 방법에서, 제1 표적 부위 및/또는 제2 표적 부위는 기존의 표적화 벡터에 존재하지 않는다. 제1 및 제2 표적 부위는 상이할 수 있거나, 제1 표적 부위는 제2 표적 부위와 동일할 수 있으며, 제1 뉴클레아제 약제는 제2 뉴클레아제 약제와 동일할 수 있다. 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 평활 단부, 5' 오버행, 또는 3' 오버행을 생성할 수 있다. 일 예에서, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 3' 오버행을 생성한다.

구체적인 일 예에서, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 제한 효소 또는 희귀-절단 제한 효소이다. 희귀-절단 제한 효소의 예는 본원의 다른 곳에 개시되지만, 예를 들어, NotI, XmaIII, SstII, Sall, NruI, NheI, Nb.BbvCI, BbvCI, AscI, AsiSI, FseI, PacI, PmeI, SbfI, SgrAI, SwaI, BspQI, SapI, SfiI, CspCI, AbsI, CciNI, FspAI, MauBI, MreI, MssI, PalAI, RgaI, RigI, SdaI, SfaAI, SgfI, SgrDI, SgsI, SmiI, SrfI, Sse2321, Sse83871, LguI, PciSI, AarI, AjuI, AloI, BarI, PpiI, 및 PsrI를 포함할 수 있다.

또 다른 구체적인 예에서, 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제는 조작된 뉴클레아제 약제일 수 있다. 예를 들어, 뉴클레아제 약제는 클러스터링된 규칙적으로 이격된 짧은 회문식 반복체 (CRISPR)-연관된 (Cas) 단백질 및 가이드 RNA (gRNA) (예컨대, Cas9 및 CRISPR RNA (crRNA) 및 트랜스-활성화 CRISPR RNA (tracrRNA)를 포함하는 gRNA), 징크 핑거 뉴클레아제 (ZFN), 전사 활성화제-유사 이펙터 뉴클레아제 (TALEN) 또는 조작된 메가뉴클레아제일 수 있다.

분절/소화 후, 노출된 제1 반복 서열은 분자내 시험관내 조립 반응에서 노출된 제2 반복 서열과 조립되어, 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터를 생성할 수 있다. 예를 들어, 일부 이러한 방법에서, 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 (즉, 시험관내 조립 후) 존재하지 않는다. 마찬가지로, 일부 이러한 방법에서, 반복 서열의 단일 카피만이 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 (즉, 시험관내 조립 후) 존재한다.

임의의 적합한 시험관내 조립 방법이 사용될 수 있다. 구체적인 일 예에서, 시험관내 조립 단계는 변형된 표적화 벡터를 엑소뉴클레아제, DNA 폴리머라제, 및 DNA 리가제와 함께 항온처리하는 것을 포함할 수 있다. 예를 들어, 시험관내 조립 방법은 변형된 표적화 벡터를 엑소뉴클레아제와 접촉시켜, 제1 반복 서열 및 제2 반복 서열 사이의 상보적 서열을 노출시키는 단계, 노출된 상보적 서열을 어닐링하는 단계, 어닐링된 상보적 서열의 3' 단부를 연장시키는 단계, 및 어닐링된 상보적 서열을 결찰시키는 단계를 포함할 수 있다. 시험관내 조립 방법의 예는 본원의 다른 곳에 보다 상세하게 논의된다.

일부 방법에서, 배경을 감소시키기 위해, 시험관내 조립에 의해 생산된 벡터를 제1 뉴클레아제 약제 및/또는 제2 뉴클레아제 약제로 처리하여, (예컨대, 성공적으로 조립되지 않았고 따라서 제1 뉴클레아제 약제 또는 제2 뉴클레아제 약제에 대한 표적 부위를 여전히 함유하는 임의의 표적화 벡터를 분절함으로써) 배경을 감소시킬 수 있다. 이러한 단계는 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 존재하지 않는다는 것을 확인하는 데 도움이 될 수 있다.

III. 박테리아 상동 재조합 및 분자간 시험관내 조립를 통한 표적화 벡터로의 표적화된 변형의 무흔적 도입

기존의 표적화 벡터로의 표적화된 유전자 변형의 무흔적 도입을 위한 본원에 개시된 다른 방법은 분자간 조립을 위한 시험관내조립 방법의 이점을 취한다. 일 예로서, 이러한 방법은 박테리아 세포 집단에서 기존의 표적화 벡터 및 결실 카세트 사이의 박테리아 상동 재조합을 수행하는 것을 포함할 수 있다. 결실 카세트는 기존의 표적화 벡터의 5' 표적 서열에 상응하는 5' 상동성 아암 및 기존의 벡터의 3' 표적 서열에 상응하는 3' 상동성 아암이 플랭킹된 삽입 핵산을 포함할 수 있다. 5' 표적 서열 및 3' 표적 서열은 표적화된 유전자 변형이 도입될 기존의 표적화 벡터의 영역을 플랭킹할 수 있다. 삽입 핵산은 하나 이상의 뉴클레아제 약제 (예컨대, 희귀-절단 뉴클레아제 약제)에 대한 표적 부위가 플랭킹된 선택 카세트를 포함할 수 있다. 예를 들어, 삽입 핵산은 다음을 5'에서 3'로 포함할 수 있다: (1) 제1 뉴클레아제 약제에 대한 제1 표적 부위; (2) 선택 카세트; 및 (3) 제2 뉴클레아제 약제에 대한 제2 표적 부위.

기존의 표적화 벡터는 임의의 크기의 표적화 벡터의 임의의 유형일 수 있다. 구체적인 예에서, 기존의 표적화 벡터는 약 10 kb 이상의 길이인 큰 표적화 벡터 (LTVEC)이다. 또 다른 예에서, 이는 약 100 kb 이상의 길이이다. 표적화 벡터는 본원의 다른 곳에 보다 상세하게 논의된다.

결실 카세트는 선형 핵산 또는 원형 핵산일 수 있고, 이는 단일-가닥 핵산 또는 이중-가닥 핵산일 수 있으며, 이는 데옥시리보핵산 (DNA) 또는 리보핵산 (RNA)을 포함할 수 있다. 구체적인 일 예에서, 변형 카세트는 선형, 이중-가닥 DNA이다.

결실 카세트의 상동성 아암은 본원에 5' 및 3' (즉, 상류 및 하류) 상동성 아암으로서 언급된다. 이 전문용어는 결실 카세트 내의 핵산 삽입물에 대한 상동성 아암의 상대적 위치에 관한 것이다. 5' 및 3' 상동성 아암은 변형시킬 기존의 표적화 벡터 내의 영역에 상응하며, 이는 각각 본원에 "5' 표적 서열" 및 "3' 표적 서열"로서 언급된다.

상동성 아암 및 표적 서열은 2개의 영역이 상동 재조합 반응 (예컨대, 박테리아 상동 재조합)을 위한 기질로서 작용하기 위해 서로에 대해 충분한 수준의 서열 동일성을 공유하는 경우 서로에 대해 "상응하는 것"이거나 "상응한다". 용어 "상동성"은 상응하는 서열에 대해 동일하거나 서열 동일성을 공유하는 DNA 서열을 포함한다. 주어진 표적 서열 및 외인성 복구 주형에서 발견된 상응하는 상동성 아암 사이의 서열 동일성은 상동 재조합이 발생하는 것을 허용하는 임의의 정도의 서열 동일성일 수 있다. 예를 들어, 외인성 복구 주형 (또는 이의 단편)의 상동성 아암 및 표적 서열 (또는 이의 단편)에 의해 공유된 서열 동일성의 양은 서열이 상동 재조합을 진행하도록 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상 또는 100% 서열 동일성일 수 있다. 게다가, 상동성 아암 및 상응하는 표적 서열 사이의 상응하는 상동성 영역은 상동 재조합을 촉진하기에 충분한 임의의 길이일 수 있다. 예를 들어, 상동성 아암은 박테리아 상동 재조합에 적합한 임의의 크기일 수 있다. 예를 들어, 상동성 아암은 약 35개 이상의 뉴클레오티드, 약 40개 이상의 뉴클레오티드, 약 50개 이상의 뉴클레오티드, 약 60개 이상의 뉴클레오티드, 약 70개 이상의 뉴클레오티드, 약 80개 이상의 뉴클레오티드, 약 90개 이상의 뉴클레오티드, 약 100개 이상의 뉴클레오티드일 수 있다. 예를 들어, 상동성 아암은 약 35개의 뉴클레오티드 내지 500개의 뉴클레오티드, 약 75개의 뉴클레오티드 내지 약 500개의 뉴클레오티드, 또는 약 50개의 뉴클레오티드 내지 약 200개의 뉴클레오티드 (예컨대, 약 100개의 뉴클레오티드)일 수 있다. 또 다른 예로서, 상동성 아암은 약 35개의 뉴클레오티드 내지 약 2.5 kb의 길이일 수 있거나, 약 35개의 뉴클레오티드 내지 약 1.5　kb의 길이이거나, 약 35 내지 약 500개의 뉴클레오티드 길이이다. 예를 들어, 주어진 상동성 아암 (또는 각각의 상동성 아암) 및/또는 상응하는 표적 서열은 상동성 아암이 표적 핵산 내의 상응하는 표적 서열과 상동 재조합을 진행하기에 충분한 상동성을 갖도록, 약 35 내지 약 40, 약 40 내지 약 50, 약 50 내지 약 60, 약 60 내지 약 70, 약 70 내지 약 80, 약 80 내지 약 90, 약 90 내지 약 100, 약 100 내지 약 150, 약 150 내지 약 200, 약 200 내지 약 250, 약 250 내지 약 300, 약 300 내지 약 350, 약 350 내지 약 400, 약 400 내지 약 450, 또는 약 450 내지 약 500개의 뉴클레오티드 길이인 상응하는 상동성 영역을 포함할 수 있다. 대안적으로, 주어진 상동성 아암 (또는 각각의 상동성 아암) 및/또는 상응하는 표적 서열은 약 0.5 kb 내지 약 1 kb, 약 1 kb 내지 약 1.5 kb, 약 1.5 kb 내지 약 2 kb, 또는 약 2 kb 내지 약 2.5 kb의 길이인 상응하는 상동성 영역을 포함할 수 있다. 예를 들어, 상동성 아암은 각각 약 100개의 뉴클레오티드 길이일 수 있다. 상동성 아암은 대칭 (각각 거의 길이가 동일한 크기)일 수 있거나, 이들은 비대칭 (하나가 다른 것보다 더 김)일 수 있다.

결실 카세트는 임의의 길이일 수 있다. 예를 들어, 결실 카세트는 약 10 kb 내지 약 400 kb, 약 20 kb 내지 약 400 kb, 약 20 kb 내지 약 30 kb, 약 30 kb 내지 약 40 kb, 약 40 kb 내지 약 50 kb, 약 50 kb 내지 약 75 kb, 약 75 kb 내지 약 100 kb, 약 100 kb 내지 125 kb, 약 125 kb 내지 약 150 kb, 약 150 kb 내지 약 175 kb, 약 175 kb 내지 약 200 kb, 약 200 kb 내지 약 225 kb, 약 225 kb 내지 약 250 kb, 약 250 kb 내지 약 275 kb 또는 약 275 kb 내지 약 300 kb, 약 200 kb 내지 약 300 kb, 약 300 kb 내지 약 350 kb, 또는 약 350 kb 내지 약 400 kb일 수 있다. 일 예에서, 결실 카세트는 약 100 kb 이상 또는 100 kb의 길이일 수 있다. 결실 카세트는 또한 약 50 kb 내지 약 500 kb, 약 100 kb 내지 약 125 kb, 약 300 kb 내지 약 325 kb, 약 325 kb 내지 약 350 kb, 약 350 kb 내지 약 375 kb, 약 375 kb 내지 약 400 kb, 약 400 kb 내지 약 425 kb, 약 425 kb 내지 약 450 kb, 약 450 kb 내지 약 475 kb, 또는 약 475 kb 내지 약 500 kb일 수 있다. 대안적으로, 결실 카세트는 10 kb 이상, 15 kb 이상, 20 kb 이상, 30 kb 이상, 40 kb 이상, 50 kb 이상, 60 kb 이상, 70 kb 이상, 80 kb 이상, 90 kb 이상, 100 kb 이상, 150 kb 이상, 200 kb 이상, 250 kb 이상, 300 kb 이상, 350 kb 이상, 400 kb 이상, 450 kb 이상, 또는 500 kb 이상 또는 그 초과일 수 있다. 일 예에서, 결실 카세트는 약 1 kb 내지 약 15　kb의 길이 또는 약 1 kb 내지 약 10 kb의 길이 (예컨대, 약 1.2 kb, 약 5 kb, 약 8 kb, 또는 약 15 kb)이다.

박테리아 상동 재조합 후, 선택 카세트를 포함하는 변형된 표적화 벡터를 포함하는 박테리아 세포가 선택될 수 있다. 선택 카세트 및 선택 방법의 예는 본원의 다른 곳에 보다 상세하게 개시되어 있다. 구체적인 예에서, 선택 카세트는 항생제에 대한 저항성을 부여한다. 예를 들어, 이것은 암피실린, 클로람페니콜, 테트라사이클린, 카나마이신, 스펙티노마이신, 스트렙토마이신, 카베니실린, 블레오마이신, 에리트로마이신 또는 폴리믹신 B 중 어느 하나에 대한 저항성을 부여할 수 있다. 일부 방법에서, 기존의 표적화 벡터는 또한 제2 선택 카세트를 포함한다. 제2 선택 카세트는 예를 들어, 또한 항생제에 대한 저항성을 부여할 수 있다. 결실 카세트의 선택 카세트 및 기존의 표적화 벡터의 제2 선택 카세트는 각각 상이한 항생제에 대한 저항성을 부여할 수 있다. 예를 들어, 결실 카세트의 선택 카세트는 제1 항생제에 대한 저항성을 부여할 수 있고, 기존의 표적화 벡터의 제2 선택 카세트는 제2의 상이한 항생제에 대한 저항성을 부여할 수 있다. 일부 방법에서, 제2 선택 카세트는 박테리아 세포 및 진핵 또는 포유동물 세포 둘 모두에서 선택을 허용할 수 있다.

선택 후, 변형된 표적화 벡터의 제1 표적 부위는 제1 뉴클레아제 약제로 분절될 수 있고, 변형된 표적화 벡터의 제2 표적 부위는 제2 뉴클레아제 약제로 분절되어, 선택 카세트를 제거하고 변형된 표적화 벡터의 상류 단부 서열 및 하류 단부 서열을 노출시킬 수 있다. 예를 들어, 이 단계는 시험관내에서 수행될 수 있다. 예로서, DNA는 박테리아 상동 재조합 및 선택 후에 박테리아 세포로부터 단리될 수 있고, 그 후에 변형된 표적화 벡터의 제1 표적 부위는 시험관내에서 제1 뉴클레아제 약제로 분절될 수 있으며, 변형된 표적화 벡터의 제2 표적 부위는 시험관내에서 제2 뉴클레아제 약제로 분절되어, 선택 카세트를 제거하고 변형된 표적화 벡터의 상류 단부 서열 및 하류 단부 서열을 노출시킬 수 있다.

분절/소화 후, 분절된 표적화 벡터는 변형된 표적화 벡터의 상류 단부 서열과 중첩하는 상류 단부 서열 및 변형된 표적화 벡터의 하류 단부 서열과 중첩하는 하류 단부 서열이 플랭킹된 표적화된 유전자 변형을 포함하는 변형 카세트와 함께 시험관내 분자간 조립 반응에서 조립되어, 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터를 생성할 수 있다. 예를 들어, 일부 이러한 방법에서, 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 존재하지 않는다.

임의의 적합한 시험관내 조립 방법이 사용될 수 있다. 구체적인 일 예에서, 시험관내 조립 단계는 분절된 표적화 벡터 및 변형 카세트를 엑소뉴클레아제, DNA 폴리머라제, 및 DNA 리가제와 함께 항온처리하는 것을 포함할 수 있다. 예를 들어, 시험관내 조립 방법은 분절된 표적화 벡터 및 변형 카세트를 엑소뉴클레아제와 접촉시켜, 변형된 표적화 벡터의 단부 서열 및 변형 카세트의 단부 서열 사이의 상보적 서열을 노출시키는 단계, 노출된 상보적 서열을 어닐링하는 단계, 어닐링된 상보적 서열의 3' 단부를 연장시키는 단계, 및 어닐링된 상보적 서열을 결찰시키는 단계를 포함할 수 있다

변형 카세트는 임의의 길이일 수 있다. 예를 들어, 변형 카세트는 약 10 kb 내지 약 400 kb, 약 20 kb 내지 약 400 kb, 약 20 kb 내지 약 30 kb, 약 30 kb 내지 약 40 kb, 약 40 kb 내지 약 50 kb, 약 50 kb 내지 약 75 kb, 약 75 kb 내지 약 100 kb, 약 100 kb 내지 125 kb, 약 125 kb 내지 약 150 kb, 약 150 kb 내지 약 175 kb, 약 175 kb 내지 약 200 kb, 약 200 kb 내지 약 225 kb, 약 225 kb 내지 약 250 kb, 약 250 kb 내지 약 275 kb 또는 약 275 kb 내지 약 300 kb, 약 200 kb 내지 약 300 kb, 약 300 kb 내지 약 350 kb, 또는 약 350 kb 내지 약 400 kb일 수 있다. 일 예에서, 변형 카세트는 약 100 kb 이상 또는 100 kb의 길이일 수 있다. 변형 카세트는 또한 약 50 kb 내지 약 500 kb, 약 100 kb 내지 약 125 kb, 약 300 kb 내지 약 325 kb, 약 325 kb 내지 약 350 kb, 약 350 kb 내지 약 375 kb, 약 375 kb 내지 약 400 kb, 약 400 kb 내지 약 425 kb, 약 425 kb 내지 약 450 kb, 약 450 kb 내지 약 475 kb, 또는 약 475 kb 내지 약 500 kb일 수 있다. 대안적으로, 변형 카세트는 10 kb 이상, 15 kb 이상, 20 kb 이상, 30 kb 이상, 40 kb 이상, 50 kb 이상, 60 kb 이상, 70 kb 이상, 80 kb 이상, 90 kb 이상, 100 kb 이상, 150 kb 이상, 200 kb 이상, 250 kb 이상, 300 kb 이상, 350 kb 이상, 400 kb 이상, 450 kb 이상, 또는 500 kb 이상 또는 그 초과일 수 있다. 구체적인 일 예에서, 변형 카세트는 약 400 bp 내지 약 2 kb의 길이이다. 또 다른 예에서, 변형 카세트는 약 1 kb 내지 약 15 kb의 길이 또는 약 1 kb 내지 약 10 kb의 길이 (예컨대, 약 1.2 kb, 약 5 kb, 약 8 kb, 또는 약 15 kb)이다. 구체적인 예에서, 변형 카세트는 약 200개 이상의 뉴클레오티드 길이이다. 또 다른 구체적인 예에서, 변형 카세트는 폴리머라제 연쇄 반응에 의해 직접 합성되거나 생성될 수 없는 크기이다. 예를 들어, 변형 카세트는 약 5 kb 이상, 약 10 kb 이상, 약 15 kb 이상, 약 20　kb 이상, 약 25 kb 이상, 또는 약 30 kb 이상의 길이일 수 있다.

변형 카세트의 상류 단부 서열 및 변형된 표적화 벡터의 상류 단부 서열 사이의 중첩의 길이 및/또는 변형 카세트의 하류 단부 서열 및 변형된 표적화 벡터의 하류 단부 서열 사이의 중첩의 길이는 시험관내 조립 반응을 위한 임의의 적합한 길이일 수 있다. 일 예로서, 중첩의 길이는 약 20개 이상의 뉴클레오티드, 약 30개 이상의 뉴클레오티드, 약 40개 이상의 뉴클레오티드, 또는 약 50개 이상의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 중첩의 길이는 약 20개의 뉴클레오티드 내지 약 100개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 90개의 뉴클레오티드, 약 0개의 뉴클레오티드 내지 약 80개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 70개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 60개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 50개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 40개의 뉴클레오티드, 약 30개의 뉴클레오티드 내지 약 60개의 뉴클레오티드, 또는 약 40개의 뉴클레오티드 내지 약 50개의 뉴클레오티드일 수 있다. 구체적인 예에서, 중첩의 길이는 약 40개의 뉴클레오티드 내지 약 50개의 뉴클레오티드 (예컨대, 약 40개의 뉴클레오티드 또는 약 50개의 뉴클레오티드)일 수 있다.

변형 카세트는 표적화된 유전자 변형을 포함할 수 있다. 표적화된 유전자 변형의 유형은 본원의 다른 곳에 보다 상세하게 개시되어 있다. 일부 예는 점 돌연변이, 결실, 삽입, 대체, 또는 이들의 조합을 포함한다.

IV. 박테리아 상동 재조합

임의의 적합한 박테리아 상동 재조합 (BHR) 방법이 본원에 개시된 방법에서 사용될 수 있다. 박테리아 상동 재조합은 박테리아 세포, 예컨대, 에스케리키아 콜라이(Escherichia coli)에서 상동 재조합을 매개하는 유전자의 일시적이고 제어된 발현을 수반함으로써, 박테리아가 짧은 상동 스트레치를 공유하는 변형 카세트 및 표적화 벡터 (예컨대, 큰 표적화 벡터) 사이의 재조합을 매개하도록 한다. 예컨대, US 2004/0018626 및 Valenzuela et al. (2003) Nat. Biotechnol. 21(6):652-659를 참고하며, 이들 각각은 그 전문이 본원에 참조로 원용된다.

짧은 상동 스트레치는 상류 상동성 영역 및 하류 상동성 영역을 포함할 수 있다. 상동성 영역은 박테리아 상동 재조합에 적합한 임의의 크기일 수 있다. 예를 들어, 상동성 영역은 박테리아 상동 재조합에 적합한 임의의 크기일 수 있다. 예를 들어, 상동성 영역은 약 35개 이상의 뉴클레오티드, 약 40개 이상의 뉴클레오티드, 약 50개 이상의 뉴클레오티드, 약 60개 이상의 뉴클레오티드, 약 70개 이상의 뉴클레오티드, 약 80개 이상의 뉴클레오티드, 약 90개 이상의 뉴클레오티드, 약 100개 이상의 뉴클레오티드일 수 있다. 예를 들어, 상동성 영역은 약 35개의 뉴클레오티드 내지 500개의 뉴클레오티드, 약 75개의 뉴클레오티드 내지 약 500개의 뉴클레오티드, 또는 약 50개의 뉴클레오티드 내지 약 200개의 뉴클레오티드 (예컨대, 약 100개의 뉴클레오티드)일 수 있다. 또 다른 예로서, 상동성 영역은 약 35개의 뉴클레오티드 내지 약 2.5 kb의 길이일 수 있거나, 약 35개의 뉴클레오티드 내지 약 1.5 kb의 길이이거나, 약 35 내지 약 500개의 뉴클레오티드 길이이다. 예를 들어, 상동성 영역은 약 35 내지 약 40, 약 40 내지 약 50, 약 50 내지 약 60, 약 60 내지 약 70, 약 70 내지 약 80, 약 80 내지 약 90, 약 90 내지 약 100, 약 100 내지 약 150, 약 150 내지 약 200, 약 200 내지 약 250, 약 250 내지 약 300, 약 300 내지 약 350, 약 350 내지 약 400, 약 400 내지 약 450, 또는 약 450 내지 약 500개의 뉴클레오티드 길이일 수 있다. 대안적으로, 주어진 상동성 영역은 약 0.5 kb 내지 약 1 kb, 약 1 kb 내지 약 1.5 kb, 약 1.5 kb 내지 약 2 kb, 또는 약 2 kb 내지 약 2.5 kb의 길이일 수 있다. 예를 들어, 상동성 영역은 약 100개의 뉴클레오티드 길이일 수 있다.

박테리아 상동 재조합을 사용하여 표적화 벡터를 변형시키는 기술은 다양한 시스템에서 수행될 수 있다 (예컨대, Yang et al. (1997) Nat. Biotechnol. 15:859-65; Muyrers et al. (1999) Nucleic Acids Res. 27:1555-1557; Angrand et al. (1999) Nucleic Acids Res., 27:e16; Narayanan et al. (1999) Gene Ther., 6:442-447; 및 Yu et al. (2000) Proc. Natl. Acad. Sci. U.S.A. 97:5978-5983을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용됨). 일 예는 ET 클로닝 (Zhang et al. (1998) Nat. Genet. 20:123-128 및 Narayanan et al. (1999) Gene Ther., 6:442-447, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용됨) 및 이러한 기술의 변이체 (모든 목적에 대해 그 전문이 본원에 참조로 원용된 Yu et al. (2000) Proc. Natl. Acad. Sci. U.S.A. 97:5978-5983)이다. ET는 상동 재조합 반응을 수행하는 recE 및 recT 단백질을 지칭한다. RecE는 선형 이중-가닥 DNA의 하나의 가닥을 5'에서 3'으로 트리밍 (trim)하여, 3' 단일-가닥 오버행을 갖는 선형 이중-가닥 단편을 남기는 엑소뉴클레아제이다. 이러한 단일-가닥 오버행은 단일-가닥 DNA (ssDNA) 결합 활성을 갖는 recT 단백질에 의해 코팅된다. ET 클로닝은 recE 및 recT의 E. coli 유전자 생산물 및 박테리오파지 람다 (λ) 단백질 λgam을 일시적으로 발현하는 E. coli를 사용하여 수행된다. λgam 단백질은 recBC 엑소뉴클레아제 시스템에 의한 분해로부터 공여체 DNA 단편을 보호하는 데 필요하며, recBC⁺ 숙주, 예컨대, 빈번하게 사용되는 E. coli 균주 DH10b에서의 효율적인 ET-클로닝에 필요하다.

V. 시험관내 조립

실질적으로 온전한 DNA 분자를 형성하기 위해 DNA 분자를 접합하기에 효과적인 조건 하에서 2개 이상의 핵산 또는 단일 핵산의 2개 이상의 단부를 조립하기 위해 사용될 수 있는 임의의 시험관내 조립 방법이 본원에 기재된 방법에서 사용될 수 있다. 시험관내 조립 방법의 일부 비-제한적인 예는 제한 효소를 사용하는 표준 조립, 융합-중 조립, 서열 및 리가제 독립적 클로닝 (SLIC), 깁슨 조립, 및 골든 게이트 조립을 포함한다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Lee at al. (2013) Mol. Cells 35:359-370을 참고한다.

적합한 시험관내 조립 방법의 일 예는 엑소뉴클레아제 (예컨대, 5' 엑소뉴클레아제), DNA 폴리머라제, 및 DNA 리가제의 협동 작용에 의해 중첩 DNA 분자를 조립하기 위한 등온, 단일-반응 방법이다. 중첩 단부를 갖는 핵산 (또는 중첩 단부를 갖는 단일 선형 핵산)은 리가제, 엑소뉴클레아제 및 DNA 폴리머라제와 조합될 수 있다. 예를 들어, 말단 서열 중첩을 공유하는 2개의 인접한 DNA 단편은 1-단계 등온 반응에서 공유적으로 밀봉된 분자에 접합될 수 있다. 구체적인 예에서, 조립될 2개 이상의 DNA 분자는 단일 용기에서 시험관내에서 다음과 접촉될 수 있다: (a) 3' 엑소뉴클레아제 활성이 결여된 단리된 비-열안정성 5'-내지-3' 엑소뉴클레아제 (예컨대, 중첩 영역을 포함하는 단일-가닥 오버행을 노출시키기 위해 이중-가닥 DNA 분자의 단부를 츄잉 백하는 비-처리성 엑소뉴클레아제); (b) 크라우딩제 (이는, 다른 기능 중에서, 핵산 어닐링을 가속화시켜 단일-가닥 오버행이 특이적으로 어닐링 (혼성화)될 수 있음); (c) 3' 엑소뉴클레아제 활성을 갖는 단리된 열안정성 비-가닥-편위 DNA 폴리머라제, 또는 (어닐링된 영역의 3' 단부를 연장시킴으로써, 어닐링된 분자의 나머지 단일-가닥 갭을 채우기 위해) 3' 엑소뉴클레아제 활성이 결여된 제2 DNA 폴리머라제와 상기 DNA 폴리머라제의 혼합물; (d) 단리된 열안정성 리가제 (이에 따라 형성된 닉을 밀봉 (결찰)함); (e) dNTP의 혼합물; 및 (f) 1-단계 반응에서 제1 조립된 dsDNA 분자를 형성하기 위해 2개 이상의 DNA 분자를 접합하는 데 효과적인 조건 하에서의 적합한 완충제. 단일-가닥 분자의 경우, 엑소뉴클레아제는 생략될 수 있으나, 반드시 그럴 필요는 없다. 구체적인 예에서, T5 엑소뉴클레아제는 이중-가닥 DNA 분자의 5' 단부로부터 뉴클레오티드를 제거하고, 상보적 단일-가닥 DNA 오버행이 어닐링되고, 퓨전 DNA 폴리머라제가 갭을 채우고, Taq DNA 리가제가 닉을 밀봉한다. 예컨대, US 2010/0035768, US 2015/0376628, WO 2015/200334, 및 Gibson et al. (2009) Nat. Methods 6(5):343-345를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

제1 및 제2 단일 가닥 핵산은 각각의 단부가 서로에 대해 상보적일 때 중첩 단부를 갖는다. 제1 및 제2 이중 가닥 핵산은 제1 핵산의 가닥의 5' 단부가 제2 핵산의 가닥의 3' 단부에 상보적이고 그 반대일 때 중첩 단부를 갖는다. 예를 들어, 이중 가닥 중첩 단부 서열의 경우, 하나의 핵산의 가닥은 다른 핵산의 상응하는 가닥에 대해 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 약 96% 이상, 약 97% 이상, 약 98% 이상, 약 99% 이상, 또는 100% 동일성을 가질 수 있다. 본원에 개시된 방법에서, 조립될 dsDNA 분자의 가닥의 5' 단부는 다른 dsDNA 분자의 가닥의 3' 단부와 중첩 단부 서열을 공유한다. 용어 중첩 단부 서열은 dsDNA 분자의 가닥 둘 모두를 포함한다. 따라서, 중첩 영역으로부터의 하나의 가닥은, 중첩 서열의 상보적 영역이 조립될 2개의 폴리뉴클레오티드의 5' 및 3' 단부로부터의 단일-가닥 오버행으로 제시되는 경우 이의 상보적 가닥에 특이적으로 혼성화할 수 있다. 엑소뉴클레아제를 사용하여 5' 또는 3' 단부로부터 뉴클레오티드를 제거하여 오버행 단부 서열을 생성할 수 있다.

중첩 영역의 길이는 영역이 조립되는 핵산 중 임의의 것 내에서 단지 1회만 발생하도록 충분한 길이일 수 있다. 따라서, 다른 폴리뉴클레오티드가 단부 서열과 어닐링되는 것이 방지되며, 조립은 표적 핵산에 대해 특이적일 수 있다. 일 예로서, 중첩의 길이는 약 20개 이상의 뉴클레오티드, 약 30개 이상의 뉴클레오티드, 약 40개 이상의 뉴클레오티드, 또는 약 50개 이상의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 중첩의 길이는 약 20개의 뉴클레오티드 내지 약 100개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 90개의 뉴클레오티드, 약 0개의 뉴클레오티드 내지 약 80개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 70개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 60개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 50개의 뉴클레오티드, 약 20개의 뉴클레오티드 내지 약 40개의 뉴클레오티드, 약 30개의 뉴클레오티드 내지 약 60개의 뉴클레오티드, 또는 약 40개의 뉴클레오티드 내지 약 50개의 뉴클레오티드일 수 있다. 구체적인 예에서, 중첩의 길이는 약 40개의 뉴클레오티드 내지 약 50개의 뉴클레오티드 (예컨대, 약 40개의 뉴클레오티드 또는 약 50개의 뉴클레오티드)일 수 있다.

중첩 서열은 중첩 서열 사이의 상보적 서열 (예컨대, 상보적 단일 가닥 서열)을 노출시키기 위해 엑소뉴클레아제와 접촉될 수 있다. 엑소뉴클레아제 소화는 상보성의 노출된 단일-가닥 영역의 특이적 어닐링을 허용하기 위해 충분한 수의 뉴클레오티드를 제거 (츄잉 백)하는 데 효과적인 조건 하에서 수행될 수 있다. 일반적으로, 중첩 영역의 일부분 또는 중첩의 전체 영역은 츄잉 백되어, 중첩 영역의 일부분 또는 중첩의 전체 영역을 포함하는 오버행을 남긴다. 일부 방법에서, 엑소뉴클레아제 소화는 dNTP (예컨대, T5 DNA 폴리머라제)의 부재 하에 폴리머라제에 의해 수행될 수 있는 반면, 다른 방법에서 엑소뉴클레아제 소화는 폴리머라제 활성 (예컨대, 엑소뉴클레아제 III)이 결여된 dNPT의 존재 하에 엑소뉴클레아제에 의해 수행될 수 있다.

다양한 5'-내지-3', 이중-가닥 특이적 엑소데옥시리보뉴클레아제 중 임의의 것을 사용하여 본원에 개시된 방법에서 핵산의 단부를 츄잉 백할 수 있다. 용어 5' 엑소뉴클레아제는 때때로 본원에서 5'-내지-3' 엑소데옥시리보뉴클레아제를 지칭하는데 사용된다. 비-처리성 엑소뉴클레아제는 각각의 DNA 결합 사건 동안 제한된 수의 (예컨대, 단지 소수의) 뉴클레오티드를 분해하는 엑소뉴클레아제를 지칭한다. 5' 엑소뉴클레아제를 사용한 소화는 DNA 분자에서 3' 단일-가닥 오버행을 생산한다. 시험관내 조립 방법에 사용된 5' 엑소뉴클레아제는 3' 엑소뉴클레아제 활성이 결여될 수 있으며, 5' 포스페이트 단부를 생성할 수 있고, 5'-포스포릴화된 및 비포스포릴화된 단부 둘 모두로부터의 분해를 개시할 수 있다. 본원에 기재된 시험관내 조립 방법에 사용된 엑소뉴클레아제는 평활 단부인지 여부, 또는 작은 5' 또는 3' 오목 단부를 갖는지 여부에 관계없이, 분자의 5' 단부로부터의 분해를 개시할 수 있다. 적합한 엑소뉴클레아제는 잘 알려져 있으며, 예를 들어, 파지 T5 엑소뉴클레아제 (파지 T5 유전자 D15 생산물), 파지 람다 엑소뉴클레아제, Rac 프로파지의 RecE, E. coli로부터의 엑소뉴클레아제 VIII, 파지T7 엑소뉴클레아제 (파지 T7 유전자 6 생산물) 또는 상동 재조합 반응에 관여하는 다양한 5' 엑소뉴클레아제 중 임의의 것을 포함한다. 일 예로서, 엑소뉴클레아제는 T5 엑소뉴클레아제 또는 람다 엑소뉴클레아제이다. 구체적인 예에서, 엑소뉴클레아제는 T5 엑소뉴클레아제이다. 또 다른 구체적인 예에서, 엑소뉴클레아제는 파지 T7 엑소뉴클레아제가 아니다.

중첩의 영역이 긴 상황에서, 이와 같이 생성된 단일-가닥 오버행이 반응의 조건 하에서 특이적으로 어닐링하기에 충분한 길이 및 염기 함량인 한, 영역의 일부분을 츄잉 백하는 것만이 필요할 수 있다. 용어 특이적인 어닐링은 특정 쌍의 단일-가닥 오버행이 반응 혼합물 중에 존재하는 다른 단일-가닥 오버행 (예컨대, 비-상보적 오버행)보다 우선적으로 (또는 배타적으로) 서로에 대해 어닐링될 것인 상황을 포함한다. 우선적으로는 오버행의 약 95% 이상이 상보적 오버행에 어닐링될 것임을 의미한다. 일반적으로, 중첩의 상동 영역 (단일-가닥 오버행 또는 이들의 상보체)은 동일한 서열을 함유한다. 그러나, 단일-가닥 오버행이 반응의 조건 하에서 특이적으로 어닐링될 수 있는 한, 부분적으로 동일한 서열이 사용될 수 있다.

단일 가닥 DNA의 어닐링 후에 (예컨대, 접합될 DNA 분자가 dsDNA일 때 엑소뉴클레아제의 작용에 의해 생산된 오버행 또는 각각의 가닥 상의 상이한 표적 부위에서 닉을 생성함으로써 생산된 오버행), 엑소뉴클레아제에 의해 남아있는 단일-가닥 갭은 적합한 비-가닥-편위 DNA 폴리머라제로 채워질 수 있으며, 이에 따라 형성된 닉은 리가제로 밀봉될 수 있다. 본원에 사용된 비-가닥-편위 DNA 폴리머라제는 dsDNA 분자를 카피하기 위해 진행됨에 따라 이의 경로에 놓인 DNA 가닥과 만날 때 DNA의 합성을 종결시키거나, 이와 같이 생성된 갭을 동시에 채우면서 진행됨에 따라 마주치는 DNA 가닥을 분해시켜, 이동 닉 (닉 번역)을 생성하는 DNA 폴리머라제이다.

제1 폴리뉴클레오티드의 단일 가닥을 제2 폴리뉴클레오티드의 상보적 가닥에 어닐링한 후, 제1 폴리뉴클레오티드의 3' 단부는 제2 폴리뉴클레오티드 가닥의 주형에 기반하여 연장될 수 있고, 제2 폴리뉴클레오티드 가닥의 3' 단부는 제1 폴리뉴클레오티드 가닥의 주형에 기반하여 연장될 수 있다. 각각의 폴리뉴클레오티드의 상보적 3' 단부를 연장시킴으로써, 폴리뉴클레오티드가 조립될 수 있다. 조립 후, 하나의 단편으로부터의 가닥의 연장된 3' 단부 및 다른 단편으로부터의 가닥의 인접한 5' 단부 사이의 닉이 결찰에 의해 밀봉될 수 있다. 보다 구체적으로, 제1 폴리뉴클레오티드의 연장된 3' 단부의 하이드록실기는 제2 폴리뉴클레오티드의 5' 단부의 포스페이트 기에 결찰될 수 있고, 제2 폴리뉴클레오티드의 연장된 3' 단부의 하이드록실기는 제1 폴리뉴클레오티드의 5' 단부의 포스페이트 기에 결찰될 수 있다.

결찰 반응은 다양한 적합한 열안정성 DNA 리가제 중 임의의 것에 의해 수행될 수 있다. 적합한 리가제 중에는 예를 들어, Taq 리가제, 앰플리가제 열안정성 DNA 리가제, 또는 모든 목적에 대해 그 전문이 본원에 참고로 원용된 미국 특허 번호 6,576,453에 개시된 열안정성 리가제가 있다.

반응 혼합물 중 크라우딩제, 예컨대, PEG의 적합한 양은 분자 크라우딩을 허용하거나, 향상시키거나, 용이하게 할 수 있다. 이러한 크라우딩제는 용액의 구성요소가 서로 더 가깝게 접촉하게 할 수 있다. 예를 들어, 재조합될 DNA 분자는 더 가깝게 근접할 수 있으며; 이는 단일-가닥 오버행의 어닐링을 용이하게 할 수 있다. 적합한 크라우딩제는 알려져 있으며, 다양한 잘-알려진 거대분자, 예컨대, 중합체, 예컨대, 폴리에틸렌 글리콜 (PEG), 피콜, 예컨대, 피콜 70, 또는 덱스트란, 예컨대, 덱스트란 70을 포함한다.

조립 반응 혼합물에 존재하는 반응 구성요소 (예컨대, 염, 완충제, 적합한 에너지 공급원 (예컨대, ATP 또는 NAD) 및 반응 혼합물의 pH 등)은 개별 효소 (엑소뉴클레아제, 폴리머라제 및 리가제)에 최적이 아닐 수 있지만, 반응의 전체 세트에 효과적인 절충물로서 작용할 수 있다.

VI. 표적화 벡터 및 큰 표적화 벡터 (LTVEC)

본원에 개시된 방법에 사용된 표적화 벡터는 임의의 적합한 표적화 벡터일 수 있다. 표적화 벡터는 데옥시리보핵산 (DNA) 또는 리보핵산 (RNA)을 포함할 수 있고, 이들은 단일-가닥 또는 이중-가닥일 수 있으며, 이들은 선형 또는 원형 형태일 수 있다. 표적화 벡터는 박테리아 인공 염색체 (BAC), 변형된 BAC, 또는 BAC의 단편일 수 있다. 이들은 인간 DNA, 설치류 DNA (예컨대, 마우스 DNA 또는 랫트 DNA), 합성 DNA, 또는 이들의 임의의 조합을 포함할 수 있다.

본원에 개시된 방법에 사용된 일부 표적화 벡터는 큰 표적화 벡터 (LTVEC)이다. LTVEC는 세포에서 상동 재조합을 수행하도록 의도된 다른 접근법에 의해 전형적으로 사용되는 것들보다 더 큰 핵산 서열에 상응하고 이로부터 유래된 상동성 아암을 포함하는 표적화 벡터를 포함한다. LTVEC는 또한 세포에서 상동 재조합을 수행하도록 의도된 다른 접근법에 의해 전형적으로 사용되는 것들보다 더 큰 핵산 서열을 갖는 핵산 삽입물을 포함하는 표적화 벡터를 포함한다. 예를 들어, LTVEC는 이들의 크기 제한 때문에 전통적인 플라스미드-기반 표적화 벡터에 의해 수용될 수 없는 큰 유전자좌의 변형을 가능하게 한다. 예를 들어, 표적화된 유전자좌는 통상적인 방법을 사용하여 표적화될 수 없거나, 뉴클레아제 약제 (예컨대, Cas 단백질)에 의해 유도된 닉 또는 이중-가닥 손상의 부재 하에 단지 부정확하게 또는 단지 유의하게 낮은 효율로 표적화할 수 있는 세포의 유전자좌일 수 있다 (즉, 5' 및 3' 상동성 아암이 상응할 수 있음). LTVEC의 예는 박테리아 인공 염색체 (BAC), 인간 인공 염색체, 또는 효모 인공 염색체 (YAC)로부터 유래된 벡터를 포함한다. LTVEC 및 이들의 제조 방법의 비-제한적인 예는 예컨대, 미국 특허 번호 6,586,251; 6,596,541; 및 7,105,348; 및 WO 2002/036789에 기재되며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. LTVEC는 선형 형태 또는 원형 형태일 수 있다. LTVEC는 임의의 길이일 수 있으며, 전형적으로 10 kb 이상의 길이이다. LTVEC의 크기는 통상적인 검정, 예컨대, 서던 블롯팅 및 긴-범위 (예컨대, 1 kb 내지 5 kb) PCR에 의한 표적화 사건의 스크리닝을 가능하게 하기에 너무 클 수 있다.

본원에 개시된 방법에 사용된 표적화 벡터 (예컨대, LTVEC)는 임의의 길이일 수 있다. 예를 들어, 표적화 벡터는 약 10 kb 내지 약 400 kb, 약 20 kb 내지 약 400 kb, 약 20　kb 내지 약 30 kb, 약 30 kb 내지 약 40 kb, 약 40 kb 내지 약 50 kb, 약 50 kb 내지 약 75 kb, 약 75 kb 내지 약 100 kb, 약 100 kb 내지 125 kb, 약 125 kb 내지 약 150 kb, 약 150 kb 내지 약 175 kb, 약 175 kb 내지 약 200 kb, 약 200 kb 내지 약 225 kb, 약 225 kb 내지 약 250 kb, 약 250　kb 내지 약 275 kb 또는 약 275 kb 내지 약 300 kb, 약 200 kb 내지 약 300 kb, 약 300 kb 내지 약 350 kb, 또는 약 350 kb 내지 약 400 kb일 수 있다. 일 예에서, 표적화 벡터는 약 100　kb 이상 또는 100 kb의 길이일 수 있다. 표적화 벡터는 또한 약 50 kb 내지 약 500 kb, 약 100 kb 내지 약 125 kb, 약 300 kb 내지 약 325 kb, 약 325 kb 내지 약 350 kb, 약 350 kb 내지 약 375 kb, 약 375 kb 내지 약 400 kb, 약 400 kb 내지 약 425 kb, 약 425 kb 내지 약 450 kb, 약 450 kb 내지 약 475 kb, 또는 약 475 kb 내지 약 500 kb일 수 있다. 대안적으로, 표적화 벡터는 10 kb 이상, 15 kb 이상, 20 kb 이상, 30 kb 이상, 40 kb 이상, 50 kb 이상, 60 kb 이상, 70 kb 이상, 80 kb 이상, 90 kb 이상, 100 kb 이상, 150 kb 이상, 200 kb 이상, 250 kb 이상, 300　kb 이상, 350 kb 이상, 400 kb 이상, 450 kb 이상, 또는 500 kb 이상 또는 그 초과일 수 있다.

VII. 뉴클레아제 약제

임의의 희귀-절단 뉴클레아제 약제는 본원에 개시된 방법에서 사용될 수 있다. 희귀-절단 뉴클레아제 약제는 게놈에서 드물게 발생하는 표적 서열 또는 인식 서열을 갖는 뉴클레아제 약제이다. 유사하게, 본원에 기재된 표적화 벡터에서 의도된 분절 부위(들) 외부에서 발생하지 않는 표적 서열 또는 인식 서열을 갖는 임의의 뉴클레아제 약제가 사용될 수 있다. 예를 들어, 본원에 기재된 방법에서 기존의 표적화 벡터에서 표적 서열 또는 인식 서열을 갖지 않는 임의의 뉴클레아제 약제가 사용될 수 있다.

원하는 표적 서열에서 닉 또는 이중-가닥 손상을 유도하는 상기 기재된 바와 같은 임의의 뉴클레아제 약제가 본원에 개시된 방법 및 조성물에 사용될 수 있다. 뉴클레아제 약제가 원하는 표적 서열에서 닉 또는 이중-가닥 손상을 유도하는 한, 자연 발생 뉴클레아제 약제 또는 천연 뉴클레아제 약제가 사용될 수 있다. 대안적으로, 변형된 또는 조작된 뉴클레아제 약제가 사용될 수 있다. "조작된 뉴클레아제 약제"는 원하는 표적 서열에서 닉 또는 이중-가닥 손상을 특이적으로 인식하고 유도하기 위해 이의 천연 형태로부터 조작된 (변형된 또는 유래된) 뉴클레아제를 포함한다. 따라서, 조작된 뉴클레아제 약제는 자연 발생 천연 뉴클레아제 약제로부터 유래될 수 있거나, 인공적으로 생성되거나 합성될 수 있다. 조작된 뉴클레아제는 예를 들어, 표적 서열에서 닉 또는 이중-가닥 손상을 유도할 수 있으며, 여기서 표적 서열은 천연 (비-조작된 또는 비-변형된) 뉴클레아제 약제에 의해 인식되는 서열이 아니다. 뉴클레아제 약제의 변형은 단백질 분절 약제에서의 1개의 아미노산 또는 핵산 분절 약제에서의 1개의 뉴클레오티드만큼 작을 수 있다. 표적 서열 또는 다른 DNA에서 닉 또는 이중-가닥 손상을 생산하는 것은 표적 서열 또는 다른 DNA를 "절단" 또는 "분절하는" 것으로서 본원에 언급될 수 있다.

예시된 표적 서열의 활성 변이체 및 단편이 또한 제공된다. 이러한 활성 변이체는 주어진 표적 서열에 대해 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상 또는 그 초과의 서열 동일성을 포함할 수 있으며, 여기서 활성 변이체는 생물학적 활성을 보유하며, 따라서 서열-특이적 방식으로 뉴클레아제 약제에 의해 인식되고 분절될 수 있다. 뉴클레아제 약제에 의한 표적 서열의 이중-가닥 손상을 측정하기 위한 검정은 잘-알려져 있다. 예컨대, Frendewey et al. (2010) Methods in Enzymology 476:295-307을 참고하며, 이는 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

뉴클레아제 약제 (즉, 조작된 뉴클레아제 약제)의 활성 변이체 및 단편이 또한 제공된다. 이러한 활성 변이체는 천연 뉴클레아제 약제에 대해 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상 또는 그 초과의 서열 동일성을 포함할 수 있으며, 여기서 활성 변이체는 원하는 표적 서열에서 절단되는 능력을 보유하고, 따라서 닉 또는 이중-가닥-손상-유도 활성을 보유한다. 예를 들어, 본원에 기재된 뉴클레아제 약제 중 임의의 것은 천연 엔도뉴클레아제 서열로부터 변형될 수 있고, 천연 뉴클레아제 약제에 의해 인식되지 않는 표적 서열에서 닉 또는 이중-가닥 손상을 인식하고 유도하도록 설계될 수 있다. 따라서, 일부 조작된 뉴클레아제는 상응하는 천연 뉴클레아제 약제 표적 서열과 상이한 표적 서열에서 닉 또는 이중-가닥 손상을 유도하는 특이성을 갖는다. 닉 또는 이중-가닥-손상-유도 활성에 대한 검정이 알려져 있으며, 일반적으로 표적 서열을 함유하는 DNA 기질에 대한 엔도뉴클레아제의 전체 활성 및 특이성을 측정한다.

뉴클레아제 표적 서열은 닉 또는 이중-가닥 손상이 뉴클레아제 약제에 의해 유도되는 DNA 서열을 포함한다. 표적 서열의 길이는 다양할 수 있으며, 예를 들어, 징크 핑거 뉴클레아제 (ZFN) 쌍에 대해 약 30-36 bp (즉, 각각의 ZFN에 대해 약 15-18 bp), 전사 활성인자-유사 이펙터 뉴클레아제 (TALEN)에 대해 약 36 bp, 또는 CRISPR/Cas9 가이드 RNA에 대해 약 20 bp인 표적 서열을 포함한다.

A. 제한 효소

본원에 개시된 방법에서 사용하기에 적합한 뉴클레아제 약제는 타입 I, 타입 II, 타입 III 및 타입 IV 엔도뉴클레아제를 포함하는 제한 엔도뉴클레아제를 포함할 수 있다. 타입 I 및 타입 III 제한 엔도뉴클레아제는 특이적 인식 부위를 인식하지만, 전형적으로 뉴클레아제 결합 부위로부터 가변 위치에서 분절되며, 이는 분절 부위 (인식 부위)로부터 수백개의 염기쌍만큼 떨어져 있을 수 있다. 타입 II 시스템에서, 제한 활성은 임의의 메틸라제 활성과 독립적이며, 분절은 전형적으로 결합 부위 내 또는 그 근처의 특이적 부위에서 발생한다. 대부분의 타입 II 효소는 회문식 서열을 절단하지만, 타입 IIa 효소는 비-회문식 인식 부위를 인식하여 인식 부위의 외부를 분절하고, 타입 IIIb 효소는 인식 부위 외부의 부위 둘 모두로 서열을 2회 절단하며, 타입 IIs 효소는 비대칭 인식 부위를 인식하고 인식 부위로부터 약 1 내지 20개의 뉴클레오티드의 정의된 거리에서 한 측면에서 분절한다. 타입 IV 제한 효소는 메틸화된 DNA를 표적화한다. 제한 효소는 예를 들어, REBASE 데이터베이스 (webpage at rebase.neb.com; Roberts et al. (2003) Nucleic Acids Res. 31:418-20); Roberts et al. (2003) Nucleic Acids Res. 31:1805-12; 및 Belfort et al. (2002) in Mobile DNA II, pp. 761-783, Eds. Craigie et al. (ASM Press, Washington, DC)에서 추가로 기재되고 분별되며, 이들 각각은 그 전문이 본원에 참조로 원용된다.

일부 방법에서, 희귀-절단 제한 효소가 사용된다. 희귀-절단 제한 효소는 게놈에서 단지 드물게 발생하는 표적 부위 또는 인식 부위를 갖는 효소를 지칭한다. 가상 랜덤 게놈을 제한 효소로 절단함으로써 생성된 제한 단편의 크기는 4^N에 의해 근사될 수 있으며, 여기서 N은 효소의 인식 부위에서의 뉴클레오티드의 수이다. 예를 들어, 7개의 뉴클레오티드로 이루어진 인식 부위를 갖는 효소는 4⁷ bp마다 1회 게놈을 절단하여, 약 16,384 bp의 단편을 생산할 것이다. 일반적으로, 희귀-절단자 효소는 6개 이상의 뉴클레오티드를 포함하는 인식 부위를 갖는다. 예를 들어, 희귀 절단자 효소는 6, 7, 8, 9, 10, 11, 12, 13, 14 또는 15개의 뉴클레오티드를 포함하거나 이로 이루어진 인식 부위를 가질 수 있다. 희귀-절단 제한 효소의 예는 NotI (GCGGCCGC), XmaIII (CGGCCG), SstII (CCGCGG), Sall (GTCGAC), NruI (TCGCGA), NheI (GCTAGC), Nb.BbvCI (CCTCAGC), BbvCI (CCTCAGC), AscI (GGCGCGCC), AsiSI (GCGATCGC), FseI (GGCCGGCC), PacI (TTAATTAA), PmeI (GTTTAAAC), SbfI (CCTGCAGG), SgrAI (CRCCGGYG), SwaI (ATTTAAAT), BspQI (GCTCTTC), SapI (GCTCTTC), SfiI (GGCCNNNNNGGCC), CspCI (CAANNNNNGTGG), AbsI (CCTCGAGG), CciNI (GCGGCCGC), FspAI (RTGCGCAY), MauBI (CGCGCGCG), MreI (CGCCGGCG), MssI (GTTTAAAC), PalAI (GGCGCGCC), RgaI (GCGATCGC), RigI (GGCCGGCC), SdaI (CCTGCAGG), SfaAI (GCGATCGC), SgfI (GCGATCGC), SgrDI (CGTCGACG), SgsI (GGCGCGCC), SmiI (ATTTAAAT), SrfI (GCCCGGGC), Sse2321 (CGCCGGCG), Sse83871 (CCTGCAGG), LguI (GCTCTTC), PciSI (GCTCTTC), AarI (CACCTGC), AjuI (GAANNNNNNNTTGG), AloI (GAACNNNNNNTCC), BarI (GAAGNNNNNNTAC), PpiI (GAACNNNNNCTC), 및 PsrI (GAACNNNNNNTAC) 등을 포함한다.

B. CRISPR/Cas 시스템

클러스터링된 규칙적으로 산재된 짧은 회문식 반복체 (clustered Regularly Interspersed Short Palindromic Repeats) (CRISPR)/CRISPR-연관된 (Cas) 시스템은 또한 본원에 개시된 방법에서 희귀-절단 뉴클레아제 약제로서 사용될 수 있다. CRISPR/Cas 시스템은 Cas 유전자의 발현, 또는 Cas 유전자의 활성을 지시하는 데 관여하는 전사물 및 기타 요소를 포함한다. CRISPR/Cas 시스템은 예를 들어, 유형 I, 유형 II, 유형 III 시스템, 또는 유형 V 시스템 (예컨대, 하위유형 V-A 또는 하위유형 V-B)일 수 있다. 본원에 개시된 조성물 및 방법에 사용된 CRISPR/Cas 시스템은 비-자연 발생일 수 있다. "비-자연 발생" 시스템은 사람의 손의 관여를 나타내는 임의의 것, 예컨대, 시스템의 하나 이상의 구성요소가 이들의 자연 발생 상태로부터 변경 또는 돌연변이되는 것, 자연에서 자연적으로 연관된 하나 이상의 기타 구성요소가 적어도 실질적으로 없는 것, 또는 자연적으로 연관되지 않는 하나 이상의 기타 구성요소와 연관된 것을 포함한다. 예를 들어, 일부 CRISPR/Cas 시스템은 자연적으로 함께 발생하지 않는 gRNA 및 Cas 단백질을 포함하는 비-자연 발생 CRISPR 복합체를 사용하거나, 자연적으로 발생하지 않는 Cas 단백질을 사용하거나, 자연적으로 발생하지 않는 gRNA를 사용한다.

Cas 단백질 및 Cas 단백질을 코딩하는 폴리뉴클레오티드. Cas 단백질은 일반적으로 가이드 RNA (gRNA)와 상호작용할 수 있는 하나 이상의 RNA 인식 또는 결합 도메인을 포함한다. Cas 단백질은 또한 뉴클레아제 도메인 (예컨대, DNase 도메인 또는 RNase 도메인), DNA-결합 도메인, 헬리카제 도메인, 단백질-단백질 상호작용 도메인, 이량체화 도메인, 및 기타 도메인을 포함할 수 있다. 일부 이러한 도메인 (예컨대, DNase 도메인)은 천연 Cas 단백질로부터 유래될 수 있다. 이러한 기타 도메인은 변형된 Cas 단백질을 만들기 위해 첨가될 수 있다. 뉴클레아제 도메인은 핵산 분자의 공유 결합의 파괴를 포함하는 핵산 분절에 대한 촉매 활성을 보유한다. 분절은 평활 단부 또는 엇갈린(staggered) 단부를 생산할 수 있으며, 이는 단일-가닥 또는 이중-가닥일 수 있다. 예를 들어, 야생형 Cas9 단백질은 전형적으로 평활 분절 생산물을 생성할 것이다. 대안적으로, 야생형 Cpf1 단백질 (예컨대, FnCpf1)은 5-뉴클레오티드 5' 오버행을 갖는 분절 생산물을 초래할 수 있고, 분절은 비-표적화된 가닥 상의 PAM 서열로부터의 18번째 염기쌍 다음에 및 표적화된 가닥 상의 23번째 염기 다음에 발생한다. Cas 단백질은 표적 게놈 유전자좌에서 이중-가닥 손상 (예컨대, 평활 단부를 갖는 이중-가닥 손상)을 생성하기 위해 완전한 분절 활성을 가질 수 있거나, 표적 게놈 유전자좌에서 단일-가닥 손상을 생성하는 닉카제일 수 있다.

Cas 단백질의 예는 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csn1 또는 Csx12), Cas10, Cas10d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, 및 Cu1966, 및 이들의 상동체 또는 변형된 버전을 포함한다.

예시적인 Cas 단백질은 Cas9 단백질 또는 Cas9 단백질로부터 유래된 단백질이다. Cas9 단백질은 유형 II CRISPR/Cas 시스템으로부터 유래되고, 전형적으로 보존된 아키텍처와 함께 4개의 핵심 모티프를 공유한다. 모티프 1, 2 및 4는 RuvC-유사 모티프이고, 모티프 3은 HNH 모티프이다. 예시적인 Cas9 단백질은 스트렙토코쿠스 피오게네스(Streptococcus pyogenes), 스트렙토코쿠스 써모필루스(Streptococcus thermophilus), 스트렙토코쿠스 종(Streptococcus sp.), 스타필로코쿠스 아우레우스(Staphylococcus aureus), 노카르디옵시스 다쏜빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티나에스피랄리스(Streptomyces pristinaespiralis),스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 알리사이클로바실루스 아시도칼다리우스(Alicyclobacillusacidocaldarius), 바실루스 슈도마이코이데스(Bacillus pseudomycoides), 바실루스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실루스 델브루에키이(Lactobacillus delbrueckii), 락토바실루스 살리바리우스(Lactobacillus salivarius), 마이크로실라 마리나(Microscilla marina), 부르콜데리알레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 종(Polaromonas sp.), 크로코파에라 왓소니이(Crocosphaera watsonii), 시아노테세 종(Cyanothece sp.), 마이크로시스티스 아에루기노사(Microcystis aeruginosa), 시네코코쿠스 종(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시룹터 벡시이(Caldicelulosiruptor becscii), 칸디다투스 데술포룬디스(Candidatus Desulforudis), 클로스트리디움 보툴리눔(Clostridium botulinum), 클로스트리디움 디피실(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라나에로비우스 써모필루스(Natranaerobius thermophilus), 펠로토마쿨룸 써모프로피오니쿰(Pelotomaculum thermopropionicum), 아시디티오바실루스 칼두스(Acidithiobacillus caldus), 아시디티오바실루스 페록시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 종(Marinobacter sp.), 니트로소코쿠스 할로필루스(Nitrosococcus halophilus), 니트로소코쿠스 왓소니(Nitrosococcus watsoni), 슈도알테로모나스 할로플랑크티스(Pseudoalteromonas haloplanktis), 크테도노박터 라세미페르(Ktedonobacter racemifer),메타노할로비움 에베스티가툼 (Methanohalobium evestigatum), 아나바에나 바리아빌리스(Anabaena variabilis), 노둘라리아 스퍼미게나(Nodularia spumigena), 노스톡 종(Nostoc sp.), 아르트로스피라 막시마(Arthrospira maxima), 아르트로스피라 플라텐시스(Arthrospira platensis), 아르트로스피라 종(Arthrospira sp.), 링비아 종(Lyngbya sp.), 마이크로콜레우스 크토노플라스테스(Microcoleus chthonoplastes), 오실라토리아 종(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus), 아카리오클로리스 마리나(Acaryochloris marina), 네이세리아 메닝기티디스(Neisseria meningitidis), 또는 캄필로박터 제주니(Campylobacter jejuni)로부터 유래된다. Cas9 패밀리 구성원의 추가적인 예는 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2014/131833에 기재되어 있다. S. 피오게네스로부터의 Cas9 (SpCas9)(SwissProt 수탁 번호 Q99ZW2로 지정됨)는 예시적인 Cas9 단백질이다. S. 아우레우스로부터의 Cas9 (SaCas9)(UniProt 수탁 번호 J7RUA5로 지정됨)는 또 다른 예시적인 Cas9 단백질이다. 캄필로박터 제주니로부터의 Cas9 (CjCas9)(UniProt 수탁 번호 Q0P897로 지정됨)는 또 다른 예시적인 Cas9 단백질이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참고로 원용된 Kim et al. (2017) Nat. Commun. 8:14500을 참고한다. SaCas9는 SpCas9보다 작으며, CjCas9는 SaCas9 및 SpCas9 둘 모두보다 작다. 네이세리아 메닝기티디스로부터의 Cas9 (Nme2Cas9)는 또 다른 예시적인 Cas9 단백질이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참고로 원용된 Edraki et al. (2019) Mol. Cell 73(4):714-726를 참고한다. 스트렙토코쿠스 써모필루스로부터의 Cas9 단백질 (예컨대, CRISPR1 유전자좌에 의해 코딩된 스트렙토코쿠스 써모필루스 LMD-9 Cas9 (St1Cas9) 또는 CRISPR3 유전자좌로부터의 스트렙토코쿠스 써모필루스 Cas9 (St3Cas9))은 다른 예시적인 Cas9 단백질이다. 프란시셀라 노비시다(Francisella novicida)로부터의 Cas9 (FnCas9) 또는 대안적인 PAM (E1369R/E1449H/R1556A 치환)을 인식하는 RHA 프란시셀라 노비시다 Cas9 변이체는 다른 예시적인 Cas9 단백질이다. 이들 및 다른 예시적인 Cas9 단백질은 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Cebrian-Serrano and Davies (2017) Mamm. Genome 28(7):247-261에서 검토된다. 예시적인 Cas9 단백질 서열은 서열번호 1을 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어질 수 있다. Cas9 단백질을 코딩하는 예시적인 DNA는 서열번호 2를 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어질 수 있다.

Cas 단백질의 또 다른 예는 Cpf1 (프레보텔라(Prevotella) 및 프란시셀라(Francisella) 1로부터의 CRISPR) 단백질이다. Cpf1은 Cas9의 특징적인 아르기닌-풍부 클러스터에 대한 대응물과 함께 Cas9의 상응하는 도메인에 대해 상동하는 RuvC-유사 뉴클레아제 도메인을 함유하는 큰 단백질 (약 1300개의 아미노산)이다. 그러나, Cpf1은 Cas9 단백질에 존재하는 HNH 뉴클레아제 도메인이 결여되며, RuvC-유사 도메인은, HNH 도메인을 포함하는 긴 삽입물을 함유하는 Cas9와는 대조적으로 Cpf1 서열에서 연속적이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Zetsche et al. (2015) Cell 163(3):759-771을 참고한다. 예시적인 Cpf1 단백질은 프란시셀라 툴라렌시스 1(Francisella tularensis 1), 프란시셀라 툴라렌시스 아종 노비시다(Francisella tularensis subsp. novicida), 프레보텔라 알벤시스(Prevotella albensis), 라크노스피라세아에 박테리움 MC2017 1(Lachnospiraceae bacterium MC2017 1), 부티리비브릭 프로테오클라스티쿠스(Butyrivibrio proteoclasticus), 페레그리니박테리아 박테리움 GW2011_GWA2_33_10(Peregrinibacteriabacterium GW2011_GWA2_33_10), 파르쿠박테리아 박테리움 GW2011_GWC2_44_17(Parcubacteria bacterium GW2011_GWC2_44_17), 스미텔라 종 SCADC(Smithella sp. SCADC), 아시드아미노코쿠스 종 BV3L6(Acidaminococcus sp. BV3L6), 라크노스피라세아에 박테리움 MA2020(Lachnospiraceae bacterium MA2020), 칸디다투스 메타노플라스마 테르미툼(Candidatus Methanoplasma termitum), 유박테리움 엘리겐스(Eubacterium eligens), 모락셀라 보보쿨리 237(Moraxella bovoculi 237), 렙토스피라 이나다이(Leptospira inadai), 라크노스피라세아에 박테리움 ND2006(Lachnospiraceae bacterium ND2006), 포르피로모나스 세레비오리카니스 3(Porphyromonas crevioricanis 3), 프레보텔라 디시엔스(Prevotella disiens), 및 포르피로모나스 마카카에(Porphyromonas macacae)로부터 유래된다. 프란시셀라 노비시다 U112 (FnCpf1; UniProt 수탁 번호 A0Q7Q2로 지정됨)로부터의 Cpf1은 예시적인 Cpf1 단백질이다.

Cas 단백질은 야생형 단백질 (즉, 자연에서 발생하는 것들), 변형된 Cas 단백질 (즉, Cas 단백질 변이체), 또는 야생형 또는 변형된 Cas 단백질의 단편일 수 있다. Cas 단백질은 또한 야생형 또는 변형된 Cas 단백질의 촉매 활성과 관련하여 활성 변이체 또는 단편일 수 있다. 촉매 활성과 관련하여 활성 변이체 또는 단편은 야생형 또는 변형된 Cas 단백질 또는 이의 일부분에 대해 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상 또는 그 초과의 서열 동일성을 포함할 수 있고, 여기서 활성 변이체는 원하는 분절 부위에서 절단되는 능력을 보유하며, 따라서 닉-유도 또는 이중-가닥-손상-유도 활성을 보유한다. 닉-유도 또는 이중-가닥-손상-유도 활성에 대한 검정이 알려져 있으며, 일반적으로 분절 부위를 함유하는 DNA 기질에 대한 Cas 단백질의 전체 활성 및 특이성을 측정한다.

Cas 단백질은 핵산 결합 친화도, 핵산 결합 특이성, 및 효소 활성 중 하나 이상을 증가시키거나 감소시키도록 변형될 수 있다. Cas 단백질은 또한 단백질의 임의의 다른 활성 또는 특성, 예컨대, 안정성을 변화시키도록 변형될 수 있다. 예를 들어, Cas 단백질의 하나 이상의 뉴클레아제 도메인은 변형, 결실 또는 불활성화될 수 있거나, Cas 단백질은 절삭되어, 단백질의 기능에 필수적이지 않은 도메인을 제거하거나 Cas 단백질의 활성 또는 특성을 최적화 (예컨대, 향상 또는 감소)시킬 수 있다.

변형된 Cas 단백질의 일 예는 비-특이적 DNA 접촉을 감소시키도록 설계된 변경 (N497A/R661A/Q695A/Q926A)을 보유하는 스트렙토코쿠스 피오게네스 Cas9의 고-충실도 변이체인 변형된 SpCas9-HF1 단백질이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Kleinstiver et al. (2016) Nature 529(7587):490-495를 참고한다. 변형된 Cas 단백질의 또 다른 예는 표적-외 효과를 감소시키도록 설계된 변형된 eSpCas9 변이체(K848A/K1003A/R1060A)이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Slaymaker et al. (2016) Science 351(6268):84-88을 참고한다. 다른 SpCas9 변이체는 K855A 및 K810A/K1003A/R1060A를 포함한다. 이들 및 다른 변형된 Cas 단백질은 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Cebrian-Serrano and Davies (2017) Mamm. Genome 28(7):247-261에서 검토된다. 변형된 Cas9 단백질의 또 다른 예는 xCas9이며, 이는 확장된 범위의 PAM 서열을 인식할 수 있는 SpCas9 변이체이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Hu et al. (2018) Nature 556:57-63을 참고한다.

Cas 단백질은 하나 이상의 뉴클레아제 도메인, 예컨대, DNase 도메인을 포함할 수 있다. 예를 들어, 야생형 Cpf1 단백질은 일반적으로 표적 DNA의 가닥 둘 모두를 분절하는 RuvC-유사 도메인을, 아마도 이량체 배열로 포함한다. Cas 단백질은 또한 2개 이상의 뉴클레아제 도메인, 예컨대, DNase 도메인을 포함할 수 있다. 예를 들어, 야생형 Cas9 단백질은 일반적으로 RuvC-유사 뉴클레아제 도메인 및 HNH-유사 뉴클레아제 도메인을 포함한다. RuvC 및 HNH 도메인은 각각 이중-가닥 DNA의 상이한 가닥을 절단하여, DNA에서 이중-가닥 손상을 만들 수 있다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된Jinek et al. (2012) Science 337:816-821을 참고한다.

뉴클레아제 도메인 중 하나 이상은 결실되거나 돌연변이되어, 더 이상 기능적이 아니거나 감소된 뉴클레아제 활성을 가질 수 있다. 예를 들어, 뉴클레아제 도메인 중 하나가 Cas9 단백질에서 결실되거나 돌연변이되는 경우, 생성된 Cas9 단백질은 닉카제로서 언급될 수 있고, 이중-가닥 표적 DNA 내에서 단일-가닥 손상을 생성할 수 있지만 이중-가닥 손상은 생성할 수 없다 (즉, 이는 상보적 가닥 또는 비-상보적 가닥을 분절할 수 있지만, 둘 모두는 분절할 수 없다). Cas9를 닉카제로 전환시키는 돌연변이의 예는 S. 피오게네스로부터의 Cas9의 RuvC 도메인에서의 D10A (Cas9의 위치 10에서 아스파르테이트에서 알라닌으로의) 돌연변이이다. 마찬가지로, S. 피오게네스로부터의 Cas9의 HNH 도메인의 H939A (아미노산 위치 839에서 히스티딘에서 알라닌으로), H840A (아미노산 위치 840에서 히스티딘에서 알라닌으로), 또는 N863A (아미노산 위치 N863에서 아스파라긴에서 알라닌으로)는 Cas9를 닉카제로 전환시킬 수 있다. Cas9를 닉카제로 전환시키는 돌연변이의 다른 예는 S. 써모필루스로부터의 Cas9에 대한 상응하는 돌연변이를 포함한다. 예컨대, Sapranauskas et al. (2011) Nucleic Acids Res. 39(21):9275-9282 및 WO 2013/141680을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 이러한 돌연변이는 방법, 예컨대, 부위-지정 돌연변이유발, PCR-매개 돌연변이유발 또는 전체 유전자 합성을 사용하여 생성될 수 있다. 닉카제를 생성하는 다른 돌연변이의 예는 예를 들어, WO 2013/176772 및 WO 2013/142578에서 찾아볼 수 있으며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

xCas9의 촉매 도메인에서의 불활성화 돌연변이의 예는 SpCas9에 대해 상기 기재된 것들과 동일하다. 스타필로코쿠스 아우레우스Cas9 단백질의 촉매 도메인에서의 불활성화 돌연변이의 예가 또한 알려져 있다. 예를 들어, 스타필로코쿠스 아우레우스 Cas9 효소 (SaCas9)는 위치 N580에서의 치환 (예컨대, N580A 치환)을 포함하여 닉카제를 생성할 수 있다. 대안적으로, SaCas9 효소는 위치 D10에서의 치환 (예컨대, D10A 치환)을 포함하여 닉카제를 생성할 수 있다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2016/106236을 참고한다. Nme2Cas9의 촉매 도메인에서의 불활성화 돌연변이의 예 (예컨대, D16A 및 H588A의 조합)가 또한 알려져 있다. St1Cas9의 촉매 도메인에서의 불활성화 돌연변이의 예 (예컨대, D9A, D598A, H599A, 및 N622A의 조합)가 또한 알려져 있다. St3Cas9의 촉매 도메인에서의 불활성화 돌연변이의 예 (예컨대, D10A 및 N870A의 조합)가 또한 알려져 있다. CjCas9의 촉매 도메인에서의 불활성화 돌연변이의 예 (예컨대, D8A 및 H559A의 조합)가 또한 알려져 있다. FnCas9 및 RHA FnCas9의 촉매 도메인에서의 불활성화 돌연변이의 예 (예컨대, N995A)가 또한 알려져 있다.

Cpf1 단백질의 촉매 도메인에서의 불활성화 돌연변이의 예가 또한 알려져 있다. 프란시셀라 노비시다 U112로부터의 Cpf1 단백질 (FnCpf1), 아시드아미노코쿠스 종 BV3L6으로부터의 Cpf1 단백질 (AsCpf1), 라크노스피라세아에 박테리움 ND2006으로부터의 Cpf1 단백질 (LbCpf1), 및 모락셀라 보보쿨리 237로부터의 Cpf1 단백질 (MbCpf1 Cpf1)을 참조하여, 이러한 돌연변이는 AsCpf1의 위치 908, 993 또는 1263 또는 Cpf1 오르토로그의 상응하는 위치, 또는 LbCpf1의 위치 832, 925, 947 또는 1180 또는 Cpf1 오르토로그의 상응하는 위치에서의 돌연변이를 포함할 수 있다. 이러한 돌연변이는 예를 들어, AsCpf1의 돌연변이 D908A, E993A 및 D1263A 또는 Cpf1 오르토로그에서의 상응하는 돌연변이, 또는 LbCpf1의 D832A, E925A, D947A 및 D1180A 또는 Cpf1 오르토로그에서의 상응하는 돌연변이 중 하나 이상을 포함할 수 있다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 US 2016/0208243을 참고한다.

Cas 단백질은 또한 융합 단백질로서 이종 폴리펩티드에 작동가능하게 연결될 수 있다. 예를 들어, Cas 단백질은 분절 도메인에 융합될 수 있다. 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2014/089290을 참고한다. Cas 단백질은 또한 이종 폴리펩티드에 융합되어 증가 또는 감소된 안정성을 제공할 수 있다. 융합된 도메인 또는 이종 폴리펩티드는 N-말단에, C-말단에, 또는 Cas 단백질 내에 내부적으로 위치할 수 있다.

일 예로서, Cas 단백질은 세포하 국지화를 제공하는 하나 이상의 이종 폴리펩티드에 융합될 수 있다. 이러한 이종 폴리펩티드는 예를 들어, 핵으로의 표적화를 위한 하나 이상의 핵 국지화 신호 (NLS), 예컨대, 모노파타이트(monopartite) SV40 NLS 및/또는 바이파타이트(bipartite) 알파-임포틴 NLS, 미토콘드리아로의 표적화를 위한 미토콘드리아 국지화 신호, 및 ER 잔류 신호 등을 포함할 수 있다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Lange et al. (2007) J. Biol. Chem. 282(8):5101-5105를 참고한다. 이러한 세포하 국지화 신호는 N-말단에, C-말단에, 또는 Cas 단백질 내의 어느 곳에나 위치할 수 있다. NLS는 염기성 아미노산의 스트레치를 포함할 수 있으며, 모노파타이트 서열 또는 바이파타이트 서열일 수 있다. 임의로, Cas 단백질은 N-말단에서의 NLS (예컨대, 알파-임포틴 NLS 또는 모노파타이트 NLS) 및 C-말단에서의 NLS (예컨대, SV40 NLS 및 바이파타이트 NLS)를 포함하여, 2개 이상의 NLS를 포함할 수 있다. Cas 단백질은 또한 N-말단에서 2개 이상의 NLS 및/또는 C-말단에서 2개 이상 NLS를 포함할 수 있다.

Cas 단백질은 또한 세포-침투성 도메인 또는 단백질 전달 도메인에 작동가능하게 연결될 수 있다. 예를 들어, 세포-침투성 도메인은 HIV-1 TAT 단백질, 인간 B형 간염 바이러스로부터의 TLM 세포-침투성 모티프, MPG, Pep-1, VP22, 단순 포진 바이러스로부터의 세포 침투성 펩티드, 또는 폴리아르기닌 펩티드 서열로부터 유래될 수 있다. 예컨대, WO 2014/089290 및 WO 2013/176772를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 세포-침투성 도메인은 N-말단에, C-말단에, 또는 Cas 단백질 내의 어느 곳에나 위치할 수 있다.

mRNA로서 제공된 Cas 단백질은 개선된 안정성 및/또는 면역원성 특성을 위해 변형될 수 있다. 변형은 mRNA 내의 하나 이상의 뉴클레오시드에 대해 이루어질 수 있다. mRNA 핵염기에 대한 화학적 변형의 예는 슈도우리딘, 1-메틸-슈도우리딘 및 5-메틸-시티딘을 포함한다. 예를 들어, N1-메틸 슈도우리딘을 함유하는 캡핑된 및 폴리아데닐화된 Cas mRNA가 사용될 수 있다. 마찬가지로, Cas mRNA는 동의 코돈을 사용하여 우리딘의 고갈에 의해 변형될 수 있다.

가이드 RNA. "가이드 RNA" 또는 "gRNA"는 Cas 단백질 (예컨대, Cas9 단백질)에 결합하고 Cas 단백질을 표적 DNA 내의 특이적 위치로 표적화하는 RNA 분자이다. 가이드 RNA는 2개의 세그먼트를 포함할 수 있다: "DNA-표적화 세그먼트" 및 "단백질-결합 세그먼트". "세그먼트"는 분자의 구역 또는 영역, 예컨대, RNA의 뉴클레오티드의 연속적 스트레치를 포함한다. 일부 gRNA, 예컨대, Cas9에 대한 gRNA는 다음의 2개의 별개의 RNA 분자를 포함할 수 있다: "활성화제-RNA" (예컨대, tracrRNA) 및 "타겟터-RNA(targeter-RNA)" (예컨대, CRISPR RNA 또는 crRNA). 다른 gRNA는 단일 RNA 분자 (단일 RNA 폴리뉴클레오티드)이며, 이는 또한 "단일-분자 gRNA", "단일-가이드 RNA" 또는 "sgRNA"로 불릴 수 있다. 예컨대, WO 2013/176772, WO 2014/065596, WO 2014/089290, WO 2014/093622, WO 2014/099750, WO 2013/142578, 및 WO 2014/131833을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. Cas9의 경우, 예를 들어, 단일-가이드 RNA는 (예컨대, 링커를 통해) tracrRNA에 융합된 crRNA를 포함할 수 있다. Cpf1의 경우, 예를 들어, 표적 서열에 대한 결합 및/또는 이의 분절을 달성하기 위해 crRNA만이 필요하다. 용어 "가이드 RNA" 및 "gRNA"는 이중-분자 (즉, 모듈) gRNA 및 단일-분자 gRNA 둘 모두를 포함한다.

예시적인 2-분자 gRNA는 crRNA-유사 ("CRISPR RNA" 또는 "타겟터-RNA" 또는 “crRNA” 또는 "crRNA 반복체”) 분자 및 상응하는 tracrRNA-유사 ("트랜스-작용 CRISPR RNA” 또는 "활성화제-RNA” 또는 “tracrRNA”) 분자를 포함한다. crRNA는 gRNA의 DNA-표적화 세그먼트 (단일-가닥) 및 gRNA의 단백질-결합 세그먼트의 dsRNA 듀플렉스의 절반을 형성하는 뉴클레오티드의 스트레치 (즉, crRNA 꼬리) 둘 모두를 포함한다. DNA-표적화 세그먼트의 하류 (3')에 위치한 crRNA 꼬리의 예는 GUUUUAGAGCUAUGCU (서열번호 3)를 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어진다. 본원에 개시된 DNA-표적화 세그먼트 중 임의의 것은 서열번호 3의 5' 단부에 접합되어 crRNA를 형성할 수 있다.

상응하는 tracrRNA (활성화제-RNA)는 gRNA의 단백질-결합 세그먼트의 dsRNA 듀플렉스의 다른 절반을 형성하는 뉴클레오티드의 스트레치를 포함한다. crRNA의 뉴클레오티드의 스트레치는 tracrRNA의 뉴클레오티드의 스트레치에 상보적이며 이와 혼성화하여, gRNA의 단백질-결합 도메인의 dsRNA 듀플렉스를 형성한다. 이와 같이, 각각의 crRNA는 상응하는 tracrRNA를 갖는다고 말할 수 있다. tracrRNA 서열의 예는 AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU (서열번호 4)를 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어진다. tracrRNA 서열의 다른 예는 AAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU (서열번호 12) 또는 GUUGGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC (서열번호 13)를 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어진다.

crRNA 및 tracrRNA 둘 모두가 필요한 시스템에서, crRNA 및 상응하는 tracrRNA는 혼성화되어 gRNA를 형성한다. crRNA만이 필요한 시스템에서, crRNA는 gRNA일 수 있다. crRNA는 표적 DNA의 상보적 가닥에 혼성화하는 단일-가닥 DNA-표적화 세그먼트를 추가적으로 제공한다. 세포 내에서의 변형에 사용되는 경우, 주어진 crRNA 또는 tracrRNA 분자의 정확한 서열은 RNA 분자가 사용될 종에 특이적이도록 설계될 수 있다. 예컨대, Mali et al. (2013) Science 339(6121):823-826; Jinek et al. (2012) Science 337(6096):816-821; Hwang et al. (2013) Nat. Biotechnol. 31(3):227-229; Jiang et al. (2013) Nat. Biotechnol. 31(3):233-239; 및 Cong et al. (2013) Science 339(6121):819-823을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

주어진 gRNA의 DNA-표적화 세그먼트 (crRNA)는 하기에 보다 상세하게 기재된 바와 같이, 표적 DNA의 상보적 가닥 상의 서열에 상보적인 뉴클레오티드 서열을 포함한다. gRNA의 DNA-표적화 세그먼트는 혼성화 (즉, 염기쌍 형성)를 통해 서열-특이적 방식으로 표적 DNA와 상호작용한다. 이와 같이, DNA-표적화 세그먼트의 뉴클레오티드 서열은 달라질 수 있으며, gRNA 및 표적 DNA가 상호작용할 표적 DNA 내의 위치를 결정한다. 대상 gRNA의 DNA-표적화 세그먼트는 표적 DNA 내의 임의의 원하는 서열에 혼성화하도록 변형될 수 있다. 자연 발생 crRNA는 CRISPR/Cas 시스템 및 유기체에 따라 상이하지만, 종종 21 내지 46개의 뉴클레오티드의 길이의 2개의 직접 반복체 (DR)가 플랭킹된, 21 내지 72개의 뉴클레오티드 길이의 표적화 세그먼트를 함유한다 (예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2014/131833 참고). S. 피오게네스의 경우, DR은 36개의 뉴클레오티드 길이이며, 표적화 세그먼트는 30개의 뉴클레오티드 길이이다. 3' 위치의 DR은 상응하는 tracrRNA에 상보적이며 이와 혼성화하여, 결국 Cas 단백질에 결합한다.

DNA-표적화 세그먼트는 예를 들어, 약 12, 15, 17, 18, 19, 20, 25, 30, 35, 또는 40개 이상의 뉴클레오티드의 길이를 가질 수 있다. 이러한 DNA-표적화 세그먼트는 예를 들어, 약 12 내지 약 100개, 약 12 내지 약 80개, 약 12 내지 약 50개, 약 12 내지 약 40개, 약 12 내지 약 30개, 약 12 내지 약 25개, 또는 약 12 내지 20개의 뉴클레오티드의 길이를 가질 수 있다. 예를 들어, DNA 표적화 세그먼트는 약 15 내지 약 25개의 뉴클레오티드 (예컨대, 약 17 내지 약 20개의 뉴클레오티드, 또는 약 17, 18, 19, 또는 20개의 뉴클레오티드)일 수 있다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 US 2016/0024523을 참고한다. S. 피오게네스로부터의 Cas9의 경우, 전형적인 DNA-표적화 세그먼트는 16 내지 20개의 뉴클레오티드 길이 또는 17 내지 20개의 뉴클레오티드 길이이다. S. 아우레우스로부터의 Cas9의 경우, 전형적인 DNA-표적화 세그먼트는 21 내지 23개의 뉴클레오티드 길이이다. Cpf1의 경우, 전형적인 DNA-표적화 세그먼트는 16개 이상의 뉴클레오티드 길이 또는 18개 이상의 뉴클레오티드 길이이다.

tracrRNA는 임의의 형태 (예컨대, 전장 tracrRNA 또는 활성 부분 tracrRNA) 및 다양한 길이일 수 있다. 이들은 일차 전사체 또는 가공된 형태를 포함할 수 있다. 예를 들어, (단일-가이드 RNA의 일부로서 또는 2-분자 gRNA의 일부로서의 별개의 분자로서) tracrRNA는 야생형 tracrRNA 서열의 전부 또는 일부분 (예컨대, 야생형 tracrRNA 서열의 약 20, 26, 32, 45, 48, 54, 63, 67 또는 85개 이상의 뉴클레오티드 또는 그 초과)을 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어질 수 있다. S. 피오게네스로부터의 야생형 tracrRNA 서열의 예는 171-뉴클레오티드, 89-뉴클레오티드, 75-뉴클레오티드 및 65-뉴클레오티드 버전을 포함한다. 예컨대, Deltcheva et al. (2011) Nature 471(7340):602-607; WO 2014/093661을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 단일-가이드 RNA (sgRNA) 내의 tracrRNA의 예는 sgRNA의 +48, +54, +67 및 +85 버전 내에 발견되는 tracrRNA 세그먼트를 포함하며, 여기서 "+n"은 야생형 tracrRNA의 최대 +n개의 뉴클레오티드가 sgRNA에 포함됨을 나타낸다. 모든 목적에 대해 그 전문이 본원에 참조로 원용된 US 8,697,359를 참고한다.

가이드 RNA의 DNA-표적화 세그먼트 및 표적 DNA의 상보적 가닥 사이의 상보성 퍼센트는 60% 이상 (예컨대, 65% 이상, 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 95% 이상, 97% 이상, 98% 이상, 99% 이상, 또는 100%)일 수 있다. DNA-표적화 세그먼트 및 표적 DNA의 상보적 가닥 사이의 상보성 퍼센트는 약 20개의 연속적 뉴클레오티드에 걸쳐 60% 이상일 수 있다. 예로서, DNA-표적화 세그먼트 및 표적 DNA의 상보적 가닥 사이의 상보성 퍼센트는 표적 DNA의 상보적 가닥의 5' 단부에서 14개의 연속적 뉴클레오티드에 걸쳐 100%이고 나머지에 걸쳐 0% 만큼 낮을 수 있다. 이러한 경우에, DNA-표적화 세그먼트는 14개의 뉴클레오티드 길이인 것으로 간주될 수 있다. 또 다른 예로서, DNA-표적화 세그먼트 및 표적 DNA의 상보적 가닥 사이의 상보성 퍼센트는 표적 DNA 의 상보적 가닥의 5' 단부에서 7개의 연속적 뉴클레오티드에 걸쳐 100%이고 나머지에 걸쳐 0%만큼 낮을 수 있다. 이러한 경우에, DNA-표적화 세그먼트는 7개의 뉴클레오티드 길이인 것으로 간주될 수 있다. 일부 가이드 RNA에서, DNA-표적화 세그먼트 내의 17개 이상의 뉴클레오티드는 표적 DNA의 상보적 가닥에 대해 상보적이다. 예를 들어, DNA-표적화 세그먼트는 20개의 뉴클레오티드 길이일 수 있으며, 표적 DNA의 상보적 가닥과 1, 2 또는 3개의 미스매치를 포함할 수 있다. 일 예에서, 미스매치는 프로토스페이서 인접 모티프 (PAM) 서열에 상응하는 상보적 가닥의 영역 (즉, PAM 서열의 역 상보체)에 인접하지 않는다 (예컨대, 미스매치가 가이드 RNA의 DNA-표적화 세그먼트의 5' 단부에 있거나, 미스매치가 PAM 서열에 상응하는 상보적 가닥의 영역으로부터 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 또는 19개 이상의 염기 쌍만큼 떨어져 있다).

gRNA의 단백질-결합 세그먼트는 서로에 대해 상보적인 2개의 뉴클레오티드 스트레치를 포함할 수 있다. 단백질-결합 세그먼트의 상보적 뉴클레오티드는 혼성화되어, 이중-가닥 RNA 듀플렉스 (dsRNA)를 형성한다. 대상 gRNA의 단백질-결합 세그먼트는 Cas 단백질과 상호작용하고, gRNA는 결합된 Cas 단백질을 DNA-표적화 세그먼트를 통해 표적 DNA 내의 특이적 뉴클레오티드 서열로 지시한다.

단일-가이드 RNA는 스캐폴드 서열 (즉, 가이드 RNA의 단백질-결합 또는 Cas-결합 서열)에 접합된 DNA-표적화 세그먼트를 포함할 수 있다. 예를 들어, 이러한 가이드 RNA는 5' DNA-표적화 세그먼트 및 3' 스캐폴드 서열을 가질 수 있다. 예시적인 스캐폴드 서열은 다음을 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어진다: GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCU (버전 1; 서열번호 5); GUUGGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC (버전 2; 서열번호 6); GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC (버전 3; 서열번호 7); 및GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC (버전 4; 서열번호 8). 다른 예시적인 스캐폴드 서열은 다음을 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어진다: GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU (버전 5; 서열번호 14); GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU (버전 6; 서열번호 15); 또는 GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (버전 7; 서열번호 16). 임의의 가이드 RNA 표적 서열을 표적화하는 가이드 RNA는 예를 들어, 가이드 RNA의 3' 단부 상의 예시적인 가이드 RNA 스캐폴드 서열 중 임의의 것에 융합된 가이드 RNA의 5' 단부 상의 DNA-표적화 세그먼트를 포함할 수 있다. 즉, DNA-표적화 세그먼트는 서열번호 5 내지 8 중 어느 하나의 5' 단부에 접합되어, 단일 가이드 RNA (키메라 가이드 RNA)를 형성할 수 있다. 마찬가지로, DNA-표적화 세그먼트는 서열번호 14 내지 16 중 어느 하나의 5' 단부에 접합되어, 단일 가이드 RNA (키메라 가이드 RNA)를 형성할 수 있다. 본원의 다른 곳에 개시된 바와 같은 가이드 RNA 버전 1, 2, 3 및 4는 각각 스캐폴드 버전 1, 2, 3 및 4와 접합된 DNA-표적화 세그먼트 (즉, 가이드 서열 또는 가이드)를 지칭한다. 본원의 다른 곳에 개시된 바와 같은 가이드 RNA 버전 5, 6 및 7은 각각 스캐폴드 버전 5, 6 및 7과 접합된 DNA-표적화 세그먼트 (즉, 가이드 서열 또는 가이드)를 지칭한다.

가이드 RNA는 추가적인 바람직한 특징 (예컨대, 변형된 또는 조절된 안정성; 세포하 표적화; 형광 표지로의 추적; 단백질 또는 단백질 복합체에 대한 결합 부위 등)을 제공하는 변형 또는 서열을 포함할 수 있다. 이러한 변형의 예는 예를 들어, 5' 캡 (예컨대, 7-메틸구아닐레이트 캡 (m7G)); 3' 폴리아데닐화된 꼬리 (즉, 3' 폴리(A) 꼬리); 리보스위치 서열 (예컨대, 단백질 및/또는 단백질 복합체에 의한 조절된 안정성 및/또는 조절된 접근성을 허용하기 위함); 안정성 제어 서열; dsRNA 듀플렉스 (즉, 헤어핀)를 형성하는 서열; RNA를 세포하 위치 (예컨대, 핵, 미토콘드리아 및 엽록체 등)로 표적화하는 변형 또는 서열; 추적 (예컨대, 형광 분자에 대한 직접적인 컨쥬게이션, 형광 검출을 용이하게 하는 모이어티에 대한 컨쥬게이션 및 형광 검출을 허용하는 서열 등)을 제공하는 변형 또는 서열; 단백질 (예컨대, DNA 메틸트랜스퍼라제, DNA 데메틸라제, 히스톤 아세틸트랜스퍼라제 및 히스톤 데아세틸라제 등을 비롯한 DNA에 작용하는 단백질)에 대한 결합 부위를 제공하는 변형 또는 서열; 및 이들의 조합을 포함한다. 변형의 다른 예는 조작된 스템 루프 듀플렉스 구조, 조작된 벌지 영역, 줄기 루프 듀플렉스 구조의 조작된 헤어핀 3', 또는 이들의 임의의 조합을 포함한다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 US 2015/0376586을 참고한다. 벌지는 crRNA-유사 영역 및 최소 tracrRNA-유사 영역으로 만들어진 듀플렉스 내의 뉴클레오티드의 쌍을 형성하지 않은 영역일 수 있다. 벌지는, 듀플렉스의 한 측면 상에, X가 임의의 퓨린이고 Y가 반대쪽 가닥 상의 뉴클레오티드와 워블 쌍을 형성할 수 있는 뉴클레오티드일 수 있는 쌍을 형성하지 않은 5'-XXXY-3', 및 듀플렉스의 다른 측면 상에 쌍을 형성하지 않은 뉴클레오티드 영역을 포함할 수 있다.

변형되지 않은 핵산은 분해되기 쉬울 수 있다. 외인성 핵산은 또한 선천성 면역 반응을 유도할 수 있다. 변형은 안정성을 도입하고 면역원성을 감소시키는 데 도움이 될 수 있다. 가이드 RNA는 예를 들어, 다음 중 하나 이상을 포함하는, 변형된 뉴클레오시드 및 변형된 뉴클레오티드를 포함할 수 있다: (1) 포스포디에스테르 백본 연결에서의 비-연결 포스페이트 산소 중 하나 또는 둘 모두 및/또는 연결 포스페이트 산소 중 하나 이상의 변경 또는 대체; (2) 리보스 당의 구성성분의 변경 또는 대체, 예컨대, 리보스 당 상의 2'-하이드록실의 변경 또는 대체; (3) 포스페이트 모이어티의 디포스포 링커로의 대체; (4) 자연 발생 핵염기의 변형 또는 대체; (5) 리보스-포스페이트 백본의 대체 또는 변형; (6) 올리고뉴클레오티드의 3' 단부 또는 5'-단부의 변형 (예컨대, 모이어티의 말단 포스페이트 기 또는 컨쥬게이션의 제거, 변형 또는 대체); 및 (7) 당의 변형. 다른 가능한 가이드 RNA 변형은 우라실 또는 폴리-우라실 트랙트의 변형 또는 대체를 포함한다. 예컨대, WO 2015/048577 및 US 2016/0237455를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 유사한 변형이 Cas-코딩 핵산, 예컨대, Cas mRNA에 대해 이루어질 수 있다.

일 예로서, 가이드 RNA의 5' 또는 3' 단부에서의 뉴클레오티드는 포스포로티오에이트 연결을 포함할 수 있다 (예컨대, 염기는 포스포로티오에이트 기인 변형된 포스페이트 기를 가질 수 있다). 예를 들어, 가이드 RNA는 가이드 RNA의 5' 또는 3' 단부에서의 2, 3 또는 4개의 말단 뉴클레오티드 사이의 포스포로티오에이트 연결을 포함할 수 있다. 또 다른 예로서, 가이드 RNA의 5' 및/또는 3' 단부에서의 뉴클레오티드는 2'-O-메틸 변형을 가질 수 있다. 예를 들어, 가이드 RNA는 가이드 RNA의 5' 및/또는 3' 단부 (예컨대, 5' 단부)에서의 2, 3 또는 4개의 말단 뉴클레오티드에서 2'-O-메틸 변형을 포함할 수 있다. 예컨대, WO 2017/173054 A1 및 Finn et al. (2018) Cell Rep. 22(9):2227-2235를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 구체적인 일 예에서, 가이드 RNA는 처음 3개의 5' 및 3' 말단 RNA 잔기에서 2'-O-메틸 유사체 및 3' 포스포로티오에이트 뉴클레오티드간 연결을 포함한다. 또 다른 구체적인 예에서, 가이드 RNA는 Cas9 단백질과 상호작용하지 않는 모든 2' OH 기가 2'-O-메틸 유사체로 대체되도록 변형되고, Cas9와 최소 상호작용을 갖는 가이드 RNA의 꼬리 영역은 5' 및 3' 포스포로티오에이트 뉴클레오티드간 연결로 변형된다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Yin et al. (2017) Nat. Biotech. 35(12):1179-1187을 참고한다. 변형된 가이드 RNA의 다른 예는 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2018/107028 A1에서 제공된다.

gRNA는 다양한 다른 방법에 의해 제조될 수 있다. 예를 들어, gRNA는 예를 들어, T7 RNA 폴리머라제를 사용하여 시험관내 전사에 의해 제조될 수 있다 (예컨대, WO 2014/089290 및 WO 2014/065596을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용됨). 가이드 RNA는 또한 화학적 합성에 의해 제조된 합성적으로 생산된 분자일 수 있다. 예를 들어, 가이드 RNA는 처음 3개의 5' 및 3' 말단 RNA 잔기에서 2'-O-메틸 유사체 및 3' 포스포로티오에이트 뉴클레오티드간 연결을 포함하도록 화학적으로 합성될 수 있다.

가이드 RNA 표적 서열. 가이드 RNA를 위한 표적 DNA는, 결합을 위한 충분한 조건이 존재하는 한, gRNA의 DNA-표적화 세그먼트가 결합할 DNA에 존재하는 핵산 서열을 포함한다. 적합한 DNA/RNA 결합 조건은 세포에 보통 존재하는 생리학적 조건을 포함한다. 다른 적합한 DNA/RNA 결합 조건 (예컨대, 무-세포 시스템에서의 조건)은 당업계 (예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 Molecular Cloning: A Laboratory Manual, 3rd Ed. (Sambrook et al., Harbor Laboratory Press 2001) 참고)에 알려져 있다. gRNA에 상보적이고 이와 혼성화하는 표적 DNA의 가닥은 "상보적 가닥"으로 불릴 수 있으며, "상보적 가닥"에 상보적인 (따라서, Cas 단백질 또는 gRNA에 상보적이지 않은) 표적 DNA의 가닥은 "비상보적 가닥" 또는 "주형 가닥"으로서 불릴 수 있다.

표적 DNA는 가이드 RNA가 혼성화하는 상보적 가닥 상의 서열 및 비-상보적 가닥 상의 상응하는 서열 (예컨대, 프로토스페이서 인접 모티프 (PAM)에 인접함) 둘 모두를 포함한다. 본원에 사용된 용어 "가이드 RNA 표적 서열"은 구체적으로 가이드 RNA가 상보적 가닥 상에서 혼성화하는 서열에 상응하는 비-상보적 가닥 (즉, 이의 역 상보체) 상의 서열을 지칭한다. 즉, 가이드 RNA 표적 서열은 PAM에 인접한 (예컨대, Cas9의 경우에 PAM의 상류 또는 5') 비-상보적 가닥 상의 서열을 지칭한다. 가이드 RNA 표적 서열은 가이드 RNA의 DNA-표적화 세그먼트와 등가이지만, 우라실 대신 티민을 갖는다. 일 예로서, SpCas9 효소에 대한 가이드 RNA 표적 서열은 비-상보적 가닥 상의 5'-NGG-3' PAM의 상류 서열을 지칭할 수 있다. 가이드 RNA는 표적 DNA의 상보적 가닥에 상보성을 갖도록 설계되며, 여기서 가이드 RNA의 DNA-표적화 세그먼트 및 표적 DNA의 상보적 가닥 사이의 혼성화는 CRISPR 복합체의 형성을 촉진한다. 혼성화를 유발하고 CRISPR 복합체의 형성을 촉진하기에 충분한 상보성이 있는 한, 완전한 상보성이 반드시 필요한 것은 아니다. 가이드 RNA가 가이드 RNA 표적 서열을 표적화하는 것으로서 본원에 언급되는 경우, 이는 가이드 RNA가 비-상보적 가닥 상의 가이드 RNA 표적 서열의 역 상보체인 표적 DNA의 상보적 가닥 서열에 혼성화하는 것을 의미한다.

표적 DNA 또는 가이드 RNA 표적 서열은 임의의 폴리뉴클레오티드를 포함할 수 있고, 예를 들어, 세포의 핵 또는 세포질에 또는 세포의 소기관, 예컨대, 미토콘드리아 또는 엽록체 내에 위치할 수 있다. 표적 DNA 또는 가이드 RNA 표적 서열은 세포에 대해 내인성 또는 외인성인 임의의 핵산 서열일 수 있다. 가이드 RNA 표적 서열은 유전자 생산물 (예컨대, 단백질)을 코딩하는 서열 또는 비-코딩 서열 (예컨대, 조절 서열)일 수 있거나, 둘 모두를 포함할 수 있다.

Cas 단백질에 의한 표적 DNA의 부위-특이적 결합 및 분절은 (i) 가이드 RNA 및 표적DNA의 상보적 가닥 사이의 염기-쌍 형성 상보성 및 (ii) 표적 DNA의 비-상보적 가닥에서 프로토스페이서 인접 모티프 (PAM)로 불리는 짧은 모티프 둘 모두에 의해 결정된 위치에서 발생할 수 있다. PAM은 가이드 RNA 표적 서열에 플랭킹될 수 있다. 임의로, 가이드 RNA 표적 서열은 (예컨대, Cas9의 경우) PAM에 의해 3' 단부 상에 플랭킹될 수 있다. 대안적으로, 가이드 RNA 표적 서열은 (예컨대, Cpf1의 경우) PAM에 의해 5' 단부 상에 플랭킹될 수 있다. 예를 들어, Cas 단백질의 분절 부위는 (예컨대, 가이드 RNA 표적 서열 내의) PAM 서열의 상류 또는 하류에 약 1 내지 약 10개 또는 약 2 내지 약 5개의 염기 쌍 (예컨대, 3개의 염기쌍)일 수 있다. SpCas9의 경우에, PAM 서열 (즉, 비-상보적 가닥 상)은 5'-N₁GG-3'일 수 있으며, 여기서 N₁은 임의의 DNA 뉴클레오티드이고, 여기서 PAM은 표적 DNA의 비-상보적 가닥 상의 가이드 RNA 표적 서열의 바로 3'에 있다. 이와 같이, 상보적 가닥 상의 PAM에 상응하는 서열 (즉, 역 상보체)은 5'-CCN₂-3'일 것이며, 여기서 N₂는 임의의 DNA 뉴클레오티드이고, 가이드 RNA의 DNA-표적화 세그먼트가 표적 DNA의 상보적 가닥 상에서 혼성화되는 서열의 바로 5'에 있다. 일부 이러한 경우에, N₁ 및 N₂는 상보적일 수 있으며, N₁-N₂ 염기쌍은 임의의 염기쌍 (예컨대, N₁=C 및 N₂=G; N₁=G 및 N₂=C; N₁=A 및 N₂=T; 또는 N₁=T, 및 N₂=A)일 수 있다. S. 아우레우스로부터의 Cas9의 경우에, PAM은 NNGRRT 또는 NNGRR일 수 있으며, 여기서 N은 A, G, C 또는 T일 수 있고, R은 G 또는 A일 수있다. C. 제주니로부터의 Cas9의 경우에, PAM은 예를 들어, NNNNACAC 또는 NNNNRYAC일 수 있으며, 여기서 N은 A, G, C 또는 T이고, R은 G 또는 A일 수 있다. 일부 경우에 (예컨대, FnCpf1의 경우), PAM 서열은 5' 단부의 상류일 수 있고, 서열 5'-TTN-3'을 가질 수 있다.

가이드 RNA 표적 서열의 예는 SpCas9 단백질에 의해 인식된 NGG 모티프 바로 앞의 20-뉴클레오티드 DNA 서열이다. 예를 들어, 가이드 RNA 표적 서열 + PAM의 2개의 예는 GN₁₉NGG (서열번호 9) 또는 N₂₀NGG (서열번호 10)이다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2014/165825를 참고한다. 5' 단부에서의 구아닌은 세포에서 RNA 폴리머라제에 의한 전사를 용이하게 할 수 있다. 가이드 RNA 표적 서열 + PAM의 다른 예는 시험관내에서 T7 폴리머라제에 의한 효율적인 전사를 용이하게 하기 위해 5' 단부에 2개의 구아닌 뉴클레오티드 (예컨대, GGN₂₀NGG; 서열번호 11)를 포함할 수 있다. 예컨대, 모든 목적에 대해 그 전문이 본원에 참조로 원용된 WO 2014/065596을 참고한다. 다른 가이드 RNA 표적 서열 + PAM은 5' G 또는 GG 및 3' GG 또는 NGG를 포함하는 서열번호 9 내지 11의 4 내지 22개의 뉴클레오티드 길이를 가질 수 있다. 또 다른 가이드 RNA 표적 서열 + PAM은 서열번호 9 내지 11의 14 내지 20개의 뉴클레오티드 길이를 가질 수 있다.

표적 DNA에 혼성화된 CRISPR 복합체의 형성은 가이드 RNA 표적 서열 (즉, 표적 DNA의 비-상보적 가닥 상의 가이드 RNA 표적 서열 및 가이드 RNA가 혼성화하는 상보적 가닥 상의 역 상보체)에 상응하는 영역 내에서 또는 그 근처에서 표적 DNA의 하나 또는 두 가닥의 분절을 초래할 수 있다. 예를 들어, 분절 부위는 가이드 RNA 표적 서열 내에 (예컨대, PAM 서열에 대해 정의된 위치에서) 있을 수 있다. "분절 부위"는 Cas 단백질이 단일-가닥 손상 또는 이중-가닥 손상을 생산하는 표적 DNA의 위치를 포함한다. 분절 부위는 (예컨대, 닉카제가 사용되는 경우) 단지 하나의 가닥 상에 또는 이중-가닥 DNA의 두 가닥 상에 있을 수 있다. 분절 부위는 두 가닥 상의 동일한 위치에 있을 수 있거나 (평활 단부 생산; 예컨대, Cas9), 각각의 가닥 상의 상이한 부위에 있을 수 있다 (엇갈린 단부 생산 (즉, 오버행); 예컨대, Cpf1). 예를 들어, 각각이 상이한 가닥 상의 상이한 분절 부위에서 단일-가닥 손상을 생산하여 이중-가닥 손상을 생산하는 2개의 Cas 단백질을 사용함으로써, 엇갈린 단부가 생산될 수 있다. 예를 들어, 제1 닉카제는 이중-가닥 DNA (dsDNA)의 제1 가닥 상에 단일-가닥 손상을 생성할 수 있고, 제2 닉카제는 오버행 서열이 생성되도록 dsDNA의 제2 가닥 상에 단일-가닥 손상을 생성할 수 있다. 일부 경우에, 제1 가닥 상의 닉카제의 가이드 RNA 표적 서열 또는 분절 부위는 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75, 100, 250, 500 또는 1,000개 이상의 염기쌍만큼 제2 가닥 상의 닉카제의 가이드 RNA 표적 서열 또는 분절 부위로부터 분리된다.

C. 다른 뉴클레아제 약제

임의의 다른 유형의 알려진 희귀-절단 뉴클레아제 약제가 또한 본원에 기재된 방법에 사용될 수 있다. 이러한 뉴클레아제 약제의 일 예는 전사 활성화제-유사 이펙터 뉴클레아제 (TALEN)이다. TAL 이펙터 뉴클레아제는 DNA의 특이적 표적 서열에서 이중-가닥 손상을 만드는 데 사용될 수 있는 서열-특이적 뉴클레아제의 부류이다. TAL 이펙터 뉴클레아제는 천연 또는 조작된 전사 활성화제-유사 (TAL) 이펙터, 또는 이의 기능적 부분을 엔도뉴클레아제의 촉매 도메인, 예컨대, 예를 들어, FokI에 융합시킴으로써 생성된다. 독특한 모듈형 TAL 이펙터 DNA 결합 도메인은 잠재적으로 임의의 주어진 DNA 인식 특이성을 갖는 단백질의 설계를 허용한다. 따라서, TAL 이펙터 뉴클레아제의 DNA 결합 도메인은 특이적 DNA 표적 부위를 인식하도록 조작될 수 있고, 따라서 원하는 표적 서열에서 이중-가닥 손상을 만드는데 사용될 수 있다. WO 2010/079430; Morbitzer et al. (2010) Proc. Natl. Acad. Sci. U.S.A. 107(50):21617-21622; Scholze & Boch (2010) Virulence 1:428-432; Christian et al. Genetics (2010) 186:757-761; Li et al. (2010) Nucleic Acids Res. (2010) 39(1):359-372; 및 Miller et al. (2011) Nat. Biotechnol. 29:143-148을 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

적합한 TAL 뉴클레아제의 예, 및 적합한 TAL 뉴클레아제를 제조하는 방법은 예컨대, US 2011/0239315, US 2011/0269234, US 2011/0145940, US 2003/0232410, US 2005/0208489, US 2005/0026157, US 2005/0064474, US 2006/0188987, 및 US 2006/0063231에 개시되어 있으며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

일부 TALEN에서, TALEN의 각각의 단량체는 2개의 초가변 잔기를 통해 단일 염기쌍을 인식하는 33 내지 35개의 TAL 반복체를 포함한다. TALEN은 독립적인 뉴클레아제, 예컨대, FokI 엔도뉴클레아제에 작동가능하게 연결된 TAL-반복-기반 DNA 결합 도메인을 포함하는 키메라 단백질일 수 있다. 예를 들어, 뉴클레아제 약제는 제1 TAL-반복-기반 DNA 결합 도메인 및 제2 TAL-반복-기반 DNA 결합 도메인을 포함할 수 있으며, 여기서 각각의 제1 및 제2 TAL-반복-기반 DNA 결합 도메인은 FokI 뉴클레아제에 작동가능하게 연결되고, 여기서 제1 및 제2 TAL-반복-기반 DNA 결합 도메인은 다양한 길이 (12 내지 20 bp)의 스페이서 서열에 의해 분리된 표적 DNA 서열의 각각의 가닥에서 2개의 연속적 표적 DNA 서열을 인식하고, 여기서 FoKI 뉴클레아제 서브유닛은 이량체화되어 표적 서열에서 이중 가닥 손상을 만드는 활성 뉴클레아제를 생성한다.

적합한 뉴클레아제 약제의 또 다른 예는 징크-핑거 뉴클레아제 (ZFN)이다. 일부 ZFN에서, ZFN의 각각의 단량체는 3개 이상의 징크 핑거-기반 DNA 결합 도메인을 포함하며, 여기서 각각의 징크 핑거-기반 DNA 결합 도메인은 3 bp 하위부위에 결합한다. 다른 ZFN에서, ZFN은 독립적인 뉴클레아제, 예컨대, FokI 엔도뉴클레아제에 작동가능하게 연결된 징크 핑거-기반 DNA 결합 도메인을 포함하는 키메라 단백질이다. 예를 들어, 뉴클레아제 약제는 제1 ZFN 및 제2 ZFN을 포함할 수 있으며, 여기서 각각의 제1 ZFN 및 제2 ZFN은 FokI 뉴클레아제 서브유닛에 작동가능하게 연결되고, 제1 및 제2 ZFN은 약 5 내지 7 bp 스페이서에 의해 분리된 표적 DNA 서열의 각각의 가닥에서 2개의 연속적 표적 DNA 서열을 인식하고, 여기서 FoKI 뉴클레아제 서브유닛은 이량체화되어 이중 가닥 손상을 만드는 활성 뉴클레아제를 생성한다. 예컨대, US 2006/0246567; US 2008/0182332; US 2002/0081614; US 2003/0021776; WO 2002/057308; US 2013/0123484; US 2010/0291048; WO 2011/017293; 및 Gaj et al. (2013) Trends Biotechnol., 31(7):397-405를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

또 다른 유형의 적합한 뉴클레아제 약제는 조작된 메가뉴클레아제이다. 메가뉴클레아제는 보존된 서열 모티프에 기반하여 4개의 패밀리로 분별되었고, 패밀리는 LAGLIDADG, GIY-YIG, H-N-H 및 His-Cys 박스 패밀리이다. 이들 모티프는 금속 이온의 배위 및 포스포디에스테르 결합의 가수분해에 참여한다. 메가뉴클레아제는 이들의 긴 표적 서열에 대해, 및 이들의 DNA 기질의 일부 서열 다형성을 용인하는 데 있어 주목할 만하다. 메가뉴클레아제 도메인, 구조 및 기능이 알려져 있으며, 예를 들어, Guhan and Muniyappa (2003) Crit. Rev. Biochem. Mol. Biol. 38:199-248; Lucas et al. (2001) Nucleic Acids Res. 29:960-9; Jurica and Stoddard, (1999) Cell. Mol. Life Sci. 55:1304-26; Stoddard (2006) Q. Rev. Biophys. 38:49-95; 및 Moure et al. (2002) Nat. Struct. Biol. 9:764를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 일부 예에서, 자연 발생 변이체 및/또는 조작된 유도체 메가뉴클레아제가 사용된다. 동역학, 보조인자 상호작용, 발현, 최적 조건 및/또는 표적 서열 특이성을 변형시키는 방법, 및 활성에 대한 스크리닝 방법이 알려져 있다. 예컨대, Epinat et al. (2003) Nucleic Acids Res. 31:2952-62; Chevalier et al. (2002) Mol. Cell 10:895-905; Gimble et al. (2003) Mol. Biol. 334:993-1008; Seligman et al. (2002) Nucleic Acids Res. 30:3870-9; Sussman et al. (2004) J. Mol. Biol. 342:31-41; Rosen et al. (2006) Nucleic Acids Res. 34:4791-800; Chames et al. (2005) Nucleic Acids Res. 33:e178; Smith et al. (2006) Nucleic Acids Res. 34:e149; Gruen et al. (2002) Nucleic Acids Res. 30:e29; Chen and Zhao (2005) Nucleic Acids Res. 33:e154; WO 2005/105989; WO 2003/078619; WO 2006/097854; WO 2006/097853; WO 2006/097784; 및 WO 2004/031346를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다.

예를 들어, I-SceI, I-SceII, I-SceIII, I-SceIV, I-SceV, I-SceVI, I-SceVII, I-CeuI, I-CeuAIIP, I-CreI, I-CrepsbIP, I-CrepsbIIP, I-CrepsbIIIP, I-CrepsbIVP, I-TliI, I-PpoI, PI-PspI, F-SceI, F-SceII, F-SuvI, F-TevI, F-TevII, I-AmaI, I-AniI, I-ChuI, I-CmoeI, I-CpaI, I-CpaII, I-CsmI, I-CvuI, I-CvuAIP, I-DdiI, I-DdiII, I-DirI, I-DmoI, I-HmuI, I-HmuII, I-HsNIP, I-LlaI, I-MsoI, I-NaaI, I-NanI, I-NcIIP, I-NgrIP, I-NitI, I-NjaI, I-Nsp236IP, I-PakI, I-PboIP, I-PcuIP, I-PcuAI, I-PcuVI, I-PgrIP, I-PobIP, I-PorI, I-PorIIP, I-PbpIP, I-SpBetaIP, I-ScaI, I-SexIP, I-SneIP, I-SpomI, I-SpomCP, I-SpomIP, I-SpomIIP, I-SquIP, I-Ssp6803I, I-SthPhiJP, I-SthPhiST3P, I-SthPhiSTe3bP, I-TdeIP, I-TevI, I-TevII, I-TevIII, I-UarAP, I-UarHGPAIP, I-UarHGPA13P, I-VinIP, I-ZbiIP, PI-MtuI, PI-MtuHIP PI-MtuHIIP, PI-PfuI, PI-PfuII, PI-PkoI, PI-PkoII, PI-Rma43812IP, PI-SpBetaIP, PI-SceI, PI-TfuI, PI-TfuII, PI-ThyI, PI-TliI, PI-TliII, 또는 이들의 임의의 활성 변이체 또는 단편을 포함하는 임의의 메가뉴클레아제가 사용될 수 있다.

메가뉴클레아제는 예를 들어, 12 내지 40개의 염기쌍의 이중-가닥 DNA 서열을 인식할 수 있다. 일부 경우에, 메가뉴클레아제는 게놈의 하나의 완벽하게 매칭된 표적 서열을 인식한다. 일부 메가뉴클레아제는 호밍 뉴클레아제이다. 호밍 뉴클레아제의 하나의 유형은, 예를 들어, I-SceI, I-CreI 및 I-Dmol을 포함하는 호밍 뉴클레아제의 LAGLIDADG 패밀리이다.

VIII. 선택 카세트

임의의 적합한 선택 카세트가 본원에 기재된 방법에 사용될 수 있다. 용어 선택 카세트는 선택가능한 마커를 코딩하는 핵산에 작동가능하게 연결된 하나 이상의 발현 제어 서열 (예컨대, 박테리아 세포에서의 발현을 위한 프로모터 및/또는 다른 조절 서열, 예컨대, 인핸서, 전사-후 조절 요소 및 폴리(A) 서열)을 포함하는 발현 카세트를 지칭한다. 선택 카세트는 박테리아 세포에서 선택을 허용할 수 있거나, 박테리아 및 진핵 또는 포유동물 세포 둘 모두에서 선택을 허용할 수 있다. 일 예로서, 유전자, 예컨대, 네오마이신 포스포트랜스퍼라제가 사용될 수 있다. 네오마이신 포스포트랜스퍼라제는 원핵 세포에서 카나마이신 저항성을 부여하며, 진핵 세포에서 G418 저항성을 부여한다. 이러한 유전자는 예를 들어, 진핵 프로모터 (예컨대, 진핵 포스포글리세레이트 키나제 (PGK) 프로모터) 및 원핵 프로모터 (예컨대, 원핵 EM7 프로모터)를 조합한 듀얼 프로모터 시스템과 조합하여 사용될 수 있다.

본원에 기재된 방법에 사용될 수 있는 일부 선택 카세트는 달리 박테리아 세포를 사멸시키거나 이의 성장을 억제할 항생제에 대한 저항성을 부여할 수 있다. 예를 들어, 선택 카세트는 카나마이신, 스펙티노마이신, 스트렙토마이신, 암피실린, 카베니실린, 블레오마이신, 에리트로마이신, 폴리믹신 B, 테트라사이클린 또는 클로람페니콜에 대한 저항성을 부여할 수 있다. 이러한 선택 카세트 및 이들 항생제 및 다른 것들에 대한 저항성을 부여하는 유전자는 잘-알려져 있다. 선택 카세트를 포함하는 세포는 세포를 항생제로 처리함으로써 선택될 수 있다. 항생제에 대해 저항성인 세포는 선택 카세트를 포함한다.

다른 선택 카세트는 의도된 변형을 포함하는 세포를 선택하기 위해 사용될 수 있는 리포터 유전자를 포함할 수 있다. 용어 리포터 유전자는 이종 프로모터 및/또는 인핸서 요소에 작동가능하게 연결된 리포터 유전자 서열을 포함하는 구축물이 프로모터 및/또는 인핸서 요소의 활성화에 필요한 인자를 함유하는 (또는 함유하도록 만들어질 수 있는) 세포 내로 도입될 때 용이하게 및 정량적으로 검정되는 유전자 생산물 (전형적으로 효소)을 코딩하는 서열을 갖는 핵산을 지칭한다. 리포터 유전자의 예는 형광 단백질을 코딩하는 유전자를 포함하나, 이에 제한되지 않는다. 리포터 단백질은 리포터 유전자에 의해 코딩되는 단백질을 지칭한다.

형광 리포터 단백질은 형광에 기반하여 검출가능한 리포터 단백질이되, 여기서 형광은 리포터 단백질로부터 직접적으로, 형광원성 기질 상의 리포터 단백질의 활성으로부터, 또는 형광 태깅된 화합물에 대한 결합에 대한 친화도를 갖는 단백질로부터 유래될 수 있다. 형광 단백질의 예는 녹색 형광 단백질 (예컨대, GFP, GFP-2, tagGFP, turboGFP, eGFP, 에메랄드, 아자미 그린(Azami Green), 단량체 아자미 그린, CopGFP, AceGFP 및 ZsGreenl), 황색 형광 단백질 (예컨대, YFP, eYFP, 시트린(Citrine), 비너스(Venus), YPet, PhiYFP 및 ZsYellowl), 청색 형광 단백질 (예컨대, BFP, eBFP, eBFP2, 아즈라이트(Azurite), mKalamal, GFPuv, 사파이어 및 T-사파이어), 시안 형광 단백질 (예컨대, CFP, eCFP, 세룰리안(Cerulean), CyPet, AmCyanl 및 Midoriishi-Cyan), 적색 형광 단백질 (예컨대, RFP, mKate, mKate2, mPlum, DsRed 단량체, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-단량체, HcRed-탠덤, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry 및 Jred), 주황색 형광 단백질 (예컨대, mOrange, mKO, Kusabira-Orange, 단량체성 Kusabira-Orange, mTangerine 및 tdTomato), 및 세포에서의 존재가 유세포분석법에 의해 검출될 수 있는 임의의 다른 적합한 형광 단백질을 포함한다. 형광 리포터 유전자를 포함하는 세포는 예를 들어, 유전자에 의해 코딩된 형광 리포터 단백질을 포함하는 세포를 분류함으로써 선택될 수 있다.

IX. 표적화된 변형

다양한 유형의 표적화된 유전자 변형이 본원에 기재된 방법을 사용하여 도입될 수 있다. 이러한 표적화된 유전자 변형은 예를 들어, 하나 이상의 뉴클레오티드의 삽입, 하나 이상 뉴클레오티드의 결실, 또는 하나 이상의 뉴클레오티드의 치환 (대체)을 포함할 수 있다. 이러한 삽입, 결실 또는 대체는 예를 들어, 점 돌연변이, 관심 핵산 서열 또는 이의 일부분의 녹아웃(knockout), 관심 핵산 서열 또는 이의 일부분의 녹-인(knock-in), 이종 또는 외인성 핵산 서열로의 내인성 핵산 서열의 대체, 상동 또는 병렬상동 핵산 서열로의 내인성 핵산 서열의 대체 (예컨대, 도메인 스왑(swap), 엑손 스왑, 인트론 스왑, 조절 서열 스왑 또는 유전자 스왑), 조절 요소 (예컨대, 프로모터 또는 인핸서)의 변경, 미스센스 돌연변이, 넌센스 돌연변이, 프레임-시프트 돌연변이, 절삭 돌연변이, 널 돌연변이, 또는 이들의 조합을 초래할 수 있다. 예를 들어, 1, 2, 3, 4, 5, 7, 8, 9, 10개 이상 또는 그 초과의 뉴클레오티드가 변화 (예컨대, 결실, 삽입 또는 치환)되어 표적화된 유전자 변형을 형성할 수 있다. 결실, 삽입 또는 대체는 본원의 다른 곳에 개시된 바와 같이 임의의 크기일 수 있다. 예컨대, Wang et al. (2013) Cell 153:910-918; Mandalos et al. (2012) PLOS One 7:e45768; 및 Wang et al. (2013) Nat Biotechnol. 31:530-532를 참고하며, 이들 각각은 그 전문이 본원에 참고로 원용된다.

결실, 삽입 또는 대체는 임의의 길이일 수 있다. 결실, 삽입 또는 대체된 핵산은 예를 들어, 약 1 bp 내지 약 5 bp, 약 5 bp 내지 약 10 bp, 약 10 bp 내지 약 50 bp, 약 50 bp 내지 약 100 bp, 약 100 bp 내지 약 200 bp, 약 200 bp 내지 약 300 bp, 약 300 bp 내지 약 400 bp, 약 400 bp 내지 약 500 bp, 약 500 bp 내지 약 1 kb, 약 1 kb 내지 약 5 kb, 약 5 kb 내지 약 10 kb, 약 10 kb 내지 약 20 kb, 약 20 kb 내지 약 40 kb, 약 40 kb 내지 약 60 kb, 약 60 kb 내지 약 80　kb, 약 80 kb 내지 약 100 kb, 약 100 kb 내지 약 150 kb 또는 약 150 kb 내지 약 200 kb, 약 200 kb 내지 약 300 kb, 약 300 kb 내지 약 400 kb, 또는 약 400 kb 내지 약 500 kb일 수 있다.

상기 또는 하기 인용된 모든 특허 출원, 웹사이트, 다른 공개물 및 수탁 번호 등은 각각의 개별 항목이 참조로 원용되는 것으로 구체적으로 및 개별적으로 표시된 것과 동일한 정도로 모든 목적에 대해 그 전문이 참조로 원용된다. 서열의 상이한 버전이 상이한 시점에서의 수탁 번호와 연관되는 경우, 본 출원의 유효 출원일에서의 수탁 번호와 연관된 버전을 의미한다. 유효 출원일은 적용 가능한 경우 수탁 번호를 언급하는 우선권 출원의 실제 출원일 또는 출원일의 이전의 것을 의미한다. 마찬가지로, 공개물 또는 웹사이트 등의 상이한 버전이 상이한 시점에 공개되는 경우, 달리 표시되지 않는 한, 출원의 유효 출원일에 가장 최근에 공개된 버전을 의미한다. 발명의 임의의 특징, 단계, 요소, 실시양태 또는 양태는 달리 구체적으로 표시되지 않는 한, 임의의 다른 것과 조합되어 사용될 수 있다. 본 발명이 명료성 및 이해의 목적을 위해 예시 및 실시예에 의해 일부 상세하게 기재되었지만, 특정 변화 및 변형이 첨부된 청구범위의 범주 내에서 실시될 수 있다는 것이 명백할 것이다.

서열의 간략한 설명

동봉된 서열 목록에 나열된 뉴클레오티드 및 아미노산 서열은 뉴클레오티드 염기에 대한 표준 문자 약어 및 아미노산에 대한 3-문자 코드를 사용하여 도시된다. 뉴클레오티드 서열은 서열의 5' 단부에서 시작하여 3' 단부를 향해 (즉, 각각의 라인의 좌측에서 우측으로) 전진하는 표준 관례를 따른다. 각각의 뉴클레오티드 서열의 단지 한 가닥만이 도시되지만, 상보적 가닥은 표시된 가닥에 대한 임의의 참조에 의해 포함되는 것으로 이해된다. 아미노산 서열을 코딩하는 뉴클레오티드 서열이 제공되는 경우, 동일한 아미노산 서열을 코딩하는 이의 코돈 축퇴성 변이체가 또한 제공되는 것으로 이해된다. 아미노산 서열은 서열의 아미노 말단에서 시작하여 카복시 말단을 향해 (즉, 각각의 라인의 좌측에서 우측으로) 전진하는 표준 관례를 따른다.

표 2. 서열의 설명.

실시예

실시예 1. 박테리아 상동 재조합 및 분자내 깁슨 조립를 통한 큰 표적화 벡터로의 표적화된 변형의 무흔적 도입

깁슨 조립 기술은 상동 단부를 갖는 DNA의 세그먼트를 단일 분자로 접합시킨다. 이는 최소 크기의 임의의 상보적 서열이 사용될 수 있다는 점에서 제한 효소에 의해 생성된 상보적 엇갈린 단부 사이의 전통적인 결찰과 상이하다. 제한 부위를 통한 클로닝은 일반적으로 외인성 DNA 흔적 (효소 인식 부위)의 최종 생산물로의 혼입을 초래하기 때문에, 깁슨 조립은 이음매가 없을(seamless) 수 있어 유리하다.

깁슨 조립 반응은 등온이고, 다음의 3개의 상이한 효소를 포함한다: T5 엑소뉴클레아제, DNA 폴리머라제 및 리가제. 예컨대, US 2010/0035768, US 2015/0376628, WO 2015/200334, 및 Gibson et al. (2009) Nat. Methods 6(5):343-345를 참고하며, 이들 각각은 모든 목적에 대해 그 전문이 본원에 참조로 원용된다. 반응은 T5 엑소뉴클레아제에 의한 5' 내지 3' 엑소뉴클레아제 활성으로 인해 단일-가닥 DNA 단부의 생성으로 시작한다. 이어서, 상보적 단일-가닥 단부를 갖는 DNA 단편은 단순한 염기-쌍 형성 규칙에 의해 정렬되고, DNA 폴리머라제는 5'에서 3'으로 이동하며 갭을 채운다. DNA 리가제는 최종 닉을 밀봉하며, 이음매 없는 이중-가닥 DNA 분자가 그 결과이다. 40개의 염기쌍의 상보적 단부가 효과적인 것으로 나타났고, 실제 서열은 일반적으로 중요하지 않다. 출발 단편은 PCR, 제한 또는 직접 합성에 의해 생성될 수 있다.

제한 부위 또는 다른 조작에 의해 생산된 흔적이 조절에 중요한 영역을 차지하는 경우 유전자 발현에 부정적으로 영향을 미칠 수 있기 때문에, 이음매 없는 DNA 구축물은 트랜스제닉 동물 계통을 생성할 때 특히 중요하다. 포유동물 게놈을 표적화하는 것은 종종 상동 재조합을 지시하는 긴 DNA 아암을 갖는 큰 표적화 벡터, 뿐만 아니라 배아 줄기 세포 클론의 선택을 위한 항생제 저항성 카세트의 구축을 필요로 한다. 정확하게 표적화된 클론은 저항성 카세트 자체를 언급하는 것은 아니지만, 벡터의 구축에 필요한 다중 흔적을 종종 함유한다. 유전자 절제의 경우, 이들 병변은 최후 결과 (널 대립유전자)에 문제가 되지 않을 수 있지만, 이웃 유전자에 의한 발현이 불리한 영향을 받을 가능성이 항상 있다. 녹-아웃 이외의 변형, 예컨대, 녹-인 (예컨대, 리포터 또는 돌연변이체 대립유전자)의 경우, 표적화된 유전자좌의 충실한 발현은 보통 해당 연구에 중요하다. 깁슨 조립은 이들 흔적의 일부에 대한 필요성을 없앨 수 있고, 심지어 일부 경우에 벡터 자체의 구축을 용이하게 할 수 있지만, 독특한 제한 부위가 발견되기 어려울 수 있다.

인간화, 마우스 유전자의 이의 인간 대응물로의 직접 대체는 특히 마우스 전사 기구가 새로운 대립유전자의 발현을 충실하게 복제할 수 있도록 마우스 및 인간 서열 사이의 이음매 없는 접합부를 필요로 한다. 유전자 조절에 영향을 주지 않는 비코딩 영역에서 구축 흔적 및 선택 카세트를 매립하기 위해 주의를 기울여야 한다. 동물 모델이 보다 복잡해짐에 따라, 기존의 것의 상부에 보다 많은 변형, 예컨대, 인간화된 대립유전자 상의 인간 질환-유발 돌연변이가 첨가될 수 있다. 이어서, 추가적인 변화는 훨씬 더 많은 흔적 및 또 다른 선택 카세트를 이미 고도로 조작된 마우스 유전자좌에 첨가하여, 발현이 변경되고 마우스 모델이 인간 질환에 충실하지 않을 가능성을 증가시킬 수 있다. 구축 관점으로부터, 2개의 카세트가 상이한 선택을 코딩하더라도, 공유된 카세트 요소, 예컨대, 프로모터 및 폴리(A) 신호 사이의 원하지 않는 재조합으로 인해, 하나를 이미 함유하는 벡터에 새로운 카세트를 첨가하는 것은 복잡해질 수 있다.

이들 장애물의 관점에서, 본 발명자들은 다중 변화, 예컨대, 인간화된 대립유전자 및 상부에 적층된 질환 돌연변이를 운반하는 표적화 벡터를 생성하는 것을 단순화하는 방법을 개발하였다. 이들 방법은 보다 용이한 구축을 가능하게 하고, 최종 동물 모델에 혼입된 흔적을 최소화한다.

제1 방법에서, 짧은 (<500 bp) 상동성 아암에 의해 플랭킹된 원하는 돌연변이를 운반하는 작은 DNA 조각이 합성된다. 원하는 돌연변이의 하류의 몇 개의 염기쌍인 40 내지 50개의 염기쌍 영역이 선택되고 중복되어, 저항성 카세트에 플랭킹하는 Cas9 가이드 RNA 표적 서열 또는 희귀 제한 부위에 직접 반복체를 생성한다. 이어서, 이러한 작은 구축물은 재조합공학 기술에 의해 확립된 마우스 표적화 벡터 (예컨대, 인간화 표적화 벡터, 그 자체의 저항성 카세트를 가짐)와 상동 재조합된다. 원하는 돌연변이가 혼입된 것을 확인한 후, 새로운 벡터를 희귀 절단자/Cas9 가이드로 절단하고, 카세트를 제거하고, 40 내지 50개의 염기쌍 직접 반복체를 노출시킨다. 이어서, 깁슨 조립은 분자내 반응에서 이음매 없이 손상을 밀봉한다. 생성된 표적화 벡터는 이제 원하는 돌연변이를 운반하고 인간화에 원래 존재하는 것 이외에 추가적인 흔적 또는 카세트를 운반하지 않는다.

구체적인 예에서, 본 발명자들은 인간화된 표적 유전자 1을 포함하는 표적화 구축물 (큰 표적화 벡터)에 점 돌연변이를 혼입한 대립유전자를 생성하였다. 도 1을 참고한다. 목표는 인간화된 표적 유전자 1을 포함하는 인간화된 마우스 배아 줄기 (ES) 세포를 재표적화하여 이들 인간화된 마우스 ES 세포에 점 돌연변이를 도입하는 것 대신에 점 돌연변이를 갖는 인간화된 표적화 유전자 1을 포함하는 큰 표적화 벡터를 효율적으로 및 이음매 없이 생성하는 것이었다. 초기 표적화 구축물은 출발 코돈으로부터 종결 코돈까지의 상응하는 마우스 표적 유전자 1의 마우스 게놈 서열을 대체하기 위해, 모든 인트론을 포함하는 출발 코돈으로부터 종결 코돈까지의 인간 표적 유전자1 게놈 서열을 함유하였다. 또한, 표적화 구축물의 삽입 핵산은 폴리(A) 서열의 하류에 자가-결실 하이그로마이신 저항성 카세트를 포함하였다. 이어서, 이러한 출발 인간화 벡터를, 점 돌연변이의 바로 하류에 AscI 제한 부위 및 인간 표적 유전자 1 서열의 50개의 염기쌍 직접 반복체가 플랭킹된, 점 돌연변이 및 네오마이신 저항성 카세트로 상기 기재된 바와 같이 변형시켰다. 이어서, 핵산을, 희귀 제한 부위 (AscI) 및 돌연변이가 도입될 엑손으로부터의 50 bp의 직접 반복체뿐만 아니라 상류 상동성 박스에 도입될 돌연변이를 포함하는 상류 및 하류 상동성 박스에 의해 플랭킹된 EM7 네오마이신 카세트를 포함하도록 합성하였다. 도 2를 참고한다. 네오마이신 저항성 카세트를 엑손의 중간에 삽입하여 변형을 시켰으나, 방법은 매끄럽기 때문에, 엑손이 방법의 말미에 재현되었다. 핵산은 HindIII를 이용한 분절에 의해 선형화되었고, 박테리아 상동 재조합을 사용하여 선형화된 합성 핵산을 인간화된 표적 유전자 1을 포함하는 큰 표적화 벡터에 삽입하였다. 예컨대, US 2004/0018626 및 Valenzuela et al. (2003) Nat. Biotechnol. 21(6):652-659를 참고하며, 이들 각각은 그 전문이 본원에 참조로 원용된다. 네오마이신 카세트를 AscI를 이용하여 적출하여, 네오마이신 카세트를 제거하고 직접 반복체를 노출시켰다. 이어서, 구축물을 분자내 깁슨 조립에 의해 재밀봉하였으며, 이는 직접적인 반복체를 단일 카피로 분해하여, 흔적 없이 엑손 (현재 돌연변이를 포함함)을 온전하게 두었다. 깁슨 조립 후, 반응을 다시 AscI를 이용하여 소화시켜, 깁슨 조립 동안 AscI 부위를 결실시키지 않는 임의의 것을 절단함으로써 배경을 감소시켰다. 최종 시퀀싱은 점 돌연변이의 존재 및 원래의 표적화 벡터로부터의 추가적인 변화가 없음을 확인하였다. 새롭게 변형된 벡터를 마우스 배아 줄기 세포에 전기천공하고, 양성 클론을 TAQMAN에 이어 생거 시퀀싱에 의해 식별하여 점 돌연변이의 혼입을 확인하였다.

실시예 2. 박테리아 상동 재조합 및 분자간 깁슨 조립를 통한 큰 표적화 벡터로의 표적화된 변형의 무흔적 도입

제2 방법에서, 원하는 돌연변이를 2개의 일반적인 단계로 박테리아 인공 염색체 (BAC) DNA에 도입하였다. 제1 단계에서, BAC의 관심 영역 (돌연변이의 각각의 측면 상에서 약 100 내지 200 bp에 걸친 영역)은 각각의 측면 상에서 희귀 절단자 제한 효소 부위가 플랭킹된 선택 카세트를 사용하여 박테리아 상동 재조합에 의해 결실된다. 제2 단계에서, BAC 결실은 희귀 절단자 부위에 인접한 표적화된 BAC 서열에 대해 상동인 이종 5' 및 3' 단부를 갖는 약 200 내지 500 bp의 DNA 단편을 사용하는 깁슨 조립에 의해 원하는 돌연변이된 서열로 대체되었다. 이러한 목적을 위해, 제1 단계에서의 표적화된 BAC를 희귀 절단자 효소로 소화시켜, 돌연변이된 단편에 대해 상동인 2개의 단부를 노출시킨다. 제한 효소는 또한 표적화된 BAC를 개방하여, 선택 마커를 첨가할 필요 없이 낮은 배경 반응을 허용한다. 도 3을참고한다. 이러한 방법은 예를 들어, PCR에 의해 수득될 수 없는 보다 큰 단편 (예컨대, 15 kb 또는 30 kb)이 구축물에 삽입될 필요가 있는 경우에 특히 유익하다. 예를 들어, 이러한 큰 단편은 BAC와 같은 이의 공급원으로부터 절단될 수 있고 (예컨대, CRISPR/Cas9를 사용함), 이어서 깁슨 조립을 사용하여 이러한 단편의 5' 및 3' 단부에 상동성을 운반하는 변형된 BAC를 삽입하여, 최종 표적화 구축물을 생성할 수 있다.

구체적인 예에서, 이 방법은 인간화된 표적 유전자 2를 포함하는 큰 표적화 벡터에 스플라이스 돌연변이를 도입하기 위해 사용되었다. 초기 표적화 구축물은 인트론에 자가-결실 네오마이신 저항성 카세트를 첨가하는 것을 포함하여, 출발 코돈으로부터 마지막 엑손 이전까지 마우스 표적 유전자 2의 상응하는 게놈 서열을 대체하도록 설계된, 인트론을 포함하는 야생형 표적 유전자 2 게놈 서열을 함유하였다. 이어서, 이러한 출발 인간화 벡터를, AscI 제한 부위 및 40개의 염기쌍 상동 서열이 원하는 스플라이스 돌연변이의 하류 및 상류에 플랭킹된, 하이그로마이신 저항성 카세트로 상기 기재된 바와 같이 변형시켰다. 하이그로마이신 카세트를 AscI를 이용하여 적출하고, 구축물을 희귀 절단자 부위에 인접한 표적화된 표적화 구축물 서열에 대해 상동인 이종 5' 및 3' 단부가 플랭킹된 스플라이스 돌연변이를 포함하는 DNA 단편을 이용하여 분자간 깁슨 조립에 의해 재밀봉하였다. 최종 시퀀싱은 스플라이스 돌연변이의 존재 및 원래의 표적화 벡터로부터의 추가적인 변화가 없음을 확인하였다. 새롭게 변형된 벡터를 마우스 배아 줄기 세포에 전기천공하고, 양성 클론을 TAQMAN에 이어 생거 시퀀싱에 의해 식별하여 스플라이스 돌연변이의 혼입을 확인하였다.

제3 방법에서, 박테리아 인공 염색체 (BAC)로부터의 인간 DNA 단편을 CRISPR/Cas9를 사용하여 절단한다. 이러한 인간 DNA 단편을 깁슨 조립에 의해 선택 카세트로 미리 표적화된 마우스 BAC에 융합시켰다. 희귀 절단자 제한 효소 부위는 인간 단편이 통합되는 영역에서 설계된다. 표적화된 마우스 BAC에서, 이러한 희귀 절단자 제한 부위의 각각의 측면에 40 bp의 상동성 서열이 있다. 상동성 서열은 인간 DNA 단편의 5' 및 3' 단부에 대해 상동이다. 최종 구축물은 표적화된 원래의 마우스 BAC와 동일한 항생제에서 선택된다. 새로운 선택이 최종 깁슨 조립 반응에 혼입되지 않더라도, 낮은 배경이 관찰된다. 깁슨 조립 후 희귀 제한 효소의 첨가는 배경을 낮은 수준으로 유지시킨다.

구체적인 예에서, 상기 실험은 표적 단백질 3의 엑토도메인을 코딩하는 표적 유전자 3의 영역을 포함하는 대립유전자를 마우스 표적 유전자 3에 혼입하는 것이었다. 초기 표적화 구축물은 인트론을 포함하여, 야생형 마우스 표적 유전자 3 게놈 서열을 함유하였다. 자가-결실 네오마이신 저항성 카세트를 박테리아 상동 재조합에 의해 첨가하여, 마우스 표적 유전자 3 엑토도메인-코딩 영역을 결실시켰다. 네오마이신 저항성 카세트의 상류에, 인간 단편과 상호작용할 인간 상동성의 5' 및 3' 40 bp 영역을 분리하는 SgrDI 제한 부위가 있었다. 이들 서열 모두는 이전에 기재된 박테리아 상동 재조합에 의해 혼입되었다. 32 kb 길이의 인간 DNA 단편을 CRISPR/Cas9에 의해 인간 BAC로부터 적출하여, SgrDI 소화에 의해 개방된 마우스 표적화된 BAC와의 분자내 깁슨 조립 반응을 위해 5' 및 3' 단부를 노출되게 두었다. 새롭게 변형된 벡터를 마우스 배아 줄기 세포에 전기천공하고, 양성 클론을 TAQMAN에 의해 식별하였다.

SEQUENCE LISTING <110> Regeneron Pharmaceuticals, Inc. <120> METHODS FOR SCARLESS INTRODUCTION OF TARGETED MODIFICATIONS INTO TARGETING VECTORS <130> 057766-544999 <150> US 62/829,327 <151> 2019-04-04 <160> 16 <170> PatentIn version 3.5 <210> 1 <211> 1370 <212> PRT <213> Artificial Sequence <220> <223> Synthetic <400> 1 Gly Ala Ala Ser Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr 1 5 10 15 Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser 20 25 30 Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys 35 40 45 Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala 50 55 60 Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn 65 70 75 80 Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val 85 90 95 Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu 100 105 110 Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu 115 120 125 Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys 130 135 140 Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala 145 150 155 160 Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp 165 170 175 Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val 180 185 190 Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly 195 200 205 Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg 210 215 220 Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu 225 230 235 240 Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys 245 250 255 Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp 260 265 270 Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln 275 280 285 Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu 290 295 300 Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu 305 310 315 320 Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr 325 330 335 Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu 340 345 350 Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly 355 360 365 Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu 370 375 380 Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp 385 390 395 400 Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln 405 410 415 Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe 420 425 430 Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr 435 440 445 Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg 450 455 460 Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn 465 470 475 480 Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu 485 490 495 Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro 500 505 510 Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr 515 520 525 Lys Val Lys Tyr Val Thr Glu Gly Met Lys Pro Ala Phe Leu Ser Gly 530 535 540 Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys 545 550 555 560 Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys 565 570 575 Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser 580 585 590 Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe 595 600 605 Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr 610 615 620 Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr 625 630 635 640 Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg 645 650 655 Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile 660 665 670 Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp 675 680 685 Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu 690 695 700 Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp 705 710 715 720 Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys 725 730 735 Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val 740 745 750 Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu 755 760 765 Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys 770 775 780 Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu 785 790 795 800 His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr 805 810 815 Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile 820 825 830 Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe 835 840 845 Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys 850 855 860 Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys 865 870 875 880 Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln 885 890 895 Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu 900 905 910 Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln 915 920 925 Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys 930 935 940 Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu 945 950 955 960 Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys 965 970 975 Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn 980 985 990 Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser 995 1000 1005 Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met 1010 1015 1020 Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr 1025 1030 1035 Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr 1040 1045 1050 Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn 1055 1060 1065 Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala 1070 1075 1080 Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys 1085 1090 1095 Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu 1100 1105 1110 Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp 1115 1120 1125 Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr 1130 1135 1140 Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys 1145 1150 1155 Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg 1160 1165 1170 Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly 1175 1180 1185 Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr 1190 1195 1200 Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser 1205 1210 1215 Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys 1220 1225 1230 Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys 1235 1240 1245 Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln 1250 1255 1260 His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe 1265 1270 1275 Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu 1280 1285 1290 Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala 1295 1300 1305 Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro 1310 1315 1320 Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr 1325 1330 1335 Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser 1340 1345 1350 Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly 1355 1360 1365 Gly Asp 1370 <210> 2 <211> 4104 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 2 gataagaaat actcaatagg cttagatatc ggcacaaata gcgtcggatg ggcggtgatc 60 actgatgaat ataaggttcc gtctaaaaag ttcaaggttc tgggaaatac agaccgccac 120 agtatcaaaa aaaatcttat aggggctctt ttatttgaca gtggagagac agcggaagcg 180 actcgtctca aacggacagc tcgtagaagg tatacacgtc ggaagaatcg tatttgttat 240 ctacaggaga ttttttcaaa tgagatggcg aaagtagatg atagtttctt tcatcgactt 300 gaagagtctt ttttggtgga agaagacaag aagcatgaac gtcatcctat ttttggaaat 360 atagtagatg aagttgctta tcatgagaaa tatccaacta tctatcatct gcgaaaaaaa 420 ttggtagatt ctactgataa agcggatttg cgcttaatct atttggcctt agcgcatatg 480 attaagtttc gtggtcattt tttgattgag ggagatttaa atcctgataa tagtgatgtg 540 gacaaactat ttatccagtt ggtacaaacc tacaatcaat tatttgaaga aaaccctatt 600 aacgcaagtg gagtagatgc taaagcgatt ctttctgcac gattgagtaa atcaagacga 660 ttagaaaatc tcattgctca gctccccggt gagaagaaaa atggcttatt tgggaatctc 720 attgctttgt cattgggttt gacccctaat tttaaatcaa attttgattt ggcagaagat 780 gctaaattac agctttcaaa agatacttac gatgatgatt tagataattt attggcgcaa 840 attggagatc aatatgctga tttgtttttg gcagctaaga atttatcaga tgctatttta 900 ctttcagata tcctaagagt aaatactgaa ataactaagg ctcccctatc agcttcaatg 960 attaaacgct acgatgaaca tcatcaagac ttgactcttt taaaagcttt agttcgacaa 1020 caacttccag aaaagtataa agaaatcttt tttgatcaat caaaaaacgg atatgcaggt 1080 tatattgatg ggggagctag ccaagaagaa ttttataaat ttatcaaacc aattttagaa 1140 aaaatggatg gtactgagga attattggtg aaactaaatc gtgaagattt gctgcgcaag 1200 caacggacct ttgacaacgg ctctattccc catcaaattc acttgggtga gctgcatgct 1260 attttgagaa gacaagaaga cttttatcca tttttaaaag acaatcgtga gaagattgaa 1320 aaaatcttga cttttcgaat tccttattat gttggtccat tggcgcgtgg caatagtcgt 1380 tttgcatgga tgactcggaa gtctgaagaa acaattaccc catggaattt tgaagaagtt 1440 gtcgataaag gtgcttcagc tcaatcattt attgaacgca tgacaaactt tgataaaaat 1500 cttccaaatg aaaaagtact accaaaacat agtttgcttt atgagtattt tacggtttat 1560 aacgaattga caaaggtcaa atatgttact gaaggaatgc gaaaaccagc atttctttca 1620 ggtgaacaga agaaagccat tgttgattta ctcttcaaaa caaatcgaaa agtaaccgtt 1680 aagcaattaa aagaagatta tttcaaaaaa atagaatgtt ttgatagtgt tgaaatttca 1740 ggagttgaag atagatttaa tgcttcatta ggtacctacc atgatttgct aaaaattatt 1800 aaagataaag attttttgga taatgaagaa aatgaagata tcttagagga tattgtttta 1860 acattgacct tatttgaaga tagggagatg attgaggaaa gacttaaaac atatgctcac 1920 ctctttgatg ataaggtgat gaaacagctt aaacgtcgcc gttatactgg ttggggacgt 1980 ttgtctcgaa aattgattaa tggtattagg gataagcaat ctggcaaaac aatattagat 2040 tttttgaaat cagatggttt tgccaatcgc aattttatgc agctgatcca tgatgatagt 2100 ttgacattta aagaagacat tcaaaaagca caagtgtctg gacaaggcga tagtttacat 2160 gaacatattg caaatttagc tggtagccct gctattaaaa aaggtatttt acagactgta 2220 aaagttgttg atgaattggt caaagtaatg gggcggcata agccagaaaa tatcgttatt 2280 gaaatggcac gtgaaaatca gacaactcaa aagggccaga aaaattcgcg agagcgtatg 2340 aaacgaatcg aagaaggtat caaagaatta ggaagtcaga ttcttaaaga gcatcctgtt 2400 gaaaatactc aattgcaaaa tgaaaagctc tatctctatt atctccaaaa tggaagagac 2460 atgtatgtgg accaagaatt agatattaat cgtttaagtg attatgatgt cgatcacatt 2520 gttccacaaa gtttccttaa agacgattca atagacaata aggtcttaac gcgttctgat 2580 aaaaatcgtg gtaaatcgga taacgttcca agtgaagaag tagtcaaaaa gatgaaaaac 2640 tattggagac aacttctaaa cgccaagtta atcactcaac gtaagtttga taatttaacg 2700 aaagctgaac gtggaggttt gagtgaactt gataaagctg gttttatcaa acgccaattg 2760 gttgaaactc gccaaatcac taagcatgtg gcacaaattt tggatagtcg catgaatact 2820 aaatacgatg aaaatgataa acttattcga gaggttaaag tgattacctt aaaatctaaa 2880 ttagtttctg acttccgaaa agatttccaa ttctataaag tacgtgagat taacaattac 2940 catcatgccc atgatgcgta tctaaatgcc gtcgttggaa ctgctttgat taagaaatat 3000 ccaaaacttg aatcggagtt tgtctatggt gattataaag tttatgatgt tcgtaaaatg 3060 attgctaagt ctgagcaaga aataggcaaa gcaaccgcaa aatatttctt ttactctaat 3120 atcatgaact tcttcaaaac agaaattaca cttgcaaatg gagagattcg caaacgccct 3180 ctaatcgaaa ctaatgggga aactggagaa attgtctggg ataaagggcg agattttgcc 3240 acagtgcgca aagtattgtc catgccccaa gtcaatattg tcaagaaaac agaagtacag 3300 acaggcggat tctccaagga gtcaatttta ccaaaaagaa attcggacaa gcttattgct 3360 cgtaaaaaag actgggatcc aaaaaaatat ggtggttttg atagtccaac ggtagcttat 3420 tcagtcctag tggttgctaa ggtggaaaaa gggaaatcga agaagttaaa atccgttaaa 3480 gagttactag ggatcacaat tatggaaaga agttcctttg aaaaaaatcc gattgacttt 3540 ttagaagcta aaggatataa ggaagttaaa aaagacttaa tcattaaact acctaaatat 3600 agtctttttg agttagaaaa cggtcgtaaa cggatgctgg ctagtgccgg agaattacaa 3660 aaaggaaatg agctggctct gccaagcaaa tatgtgaatt ttttatattt agctagtcat 3720 tatgaaaagt tgaagggtag tccagaagat aacgaacaaa aacaattgtt tgtggagcag 3780 cataagcatt atttagatga gattattgag caaatcagtg aattttctaa gcgtgttatt 3840 ttagcagatg ccaatttaga taaagttctt agtgcatata acaaacatag agacaaacca 3900 atacgtgaac aagcagaaaa tattattcat ttatttacgt tgacgaatct tggagctccc 3960 gctgctttta aatattttga tacaacaatt gatcgtaaac gatatacgtc tacaaaagaa 4020 gttttagatg ccactcttat ccatcaatcc atcactggtc tttatgaaac acgcattgat 4080 ttgagtcagc taggaggtga ctga 4104 <210> 3 <211> 16 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 3 guuuuagagc uaugcu 16 <210> 4 <211> 67 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 4 agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg 60 gugcuuu 67 <210> 5 <211> 77 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 5 guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60 ggcaccgagu cggugcu 77 <210> 6 <211> 82 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 6 guuggaacca uucaaaacag cauagcaagu uaaaauaagg cuaguccguu aucaacuuga 60 aaaaguggca ccgagucggu gc 82 <210> 7 <211> 76 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 7 guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60 ggcaccgagu cggugc 76 <210> 8 <211> 86 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 8 guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60 uugaaaaagu ggcaccgagu cggugc 86 <210> 9 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (2)..(21) <223> n is a, c, g, or t <400> 9 gnnnnnnnnn nnnnnnnnnn ngg 23 <210> 10 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(21) <223> n is a, c, g, or t <400> 10 nnnnnnnnnn nnnnnnnnnn ngg 23 <210> 11 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (3)..(23) <223> n is a, c, g, or t <400> 11 ggnnnnnnnn nnnnnnnnnn nnngg 25 <210> 12 <211> 72 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 12 aaacagcaua gcaaguuaaa auaaggcuag uccguuauca acuugaaaaa guggcaccga 60 gucggugcuu uu 72 <210> 13 <211> 82 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 13 guuggaacca uucaaaacag cauagcaagu uaaaauaagg cuaguccguu aucaacuuga 60 aaaaguggca ccgagucggu gc 82 <210> 14 <211> 83 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 14 guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60 ggcaccgagu cggugcuuuu uuu 83 <210> 15 <211> 80 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 15 guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60 ggcaccgagu cggugcuuuu 80 <210> 16 <211> 92 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 16 guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60 uugaaaaagu ggcaccgagu cggugcuuuu uu 92

Claims

기존의 표적화 벡터에 무흔적 표적화된 유전자 변형을 도입하는 방법으로서,
(a) 박테리아 세포 집단에서 상기 기존의 표적화 벡터 및 변형 카세트 사이의 박테리아 상동 재조합을 수행하는 단계이되,
여기서 상기 변형 카세트는 표적화된 유전자 변형을 포함하며, 상기 기존의 표적화 벡터의 5' 표적 서열에 상응하는 5' 상동성 아암 및 상기 기존의 벡터의 3' 표적 서열에 상응하는 3' 상동성 아암이 플랭킹된 삽입 핵산을 포함하며, 여기서 상기 삽입 핵산은 다음을 5'에서 3'으로 포함하는, 단계:
(i) 제1 반복 서열;
(ii) 제1 뉴클레아제 약제에 대한 제1 표적 부위;
(iii) 선택 카세트;
(iv) 제2 뉴클레아제 약제에 대한 제2 표적 부위; 및
(v) 제1 반복 서열과 동일한 제2 반복 서열;
(b) 상기 선택 카세트를 포함하는 변형된 표적화 벡터를 포함하는 박테리아 세포를 선택하는 단계;
(c) 상기 변형된 표적화 벡터의 제1 표적 부위를 상기 제1 뉴클레아제 약제로 분절하고, 상기 변형된 표적화 벡터의 제2 표적 부위를 상기 제2 뉴클레아제 약제로 분절하여, 상기 선택 카세트를 제거하고 상기 변형된 표적화 벡터의 제1 반복 서열 및 제2 반복 서열을 노출시키는 단계; 및
(d) 분자내 시험관내 조립 반응에서 상기 노출된 제1 반복 서열을 상기 노출된 제2 반복 서열과 조립하여, 상기 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터를 생성하는 단계이되,
여기서 상기 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 상기 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 존재하지 않으며, 상기 반복 서열의 단일 카피만이 상기 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 존재하는, 단계를 포함하는 것인, 방법.
제1 항에 있어서,
(I) (a) 상기 반복 서열이 기존의 표적화 벡터의 서열과 동일하거나, 또는
(b) 상기 표적화된 유전자 변형이 삽입을 포함하며, 상기 반복 서열이 삽입의 5' 단부 또는 3' 단부와 동일하고; 및/또는
(II) 상기 반복 서열이 20개 이상의 뉴클레오티드 길이인 것을 특징으로 하는 방법.
제2 항에 있어서, 상기 반복 서열이 20개의 뉴클레오티드 내지 100개의 뉴클레오티드 길이인 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
(I) 상기 변형 카세트가 선형의 이중-가닥 핵산이고; 및/또는
(II) 상기 변형 카세트가 1　kb 내지 15 kb의 길이인 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 5' 상동성 아암 및 상기 3' 상동성 아암이 각각 35개 이상의 뉴클레오티드 길이이거나, 또는 상기 5' 상동성 아암 및 상기 3' 상동성 아암이 각각 35개의 뉴클레오티드 내지 500개의 뉴클레오티드의 길이인 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 희귀-절단 뉴클레아제 약제인 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
(I) 상기 제1 표적 부위 및/또는 상기 제2 표적 부위가 기존의 표적화 벡터에 존재하지 않고; 및/또는
(II) 상기 제1 표적 부위가 상기 제2 표적 부위와 동일하며, 상기 제1 뉴클레아제 약제가 상기 제2 뉴클레아제 약제와 동일한 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 희귀-절단 제한 효소를 포함하는 것을 특징으로 하는 방법.
제8 항에 있어서, 희귀-절단 제한 효소가 NotI, XmaIII, SstII, Sall, NruI, NheI, Nb.BbvCI, BbvCI, AscI, AsiSI, FseI, PacI, PmeI, SbfI, SgrAI, SwaI, BspQI, SapI, SfiI, CspCI, AbsI, CciNI, FspAI, MauBI, MreI, MssI, PalAI, RgaI, RigI, SdaI, SfaAI, SgfI, SgrDI, SgsI, SmiI, SrfI, Sse2321, Sse83871, LguI, PciSI, AarI, AjuI, AloI, BarI, PpiI 또는 PsrI인 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 클러스터링된 규칙적으로 이격된 짧은 회문식 반복체(Clustered Regularly Interspaced Short Palindromic Repeats) (CRISPR)-연관된 (Cas) 단백질 및 가이드 RNA (gRNA), 징크 핑거 뉴클레아제 (ZFN), 전사 활성화제-유사 이펙터 뉴클레아제 (TALEN) 또는 조작된 메가뉴클레아제인을 특징으로 하는 방법.
제10 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 Cas 단백질 및 gRNA이며, 여기서 상기 Cas 단백질이 Cas9이고, 상기 gRNA가 CRISPR RNA (crRNA) 및 트랜스-활성화 CRISPR RNA (tracrRNA)를 포함하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 표적화된 유전자 변형이
(I) 5' 상동성 아암 또는 3' 상동성 아암에서의 변형, 또는
(II) 삽입 핵산에서의 변형을 포함하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 표적화된 유전자 변형이 점 돌연변이, 결실, 삽입, 대체 또는 이들의 조합을 포함하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 선택 카세트가 항생제에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제14 항에 있어서, 상기 선택 카세트가 암피실린, 클로람페니콜, 테트라사이클린, 카나마이신, 스펙티노마이신, 스트렙토마이신, 카베니실린, 블레오마이신, 에리트로마이신 또는 폴리믹신 B에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 기존의 표적화 벡터가 10 kb 이상의 길이의 큰 표적화 벡터이거나, 또는 상기 기존의 표적화 벡터가 100 kb 이상의 길이인 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 기존의 표적화 벡터가 제2 선택 카세트를 포함하는 것을 특징으로 하는 방법.
제17 항에 있어서, 상기 제2 선택 카세트가 항생제에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제18 항에 있어서, 상기 변형 카세트의 선택 카세트 및 상기 기존의 표적화 벡터의 제2 선택 카세트가 각각 상이한 항생제에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제17 항에 있어서, 상기 제2 선택 카세트가 박테리아 및 포유동물 세포 둘 모두에서의 선택을 허용하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 단계 (c)가 시험관내에서 발생하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 단계 (d)가
(i) 상기 변형된 표적화 벡터를 엑소뉴클레아제와 접촉시켜, 상기 제1 반복 서열 및 상기 제2 반복 서열 사이의 상보적 서열을 노출시키는 단계;
(ii) 상기 노출된 상보적 서열을 어닐링하는 단계;
(iii) 상기 어닐링된 상보적 서열의 3' 단부를 연장시키는 단계; 및
(iv) 상기 어닐링된 상보적 서열을 결찰시키는 단계를 포함하는 것을 특징으로 하는 방법.
제22 항에 있어서, 단계 (d)가 상기 변형된 표적화 벡터를 엑소뉴클레아제, DNA 폴리머라제 및 DNA 리가제와 함께 항온처리하는 것을 포함하는 것을 특징으로 하는 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
(e) 단계 (d)에서의 시험관내 조립 후에 상기 제1 뉴클레아제 약제 및 상기 제2 뉴클레아제 약제로 표적화 벡터를 처리하여, 상기 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 상기 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 존재하지 않음을 확인하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
기존의 표적화 벡터에 무흔적 표적화된 유전자 변형을 도입하는 방법으로서,
(a) 박테리아 세포 집단에서 상기 기존의 표적화 벡터 및 결실 카세트 사이의 박테리아 상동 재조합을 수행하는 단계이되, 여기서 상기 결실 카세트는 상기 기존의 표적화 벡터의 5' 표적 서열에 상응하는 5' 상동성 아암 및 상기 기존의 벡터의 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹된 삽입 핵산을 포함하며, 여기서 상기 5' 표적 서열 및 상기 3' 표적 서열은 상기 표적화된 유전자 변형이 도입될 기존의 표적화 벡터의 영역에 플랭킹되고, 여기서 상기 삽입 핵산은 다음을 5'에서 3'으로 포함하는, 단계:
(i) 제1 뉴클레아제 약제에 대한 제1 표적 부위;
(ii) 선택 카세트; 및
(iii) 제2 뉴클레아제 약제에 대한 제2 표적 부위;
(b) 상기 선택 카세트를 포함하는 변형된 표적화 벡터를 포함하는 박테리아 세포를 선택하는 단계;
(c) 상기 변형된 표적화 벡터의 제1 표적 부위를 제1 뉴클레아제 약제로 분절하고, 상기 변형된 표적화 벡터의 제2 표적 부위를 제2 뉴클레아제 약제로 분절하여, 선택 카세트를 제거하고 상기 변형된 표적화 벡터의 상류 단부 서열 및 하류 단부 서열을 노출시키는 단계; 및
(d) 시험관내 조립 반응에서 상기 분절된 표적화 벡터를, 상기 변형된 표적화 벡터의 상류 단부 서열과 중첩되는 상류 단부 서열 및 상기 변형된 표적화 벡터의 하류 단부 서열과 중첩하는 하류 단부 서열에 의해 플랭킹된 표적화된 유전자 변형을 포함하는 변형 카세트로 조립하여, 상기 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터를 생성하는 단계이되,
여기서 상기 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 상기 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 무흔적 표적화된 유전자 변형을 포함하는 표적화 벡터에 존재하지 않는, 단계를 포함하는 것인, 방법.
제25 항에 있어서,
(I) 상기 결실 카세트가 1 kb 내지 15 kb의 길이인 것이고, 및/또는
(II) 상기 결실 카세트가 선형의 이중-가닥 핵산인 것을 특징으로 하는 방법.
제26 항에 있어서, 상기 5' 상동성 아암 및 상기 3' 상동성 아암이 각각 35개 이상의 뉴클레오티드 길이이거나, 또는 상기 5' 상동성 아암 및 상기 3' 상동성 아암이 각각 35개의 뉴클레오티드 내지 500개의 뉴클레오티드 길이인 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 희귀-절단 뉴클레아제 약제인 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서,
(I) 상기 제1 표적 부위 및/또는 상기 제2 표적 부위가 상기 기존의 표적화 벡터에 존재하지 않고; 및/또는
(II) 상기 제1 표적 부위가 상기 제2 표적 부위와 동일하고, 상기 제1 뉴클레아제 약제가 상기 제2 뉴클레아제 약제와 동일한 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 희귀-절단 제한 효소를 포함하는 것을 특징으로 하는 방법.
제30 항에 있어서, 상기 희귀-절단 제한 효소가 NotI, XmaIII, SstII, Sall, NruI, NheI, Nb.BbvCI, BbvCI, AscI, AsiSI, FseI, PacI, PmeI, SbfI, SgrAI, SwaI, BspQI, SapI, SfiI, CspCI, AbsI, CciNI, FspAI, MauBI, MreI, MssI, PalAI, RgaI, RigI, SdaI, SfaAI, SgfI, SgrDI, SgsI, SmiI, SrfI, Sse2321, Sse83871, LguI, PciSI, AarI, AjuI, AloI, BarI, PpiI 또는 PsrI인 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 클러스터링된 규칙적으로 이격된 짧은 회문식 반복체 (CRISPR)-연관된 (Cas) 단백질 및 가이드 RNA (gRNA), 징크 핑거 뉴클레아제 (ZFN), 전사 활성화제-유사 이펙터 뉴클레아제 (TALEN) 또는 조작된 메가뉴클레아제인 것을 특징으로 하는 방법.
제32 항에 있어서, 상기 제1 뉴클레아제 약제 및/또는 상기 제2 뉴클레아제 약제가 Cas 단백질 및 gRNA이며, 여기서 상기 Cas 단백질이 Cas9이고, 상기 gRNA가 CRISPR RNA (crRNA) 및 트랜스-활성화 CRISPR RNA (tracrRNA)를 포함하는 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 선택 카세트가 항생제에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제34 항에 있어서, 상기 선택 카세트가 암피실린, 클로람페니콜, 테트라사이클린, 카나마이신, 스펙티노마이신, 스트렙토마이신, 카베니실린, 블레오마이신, 에리트로마이신 또는 폴리믹신 B에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 기존의 표적화 벡터가 10 kb 이상의 길이인 큰 표적화 벡터이거나, 또는 상기 기존의 표적화 벡터가 100 kb 이상의 길이인 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 기존의 표적화 벡터가 제2 선택 카세트를 포함하는 것을 특징으로 하는 방법.
제37 항에 있어서, 상기 제2 선택 카세트가 항생제에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제38 항에 있어서, 상기 결실 카세트의 선택 카세트 및 상기 기존의 표적화 벡터의 제2 선택 카세트가 각각 상이한 항생제에 대한 저항성을 부여하는 것을 특징으로 하는 방법.
제37 항에 있어서, 상기 제2 선택 카세트가 박테리아 및 포유동물 세포 둘 모두에서의 선택을 허용하는 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 변형 카세트의 상류 단부 서열 및 상기 변형된 표적화 벡터의 상류 단부 서열 사이의 중첩의 길이 및/또는 상기 변형 카세트의 하류 단부 서열 및 상기 변형된 표적화 벡터의 하류 단부 서열 사이의 중첩의 길이가 20개 이상의 뉴클레오티드 길이이거나, 또는
상기 변형 카세트의 상류 단부 서열 및 상기 변형된 표적화 벡터의 상류 단부 서열 사이의 중첩의 길이 및/또는 상기 변형 카세트의 하류 단부 서열 및 상기 변형된 표적화 벡터의 하류 단부 서열 사이의 중첩의 길이가 20 내지 100개의 뉴클레오티드 길이인 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 단계 (c)가 시험관내에서 발생하는 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 단계 (d)가
(i) 상기 분절된 표적화 벡터 및 상기 변형 카세트를 엑소뉴클레아제와 접촉시켜, 상기 변형된 표적화 벡터의 단부 서열 및 상기 변형 카세트의 단부 서열 사이의 상보적 서열을 노출시키는 단계;
(ii) 상기 노출된 상보적 서열을 어닐링하는 단계;
(iii) 상기 어닐링된 상보적 서열의 3' 단부를 연장시키는 단계; 및
(iv) 상기 어닐링된 상보적 서열을 결찰시키는 단계를 포함하는 것을 특징으로 하는 방법.
제43 항에 있어서, 단계 (d)가 상기 분절된 표적화 벡터 및 상기 변형 카세트를 엑소뉴클레아제, DNA 폴리머라제 및 DNA 리가제와 함께 항온처리하는 것을 포함하는 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서,
(I) 상기 변형 카세트가 선형의 이중-가닥 핵산이고;
(II) 상기 변형 카세트가 200개 이상의 뉴클레오티드 길이이고; 및/또는
(III) 상기 변형 카세트가 폴리머라제 연쇄 반응에 의해 직접 합성되거나 생성될 수 없는 크기인 것을 특징으로 하는 방법.
제45 항에 있어서, 상기 변형 카세트가 10 kb 이상의 길이인 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서, 상기 표적화된 유전자 변형이 점 돌연변이, 결실, 삽입, 대체 또는 이들의 조합을 포함하는 것을 특징으로 하는 방법.
제25 항 내지 제27 항 중 어느 한 항에 있어서,
(e) 단계 (d)에서의 시험관내 조립 후에 상기 제1 뉴클레아제 약제 및 상기 제2 뉴클레아제 약제로 표적화 벡터를 처리하여, 상기 제1 뉴클레아제 약제에 대한 제1 표적 부위 및 상기 제2 뉴클레아제 약제에 대한 제2 표적 부위 중 어느 것도 존재하지 않음을 확인하는 것인, 단계를 추가로 포함하는 것을 특징으로 하는 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제