CN113366108B

CN113366108B - 新颖启动子序列及其增强芽孢杆菌属细胞蛋白生产的方法

Info

Publication number: CN113366108B
Application number: CN201980090475.5A
Authority: CN
Inventors: S·I·R·斯塔布斯; C·邦焦尔尼; R·L·弗里施; C·莱夫朗
Original assignee: Danisco US Inc
Current assignee: Danisco US Inc
Priority date: 2018-11-28
Filing date: 2019-11-25
Publication date: 2024-11-22
Anticipated expiration: 2039-11-25
Also published as: JP2022509215A; US11781147B2; EP3887526A1; US20220010319A1; KR20210096629A; CN113366108A; WO2020112609A1

Abstract

本公开总体上涉及新颖的启动子序列及其用于在芽孢杆菌属物种(宿主)细胞中进行增强的蛋白生产的方法。如本文所述，当本公开的新颖的启动子序列有效地连接到编码目的蛋白的基因或可读框时，它们特别适合用于工业相关蛋白的大规模生产。

Description

新颖启动子序列及其增强芽孢杆菌属细胞蛋白生产的方法

技术领域

本公开总体上涉及细菌学、微生物学、分子生物学、遗传学、酶学、工业蛋白生产等领域。更特别地，本公开的某些实施例涉及新颖的启动子序列及其用于在芽孢杆菌属物种(Bacillus sp.)(宿主)细胞中获得增强的蛋白生产表型的方法。如本文所述，当本公开的新颖的启动子序列有效地连接到编码目的蛋白的基因(或可读框)时，它们特别适合用于工业相关蛋白的大规模生产。

相关申请的交叉引用

本申请要求于2018年11月28日提交的美国临时专利申请号62/772,363的权益，将所述申请通过援引以其全文并入本文。

序列表的引用

命名为“NB41318-WO-PCT_SequenceListing.txt”的文本文件序列表的电子提交的内容创建于2019年11月21日，并且大小为176KB，将其通过援引以其全文特此并入。

背景技术

枯草芽孢杆菌(Bacillus subtilis)、地衣芽孢杆菌(B.licheniformis)、解淀粉芽孢杆菌(B.amyloliquefaciens)等革兰氏阳性细菌具有优异的发酵特性和高产率(例如，高达25克/升培养物；Van Dijl和Hecker,2013)，因此常用作用于生产工业相关蛋白的微生物工厂。例如，枯草芽孢杆菌因其生产食品、纺织品、洗衣、医疗/牙科器械(清洁)、膜(清洁)、制药工业等所必需的α-淀粉酶(Jensen等人,2000；Raul等人,2014)和蛋白酶(Brode等人,1996)而为人熟知(Westers等人,2004)。由于这些非致病性革兰氏阳性细菌产生完全不含毒性副产物(例如脂多糖(LPS)，也称为内毒素)的蛋白，因此它们已经获得了欧洲食品安全局的“安全资格认定”(QPS)状态，并且其许多产品获得了美国食品和药品管理局的“通常认为安全”(GRAS)状态(Olempska-Beer等人,2006；Earl等人,2008；Caspers等人,2010)。

因此，微生物宿主细胞中蛋白(例如，酶、抗体、受体、肽等)的生产在生物技术领域中是特别有意义的。同样，用于生产和/或分泌一种或多种目的蛋白的宿主细胞的优化具有高度相关性，特别是在如下工业生物技术环境中，其中当蛋白以大的工业产量生产时所述蛋白产率的微小改善具有重大意义。更特别地，地衣芽孢杆菌和枯草芽孢杆菌是具有高工业重要性的示例性芽孢杆菌属物种(宿主)细胞，因此，对于构建新的和改善的芽孢杆菌属物种生产菌株，高度希望具有遗传修饰和工程化此类宿主细胞以获得增强的/增加的蛋白表达/生产的能力。

例如，由基因(或可读框(ORF))编码的目的蛋白(例如，酶)的重组生产通常通过构建表达盒(即，适用于给定宿主细胞的构建体/载体/盒)来完成，其中编码目的蛋白的多核苷酸(序列)置于启动子(核酸)序列下游(3′)并有效地连接到所述启动子(核酸)序列。因此，启动子序列置于基因(或ORF)上游(5′)并有效地连接到所述基因(或ORF)，所述基因(或ORF)位于启动子序列下游(3′)(即，以有效组合)。

同样，通过各种技术(例如，转化)将表达盒引入宿主细胞中，其中所需目的蛋白(POI)的表达/生产可通过在表达/生产所述POI所需的合适条件下培养所述(转化的)宿主细胞来实现。例如，国际PCT公开号WO 2013/086219总体上公开了启动子、表达载体、微生物、以及用于生产编码目的蛋白的多核苷酸的方法，所述多核苷酸包含衍生自枯草芽孢杆菌的核糖体启动子。

虽然用于在宿主细胞中表达基因的许多启动子是公知的，但本领域对新颖的启动子(核酸)序列仍然存在持续且未满足的需求。更特别地，此类持续且未满足的需求包括但不限于新颖的启动子(核酸)序列的鉴定、其增强的启动子功能、其增加的启动子活性、增强的蛋白生产表型等。如下文所呈现、描述和示例说明的，本公开涉及对于获得新颖的启动子序列并构建包含增强的蛋白生产表型等的其芽孢杆菌属物种宿主细胞(例如，蛋白生产(宿主)细胞、细胞工厂)的此类高度希望和未满足的需求。

发明内容

本公开总体上涉及用于生产和构建具有增加的蛋白生产表型等的芽孢杆菌属物种细胞(例如，蛋白生产宿主细胞、细胞工厂)的组合物和方法。更特别地，本公开的某些实施例涉及新颖的启动子(核酸)序列、包含此类新颖的启动子的表达盒及其经修饰的芽孢杆菌属物种(子代)细胞，所述细胞包含增强的蛋白生产力表型。

因此，本公开的某些实施例是相关的启动子核酸序列。在某些实施例中，启动子核酸序列包含与SEQ ID NO:39至少90％的序列同一性并且包含选自由以下组成的组的至少一个突变：在SEQ ID NO:39的核苷酸位置30处的胸腺嘧啶(T)、在SEQ ID NO:39的核苷酸位置89处的胸腺嘧啶(T)、在SEQ ID NO:39的核苷酸位置90处的鸟嘌呤(G)、和在SEQ ID NO:39的核苷酸位置91处的胸腺嘧啶(T)。在其他实施例中，本公开的启动子核酸序列包含选自由以下组成的组的至少两个突变：在SEQ ID NO:39的核苷酸位置30处的T、在SEQ ID NO:39的核苷酸位置89处的T、在SEQ ID NO:39的核苷酸位置90处的G、和在SEQ ID NO:39的核苷酸位置91处的T。在其他实施例中，启动子核酸序列包含选自由以下组成的组的至少三个突变：在SEQ ID NO:39的核苷酸位置30处的T、在SEQ ID NO:39的核苷酸位置89处的T、在SEQID NO:39的核苷酸位置90处的G、和在SEQ ID NO:39的核苷酸位置91处的T。在某些其他实施例中，启动子核酸序列包含至少四个突变，所述突变包含在SEQ ID NO:39的核苷酸位置30处的T、在SEQ ID NO:39的核苷酸位置89处的T、在SEQ ID NO:39的核苷酸位置90处的G、和在SEQ ID NO:39的核苷酸位置91处的T。在其他实施例中，启动子核酸序列包含SEQ IDNO:40。在其他实施例中，本公开的启动子核酸序列包含位于所述启动子下游(3′)并有效地连接到所述启动子的编码目的蛋白(POI)的基因或可读框(ORF)。在某些实施例中，目的蛋白(POI)是酶。在其他实施例中，酶是水解酶。在又其他实施例中，启动子序列包含位于上游(5′)并有效地连接到其的一个或多个核苷酸。在某些实施例中，启动子序列有效地连接到(3′)下游天然aprE 5′-UTR序列或其经修饰的aprE 5′-UTR序列。在某些实施例中，天然aprE 5′-UTR序列包含SEQ ID NO:85。

因此，本公开的某些其他实施例涉及包含SEQ ID NO:40、SEQ ID NO:58、或SEQ IDNO:59的启动子核酸序列。在特定的实施例中，包含SEQ ID NO:40、SEQ ID NO:58、或SEQ IDNO:59的启动子核酸序列还包含位于启动子下游(3′)并有效地连接到所述启动子的编码目的蛋白(POI)的基因或ORF。在某些实施例中，POI是酶。在其他实施例中，酶是水解酶。在另一实施例中，包含SEQ ID NO:40、SEQ ID NO:58、或SEQ ID NO:59的启动子核酸序列还包含位于上游(5′)并有效地连接到其的一个或多个核苷酸。在另一实施例中，包含SEQ ID NO:40、SEQ ID NO:58、或SEQ ID NO:59的启动子核酸序列有效地连接到(3′)下游天然aprE5′-UTR序列或其经修饰的aprE 5′-UTR序列。在另一实施例中，天然aprE 5′-UTR序列包含SEQ ID NO:85。

本公开的某些其他实施例涉及一种多核苷酸序列，其在严格杂交条件下与SEQ IDNO:60杂交，其中进行杂交的所述多核苷酸序列在选自30、89、90、或91的核苷酸位置处包含至少一个突变，所述核苷酸位置是相对于SEQ ID NO:39的等同核苷酸位置30、89、90、或91而言。在某些实施例中，在严格杂交条件下进行杂交的多核苷酸序列包含SEQ ID NO:40。在另一实施例中，在严格杂交条件下进行杂交的多核苷酸序列包含SEQ ID NO:58。在其他实施例中，在严格杂交条件下进行杂交的多核苷酸序列包含SEQ ID NO:59。在某些其他实施例中，在严格杂交条件下与SEQ ID NO:60杂交的多核苷酸序列还包含位于启动子下游(3′)并有效地连接到所述启动子的编码目的蛋白(POI)的基因或ORF。在某些实施例中，POI是酶。在其他实施例中，酶是水解酶。在其他实施例中，多核苷酸还包含位于上游(5′)并有效地连接到其的一个或多个核苷酸。在某些其他实施例中，在严格杂交条件下与SEQ ID NO:60杂交的多核苷酸序列有效地连接到(3′)下游天然aprE 5′-UTR序列或其经修饰的aprE5′-UTR序列。在特定的实施例中，天然aprE 5′-UTR序列包含SEQ ID NO:85。

因此，某些其他实施例涉及包含本文公开的新颖的启动子序列的经遗传修饰的芽孢杆菌属物种细胞。某些其他实施例涉及包含本文公开的新颖的多核苷酸序列的经遗传修饰的芽孢杆菌属物种细胞。其他实施例涉及包含本公开的新颖的启动子的表达盒或包含本公开的新颖的多核苷酸的表达盒。又其他实施例涉及包含本公开的表达盒的经修饰的芽孢杆菌属物种细胞。

因此，某些其他实施例涉及一种突变的枯草芽孢杆菌细胞，其包含在严格杂交条件下与SEQ ID NO:60杂交的启动子核酸序列，其中突变的启动子序列在选自30、89、90、或91的核苷酸位置处包含至少一个突变，所述核苷酸位置是相对于SEQ ID NO:39的等同核苷酸位置30、89、90、或91而言。

在其他实施例中，本公开涉及一种启动子区核酸序列，其包含有效地连接到(3′)下游5′-UTR序列的(5′)上游启动子序列，其中所述启动子序列包含与SEQ ID NO:82至少90％的序列同一性并且包含在SEQ ID NO:82的核苷酸位置72处的胸腺嘧啶(T)、在SEQ IDNO:82的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:82的核苷酸位置74处的胸腺嘧啶(T)。在某些实施例中，启动子区核酸序列包含天然5′-UTR序列或经修饰的5′-UTR序列。在某些实施例中，5′-UTR序列是SEQ ID NO:84的天然amyL 5′-UTR序列、或其变体amyL 5′-UTR序列。在另一实施例中，启动子区核酸序列包含SEQ ID NO:85的天然aprE 5′-UTR序列、或其变体aprE 5′-UTR序列。

因此，其他实施例涉及包含SEQ ID NO:65的启动子区核酸序列。另一实施例涉及包含SEQ ID NO:67的启动子区核酸序列。在另一实施例中，包含SEQ ID NO:65的启动子区核酸序列还包含位于启动子区下游(3′)并有效地连接到所述启动子区的编码目的蛋白(POI)的基因或可读框(ORF)。在某些实施例中，POI是酶。在另一实施例中，酶是水解酶。在其他实施例中，启动子区序列还包含位于上游(5′)并有效地连接到其的一个或多个核苷酸。

在某些其他实施例中，本公开涉及一种经修饰的地衣芽孢杆菌amyL启动子，其衍生自包含SEQ ID NO:82的核苷酸序列的天然地衣芽孢杆菌amyL启动子，其中所述经修饰的启动子包含与SEQ ID NO:82至少90％的序列同一性并且包含在SEQ ID NO:82的核苷酸位置72处的胸腺嘧啶(T)、在SEQ ID NO:82的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:82的核苷酸位置74处的胸腺嘧啶(T)。在另一实施例中，经修饰的amyL启动子包含位于启动子下游(3′)并有效地连接到所述启动子的编码目的蛋白(POI)的基因或可读框(ORF)。在特定的实施例中，POI是酶。在其他实施例中，酶是水解酶。在另一实施例中，启动子还包含位于上游(5′)并有效地连接到其的一个或多个核苷酸。

因此，某些其他实施例涉及在严格杂交条件下与SEQ ID NO:65的多核苷酸序列或其互补序列杂交的多核苷酸序列。因此，其他实施例涉及在严格杂交条件下与SEQ ID NO:67或其互补序列杂交的多核苷酸序列。另一实施例涉及在严格杂交条件下与SEQ ID NO:83或其互补序列杂交的多核苷酸序列。

其他实施例涉及包含本公开的新颖的启动子区的经修饰的芽孢杆菌属物种细胞。

某些实施例涉及包含SEQ ID NO:83的经修饰的启动子的经修饰的芽孢杆菌属物种细胞。

因此，某些其他实施例涉及包含本公开的新颖的启动子区的表达盒。在某些实施例中，表达盒包含经修饰的地衣芽孢杆菌amyL启动子。

因此，本公开的某些其他实施例涉及用于在经修饰的芽孢杆菌属物种细胞中进行增强的蛋白生产的方法，所述方法包括：(a)将多核苷酸表达盒引入亲本芽孢杆菌属物种细胞中，其中所述表达盒包含位于编码目的蛋白(POI)的基因或可读框(ORF)上游(5′)并有效地连接到其的启动子序列，其中所述启动子包含与SEQ ID NO:39至少90％的同一性并且包含选自由以下组成的组的至少一个修饰：在SEQ ID NO:39的核苷酸位置30处的T、在SEQ IDNO:39的核苷酸位置89处的T、在SEQ ID NO:39的核苷酸位置90处的G、和在SEQ ID NO:39的核苷酸位置91处的T；(b)从步骤(a)分离包含所述引入的表达构建体的经修饰的细胞；以及(c)在适于产生所述POI的条件下发酵步骤(b)的经修饰的细胞，其中相对于等同芽孢杆菌属物种细胞，步骤(c)的经修饰的细胞产生增加量的POI，所述等同芽孢杆菌属物种细胞包含多核苷酸表达盒，所述多核苷酸表达盒包含位于编码相同POI的相同基因或ORF的上游(5′)并有效地连接到所述编码相同POI的相同基因或ORF的启动子序列，其中所述启动子包含SEQ ID NO:39。在某些实施例中，启动子包含选自由以下组成的组的至少两个突变：在SEQ ID NO:39的核苷酸位置30处的T、在SEQ ID NO:39的核苷酸位置89处的T、在SEQ IDNO:39的核苷酸位置90处的G、和在SEQ ID NO:39的核苷酸位置91处的T。在其他实施例中，启动子包含选自由以下组成的组的至少三个突变：在SEQ ID NO:39的核苷酸位置30处的T、在SEQ ID NO:39的核苷酸位置89处的T、在SEQ ID NO:39的核苷酸位置90处的G、和在SEQID NO:39的核苷酸位置91处的T。在另一实施例中，启动子包含至少四个突变，所述突变包含在SEQ ID NO:39的核苷酸位置30处的T、在SEQ ID NO:39的核苷酸位置89处的T、在SEQID NO:39的核苷酸位置90处的G、和在SEQ ID NO:39的核苷酸位置91处的T。在所述方法的其他实施例中，POI是酶。在所述方法的另一实施例中，酶是水解酶。在所述方法的另一实施例中，启动子还包含位于上游(5′)并有效地连接到其的一个或多个核苷酸。在某些实施例中，启动子序列有效地连接到(3′)下游天然aprE 5′-UTR序列或其经修饰的aprE 5′-UTR序列。在所述方法的其他实施例中，天然aprE 5′-UTR序列包含SEQ ID NO:85。

本公开的某些其他实施例涉及用于在经修饰的芽孢杆菌属物种细胞中进行增强的蛋白生产的方法，所述方法包括：(a)将多核苷酸表达盒引入亲本芽孢杆菌属物种细胞中，其中所述表达盒包含上游启动子区，所述上游启动子区包含与SEQ ID NO:65至少90％的序列同一性并且具有在SEQ ID NO:65的核苷酸位置72处的胸腺嘧啶(T)、在SEQ ID NO:65的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:65的核苷酸位置74处的胸腺嘧啶(T)，其中所述上游启动子区有效地连接到编码目的蛋白(POI)的基因或可读框(ORF)；(b)从步骤(a)分离包含所述引入的表达盒的经修饰的细胞；以及(c)在适于产生所述POI的条件下发酵步骤(b)的经修饰的细胞，其中相对于等同芽孢杆菌属物种细胞，步骤(c)的经修饰的细胞产生增加量的POI，所述等同芽孢杆菌属物种细胞包含含有上游启动子区的引入的多核苷酸表达盒，所述上游启动子区包含与SEQ ID NO:65至少90％的序列同一性并且具有在SEQ ID NO:65的核苷酸位置72处的腺嘌呤(A)、在SEQ ID NO:65的核苷酸位置73处的胸腺嘧啶(T)、和在SEQ ID NO:65的核苷酸位置74处的鸟嘌呤(G)，其中所述上游启动子区有效地连接到编码相同POI的相同基因或ORF。在所述方法的某些实施例中，POI是酶。在其他实施例中，酶是水解酶。

在另一实施例中，本公开涉及用于在经修饰的芽孢杆菌属物种细胞中进行增强的蛋白生产的方法，所述方法包括：(a)将多核苷酸表达盒引入亲本芽孢杆菌属物种细胞中，其中所述表达盒包含上游启动子区，所述上游启动子区包含与SEQ ID NO:67至少90％的序列同一性并且具有在SEQ ID NO:65的核苷酸位置72处的胸腺嘧啶(T)、在SEQ ID NO:65的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:65的核苷酸位置74处的胸腺嘧啶(T)，其中所述上游启动子区有效地连接到编码目的蛋白(POI)的基因或可读框(ORF)；(b)从步骤(a)分离包含所述引入的表达盒的经修饰的细胞；以及(c)在适于产生所述POI的条件下发酵步骤(b)的经修饰的细胞，其中相对于等同芽孢杆菌属物种细胞，步骤(c)的经修饰的细胞产生增加量的POI，所述等同芽孢杆菌属物种细胞包含含有上游启动子区的引入的多核苷酸表达盒，所述上游启动子区包含与SEQ ID NO:67至少90％的序列同一性并且具有在SEQ IDNO:65的核苷酸位置72处的腺嘌呤(A)、在SEQ ID NO:65的核苷酸位置73处的胸腺嘧啶(T)、和在SEQ ID NO:65的核苷酸位置74处的鸟嘌呤(G)，其中所述上游启动子区有效地连接到编码相同POI的相同基因或ORF。在所述方法的某些实施例中，POI是酶。在其他实施例中，酶是水解酶。

在另一实施例中，本公开涉及用于在经修饰的芽孢杆菌属物种细胞中进行增强的蛋白生产的方法，所述方法包括：(a)将多核苷酸表达盒引入亲本芽孢杆菌属物种细胞中，其中所述表达盒包含上游启动子，所述上游启动子包含与SEQ ID NO:83至少90％的序列同一性并且具有在SEQ ID NO:83的核苷酸位置72处的胸腺嘧啶(T)、在SEQ ID NO:83的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:83的核苷酸位置74处的胸腺嘧啶(T)，其中所述上游启动子有效地连接到编码目的蛋白(POI)的基因或可读框(ORF)；(b)从步骤(a)分离包含所述引入的表达盒的经修饰的细胞；以及(c)在适于产生所述POI的条件下发酵步骤(b)的经修饰的细胞，其中相对于等同芽孢杆菌属物种细胞，步骤(c)的经修饰的细胞产生增加量的POI，所述等同芽孢杆菌属物种细胞包含含有上游启动子的引入的多核苷酸表达盒，所述上游启动子包含与SEQ ID NO:83至少90％的序列同一性并且具有在SEQ ID NO:83的核苷酸位置72处的腺嘌呤(A)、在SEQ ID NO:83的核苷酸位置73处的胸腺嘧啶(T)、和在SEQID NO:83的核苷酸位置74处的鸟嘌呤(G)，其中所述上游启动子有效地连接到编码相同POI的相同基因或ORF。在所述方法的某些实施例中，POI是酶。在其他实施例中，酶是水解酶。

附图说明

图1呈现了天然枯草芽孢杆菌rrnIp2启动子(SEQ ID NO:39)、新颖的(合成的)rrnIp2-1启动子(SEQ ID NO:40)、新颖的(合成的)rrnIp2-2启动子(SEQ ID NO:58)、和新颖的(合成的)rrnIp2-3启动子(SEQ ID NO:59)的核酸序列比对。如图1所示，-35和-10启动子序列区用带下划线的核苷酸表示，推定的转录起始位点(TSS)用粗体带下划线的核苷酸表示，其中带双下划线的“G”核苷酸用以帮助可视化TSS。

图2呈现了天然rrnIp2启动子(SEQ ID NO:39)及其互补序列(SEQ ID NO:60；图2A)、合成的rrnIp2-1启动子(SEQ ID NO:40)及其互补序列(SEQ ID NO:61；图2B)、合成的rrnIp2-2启动子(SEQ ID NO:58)及其互补序列(SEQ ID NO:62；图2C)、以及rrnIp2-3启动子(SEQ ID NO:59)及其互补序列(SEQ ID NO:63；图2D)。

图3呈现了天然地衣芽孢杆菌amyL启动子区(PamyL-1；SEQ ID NO:64)和新颖的(合成的)amyL启动子区(PamyL-2；SEQ ID NO:65)的核酸序列比对。如图3所示，-35和-10启动子序列区用带下划线的核苷酸表示，5′-UTR序列用斜体的核苷酸表示，并且推定的转录起始位点(TSS)用粗体的核苷酸表示，而带双下划线的“G”核苷酸用以帮助可视化PamyL-1(相对于PamyL-2)的TSS。

图4示出了天然地衣芽孢杆菌amyL启动子序列(SEQ ID NO:82)和合成的amyL启动子序列(SEQ ID NO:83)的比对，其中推定的转录起始位点(TSS)用粗体的核苷酸表示，而带下划线的“G”核苷酸用以帮助可视化天然amyL启动子(相对于合成的amyL启动子)的TSS。

图5呈现了合成的PamyL-3启动子区(SEQ ID NO:66)和合成的PamyL-4启动子区(SEQ ID NO:67)的核酸序列比对。如图5所示，推定的转录起始位点(TSS)用粗体的核苷酸表示，后接用斜体的核苷酸表示的5′-UTR序列，而带双下划线的“G”核苷酸用以帮助可视化PamyL-3(相对于PamyL-4)的TSS。

生物学序列简述

SEQ ID NO:1是编码Cas9蛋白的合成的核酸序列。

SEQ ID NO:2是N-末端核定位信号(NLS)序列的氨基酸序列。

SEQ ID NO:3是C-末端NLS序列的氨基酸序列。

SEQ ID NO:4是包含十-组氨酸(10-H)标签的氨基酸序列。

SEQ ID NO:5是包含枯草芽孢杆菌aprE启动子的核酸序列。

SEQ ID NO:6是Cas9正向引物核酸序列。

SEQ ID NO:7是Cas9反向引物核酸序列。

SEQ ID NO:8是质粒pKB320主链的核酸序列。

SEQ ID NO:9是质粒pKB320的核酸序列。

SEQ ID NO:10是pKB320正向引物核酸序列。

SEQ ID NO:11是pKB320反向引物核酸序列。

SEQ ID NO:12是Cas9“反向测序引物1”核酸序列。

SEQ ID NO:13是Cas9“反向测序引物2”核酸序列。

SEQ ID NO:14是Cas9“正向测序引物1”核酸序列。

SEQ ID NO:15是Cas9“正向测序引物2”核酸序列。

SEQ ID NO:16是Cas9“正向测序引物3”核酸序列。

SEQ ID NO:17是Cas9“正向测序引物4”核酸序列。

SEQ ID NO:18是Cas9“正向测序引物5”核酸序列。

SEQ ID NO:19是Cas9“正向测序引物6”核酸序列。

SEQ ID NO:20是Cas9“正向测序引物7”核酸序列。

SEQ ID NO:21是合成的pRF694核酸序列。

SEQ ID NO:22是合成的pRF748核酸序列。

SEQ ID NO:23是合成的双终止子核酸序列。

SEQ ID NO:24是大肠杆菌(E.coli)rpsL启动子(核酸)序列。

SEQ ID NO:25是编码Cas9核酸内切酶识别结构域的合成的核酸序列。

SEQ ID NO:26是λ噬菌体t0终止子核酸序列。

SEQ ID NO:27是枯草芽孢杆菌yhfN基因。

SEQ ID NO:28是枯草芽孢杆菌yhfN靶位点。

SEQ ID NO:29是编码yhfN VT结构域的合成的核酸。

SEQ ID NO:30是枯草芽孢杆菌yhfN靶位点PAM序列。

SEQ ID NO:31是合成的yhfN指导RNA(gRNA)序列。

SEQ ID NO:32是编码yhfN gRNA的合成的多核苷酸序列(DNA)。

SEQ ID NO:33是合成的yhfN gRNA多核苷酸(DNA)表达盒。

SEQ ID NO:34是合成的pRF793核酸序列。

SEQ ID NO:35是包含枯草芽孢杆菌yhfN基因座的多核苷酸序列。

SEQ ID NO:36是合成的pRF748正向引物序列。

SEQ ID NO:37是合成的pRF748反向引物序列。

SEQ ID NO:38是yhfN基因座5′侧翼区的枯草芽孢杆菌核酸(序列)。

SEQ ID NO:39是天然枯草芽孢杆菌rrnIp2启动子核酸序列。

SEQ ID NO:40是合成的rrnIp2-1启动子核酸序列。

SEQ ID NO:41是合成的解淀粉芽孢杆菌apr终止子序列。

SEQ ID NO:42是yhfN基因座3′侧翼区的枯草芽孢杆菌核酸(序列)。

SEQ ID NO:43是枯草芽孢杆菌comK基因。

SEQ ID NO:44是合成的rrnIp2_α-淀粉酶盒。

SEQ ID NO:45是合成的rrnIp2-1_α-淀粉酶盒。

SEQ ID NO:46是地衣芽孢杆菌5′lysA同源臂。

SEQ ID NO:47是合成的经修饰的aprE 5′UTR。

SEQ ID NO:48是地衣芽孢杆菌lat信号序列。

SEQ ID NO:49是编码变体噬细胞菌属物种(Cytophaga sp.)α-淀粉酶的合成的DNA序列。

SEQ ID NO:50是地衣芽孢杆菌lat终止子序列。

SEQ ID NO:51是地衣芽孢杆菌3′lysA同源臂。

SEQ ID NO:52是合成的lysA正向引物。

SEQ ID NO:53是合成的lysA反向引物。

SEQ ID NO:54是合成的DNA 1032。

SEQ ID NO:55是合成的DNA 1033。

SEQ ID NO:56是合成的DNA 1034。

SEQ ID NO:57是合成的DNA 1035。

SEQ ID NO:58是合成的rrnIp2-2启动子序列。

SEQ ID NO:59是合成的rrnIp2-3启动子序列。

SEQ ID NO:60是天然rrnIp2启动子序列(SEQ ID NO:39)的互补序列。

SEQ ID NO:61是合成的rrnIp2-1启动子序列(SEQ ID NO:40)的互补序列。

SEQ ID NO:62是合成的rrnIp2-2启动子序列(SEQ ID NO:58)的互补序列。

SEQ ID NO:63是合成的rrnIp2-3启动子序列(SEQ ID NO:59)的互补序列。

SEQ ID NO:64是本文命名为PamyL-1的天然地衣芽孢杆菌amyL启动子区，其包含天然地衣芽孢杆菌amyL启动子序列(SEQ ID NO:82)和天然地衣芽孢杆菌amyL 5′-UTR序列(SEQ ID NO:84)。

SEQ ID NO:65是本文命名为PamyL-2的合成的amyL启动子区，其包含有效地连接到天然地衣芽孢杆菌amyL 5′-UTR序列(SEQ ID NO:84)的合成的amyL启动子序列(SEQ IDNO:83)。

SEQ ID NO:66是本文命名为PamyL-3的合成的amyL启动子区，其包含有效地连接到天然枯草芽孢杆菌aprE 5′-UTR序列(SEQ ID NO:85)的天然地衣芽孢杆菌amyL启动子序列(SEQ ID NO:82)。

SEQ ID NO:67是本文命名为PamyL-4的合成的amyL启动子区，其包含有效地连接到天然枯草芽孢杆菌aprE 5′-UTR序列(SEQ ID NO:85)的合成的amyL启动子序列(SEQ IDNO:83)。

SEQ ID NO:68是编码成熟的且截短的脱支芽孢杆菌(B.deramificans)支链淀粉酶的天然DNA序列。

SEQ ID NO:69是合成的引物序列。

SEQ ID NO:70是合成的引物序列。

SEQ ID NO:71是合成的引物序列。

SEQ ID NO:72是合成的引物序列。

SEQ ID NO:73是合成的引物序列。

SEQ ID NO:74是合成的引物序列。

SEQ ID NO:75是合成的引物序列。

SEQ ID NO:76是合成的引物序列。

SEQ ID NO:77是合成的引物序列。

SEQ ID NO:78是PamyL-1_支链淀粉酶表达盒。

SEQ ID NO:79是PamyL-2_支链淀粉酶表达盒。

SEQ ID NO:80是PamyL-3_支链淀粉酶表达盒。

SEQ ID NO:81是PamyL-4_支链淀粉酶表达盒。

SEQ ID NO:82是天然地衣芽孢杆菌amyL启动子序列。

SEQ ID NO:83是合成的amyL启动子序列。

SEQ ID NO:84是天然地衣芽孢杆菌amyL 5′-UTR序列。

SEQ ID NO:85是天然枯草芽孢杆菌aprE 5′-UTR序列。

具体实施方式

本公开总体上涉及用于构建/生产具有增强的蛋白生产力表型等的芽孢杆菌属物种(宿主)细胞(例如，蛋白生产宿主细胞、细胞工厂)的组合物和方法。更特别地，本公开的某些实施例涉及新颖的启动子(核酸)序列、其新颖的表达构建体、经修饰的芽孢杆菌属(子代)细胞等。

因此，本公开的某些实施例涉及经修饰的(或突变的)芽孢杆菌属物种细胞。其他实施例涉及经修饰的芽孢杆菌属物种细胞，所述细胞包含引入其中的一个或多个新颖的启动子(核酸)序列(例如，“经修饰的”或“合成的”启动子序列)。在其他实施例中，一个或多个启动子序列有效地连接到编码目的蛋白的基因或可读框。在其他实施例中，本公开的经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的(亲本)芽孢杆菌属物种细胞包含增强的蛋白生产力表型。某些其他实施例涉及包含内源(天然)启动子(核酸)序列的亲本芽孢杆菌属物种细胞，其中由其衍生的经修饰的芽孢杆菌属子代细胞包含其经修饰的(非天然)启动子序列。

I.定义

鉴于生产一种或多种异源和/或内源目的蛋白的经修饰的细胞及本文描述的其方法，定义了以下术语和短语。本文未定义的术语应当符合本领域中所使用的常规含义。

除非另有定义，本文使用的所有技术和科学术语具有与本发明组合物和方法所属领域的普通技术人员通常理解的相同含义。虽然类似于或等同于本文描述的那些的任何方法和材料也可以用于本发明组合物和方法的实践或测试中，但现在将对代表性示例方法和材料进行描述。本文中引用的所有公开物和专利均通过援引以其全文并入。

还需注意的是，权利要求书可以经撰写而排除任何任选的要素。因此，此陈述旨在作为使用与权利要求要素的叙述有关的排他性术语如“单独”、“仅”、“排除”、“不包括”等或使用“否定型”限定的前提基础(或其条件)。

如将对于本领域技术人员显而易见的是，在阅读本公开时，本文描述和展示的单独实施例中的每一个具有离散的组分和特征，这些组分和特征可以在不偏离本文所述的本发明组合物和方法的范围或精神的情况下容易地与任何其他几个实施例的任何一个的特征分离或组合。可以按照所叙述的事件的顺序或按照逻辑上可行的任何其他顺序来进行任何叙述的方法。

如本文使用的，“宿主细胞”是指具有作为新引入的DNA序列的宿主或表达媒介物的能力的细胞。因此，在本公开的某些实施例中，宿主细胞是例如芽孢杆菌属物种细胞或大肠杆菌细胞。

如本文定义的，“亲本细胞”或“亲本(宿主)细胞”可互换地使用，并且是指“未经修饰的”细胞。

如本文使用的，“经修饰的细胞”、“经修饰的(宿主)细胞”可互换地使用，并且是指包含至少一个遗传修饰的重组(宿主)细胞，所述遗传修饰不存在于经修饰的细胞所衍生自的“亲本”宿主细胞中。

在某些实施例中，亲本(未经修饰的)细胞可被称为“对照细胞”，特别是当与经修饰的子代细胞进行比较或相对于所述经修饰的子代细胞时。

如本文使用的，当将亲本(未经修饰的)细胞(例如，对照细胞)中的目的蛋白(POI)的表达和/或生产与经修饰的(子代)细胞中的相同POI的表达和/或生产进行比较时，应理解，在相同的条件下(例如，相同的条件如培养基、温度、pH等)生长/培养/发酵所述“经修饰的”和“未经修饰的”细胞。

如本文使用的，“芽孢杆菌属”或“芽孢杆菌属物种”细胞包括如本领域技术人员已知的“芽孢杆菌”属内的所有物种，包括但不限于：枯草芽孢杆菌、地衣芽孢杆菌、迟缓芽孢杆菌(B.lentus)、短芽孢杆菌(B.brevis)、嗜热脂肪芽孢杆菌(B.stearothermophilus)、嗜碱芽孢杆菌(B.alkalophilus)、解淀粉芽孢杆菌、克劳氏芽孢杆菌(B.clausii)、耐盐芽孢杆菌(B.halodurans)、巨大芽孢杆菌(B.megaterium)、凝结芽孢杆菌(B.coagulans)、环状芽孢杆菌(B.circulans)、灿烂芽孢杆菌(B.lautus)、和苏云金芽孢杆菌(B.thuringiensis)。应认识到，芽孢杆菌属不断进行分类学重组。因此，所述属旨在包括已重新分类的物种，包括但不限于：例如嗜热脂肪芽孢杆菌(现在称为“嗜热脂肪土芽孢杆菌(Geobacillus stearothermophilus)”)的生物体。

如本文使用的，术语“野生型”和“天然”可互换地使用，并且是指如自然界中发现的基因、启动子、蛋白、蛋白混合物、细胞或菌株。

如本文使用的，术语“启动子”通常是指能够控制编码序列(或功能性RNA)转录的核酸序列。通常，编码序列位于启动子序列的下游(3′)。启动子可以全部衍生自天然基因，或者由衍生自在自然界中发现的不同启动子的不同元件构成，或者甚至包含合成的核酸区段。本领域技术人员应该理解，不同启动子可以在不同细胞类型中、或在不同发育阶段、或响应于不同环境条件或生理条件以及所产生的不同水平的RNA转录物来指导基因表达。在多数情况下引起基因在大多数细胞类型中以相似水平表达的启动子通常被称为“组成型启动子”。进一步认识到，由于在大多数情况下还不能完全确定调控序列的确切边界，不同长度的DNA片段可具有相同的启动子活性。

如本文使用的，诸如“功能性启动子”和“启动子功能”等术语特别是指当置于编码序列(5′)上游并与所述编码序列有效组合时，能够控制编码序列(或功能性RNA)转录的核酸序列。例如，通过本领域技术人员已知的启动子功能/启动子活性测定法，可以容易地进行启动子功能的评价、估计、测试、测量等。

如本文使用的，术语“启动子活性”是指启动子功能的定性或定量估计。例如，可以评估未知(候选者/测试)启动子(核酸)序列的启动子活性，并将其与已知(对照)启动子序列的启动子活性进行比较(例如，使用本领域通常已知的一种或多种启动子活性测定法)。因此，此类启动子活性测量/测定法可用于了解表达速率、时间表达、空间表达等。测试/测量启动子活性的方法通常基于报告基因(例如，绿色荧光蛋白(GFP))的表达，其中目的启动子序列置于所述报告基因(例如，GFP)上游(5′)并有效地连接到所述报告基因(例如，GFP)。例如，可以通过将目的启动子序列有效地连接到报告基因(例如，GFP)的上游(5′)并检测/测量所述报告基因的变化来测试所述目的启动子序列(或其多个变体，例如，包含一个或多个突变、缺失、取代)。因此，荧光报告基因(如GFP、RFP等)允许本领域技术人员例如，通过检测荧光信号的变化来测量启动子活性(Solberg和Krauss,2013)。

在本公开的某些实施例中，通过将表达盒(构建体)引入合适的宿主细胞(例如，芽孢杆菌属物种细胞)中来评估启动子功能(或活性)。例如，在某些实施例中，合适的宿主细胞包含(a)候选者(测试)表达盒或(b)对照表达盒。更特别地，(a)候选者(测试)表达盒包含位于编码目的蛋白(例如，酶)的可读框(ORF)的上游(5′)并有效地连接到所述编码目的蛋白(例如，酶)的可读框(ORF)的候选者(测试)启动子序列，并且(b)对照盒包含位于编码相同目的蛋白(例如，相同酶)的可读框(ORF)的上游(5′)并有效地连接到所述编码相同目的蛋白(例如，相同酶)的可读框(ORF)的对照启动子序列。因此，经选择用于与候选者(测试)启动子序列进行直接比较的对照启动子序列可以是具有已知功能或活性的任何启动子序列。在某些实施例中，对照启动子序列包含SEQ ID NO:39的核酸序列。例如，在某些实施例中，本公开的合适的宿主细胞包含(a)引入的“对照”表达盒或(b)引入的“候选者”(测试)表达盒，其中随后培养这两种宿主细胞(即，在相同条件下)，并且直接比较这两种宿主细胞(即，候选者细胞与对照细胞)之间表达/生产的目的蛋白的量。

如本文使用的，“天然芽孢杆菌属物种rrnIp2启动子”(下文简称为“rrnIp2”启动子)包含SEQ ID NO:39所示的核苷酸序列。

如本文使用的，诸如“经修饰的rrnIp2”启动子、“合成的rrnIp2”启动子、“变体rrnIp2”启动子、“突变的rrnIp2”启动子、“突变型rrnIp2”启动子等短语是指衍生自SEQ IDNO:39的“天然rrnIp2”启动子的经遗传修饰的启动子序列。例如，在某些实施例中，本公开的经修饰的(非天然的)rrnIp2启动子参照SEQ ID NO:39的天然rrnIp2启动子(位置1-91)包含至少一个经修饰的核苷酸位置，其中所述至少一(1)个经修饰的核苷酸位置选自SEQID NO:39的位置1、89、90、或91。

在其他实施例中，本公开的经修饰的(非天然的)rrnIp2启动子参照SEQ ID NO:39的天然rrnIp2启动子(位置1-91)包含至少两(2)个经修饰的核苷酸位置，其中所述至少两个经修饰的核苷酸位置选自SEQ ID NO:39的位置1、89、90、或91。

在其他实施例中，本公开的经修饰的(非天然的)rrnIp2启动子参照SEQ ID NO:39的天然rrnIp2启动子(位置1-91)包含至少三(3)个经修饰的核苷酸位置，其中所述至少三个经修饰的核苷酸位置选自SEQ ID NO:39的位置1、89、90、或91。

在其他实施例中，本公开的经修饰的(非天然的)rrnIp2启动子参照SEQ ID NO:39的天然rrnIp2启动子(位置1-91)包含至少四(4)个经修饰的核苷酸位置，其中所述至少四个经修饰的核苷酸位置是SEQ ID NO:39的1、89、90、和91。

如本文使用的，“rrnIp2-1”启动子包含与SEQ ID NO:40至少90％的序列同一性并且包含在SEQ ID NO:40的核苷酸位置30处的胸腺嘧啶(T)、核苷酸位置89处的胸腺嘧啶(T)、核苷酸位置90处的鸟嘌呤(G)、和核苷酸位置91处的胸腺嘧啶(T)。在某些其他实施例中，“rrnIp2-1”启动子包含与SEQ ID NO:40至少90％至约99％的序列同一性并且包含在SEQ ID NO:40的核苷酸位置30处的胸腺嘧啶(T)、核苷酸位置89处的胸腺嘧啶(T)、核苷酸位置90处的鸟嘌呤(G)、和核苷酸位置91处的胸腺嘧啶(T)。

如本文使用的，“rrnIp2-2”启动子包含与SEQ ID NO:58至少90％的序列同一性并且包含在SEQ ID NO:58的核苷酸位置89处的T、核苷酸位置90处的G、和核苷酸位置91处的T。在某些其他实施例中，“rrnIp2-2”启动子包含与SEQ ID NO:58至少90％至约99％的序列同一性并且包含在SEQ ID NO:58的核苷酸位置89处的T、核苷酸位置90处的G、和核苷酸位置91处的T。

如本文使用的，“rrnIp2-3”启动子包含与SEQ ID NO:59至少90％的序列同一性并且包含在SEQ ID NO:59的核苷酸位置30处的T。在某些其他实施例中，“rrnIp2-3”启动子包含与SEQ ID NO:59至少90％至约99％的序列同一性。

如本文使用的，诸如“合成的”rrnIp2-1启动子、“合成的”rrnIp2-2启动子、“合成的”rrnIp2-3启动子、“经修饰的”rrnIp2-1启动子、“经修饰的”rrnIp2-2启动子、“经修饰的”rrnIp2-3启动子等术语是指一个或多个(非天然)rrnIp2启动子序列(即，与天然rrnIp2启动子序列(SEQ ID NO:39)相比)。

因此，在某些实施例中，当有效地连接到编码目的蛋白的基因或ORF时，本公开的合成的、变体或经修饰的rrnIp2启动子(例如，rrnIp2-1、rrnIp2-2、rrnIp2-3)包含增强的启动子功能或活性(例如，增强的蛋白生产力表型)。在某些相关实施例中，相对于SEQ IDNO:39的天然rrnIp2启动子序列，本公开的合成的、变体或经修饰的rrnIp2启动子包含增强的启动子功能或活性。

因此，在某些其他实施例中，包含内源天然rrnIp2启动子的亲本芽孢杆菌属物种细胞根据本公开的方法进行修饰，其中由其衍生的经修饰的芽孢杆菌属物种(子代)细胞包含本公开的突变型(非天然的)rrnIp2启动子。

如本文使用的，关于天然rrnIp2启动子或由其衍生的变体(经修饰的)rrnIp2启动子(例如，rrnIp2-1、rrnIp2-2、rrnIp2-3)，给定“核酸序列”(即，本文公开的rrnIp2启动子序列)中的核苷酸的“位置”通过参照SEQ ID NO:39的天然枯草芽孢杆菌rrnIp2启动子(以5′到3′方向读取)进行编号，所述启动子序列包含核苷酸1-91(例如，如图1A-图1C所呈现)。

例如，如图1A-图1C所示，可以使用本文描述的比对算法和/或相关领域已知的比对算法将本文描述的候选者(测试)启动子(核酸)序列与天然枯草芽孢杆菌rrnIp2启动子序列(SEQ ID NO:39；核苷酸位置1-91)进行对齐，其中可以通过参照天然序列中相应的一个或多个核苷酸位置对与SEQ ID NO:39的天然启动子序列对齐的候选者(测试)序列中的核苷酸位置进行编号。例如，如图1A所呈现，本公开的新颖的(合成的)rrnIp2-1启动子序列(即，SEQ ID NO:40)与天然芽孢杆菌属物种rrnIp2启动子序列(即SEQ ID NO:39)进行对齐，其中天然rrnIp2启动子(SEQ ID NO:39)和新颖的rrnIp2-1启动子(SEQ ID NO:40)之间在位置30、89、90、和91处有四(4)个核苷酸不同。因此，为了建立与SEQ ID NO:39的天然rrnIp2启动子序列的序列同源性(或同一性)，本领域技术人员可以使用本领域技术人员已知的序列比对算法、软件及其方法，容易地将天然rrnIp2启动子序列与一个或多个候选者(测试)目的启动子序列进行比较。

在某些实施例中，新颖的变体rrnIp2启动子包含与SEQ ID NO:39的天然rrnIp2启动子序列或其互补序列SEQ ID NO:60(在严格杂交条件下)杂交的核酸序列。例如，在某些实施例中，新颖的变体rrnIp2启动子包含核酸序列，所述核酸序列与包含SEQ ID NO:60的互补rrnIp2启动子序列(在严格杂交条件下)杂交，其中进行杂交的所述变体序列在选自30、89、90、或91的位置处(相对于SEQ ID NO:39的天然rrnIp2启动子序列的相同位置)包含至少一个核苷酸取代。因此，在其他实施例中，(在严格杂交条件下)进行杂交的本公开的新颖的变体rrnIp2启动子序列包含在核苷酸位置89处的T、核苷酸位置90处的G、和核苷酸位置91处的T(即，相对于在核苷酸位置89-91处包含A、A、A的SEQ ID NO:39)。在其他实施例中，(在严格杂交条件下)进行杂交的新颖的变体rrnIp2启动子包含SEQ ID NO:40、58、或59。

如本文使用的，下文简称为“PamyL-1”的天然地衣芽孢杆菌“amyL启动子区”包含SEQ ID NO:64所示的核苷酸序列。

如本文使用的，下文简称为“PamyL-2”的经修饰的(合成的)“amyL启动子区”包含SEQ ID NO:65所示的核苷酸序列。

在某些实施例中，经修饰的(合成的)PamyL-2序列包含与SEQ ID NO:64至少90％至约99％的序列同一性并且包含在SEQ ID NO:64的核苷酸位置72处的胸腺嘧啶(T)、在SEQID NO:64的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:64的核苷酸位置74处的胸腺嘧啶(T)。

如本文使用的，关于天然PamyL-1序列和经修饰的(合成的)PamyL-2序列，给定“核酸序列”中的核苷酸的“位置”通过参照SEQ ID NO:64的天然地衣芽孢杆菌amyL启动子区PamyL-1(以5′到3′方向读取)进行编号，所述天然PamyL-1启动子区序列包含SEQ ID NO:64的核苷酸位置1-100(即，5′到3′，如图3所呈现)。

例如，如图3所示，天然PamyL-1启动子区包含天然amyL启动子序列和天然amyL5′-UTR序列，所述天然amyL启动子序列包含SEQ ID NO:64的核苷酸位置1-74，所述天然amyL 5′-UTR序列包含SEQ ID NO:64的核苷酸位置75-100；并且经修饰的(合成的)PamyL-2启动子区包含有效地连接到天然amyL 5′-UTR序列的经修饰的amyL启动子序列，所述经修饰的amyL启动子序列包含SEQ ID NO:65的核苷酸位置1-74，所述天然amyL 5′-UTR序列包含SEQ ID NO:65的核苷酸位置75-100。

如本文使用的，天然地衣芽孢杆菌“amyL启动子”序列包含SEQ ID NO:82所示的核苷酸序列。

如本文使用的，经修饰的(合成的)“amyL启动子”序列包含SEQ ID NO:83所示的核苷酸序列并且包含在SEQ ID NO:83的核苷酸位置72处的胸腺嘧啶(T)、在SEQ ID NO:83的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:83的核苷酸位置74处的胸腺嘧啶(T)。在某些实施例中，经修饰的(合成的)amyL启动子序列包含核苷酸序列，所述核苷酸序列包含与SEQ ID NO:82至少90％至约99％的序列同一性，并且包含在SEQ ID NO:82的核苷酸位置72处的胸腺嘧啶(T)、在SEQ ID NO:82的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:82的核苷酸位置74处的胸腺嘧啶(T)。

如本文使用的，关于天然地衣芽孢杆菌amyL启动子序列和经修饰的amyL启动子序列，给定“核酸序列”中的核苷酸的“位置”通过参照SEQ ID NO:82的天然地衣芽孢杆菌amyL启动子序列(以5′到3′方向读取)进行编号，所述天然amyL启动子序列包含SEQ ID NO:82的核苷酸位置1-74(即，5′到3′，如图4所呈现)。例如，如图4所示，天然amyL启动子序列(SEQID NO:82)分别在72、73、和74处包含核苷酸A、T、和G，并且所述经修饰的amyL启动子序列(SEQ ID NO:83)分别在核苷酸位置72、73、和74处包含核苷酸T、G、和T。

如本文使用的，天然地衣芽孢杆菌“amyL 5′-UTR”序列包含SEQ ID NO:84所示的核苷酸序列。

如本文使用的，天然枯草芽孢杆菌“aprE 5′-UTR”包含SEQ ID NO:85所示的核苷酸序列。

如本文使用的，下文简称为“PamyL-3”的经修饰的(合成的)“amyL启动子区”包含SEQ ID NO:66所示的核苷酸序列。

如本文使用的，下文简称为“PamyL-4”的经修饰的(合成的)“amyL启动子区”包含SEQ ID NO:67所示的核苷酸序列。

在某些实施例中，经修饰的(合成的)PamyL-4序列包含与SEQ ID NO:66至少90％至约99％的序列同一性并且包含在SEQ ID NO:66的核苷酸位置72处的胸腺嘧啶(T)、在SEQID NO:66的核苷酸位置73处的鸟嘌呤(G)、和在SEQ ID NO:66的核苷酸位置74处的胸腺嘧啶(T)。

因此，如本文使用的，关于合成的PamyL-3启动子区和合成的PamyL-4启动子区，给定“核酸序列”中的核苷酸的“位置”通过参照SEQ ID NO:66的合成的PamyL-3启动子区(以5′到3′方向读取)进行编号，所述PamyL-3启动子区序列包含SEQ ID NO:66的核苷酸位置1-132(即，5′到3′，如图5所呈现)。

例如，如图5所示，合成的PamyL-3启动子区(SEQ ID NO:66)包含有效地连接到天然枯草芽孢杆菌aprE 5′-UTR序列(例如，SEQ ID NO:85)的天然amyL启动子序列(例如，SEQID NO:82)，所述天然amyL启动子序列包含SEQ ID NO:66的核苷酸位置1-74，所述天然枯草芽孢杆菌aprE 5′-UTR序列包含SEQ ID NO:66的核苷酸位置75-132。同样，如图5所呈现，合成的PamyL-4启动子区(SEQ ID NO:67)包含有效地连接到天然枯草芽孢杆菌aprE 5′-UTR序列(例如，SEQ ID NO:85)的经修饰的amyL启动子序列(例如，SEQ ID NO:83)，所述经修饰的amyL启动子序列包含SEQ ID NO:67的核苷酸位置1-74，所述天然枯草芽孢杆菌aprE 5′-UTR序列包含SEQ ID NO:67的核苷酸位置75-132。

因此，如图5所示，PamyL-3启动子区(SEQ ID NO:66)分别在核苷酸位置72、73、和74处包含核苷酸A、T、和G，并且PamyL-4启动子区(SEQ ID NO:67)分别在核苷酸位置72、73、和74处包含核苷酸T、G、和T。

如本文使用的，关于PamyL-1启动子区(SEQ ID NO:64)、PamyL-2启动子区(SEQ IDNO:65)、PamyL-3启动子区(SEQ ID NO:66)、和PamyL-4启动子区(SEQ ID NO:67)，术语“启动子区”或“启动子区序列”是指如下核酸序列，所述核酸序列包含有效地连接到下游(3′)5-UTR序列的至少一个上游(5′)启动子序列。

如本文使用的，“核酸”是指核苷酸或多核苷酸序列及其片段或部分，以及基因组或合成起点的DNA、cDNA和RNA，其可能是双链或单链，无论代表正义或反义链。

如本文使用的，术语“3′-非翻译区”缩写为“3′-UTR”，并且术语“5′-非翻译区”缩写为“5′-UTR”。

如本文使用的，术语“有效地连接”是指核酸序列在单个核酸片段上的缔合，这样使得一个核酸片段的功能受到另一个影响。例如，当能够实现编码序列的转录(即编码序列在启动子的转录控制下)时，启动子与该编码序列(例如，ORF)有效地连接。编码序列可以在正义或反义方向上有效地连接到调控序列上。当核酸置于与另一核酸序列的功能关系时，所述核酸与另一核酸序列“有效地连接”。例如，如果编码分泌性前导子(即信号肽)的DNA表达为参与多肽分泌的前蛋白，那么所述编码分泌性前导子的DNA有效地连接到所述多肽的DNA；如果启动子或增强子影响编码序列的转录，那么所述启动子或增强子有效地连接到所述序列；或者如果核糖体结合位点被定位以便促进翻译，那么所述核糖体结合位点有效地连接到编码序列。通常，“有效地连接”意指被连接的DNA序列是连续的，并且在分泌性前导子的情况下，是连续的并且处于阅读相中。然而，增强子不必是连续的。连接是通过在方便的限制位点处连接或通过无缝组装方法连接来完成的。如果这样的位点不存在，则按照常规实践使用合成的寡核苷酸衔接子或接头。

如本文使用的，“合适的调控序列”是指位于编码序列的上游(5'非编码序列)、内部或下游(3'非编码序列)，并且影响相关编码序列的转录、RNA加工或稳定性或翻译的核苷酸序列。调控序列可以包括启动子、翻译前导序列、一个或多个RNA加工位点、一个或多个效应子结合位点、茎环结构、和其他RNA稳定性基序。

如本文使用的，术语“表达”是指衍生自本公开的核酸分子的正义(mRNA)或反义RNA的转录和稳定积累。表达也可指将mRNA翻译成多肽。因此，术语“表达”包括涉及多肽的生产的任何步骤，包括但不限于转录、转录后修饰、翻译、翻译后修饰、分泌等。

如本文使用的，如诸如“芽孢杆菌属物种(子代)细胞表达/生产‘增加’量的目的蛋白(POI)”(即，相对于亲本细胞)的短语中所用的组合术语“表达/生产”，所述术语“表达/生产”意欲包括涉及本公开的此类芽孢杆菌属物种(子代)细胞中蛋白的表达和生产的任何步骤。

如本文使用的，术语“增加的表达”、“增强的表达”、“增加的POI表达”、“增加的生产”、“增加的POI生产”等是指“经修饰的”芽孢杆菌属(子代)细胞，其中“增加”总是相对(相对比)于表达/生产相同POI的“未经修饰的”芽孢杆菌属(亲本)细胞而言。

同样，如本文使用的，当在短语如“相对于(未经修饰的)亲本宿主细胞，经修饰的宿主细胞‘表达/生产增加量’的一种或多种目的蛋白”中使用时，“增加量”特别是指在经修饰的宿主细胞中表达/生产的任何“增加量”的目的蛋白(POI)，所述“增加量”总是相对于表达/生产相同POI的(未经修饰的)亲本芽孢杆菌属细胞而言，其中所述经修饰的和未经修饰的细胞在相同的条件下(例如，相同的条件如培养基、温度、pH等)生长/培养/发酵。例如，增加量的POI可以是在本公开的经修饰的芽孢杆菌属细胞中表达的内源POI或异源POI。

因此，如本文使用的，“增加”蛋白生产或“增加的”蛋白生产意指生产的蛋白(例如，目的蛋白)的量增加。蛋白可以在宿主细胞内生产，或分泌(或转运)到培养基中。在某些实施例中，目的蛋白被生产(分泌)到培养基中。如与亲本宿主细胞相比，增加的蛋白生产可以被检测为例如蛋白或酶活性(例如像蛋白酶活性、淀粉酶活性、纤维素酶活性、半纤维素酶活性等)、或生产的总细胞外蛋白的更高的最大水平。

如本文使用的，包含“增强的蛋白生产力表型”的经修饰的细胞包括但不限于包含增强的/增加的体积生产力的经修饰的细胞、包含增强的/增加的碳转换效率的经修饰的细胞、包含增强的/增加的蛋白产率的经修饰的细胞、包含增强的/增加的比蛋白生产力的经修饰的细胞等。

如本文使用的，短语“增强的蛋白生产力表型”和“增加的蛋白生产力表型”可互换地使用。

如本文使用的，当描述未经修饰的(亲本)细胞相对比于经修饰的(变体/子代)细胞的“增强的/增加的蛋白生产力表型”时，应理解“亲本”和“变体”细胞在相同的条件下(例如，相同的条件如培养基、温度、pH等)生长/培养/发酵。\

如本文使用的，如诸如“向细胞中引入”至少一个多核苷酸可读框(ORF)或其基因或其载体的短语中所用，术语“引入”包括本领域中已知用于将多核苷酸引入细胞中的方法，包括但不限于原生质体融合、自然或人工转化(例如，氯化钙、电穿孔)、转导、转染等。

应该理解，本文描述的多核苷酸(或核酸分子)包括“基因”、“载体”和“质粒”。

因此，术语“基因”是指编码氨基酸特定序列的多核苷酸，其包含所有或部分蛋白编码序列，并且可以包括调控(非转录的)DNA序列，如启动子序列，所述启动子序列决定例如基因在其下表达的条件。基因的转录区可以包括非翻译区(UTR)(所述非翻译区包括内含子、5'-非翻译区(UTR)、和3'-UTR)，以及编码序列。

如本文使用的，术语“编码序列”是指直接确定其(编码的)蛋白产物氨基酸序列的核苷酸序列。编码序列的边界一般由通常以ATG起始密码子开始的可读框(下文称为“ORF”)确定的。编码序列通常包括DNA、cDNA和重组核苷酸序列。

如本文定义的，术语“可读框”(下文称为“ORF”)意指包含不中断阅读框的核酸或核酸序列(无论是天然存在的、非天然存在的、或合成的)，所述不中断阅读框由以下组成：(i)起始密码子，(ii)一系列代表氨基酸的两(2)个或更多个密码子，和(iii)终止密码子，所述ORF以5'至3'方向阅读(或翻译)。

如本文定义的，“合适的调控序列”是指位于编码序列的上游(5'非编码序列)、内部或下游(3'非编码序列)，并且影响相关编码序列的转录、RNA加工或稳定性或翻译的核苷酸序列。调控序列可以包括启动子、翻译前导序列、RNA加工位点、效应子结合位点、和茎环结构。

如本文定义的，如诸如“向细菌细胞中引入”或“向芽孢杆菌属细胞中引入”至少一个多核苷酸可读框(ORF)或其基因或其载体的短语中所用，术语“引入”包括本领域中已知用于将多核苷酸引入细胞中的方法，包括但不限于原生质体融合、自然或人工转化(例如，氯化钙、电穿孔)、转导、转染、缀合等(例如，参见Ferrari等人,1989)。

如本文使用的，“转化的”或“转化”意指通过使用重组DNA技术转化的细胞。转化通常通过将一个或多个核苷酸序列(例如，多核苷酸、ORF或基因)插入细胞中而发生。所插入的核苷酸序列可以是异源核苷酸序列(即在待转化的细胞中不是天然存在的序列)。如本文使用的，“转化”是指将外源DNA引入宿主细胞中，使得DNA保持为染色体整合体或自我复制的染色体外载体。如本文使用的，“转化DNA”、“转化序列”、和“DNA构建体”是指用于将序列引入宿主细胞或生物体中的DNA。转化DNA是用于将序列引入宿主细胞或生物体中的DNA。可以通过PCR或任何其他合适的技术在体外产生DNA。在一些实施例中，转化DNA包含输入序列，而在其他实施例中，其还包含同源盒侧翼的输入序列。在又另一个实施例中，转化DNA包含其他非同源序列，添加到末端(即，填充序列或侧翼)。末端可以闭合，这样使得转化DNA形成闭环，例如像，插入载体中。

如本文使用的，“输入序列”是指引入芽孢杆菌属染色体中的DNA序列。在一些实施例中，输入序列是DNA构建体的一部分。在其他实施例中，输入序列编码一种或多种目的蛋白。在一些实施例中，输入序列包含可以或可以不存在于待转化的细胞的基因组中的序列(即，它可以是同源或异源序列)。在一些实施例中，输入序列编码一种或多种目的蛋白、基因、和/或突变型或经修饰的基因。在可替代的实施例中，输入序列编码功能性野生型基因或操纵子、功能性突变的基因或操纵子、或非功能性基因或操纵子。在一些实施例中，可以将非功能性序列插入基因中以破坏基因的功能。在另一实施例中，输入序列包括选择性标记。在另一个实施例中，输入序列包括两个同源盒(例如，上游和下游同源臂)。

如本文使用的，“同源盒”是指与芽孢杆菌属染色体中的序列同源的核酸序列。更具体地，根据本发明，同源盒是上游或下游区，所述上游或下游区与目的染色体基因座的紧密侧翼区具有约80％与100％之间的序列同一性、约90％与100％之间的序列同一性、或约95％与100％之间的序列同一性。这些序列指导了在芽孢杆菌属染色体中DNA构建体的整合位置，并且指导了芽孢杆菌属染色体的哪部分(如果有的话)被输入序列替代。尽管不欲限制本公开，但同源盒可以包括约1个碱基对(bp)至200千碱基(kb)。优选地，同源盒包括约1bp与10.0kb之间、1bp与5.0kb之间、1bp与2.5kb之间、1bp与1.0kb之间、和0.25kb与2.5kb之间。同源盒还可以包括约10.0kb、5.0kb、2.5kb、2.0kb、1.5kb、1.0kb、0.5kb、0.25kb和0.1kb。在一些实施例中，选择性标记的5′和3′端在同源盒(同源臂)侧翼，其中所述同源盒包含紧密位于基因的编码区侧翼的核酸序列。

在本公开的仍另一实施例中，如通过DNA阵列分析(例如，如本文描述的转录组分析)确定的，在不适当时间基因活性的缺失、破坏、灭活或下调提供了增强的目的蛋白表达。如本文使用的，“转录组分析”是指基因转录的分析。

如本文使用的，术语“编码可选择标记的核苷酸序列”是指如下核苷酸序列，所述核苷酸序列能够在宿主细胞中表达并且其中可选择标记的表达赋予含有表达的基因的细胞在不存在对应的选择性试剂或缺乏必需营养素的情况下生长的能力。

如本文使用的，术语“可选择标记”和“选择性标记”是指能够在宿主细胞中表达的核酸(例如，基因)，其允许容易地选择包含载体的那些宿主。此类可选择标记的实例包括但不限于抗微生物剂。因此，术语“可选择标记”是指提供宿主细胞已经摄取了输入性目的DNA或者已经发生了一些其他反应的指示的基因。通常，可选择标记是赋予宿主细胞抗微生物抗性或代谢优势的基因，以允许在转化期间将包含外源DNA的细胞与未接受任何外源序列的细胞区分开来。

“驻留可选择标记(residing selectable marker)”是位于待转化微生物的染色体上的标记。驻留可选择标记编码与转化DNA构建体上的可选择标记不同的基因。选择性标记是本领域技术人员所熟知的。如上所述，标记可以是抗微生物抗性标记(例如，amp^R、phleo^R、spec^R、kan^R、ery^R、tet^R、cmp^R、和neo^R)。在一些实施例中，本发明提供氯霉素抗性基因(例如，存在于pC194上的基因，以及存在于地衣芽孢杆菌基因组中的抗性基因)。这种抗性基因在本发明中以及在涉及染色体整合的盒和整合质粒的染色体扩增的实施例中特别有用。根据本发明有用的其他标记包括但不限于营养缺陷型标记，如丝氨酸、赖氨酸、色氨酸；和检测标记，如β-半乳糖苷酶。

如本文定义的，宿主细胞“基因组”、细菌(宿主)细胞“基因组”、或芽孢杆菌属(宿主)细胞“基因组”包括染色体基因和染色体外基因。

如本文使用的，术语“质粒”、“载体”和“盒”是指染色体外元件，其通常携带通常不是细胞的中心代谢的一部分的基因，并且通常呈环状双链DNA分子的形式。此类元件可以是衍生自任何来源的单链或双链DNA或RNA的线性或环状自主复制序列、基因组整合序列、噬菌体或核苷酸序列，其中许多核苷酸序列已连接或重组到单一结构中，所述单一结构能够将针对选定基因产物的启动子片段和DNA序列连同适当3'未翻译序列引入到细胞中。

如本文使用的，“转化盒”是指包含基因(或其ORF)并且除了促进特定宿主细胞的转化的外源基因之外，还具有元件的特定载体。

如本文使用的，术语“载体”是指可以在细胞中复制(传播)并且可以携带新基因或DNA区段到细胞中的任何核酸。因此，所述术语是指设计用于在不同宿主细胞之间转移的核酸构建体。载体包括为“附加体”(即，其自主复制或可以整合到宿主生物体的染色体中)的病毒、噬菌体、前病毒、质粒、噬菌粒、转座子、和人工染色体如YAC(酵母人工染色体)、BAC(细菌人工染色体)、PLAC(植物人工染色体)等。

“表达载体”是指具有在细胞中并入并表达异源DNA的能力的载体。许多原核和真核表达载体可商购获得并且是本领域技术人员熟知的。适当的表达载体的选择在本领域技术人员的知识范围内。

如本文使用的，术语“表达盒”和“表达载体”是指重组或合成产生的具有允许特定核酸在靶细胞中转录的一系列特定核酸元件的核酸构建体(即，这些是载体或载体元件，如上所述)。重组表达盒可以并入质粒、染色体、线粒体DNA、质粒DNA、病毒或核酸片段中。通常，表达载体的重组表达盒部分包括(除了其他序列之外)待转录的核酸序列和启动子。在一些实施例中，DNA构建体还包括一系列允许靶细胞中特定核酸转录的特定核酸元件。在某些实施例中，本公开的DNA构建体包含如本文定义的选择性标记和灭活的染色体或基因或DNA区段。

如本文使用的，“靶向载体”是如下载体，所述载体包括与所述靶向载体转化的宿主细胞的染色体中的区同源的多核苷酸序列，并且所述载体可以驱动该区的同源重组。例如，靶向载体可用于通过同源重组将突变引入宿主细胞染色体中。在一些实施例中，靶向载体包含其他非同源序列，例如添加到末端(即，填充序列或侧翼序列)。末端可以闭合，这样使得靶向载体形成闭环，例如像，插入载体中。适当的载体的选择和/或构建完全在本领域技术人员的知识范围内。

如本文使用的，术语“质粒”是指用作克隆载体的环状双链(ds)DNA构建体，并且其在许多细菌和一些真核生物中形成染色体外自我复制元件、条件自我复制元件、或非复制遗传元件。在一些实施例中，质粒被并入宿主细胞的基因组中。

如本文使用的，术语“目的蛋白”或“POI”是指希望在经修饰的芽孢杆菌属(子代)细胞中表达的目的多肽，其中所述POI优选地以增强的/增加的水平表达(即，相对于“未经修饰的”(亲本)细胞)。因此，如本文使用的，POI可以是酶、底物结合蛋白、表面活性蛋白、结构蛋白、受体蛋白、抗体等。

类似地，如本文定义的，“目的基因”或“GOI”是指编码POI的核酸序列(例如，多核苷酸、基因、或ORF)。编码“目的蛋白”的“目的基因”可以是天然存在的基因、突变型基因或合成的基因。

在某些实施例中，相对于亲本细胞，本公开的经修饰的细胞生产增加量的异源POI或内源POI。在特定的实施例中，由本公开的经修饰的细胞生产的POI的增加量是相对于亲本细胞增加至少0.05％、增加至少0.10％、增加至少1.0％、增加至少5.0％、或增加超过5.0％。作为非限制性实例，在某些实施例中，POI是酶(例如，水解酶)，其中由经修饰的细胞生产的POI的水平增加(即，相对于其未经修饰的亲本)被检测或测量为酶活性的增加和/或比生产力(Qp)的增加。

如本文使用的，术语“多肽”和“蛋白”可互换地使用，并且是指包含通过肽键连接的氨基酸残基的任何长度的聚合物。本文使用用于氨基酸残基的常规单(1)字母或三(3)字母代码。多肽可以是线性的或支化的，它可以包含经修饰的氨基酸，并且它可以被非氨基酸中断。术语多肽还涵盖天然修饰的或通过干预修饰的氨基酸聚合物；例如，二硫键形成、糖基化、脂化、乙酰化、磷酸化、或任何其他操作或修饰，如与标记组分缀合。所述定义内还包括例如含有一种或多种氨基酸类似物(包括例如非天然氨基酸等)以及本领域已知的其他修饰的多肽。

在某些实施例中，本公开的基因编码商业上相关的工业目的蛋白，例如酶(例如，乙酰酯酶、氨肽酶、淀粉酶、阿拉伯糖酶、阿拉伯呋喃糖苷酶、碳酸酐酶、羧肽酶、过氧化氢酶、纤维素酶、几丁质酶、凝乳酶、角质酶、脱氧核糖核酸酶、差向异构酶、酯酶、α-半乳糖苷酶、β-半乳糖苷酶、α-葡聚糖酶、葡聚糖裂解酶、内切-β-葡聚糖酶、葡糖淀粉酶、葡萄糖氧化酶、α-葡糖苷酶、β-葡糖苷酶、葡萄糖醛酸酶、糖基水解酶、半纤维素酶、己糖氧化酶、水解酶、转化酶、异构酶、漆酶、脂肪酶、裂解酶、甘露糖苷酶、氧化酶、氧化还原酶、果胶裂解酶、果胶乙酰酯酶、果胶解聚酶、果胶甲酯酶、果胶分解酶、过水解酶、多元醇氧化酶、过氧化物酶、酚氧化酶、植酸酶、聚半乳糖醛酸酶、蛋白酶、肽酶、鼠李糖-半乳糖醛酸酶、核糖核酸酶、转移酶、转运蛋白、转谷氨酰胺酶、木聚糖酶、己糖氧化酶、及其组合)。

如本文使用的，“变体”多肽是指通常通过重组DNA技术，通过取代、添加或缺失一个或多个氨基酸，衍生自亲本(或参照)多肽的多肽。变体多肽与亲本多肽可以相差小数量的氨基酸残基，并且可以通过它们与亲本(参照)多肽在一级氨基酸序列同源性/同一性的水平来定义。

优选地，变体多肽与亲本(参照)多肽序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或甚至至少99％的氨基酸序列同一性。如本文使用的，“变体”多核苷酸是指编码变体多肽的多核苷酸，其中所述“变体多核苷酸”与亲本多核苷酸具有特定程度的序列同源性/同一性，或与亲本多核苷酸(或其互补序列)在严格杂交条件下杂交。优选地，变体多核苷酸与亲本(参照)多核苷酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或甚至至少99％的核苷酸序列同一性。

如本文使用的，“突变”是指核酸序列中的任何变化或改变。存在几种类型的突变，包括点突变、缺失突变、沉默突变、框位移突变、剪接突变等。突变可以特异性地(例如，经由定点诱变)或随机地(例如，经由化学试剂、通过修复减去细菌菌株传代)进行或自发地发生。

如本文使用的，在多肽或其序列的上下文中，术语“取代”意指一个氨基酸被另一个氨基酸替代(即，取代)。

如本文定义的，“内源基因”是指位于生物体基因组的其天然位置中的基因。

如本文定义的，“异源”基因、“非内源”基因、或“外源”基因是指通常不在宿主生物体中被发现，但通过基因转移引入宿主生物体中的基因(或ORF)。如本文使用的，术语一个或多个“外源”基因包含插入非天然生物体中的天然基因(或ORF)和/或插入天然或非天然生物体中的嵌合基因。

如本文定义的，“异源”核酸构建体或“异源”核酸序列具有不是其被表达的细胞的天然的序列的一部分。

如本文定义的，“异源控制序列”是指在自然界中不起调控(控制)目的基因表达的作用的基因表达控制序列(例如，启动子或增强子)。通常，异源核酸序列对于它们存在的细胞或部分基因组而言不是内源(天然)的，并且已经通过感染、转染、转化、显微注射、电穿孔等添加到细胞中。“异源”核酸构建体可以包含与在天然宿主细胞中发现的控制序列/DNA编码(ORF)序列组合相同或不同的控制序列/DNA编码序列组合。

如本文使用的，术语“信号序列”和“信号肽”是指可以参与成熟蛋白或前体形式的蛋白的分泌或定向转运的氨基酸残基序列。通常，信号序列位于前体或成熟蛋白序列的N-末端。信号序列可以是内源的或外源的。成熟蛋白中一般不存在信号序列。通常，在蛋白转运后，信号序列通过信号肽酶从所述蛋白切割。

术语“衍生的”涵盖术语“起源的”、“获得的”“可获得的”和“创建的”，并且通常表示一种指定的材料或组合物在另一种指定的材料或组合物中找到它的起源或具有可以参照另一种指定材料或组合物描述的特征。

如本文使用的，术语“同源性”涉及同源多核苷酸或多肽。如果两个或更多个多核苷酸或两个或更多个多肽是同源的，则这意味着同源多核苷酸或多肽具有至少60％、更优选至少70％、甚至更优选至少85％、仍更优选至少90％、更优选至少95％、并且最优选至少98％的“同一性程度”。两个多核苷酸或多肽序列是否具有如本文定义的同源程度足够高的同一性，可以通过使用本领域已知的计算机程序对齐两个序列来适当地研究，所述计算机程序是例如，GCG程序包中提供的“GAP”(Program Manual for the Wisconsin Package[威斯康星程序包手册],第8版,1994年8月,遗传学计算机集团(Genetics Computer Group),科学车道575号(575Science Drive),麦迪逊,威斯康星州,美国53711)(Needleman和Wunsch,(1970))。使用具有以下设置的GAP进行DNA序列比较：GAP产生罚分5.0和GAP扩展罚分0.3。

如本文使用的，术语“百分比(％)同一性”是指当使用序列比对程序对齐时，编码多肽或多肽的氨基酸序列的核酸序列之间的核酸或氨基酸序列同一性的水平。

如本文使用的，“比生产力”是在给定时间段内生产的蛋白的总量/细胞/时间。

如本文定义的，术语“纯化的”、“分离的”或“富集的”意指生物分子(例如，多肽或多核苷酸)通过将其与它在自然界中相关联的天然存在的成分中的一些或所有分离而从其天然状态改变。这种分离或纯化可以通过本领域公认的分离技术如离子交换色谱法、亲和色谱法、疏水分离、透析、蛋白酶处理、硫酸铵沉淀或其他蛋白盐沉淀、离心、尺寸排阻色谱法、过滤、微量过滤、凝胶电泳或梯度分离进行，以去除最终组合物中所不希望的全细胞、细胞碎片、杂质、外来蛋白、或酶。然后可以进一步向纯化的或分离的生物分子组合物中添加提供额外益处的成分，例如活化剂、抗抑制剂、期望的离子、控制pH的化合物、或其他酶、或化学品。

如本文使用的，术语“ComK多肽”定义为comK基因的产物；所述基因是转录因子，在感受态发展之前作为最终的自动调控控制开关；涉及激活参与DNA结合和摄取以及重组的晚期感受态基因的表达(Liu和Zuber,1998；Hamoen等人,1998)。SEQ ID NO:43示出了包含和表达comK核酸序列的质粒(pBL.comK)。

如本文使用的，“同源基因”是指来自不同的、但通常相关的物种的基因对，这些基因彼此对应并且彼此相同或非常相似。所述术语涵盖通过物种形成(即，新物种的发育)分离的基因(例如，直系同源基因)、以及通过遗传重复分离的基因(例如，旁系同源基因)。

如本文使用的，“直系同源物”和“直系同源基因”是指通过物种形成从共同祖先基因(即，同源基因)进化的不同物种中的基因。通常，直系同源物在进化过程中保持相同的功能。直系同源物的鉴定可用于新测序基因组中基因功能的可靠预测。

如本文使用的，“旁系同源物”和“旁系同源基因”是指与基因组内重复相关的基因。虽然直系同源物在进化过程中保持相同的功能，但旁系同源物发展新功能，即使一些功能通常与原始功能相关。旁系同源基因的实例包括但不限于编码胰蛋白酶、胰凝乳蛋白酶、弹性蛋白酶、和凝血酶的基因，上述酶都是丝氨酸蛋白酶并且在同一物种内一起发生。

如本文使用的，“同源性”是指序列相似性或同一性，同一性优先。使用本领域已知的标准技术来确定这种同源性(参见，例如，Smith和Waterman,1981；Needleman和Wunsch,1970；Pearson和Lipman,1988；程序如在Wisconsin Genetics Software Package[威斯康星州遗传学软件包]中的GAP、BESTFIT、FASTA、和TFASTA(遗传学计算机集团,麦迪逊,威斯康星州)和Devereux等人,1984)。

如本文使用的，“类似的序列”是其中基因的功能与衍生自芽孢杆菌属细胞的基因基本上相同的序列。另外，类似的基因与芽孢杆菌属物种细胞的序列包括至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％序列同一性。类似的序列由已知的序列比对方法确定。通常使用的比对方法是BLAST，尽管存在也可用于对齐序列的其他方法。

如本文使用的，术语“杂交”是指通过碱基配对将核酸链与互补链连接的过程，如本领域已知的。如果两个序列在中至高严格杂交和洗涤条件下彼此特异性杂交，则认为核酸序列可与参照核酸序列“选择性杂交”。杂交条件是基于核酸结合复合物或探针的解链温度(T_m)。例如，“最大严格”通常发生在约T_m ^-5℃(比探针的T^m低5°)；“高严格”发生在低于T_m约5℃-10℃；“中等严格”发生在比探针的T_m低约10℃-20℃；并且“低严格”发生在低于T_m约20℃-25℃。在功能上，最大严格条件可以用于鉴定与杂交探针具有严格同一性或近乎严格同一性的序列；而中或低严格杂交可用于鉴定或检测多核苷酸序列同源物。中和高严格杂交条件是本领域熟知的。高严格条件的实例包括以下杂交：在约42℃在50％甲酰胺、5X SSC、5X登哈特溶液(Denhardt's solution)、0.5％SDS和100pg/ml变性载剂DNA中进行，随后在室温(RT)在2X SSC和0.5％SDS中洗涤两次，并在42℃在0.1X SSC和0.5％SDS中再洗涤两次。中严格条件的实例包括在37℃在包含20％甲酰胺、5x SSC(150mM NaCI、15mM柠檬酸三钠)、50mM磷酸钠(pH 7.6)、5x登哈特溶液、10％葡聚糖硫酸盐、和20mg/ml变性剪切的鲑鱼精子DNA的溶液中过夜孵育，随后在约37℃-50℃在1x SSC中洗涤过滤器。如果需要，本领域技术人员知道如何调节温度、离子强度等以适应如探针长度等因素。

如本文使用的，“重组体”包括提及细胞或载体，其已经通过引入异源核酸序列而被修饰，或者所述细胞衍生自已如此修饰的细胞。因此，例如，重组细胞表达未在细胞的天然(非重组)形式内发现的相同形式的基因或表达以其他方式异常表达的、低表达的或根本不表达的天然基因(由于故意的人为干预)。“重组(recombination、recombining)”或产生“重组的(recombined)”核酸通常是两个或更多个核酸片段的组装，其中所述组装产生嵌合基因。

如本文使用的，“侧翼序列”是指正在讨论的序列的上游或下游的任何序列(例如，针对基因A-B-C，基因B以A和C基因序列为侧翼)。在某些实施例中，输入序列在每侧侧翼有同源盒。在另一实施例中，输入序列和同源盒包含在每侧侧翼有填充序列的单元。在一些实施例中，侧翼序列仅存在于单侧(3’或5’)，但在优选的实施例中，序列的每侧均有侧翼序列。每个同源盒的序列与芽孢杆菌属染色体中的序列同源。这些序列指导了在芽孢杆菌属染色体中新构建体的整合位置以及芽孢杆菌属染色体的哪部分将被输入序列替代。在其他实施例中，选择性标记的5’和3’端侧翼有包含灭活的染色体区段的部分的多核苷酸序列。在一些实施例中，侧翼序列仅存在于单侧(3’或5’)，而在其他实施例中，其存在于所侧翼序列的每侧。

如本文使用的，术语“填充序列”是指侧翼同源盒(通常为载体序列)的任何额外的DNA。然而，所述术语涵盖任何非同源DNA序列。不受任何理论的限制，填充序列为细胞启动DNA摄取提供非关键的靶。

II.核糖体RNA启动子序列

如上文一般阐述的，本公开的某些实施例涉及本文描述的新颖的启动子(核酸)序列。在某些实施例中，这些新颖的启动子序列有效地连接到编码POI的基因或ORF，其中它们特别适合用于工业相关蛋白的大规模生产。在某些实施例中，此类新颖的启动子序列是天然芽孢杆菌属物种核糖体RNA(rrn)启动子(核酸)序列的合成的变体。

例如，如上文背景技术部分所呈现，国际PCT公开号WO2013/086219总体上公开了启动子、表达载体、微生物和用于生产编码目的蛋白的多核苷酸的方法，所述多核苷酸包含衍生自枯草芽孢杆菌的核糖体启动子，其中描述的核糖体启动子序列可用于在革兰氏阳性微生物细胞中进行增强的蛋白生产。这些核糖体RNA和核糖体蛋白启动子序列包括某些枯草芽孢杆菌核糖体RNA启动子(缩写为“rrn”)，例如rrnB、rrnI、和rrnE，以及某些枯草芽孢杆菌核糖体蛋白启动子(缩写为“rps”)，例如rpsD和rpsJ。

相比之下，如下文的实例部分所呈现和描述的，申请人已经鉴定了衍生自此类rrn启动子(核酸)序列的新颖的突变的/变体启动子序列。更特别地，在用于组装到芽孢杆菌属表达构建体中的DNA的常规合成期间，申请人改变了rrn启动子的序列以促进构建体的DNA组装，在这些改变期间，申请人鉴定了某些枯草芽孢杆菌rrnIp2启动子突变体(例如，变体/突变型rrnIp2启动子序列，如SEQ ID NO:40、58、和59)，与天然rrnIp2启动子序列相比，所述枯草芽孢杆菌rrnIp2启动子突变体表达/生产增加量的有效地连接的报告基因。

例如，如实例1所呈现和描述的，申请人构建了用于将表达盒引入枯草芽孢杆菌的aprE基因座中的aprE Cas9靶向载体。因此，为了产生指导RNA(gRNA)表达盒，将编码gRNA的DNA有效地连接到在芽孢杆菌属物种细胞中有效的启动子序列和终止子序列，使得所述启动子位于编码gRNA的DNA的上游(5′)，并且所述终止子位于编码gRNA的DNA的下游(3′)。此外，本公开的实例2进一步描述了包含引入的水解酶表达盒的芽孢杆菌属物种(子代)细胞的构建。更特别地，此类芽孢杆菌属物种细胞包含水解酶表达盒，所述水解酶表达盒具有(1)与yhfN基因的5′侧翼区(SEQ ID NO:38)同源的DNA序列，所述DNA序列有效地连接到(2a)编码天然枯草芽孢杆菌rrnIp2启动子(SEQ ID NO:39)的DNA序列或(2b)编码新颖的(合成的)变体rrnIp2-1启动子(SEQ ID NO:40)的DNA序列，所述启动子DNA序列(3)有效地连接到编码示例性目的蛋白(即，水解酶)的DNA序列，所述编码示例性目的蛋白的DNA序列(4)有效地融合到编码解淀粉芽孢杆菌apr终止子序列(SEQ ID NO:41)的DNA序列，其中所述启动子位于编码水解酶的DNA序列的上游(5′)，并且所述终止子位于编码水解酶的DNA的下游(3′)。此外，此类表达盒有效地融合到与yhfN基因的3′侧翼区(SEQ ID NO:42)同源的DNA序列。例如，将包含具有天然rrnIp2启动子(SEQ ID NO:39)的水解酶表达盒的芽孢杆菌属物种(子代)细胞菌落储存并命名为菌株“SS066”，而将包含具有经修饰的rrnIp2-1启动子(SEQ ID NO:40)的水解酶表达盒的芽孢杆菌属物种(子代)细胞菌落储存并命名为菌株“SS065”。

本公开的实例3进一步描述了，在小规模条件下评估包含具有天然rrnIp2启动子的水解酶表达盒(即，实例3；蛋白酶)的芽孢杆菌属物种细胞(例如，芽孢杆菌属细胞SS066)或包含具有经修饰的rrnIp2-1启动子的水解酶表达盒的芽孢杆菌属物种细胞(例如，芽孢杆菌属细胞SS065)的水解酶(即，蛋白酶)生产。更特别地，在生长四十(40)小时后，使用suc-AAPF-pNA测定法确定全细胞培养液中的蛋白酶浓度。例如，表5(实例3)示出了SS065细胞(即，包含rrnIp2-1启动子；SEQ ID NO:40)相对于SS066细胞(即，包含天然rrnIp2启动子；SEQ ID NO:39)的(标准化)相对蛋白酶表达，这表明蛋白酶活性增加大约2倍。

同样，本公开的实例4呈现了包含示例性水解酶表达盒(即，实例4；淀粉酶)的芽孢杆菌属物种细胞。更具体地，将实例4中描述的淀粉酶表达盒引入地衣芽孢杆菌细胞中，所述地衣芽孢杆菌细胞包含(1)在天然rrnIp2启动子(SEQ ID NO:39)控制下的淀粉酶表达盒或(2)在经修饰的rrnIp2-1启动子(SEQ ID NO:40)控制下的淀粉酶表达盒。更特别地，在含有1％(w/v)不溶性淀粉的L琼脂上对天然rrnIp2淀粉酶盒和经修饰的rrnIp2-1淀粉酶盒的晕圈阳性转化体(halo positive transformant)进行划线纯化，以纯化单菌落，其中将具有rrnIp2_淀粉酶盒的序列验证盒的菌落储存并命名为“BF399”，并且将具有rrnIp2-1_淀粉酶盒的序列验证盒的菌落储存并命名为“BF401”。

本公开的实例5进一步测定了包含实例4中构建的淀粉酶表达盒的芽孢杆菌属物种细胞(即，细胞BF399和BF401)。例如，如表9所呈现，测试了包含天然rrnIp2启动子的淀粉酶表达盒(即，盒SEQ ID NO:44)和包含变体rrnIp2-1启动子的淀粉酶表达盒(即，盒SEQ IDNO:45)的淀粉酶的表达/生产，以确定这些不同的启动子对芽孢杆菌属物种细胞中的淀粉酶生产的影响。更特别地，如表9所呈现，包含变体rrnIp2-1启动子(SEQ ID NO:40；即，盒SEQ ID NO:45)的芽孢杆菌属物种细胞产生的淀粉酶比包含天然rrnIp2启动子(即，盒SEQID NO:44)的芽孢杆菌属物种细胞平均高30％。

因此，如本文一般描述的，本公开的某些实施例涉及用于生产/构建具有增加的蛋白生产表型等的芽孢杆菌属物种细胞(例如，蛋白生产宿主细胞、细胞工厂)的组合物和方法。

III.地衣芽孢杆菌amyL启动子区序列

如上文一般阐述的，本公开的某些实施例涉及本文描述的新颖的启动子(核酸)序列。因此，在某些实施例中，本文描述的新颖的启动子序列有效地连接到编码POI的基因或ORF，所述新颖的启动子序列特别适合用于工业相关蛋白的大规模生产。例如，某些实施例涉及包含有效地连接到下游5′-UTR序列的上游启动子序列的新颖的启动子序列区，如本文一般描述的。在某些实施例中，此类新颖的启动子序列区是天然地衣芽孢杆菌amyL启动子(核酸)序列的合成的(经修饰的)变体。

例如，如上文第II部分(例如，参见图1)一般阐述的，当天然rrnIp2启动子序列(SEQ ID NO:39)的核苷酸位置89、90、和91处的3′腺嘌呤(A)变为rrnIp2-1启动子序列(SEQID NO:40；SEQ ID NO:58)的核苷酸位置89处的胸腺嘧啶(T)、核苷酸位置90处的鸟嘌呤(G)、和核苷酸位置91处的胸腺嘧啶(T)时，在(TGT)修饰的rrnIp2-1启动子(SEQ ID NO:40；SEQ ID NO:58)控制下的目的基因的表达相对于在天然rrnIp2启动子(SEQ ID NO:39)控制下表达的相同目的基因的表达显著增强。基于经修饰的rrnIp2启动子序列的这些令人惊讶和出乎意料的观察结果，申请人设想将类似的3′核苷酸修饰引入天然地衣芽孢杆菌amyL启动子区中。

更具体地，如下文实例6所描述，在某些实施例中，申请人修饰了天然地衣芽孢杆菌amyL启动子区(命名为PamyL-1；SEQ ID NO:64)，所述天然PamyL-1启动子区包含天然地衣芽孢杆菌amyL启动子序列(SEQ ID NO:82)和天然地衣芽孢杆菌amyL 5′-UTR序列(SEQID NO:84)，而经修饰的amyL启动子区(命名为PamyL-2；SEQ ID NO:65)包含有效地连接到天然地衣芽孢杆菌amyL 5′-UTR序列(SEQ ID NO:84)的经修饰的(合成的)amyL启动子序列(SEQ ID NO:83)，例如，参见图3和图4。在某些其他实施例中，申请人构建了命名为PamyL-3(SEQ ID NO:66)和PamyL-4(SEQ ID NO:67)的合成的(杂交的)启动子区，其中所述杂交的PamyL-3启动子区(SEQ ID NO:66)包含有效地连接到天然枯草芽孢杆菌aprE 5′-UTR序列(SEQ ID NO：85)的天然地衣芽孢杆菌amyL启动子序列(SEQ ID NO:82)，并且所述杂交的PamyL-4启动子区(SEQ ID NO:67)包含有效地连接到天然枯草芽孢杆菌aprE 5′-UTR序列(SEQ ID NO:85)的经修饰的地衣芽孢杆菌amyL启动子序列(SEQ ID NO:83)。例如，如图5核酸序列比对所示，推定的转录起始位点(TSS)用粗体的核苷酸表示，后接用斜体的核苷酸表示的5′-UTR序列，而带双下划线的“G”核苷酸用以帮助可视化PamyL-3(相对于PamyL-4)的TSS。

因此，如实例6一般阐述的，将异源(截短的)支链淀粉酶表达盒引入地衣芽孢杆菌细胞中。更具体地，将(截短的)支链淀粉酶表达盒引入地衣芽孢杆菌细胞中，其中所述细胞包含(a)在天然地衣芽孢杆菌amyL启动子区(即，PamyL-1；SEQ ID NO:64)控制下的表达盒、(b)在经修饰的启动子区PamyL-2(SEQ ID NO:65)控制下的表达盒、(c)在经修饰的启动子区PamyL-3(SEQ ID NO:66)控制下的表达盒、或(d)在经修饰的启动子区PamyL-4(SEQ IDNO:67)控制下的表达盒。例如，如实例6所描述，对具有PamyL-1支链淀粉酶盒(SEQ ID NO:78)的序列验证盒的菌落进行划线纯化，将其储存并命名为“PamyL-Pulltr.”；对具有PamyL-2支链淀粉酶盒(SEQ ID NO:79)的序列验证盒的菌落进行划线纯化，将其储存并命名为“LDN461”；对具有PamyL-3支链淀粉酶盒(SEQ ID NO:80)的序列验证盒的菌落进行划线纯化，将其储存并命名为“LDN462”；并且对具有PamyL-4支链淀粉酶盒(SEQ ID NO:81)的序列验证盒的菌落进行划线纯化，将其储存并命名为“LDN463”。

更特别地，如实例7进一步描述的，申请人测定了包含引入的(截短的)支链淀粉酶表达盒的芽孢杆菌属细胞(菌株)，以确定这些不同的启动子区对这种异源支链淀粉酶蛋白生产的影响。例如，实例7中呈现的数据表明，包含PamyL-2支链淀粉酶盒(SEQ ID NO:79；例如，菌株LDN461)的芽孢杆菌属菌株产生的支链淀粉酶比包含PamyL-1支链淀粉酶盒(SEQID NO:78；菌株PamyL-Pulltr.)的芽孢杆菌属菌株平均高78％。同样，实例7中呈现的数据表明，包含PamyL-4支链淀粉酶盒(SEQ ID NO:81；菌株LDN463)的芽孢杆菌属菌株产生的支链淀粉酶比包含PamyL-3支链淀粉酶盒(SEQ ID NO:80；菌株LDN462)的芽孢杆菌属菌株平均高16％。

IV.分子生物学

如上文一般阐述的，本公开的某些实施例涉及衍生自亲本芽孢杆菌属细胞的经修饰的芽孢杆菌属物种(子代)细胞。更特别地，某些其他实施例涉及经修饰的芽孢杆菌属物种(子代)细胞及其用于生产和构建具有增加的蛋白生产力表型等的此类经修饰的芽孢杆菌属物种细胞(例如，蛋白生产宿主细胞、细胞工厂)的方法。因此，某些其他实施例涉及亲本芽孢杆菌属物种细胞的突变体，所述突变体包含一个或多个遗传修饰(即，相对于亲本细胞)。

如本文呈现的，此类新颖的启动子(核酸)序列对于在芽孢杆菌属物种细胞中表达编码目的蛋白的基因或ORF特别有用。其他实施例涉及新颖的启动子(核酸)序列，所述序列包含在其新颖的表达盒中。因此，某些其他实施例涉及经修饰的芽孢杆菌属物种细胞，所述细胞包含引入其中的一个或多个异源表达构建体。某些其他实施例涉及由本公开的经修饰的芽孢杆菌属物种细胞生产的分离的目的蛋白(POI)。因此，在某些实施例中，一个或多个启动子序列有效地连接到编码POI的基因或ORF。在某些其他实施例中，一个或多个启动子序列还包含位于上游(5′)并有效地连接到其的核苷酸。在其他实施例中，基因或ORF还包含位于下游(3′)并有效地连接到其的核苷酸。

因此，本公开的某些实施例涉及用于遗传修饰芽孢杆菌属物种细胞的方法(例如，经由引入、取代、和/或去除基因、ORF、启动子、终止子、5′-UTR、3′-UTR等中的一个或多个核苷酸)。因此，用于遗传修饰芽孢杆菌属物种细胞的方法包括但不限于：(a)给定核酸序列中一个或多个核苷酸的引入、取代、和/或去除，(b)基因破坏，(c)基因转换，(d)基因缺失，(e)基因下调，(f)Cas9介导的编辑，(g)位点特异性诱变，和/或(h)随机诱变。因此，在某些实施例中，使用本领域熟知的方法修饰亲本芽孢杆菌属物种细胞，例如在目的多核苷酸序列中进行插入、破坏、替代或缺失等。

例如，在某些实施例中，待修饰基因的一部分可以是编码区或所述编码区表达所需的调控元件。在某些实施例中，使用本领域已知的方法修饰芽孢杆菌属物种核酸序列(例如，基因、ORF、启动子、5′-UTR等)。在某些实施例中，使用本领域已知的方法修饰启动子(核酸)序列。在其他实施例中，使用本领域已知的方法修饰衍生自天然芽孢杆菌属物种的启动子。在某些其他实施例中，本公开的变体芽孢杆菌属物种启动子是合成的序列(例如，rrnIp2-1启动子；SEQ ID NO:40)。

因此，在某些实施例中，通过基因缺失构建经修饰的芽孢杆菌属物种细胞。基因缺失技术能够部分或完全去除一个或多个基因，从而消除它们的表达、或表达非功能性(或活性降低的)蛋白产物。在此类方法中，一个或多个基因的缺失可以通过使用质粒进行同源重组来完成，所述质粒已构建成连续含有基因侧翼的5'和3'区。可以将连续的5'和3'区引入芽孢杆菌属细胞中，例如，在温度敏感的质粒(如pE194)上，在允许温度下与第二可选择标记结合以允许质粒在细胞中建立。然后将细胞移至非允许温度，以选择在同源侧翼区之一处具有整合到染色体中的质粒的细胞。通过选择第二可选择标记来实现质粒整合的选择。整合后，通过将细胞移至允许温度持续几代而不进行选择来刺激第二同源侧翼区处的重组事件。将细胞铺板以获得单菌落，并检查菌落是否损失两种可选择标记(参见例如，Perego,1993)。因此，本领域的技术人员可容易地鉴定在基因的编码序列和/或基因的非编码序列中的核苷酸区(适于完全或部分缺失)。

在其他实施例中，通过在基因或其转录或翻译所需的调控元件中引入、取代、或去除一个或多个核苷酸来构建本公开的经修饰的芽孢杆菌属物种细胞。例如，如本文描述的，本公开的某些经修饰的启动子(核酸)序列包含核苷酸取代(例如，核苷酸位置30、89、90、和91)。可以根据本领域已知的方法，通过本领域已知的技术(如定点诱变或PCR产生的诱变)来完成这种修饰(例如，参见Botstein和Shortle,1985；Lo等人,1985；Higuchi等人,1988；Shimada,1996；Ho等人,1989；Horton等人,1989；以及Sarkar和Sommer,1990)。

在另一实施例中，通过基因转换的过程构建经修饰的芽孢杆菌属物种细胞是(例如，参见Iglesias和Trautner,1983)。例如，在基因转换方法中，对应于一个或多个基因的核酸序列在体外诱变以生产缺陷核酸序列，然后将所述缺陷核酸序列转化到亲本芽孢杆菌属细胞中以生产缺陷基因。通过同源重组，缺陷核酸序列替代内源基因。可能期望的是，缺陷基因或基因片段也编码可用于选择含有缺陷基因的转化体的标记。例如，可以将缺陷基因与可选择标记结合引入非复制或温度敏感的质粒上。通过在不允许质粒复制的条件下选择标记来实现质粒整合的选择。通过检查菌落损失可选择标记和获得突变型基因来实现导致基因替代的第二次重组事件的选择(Perego,1993)。可替代地，缺陷核酸序列可以含有基因的一个或多个核苷酸的插入、取代、或缺失，如下所述。

在其他实施例中，经由CRISPR-Cas9编辑生产/构建经修饰的芽孢杆菌属物种细胞。例如，本公开的芽孢杆菌属物种启动子序列可以通过核酸指导的核酸内切酶进行编辑(或破坏、缺失、下调)，所述核酸指导的核酸内切酶通过结合指导RNA(例如，Cas9)和Cpf1或指导DNA(例如，NgAgo)发现其靶DNA，这将核酸内切酶募集到DNA上的靶序列上，其中所述核酸内切酶可以在DNA中产生单链或双链断裂。这种靶向DNA断裂成为DNA修复的底物，并且可以与提供的编辑模板重组以修饰启动子序列(例如，参见实例1)。因此，编码核酸指导的核酸内切酶(出于此目的，来自酿脓链球菌(S.pyogenes)的Cas9)的基因或编码Cas9核酸酶的密码子优化的基因有效地连接到在芽孢杆菌属物种细胞中有活性的启动子和在芽孢杆菌属细胞中有活性的终止子，从而产生芽孢杆菌属Cas9表达盒。同样，本领域技术人员可容易地鉴定目的启动子特有的一个或多个靶位点。例如，为了构造编码gRNA(针对目的靶启动子位点)的DNA构建体，可变靶向(VT)结构域将包含为(PAM)前间区序列邻近基序(TGG)5′的靶位点的核苷酸，所述核苷酸与编码酿脓链球菌Cas9的Cas9核酸内切酶识别结构域(CER)的DNA融合。组合编码VT结构域的DNA和编码CER结构域的DNA，从而产生编码gRNA的DNA。因此，通过将编码gRNA的DNA有效地连接到在芽孢杆菌属细胞中有活性的启动子和在芽孢杆菌属细胞中有活性的终止子来产生gRNA的芽孢杆菌属表达盒。在某些实施例中，由核酸内切酶诱导的DNA断裂用输入序列修复/替代。

例如，为了精确修复由上述Cas9表达盒和gRNA表达盒产生的DNA断裂，提供核苷酸编辑模板，使得细胞的DNA修复机构可以利用编辑模板。例如，可以将靶向启动子上游(5′)约500bp与靶向启动子下游(3′)约500bp融合以产生编辑模板，所述模板由芽孢杆菌宿主的机构用于修复由RGEN产生的DNA断裂。可以使用许多不同的方法(例如，原生质体融合、电穿孔、自然感受态、或诱导感受态)将Cas9表达盒、gRNA表达盒和编辑模板共同递送至细胞。通过用正向和反向引物扩增基因座，通过PCR扩增靶基因座来筛选转化的细胞。这些引物可以扩增野生型基因座或已经由RGEN编辑的经修饰的基因座。然后使用测序引物对这些片段进行测序以鉴定编辑的菌落。

在又其他实施例中，使用本领域熟知的方法(包括但不限于，化学诱变(参见例如，Hopwood,1970)和转座(参见例如，Youngman等人,1983))，通过随机或特异性诱变构建经修饰的芽孢杆菌属物种细胞。可以通过对亲本细胞进行诱变并筛选其中基因表达已经改变的突变的细胞来进行基因或启动子的修饰。诱变可以是特异性的或随机的，可以例如通过使用合适的物理或化学诱变剂进行、通过使用合适的寡核苷酸进行、或通过对DNA序列进行PCR产生的诱变进行。此外，诱变可通过使用这些诱变方法的任意组合来进行。

适用于本发明目的的物理或化学诱变剂的实例包括紫外线(UV)照射、羟胺、N-甲基-N'-硝基-N-亚硝基胍(MNNG)、N-甲基-N'-亚硝基胍(NTG)、邻甲基羟胺、亚硝酸、乙基甲磺酸(EMS)、亚硫酸氢钠、甲酸、和核苷酸类似物。当使用这些试剂时，通常通过如下方法来进行诱变：在合适的条件下在选择的诱变剂的存在下孵育待诱变的亲本细胞，并选择表现出基因表达降低或无基因表达的突变的细胞。

国际PCT公开号WO 2003/083125(通过援引以其全文并入本文)公开了用于修饰芽孢杆菌属细胞的方法，例如使用PCR融合来产生芽孢杆菌属缺失菌株和DNA构建体以绕过大肠杆菌。国际PCT公开号WO2002/14490(通过援引以其全文并入本文)公开了用于修饰芽孢杆菌属细胞的方法，所述方法包括：(1)构建和转化整合的质粒(pComK)，(2)随机诱变编码序列、信号序列、和前肽序列，(3)同源重组，(4)通过向转化DNA中添加非同源侧翼来提高转化效率，(5)优化双交叉整合(cross-over integration)，(6)定点诱变，和(7)无标记缺失(marker-less deletion)。

本领域技术人员非常了解用于将多核苷酸序列引入细菌细胞(例如，大肠杆菌和芽孢杆菌属物种)中的合适方法(参见例如，Ferrari等人,1989；Saunders等人,1984；Hoch等人,1967；Mann等人,1986；Holubova,1985；Chang等人,1979；Vorobjeva等人,1980；Smith等人,1986；Fisher等人,1981；和McDonald,1984)。实际上，包括原生质体转化和中板集合、转导、和原生质体融合在内的转化方法是已知的并且适合用于本公开。转化方法特别优选用于将本公开的DNA构建体引入宿主细胞中。

除了常用方法之外，在一些实施例中，直接转化宿主细胞(即，在引入宿主细胞之前，中间细胞不用于扩增DNA构建体或以其他方式处理DNA构建体)。将DNA构建体引入宿主细胞中包括本领域已知的将DNA引入宿主细胞而不插入质粒或载体中的那些物理和化学方法。此类方法包括但不限于氯化钙沉淀、电穿孔、裸DNA、脂质体等。在额外的实施例中，DNA构建体与质粒一起共转化而不插入所述质粒。在另外的实施例中，通过本领域已知的方法，将选择性标记从经修饰的芽孢杆菌属菌株中缺失或基本上切除(例如，Stahl等人,1984和Palmeros等人,2000)。在一些实施例中，载体从宿主染色体上分解下来，将侧翼区域留在染色体上，而将固有的染色体区去除。

在国际PCT公开号WO 2003/089604中描述了用于在芽孢杆菌属细胞中筛选和产生具有一系列活性(启动子强度)的启动子文库的方法。

V.培养用于生产目的蛋白的芽孢杆菌属细胞

在本公开的其他实施例中，本文构建和描述的芽孢杆菌属物种细胞包含增强的蛋白生产力表型。更具体地，本公开的经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞包含增强的蛋白生产力表型(当亲本细胞和子代细胞在相同的条件下培养时)。因此，本公开的某些实施例涉及表达/生产目的蛋白(POI)的方法，所述方法通常包括发酵/培养此类细胞。

本领域熟知的发酵方法可用于发酵本公开的经修饰的和未经修饰的芽孢杆菌属物种细胞。在一些实施例中，将细胞在分批或连续发酵条件下培养。经典的分批发酵是封闭的系统，其中在发酵开始时设定培养基的组成，并且所述组成在发酵期间不改变。在发酵开始时，用一种或多种所需生物体接种培养基。在这种方法中，允许发酵发生而不向系统添加任何组分。通常，分批发酵符合关于添加碳源的“分批”的资格，并且经常对控制因素(例如pH和氧浓度)进行尝试。分批系统的代谢物和生物质组成不断变化直到发酵停止时。在典型分批培养中，细胞可以通过静态停滞期进展到高生长对数期，最后进入生长速率减少或停止的稳定期。如果不经处理，处于稳定期的细胞最终死亡。通常，在对数期的细胞负责产物的大量生产。

标准分批系统的合适的变体是“补料分批发酵”系统。在典型分批系统的这种变体中，随着发酵的进展，将底物以增量添加。当分解代谢物阻遏可能抑制细胞的代谢时并且在培养基中希望具有有限量的底物的情况下，补料分批系统是有用的。在补料分批系统中实际底物浓度的测量是困难的，并且因此基于可测量因素(例如pH、溶解的氧和废气(例如CO₂)的分压)的变化对其进行估计。分批和补料分批发酵是常用的并且在本领域中是已知的。

连续发酵是开放的系统，在所述系统中，将定义的发酵培养基连续添加到生物反应器中，同时去除等量的条件培养基以用于处理。连续发酵通常将培养物保持在恒定的高密度，其中细胞主要处于对数期生长。连续发酵允许对影响细胞生长和/或产物浓度的一种或多种因素进行调节。例如，在一个实施例中，将限制营养素(例如碳源或氮源)保持在固定的速率，并且允许调控所有其他参数。在其他系统中，影响生长的许多因素可以不断改变，而通过培养基浊度测量的细胞浓度保持不变。连续系统努力保持稳定态的生长条件。因此，由于转移培养基而引起的细胞损失应当与发酵中的细胞生长速率相平衡。调节用于连续发酵过程的营养素和生长因子的方法以及最大化产物形成速率的技术在工业微生物学领域中是熟知的。

因此，在某些实施例中，可以通过常规程序从培养基中回收由转化的(经修饰的)宿主细胞生产的POI，所述常规程序包括通过离心或过滤从培养基中分离宿主细胞，或者如果需要，破坏细胞并从细胞部分和碎片中去除上清液。通常经过澄清后，上清液或滤液的蛋白性组分通过盐(例如硫酸铵)沉淀。然后将沉淀的蛋白溶解，并且可以通过各种色谱程序进行纯化，例如离子交换色谱法、凝胶过滤。

VI.由经修饰的细胞生产的目的蛋白

如前述部分简要陈述的，本公开的细胞、菌株、多核苷酸、启动子、表达构建体及其方法可用于生产商业上重要的蛋白。本公开的目的蛋白(POI)可以是任何内源或异源蛋白，并且其可以是此种POI的变体。蛋白可以含有一个或多个二硫桥键，或者是其功能形式为单体或多聚体的蛋白，即蛋白具有四级结构并且由多个相同(同源的)或不相同的(异源的)亚基构成，其中POI或其变体POI优选是具有目的特性的POI。

例如，在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞包含增加的蛋白滴度，其中蛋白滴度定义为蛋白/体积的量(g/L)。例如，可以通过本领域已知的方法(例如，ELISA、HPLC、Bradford测定、LC/MS等)来测量滴度。因此，在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞包含至少约0.1％、至少约1％、至少约5％、至少约6％、至少约7％、至少约8％、至少约9％、或至少约10％或更多的蛋白滴度增加。

在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞表现出增加的体积生产力，其中体积生产力定义为发酵期间生产的蛋白/生物反应器标称体积(L)/总发酵时间(h)的量(g)。例如，可以通过本领域已知的方法(例如，ELISA、HPLC、Bradford测定、LC/MS等)来测量体积生产力。因此，在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞包含至少约0.1％、至少约1％、至少约5％、至少约6％、至少约7％、至少约8％、至少约9％、或至少约10％或更多的体积生产力增加。

在某些其他实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞表现出增加的总蛋白产率，其中总蛋白产率定义为生产的蛋白/克供给的碳水化合物的量(g)。因此，如本文使用的，可以使用以下等式计算总蛋白产率(g/g)：

Y_f＝T_p/T_c

其中“Y_f”是总蛋白产率(g/g)，“T_p”是发酵期间生产的总蛋白(g)，并且“T_c”是发酵(生物反应器)操作期间供给的总碳水化合物(g)。在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞的总蛋白产率相对于其所衍生自的亲本芽孢杆菌属物种细胞的增加为增加至少约0.1％、至少约1％、至少约5％、至少约6％、至少约7％、至少约8％、至少约9％、或至少约10％或更多。

总蛋白产率也可以描述为碳转换效率/碳产率，例如，以掺入总蛋白的供给的碳的百分比(％)的形式描述。因此，在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞包含增加的碳转换效率(例如，掺入总蛋白的供给的碳的百分比(％)的增加)。在某些实施例中，经修饰的细胞的碳转换效率的增加(即，相对于亲本细胞)为增加至少约0.1％、至少约1％、至少约5％、至少约6％、至少约7％、至少约8％、至少约9％、或至少约10％或更多。

在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞表现出增加的POI比生产力(Qp)。例如，比生产力(Qp)的检测是用于评价蛋白生产速率的合适方法。比生产力(Qp)可以使用以下等式确定：

“Qp＝gP/gDCW·hr”

其中，“gP”是罐中生产的蛋白的克数；“gDCW”是罐中的干细胞重量(DCW)的克数，并且“hr”是从接种时间开始的以小时表示的发酵时间，包括生产时间以及生长时间。因此，在某些实施例中，经修饰的芽孢杆菌属物种(子代)细胞相对于其所衍生自的亲本芽孢杆菌属物种细胞包含至少约0.1％、至少约1％、至少约5％、至少约6％、至少约7％、至少约8％、至少约9％、或至少约10％或更多的比生产力(Qp)增加。

在某些实施例中，POI或其变体POI选自由以下组成的组：乙酰酯酶、氨肽酶、淀粉酶、阿拉伯糖酶、阿拉伯呋喃糖苷酶、碳酸酐酶、羧肽酶、过氧化氢酶、纤维素酶、几丁质酶、凝乳酶、角质酶、脱氧核糖核酸酶、差向异构酶、酯酶、α-半乳糖苷酶、β-半乳糖苷酶、α-葡聚糖酶、葡聚糖裂解酶、内切-β-葡聚糖酶、葡糖淀粉酶、葡萄糖氧化酶、α-葡糖苷酶、β-葡糖苷酶、葡萄糖醛酸酶、糖基水解酶、半纤维素酶、己糖氧化酶、水解酶、转化酶、异构酶、漆酶、连接酶、脂肪酶、裂解酶、甘露聚糖酶、甘露糖苷酶、氧化酶、氧化还原酶、果胶裂解酶、果胶乙酰酯酶、果胶解聚酶、果胶甲酯酶、果胶分解酶、过水解酶、多元醇氧化酶、过氧化物酶、酚氧化酶、植酸酶、聚半乳糖醛酸酶、蛋白酶、肽酶、鼠李糖-半乳糖醛酸酶、核糖核酸酶、转移酶、转运蛋白、转谷氨酰胺酶、木聚糖酶、己糖氧化酶、及其组合。

在某些实施例中，POI或其变体POI选自酶委员会(Enzyme Commission，EC)编号，所述编号选自由EC 1、EC 2、EC 3、EC 4、EC 5、或EC 6组成的组。

例如，在某些实施例中，POI是氧化还原酶，包括但不限于选自以下的EC1(氧化还原酶)酶：EC 1.10.3.2(例如，漆酶)、EC 1.10.3.3(例如，L-抗坏血酸氧化酶)、EC 1.1.1.1(例如，醇脱氢酶)、EC 1.11.1.10(例如，氯化物过氧化物酶)、EC 1.11.1.17(例如，过氧化物酶)、EC1.1.1.27(例如，L-乳酸脱氢酶)、EC 1.1.1.47(例如，葡萄糖1-脱氢酶)、EC1.1.3.X(例如，葡萄糖氧化酶)、EC 1.1.3.10(例如，吡喃糖氧化酶)、EC 1.13.11.X(例如，加双氧酶)、EC 1.13.11.12(例如，亚油酸13S-脂氧合酶)、EC 1.1.3.13(例如，醇氧化酶)、EC 1.14.14.1(例如，单加氧酶)、EC 1.14.18.1(例如，单酚单加氧酶(monophenolmonooxigenase))、EC 1.15.1.1(例如，超氧化物歧化酶)、EC 1.1.5.9(先前为EC1.1.99.10，例如，葡萄糖脱氢酶)、EC 1.1.99.18(例如，纤维二糖脱氢酶)、EC 1.1.99.29(例如，吡喃糖脱氢酶)、EC 1.2.1.X(例如，脂肪酸还原酶)、EC 1.2.1.10(例如，乙醛脱氢酶)、EC 1.5.3.X(例如，果糖基胺还原酶)、EC 1.8.1.X(例如，二硫还原酶)、和EC 1.8.3.2(例如，硫醇氧化酶)。

在某些实施例中，POI是转移酶，包括但不限于选自以下的EC 2(转移酶)酶：EC2.3.2.13(例如，转谷氨酰胺酶)、EC 2.4.1.X(例如，己糖基转移酶)、EC 2.4.1.40(例如，交替蔗糖酶(alternasucrase))、EC2.4.1.18(例如，1,4α-葡聚糖分支酶)、EC 2.4.1.19(例如，环麦芽糖糊精葡聚糖转移酶)、EC 2.4.1.2(例如，糊精葡聚糖酶)、EC 2.4.1.20(例如，纤维二糖磷酸化酶)、EC 2.4.1.25(例如，4-α-葡聚糖转移酶)、EC 2.4.1.333(例如，1,2-β-寡葡聚糖磷酸转移酶)、EC 2.4.1.4(例如，淀粉蔗糖酶)、EC 2.4.1.5(例如，葡聚糖蔗糖酶)、EC 2.4.1.69(例如，半乳糖苷2-α-L-岩藻糖基转移酶)、EC 2.4.1.9(例如，菊粉蔗糖酶(inulosucrase))、EC 2.7.1.17(例如，木酮糖激酶)、EC 2.7.7.89(先前为EC 3.1.4.15，例如，[谷氨酰氨合成酶]-腺苷-L-酪氨酸磷酸化酶)、EC 2.7.9.4(例如，α葡聚糖激酶)、和EC2.7.9.5(例如，磷酸葡聚糖激酶)。

在其他实施例中，POI是水解酶，包括但不限于选自以下的EC 3(水解酶)酶：EC3.1.X.X(例如，酯酶)、EC 3.1.1.1(例如，果胶酶)、EC 3.1.1.14(例如，叶绿素酶)、EC3.1.1.20(例如，鞣酸酶)、EC 3.1.1.23(例如，甘油酯酰基水解酶)、EC 3.1.1.26(例如，半乳糖脂酶)、EC 3.1.1.32(例如，磷脂酶A1)、EC 3.1.1.4(例如，磷脂酶A2)、EC 3.1.1.6(例如，乙酰酯酶)、EC 3.1.1.72(例如，乙酰木聚糖酯酶)、EC 3.1.1.73(例如，阿魏酸酯酶)、EC3.1.1.74(例如，角质酶)、EC 3.1.1.86(例如，鼠李糖半乳糖醛酸乙酰酯酶)、EC 3.1.1.87(例如，伏马菌素B1酯酶)、EC 3.1.26.5(例如，核糖核酸酶P)、EC 3.1.3.X(例如，磷酸单酯水解酶)、EC 3.1.30.1(例如，曲霉属核酸酶S1)、EC 3.1.30.2(例如，粘质沙雷氏菌(Serratia marcescens)核酸酶)、EC 3.1.3.1(例如，碱性磷酸酶)、EC 3.1.3.2(例如，酸性磷酸酶)、EC 3.1.3.8(例如，3-植酸酶)、EC 3.1.4.1(例如，磷酸二酯酶I)、EC 3.1.4.11(例如，磷酸肌醇磷脂酶C)、EC 3.1.4.3(例如，磷脂酶C)、EC 3.1.4.4(例如，磷脂酶D)、EC3.1.6.1(例如，芳基硫酸酯酶)、EC 3.1.8.2(例如，二异丙基-氟磷酸酶)、EC 3.2.1.10(例如，寡-1,6-葡糖苷酶)、EC 3.2.1.101(例如，甘露聚糖内切-1,6-α-甘露糖苷酶)、EC3.2.1.11(例如，α-1,6-葡聚糖-6-葡聚糖水解酶)、EC 3.2.1.131(例如，木聚糖α-1,2-葡萄糖醛酸苷酶(glucuronosidase))、EC 3.2.1.132(例如，壳聚糖N-乙酰葡糖氨基水解酶)、EC3.2.1.139(例如，α-葡萄糖醛酸酶)、EC 3.2.1.14(例如，几丁质酶)、EC 3.2.1.151(例如，木葡聚糖特异性内切-β-1,4-葡聚糖酶)、EC 3.2.1.155(例如，木葡聚糖特异性外切-β-1,4-葡聚糖酶)、EC 3.2.1.164(例如，半乳聚糖内切-1,6-β-半乳糖苷酶)、EC 3.2.1.17(例如，溶菌酶)、EC 3.2.1.171(例如，鼠李半乳糖醛酸聚糖水解酶)、EC3.2.1.174(例如，鼠李半乳糖醛酸聚糖鼠李糖水解酶)、EC 3.2.1.2(例如，β-淀粉酶)、EC 3.2.1.20(例如，α-葡糖苷酶)、EC 3.2.1.22(例如，α-半乳糖苷酶)、EC 3.2.1.25(例如，β-甘露糖苷酶)、EC3.2.1.26(例如，β-果糖呋喃糖苷酶)、EC 3.2.1.37(例如，木聚糖1,4-β-木糖苷酶)、EC3.2.1.39(例如，葡聚糖内切-1,3-β-D-葡糖苷酶)、EC 3.2.1.40(例如，α-L-鼠李糖苷酶)、EC 3.2.1.51(例如，α-L-岩藻糖苷酶)、EC 3.2.1.52(例如，β-N-乙酰己糖胺酶)、EC3.2.1.55(例如，α-N-阿拉伯呋喃糖苷酶)、EC 3.2.1.58(例如，葡聚糖1,3-β-葡糖苷酶)、EC3.2.1.59(例如，葡聚糖内切-1,3-α-葡糖苷酶)、EC 3.2.1.67(例如，半乳糖醛酸1,4-α-半乳糖醛酸酶)、EC 3.2.1.68(例如，异淀粉酶)、EC 3.2.1.7(例如，1-β-D-果聚糖果糖水解酶)、EC 3.2.1.74(例如，葡聚糖1,4-β-葡糖苷酶)、EC 3.2.1.75(例如，葡聚糖内切-1,6-β-葡糖苷酶)、EC 3.2.1.77(例如，甘露聚糖1,2-(1,3)-α-甘露糖苷酶)、EC 3.2.1.80(例如，果聚糖β-果糖苷酶)、EC 3.2.1.82(例如，外切-聚-α-半乳糖醛酸苷酶)、EC 3.2.1.83(例如，κ-角叉菜胶酶)、EC 3.2.1.89(例如，阿拉伯半乳聚糖内切-1,4-β-半乳糖苷酶)、EC3.2.1.91(例如，纤维素1,4-β-纤维二糖苷酶)、EC3.2.1.96(例如，甘露糖基-糖蛋白内切-β-N-乙酰葡糖胺糖苷酶)、EC3.2.1.99(例如，阿拉伯聚糖内切-1,5-α-L-阿拉伯糖苷酶)、EC3.4.X.X(例如，肽酶)、EC 3.4.11.X(例如，氨肽酶)、EC 3.4.11.1(例如，亮氨酰氨肽酶)、EC3.4.11.18(例如，甲硫氨酰氨肽酶)、EC 3.4.13.9(例如，Xaa-Pro二肽酶)、EC 3.4.14.5(例如，二肽基-肽酶IV)、EC3.4.16.X(例如，丝氨酸型羧肽酶)、EC 3.4.16.5(例如，羧肽酶C)、EC 3.4.19.3(例如，焦谷氨酰肽酶I)、EC 3.4.21.X(例如，丝氨酸内肽酶)、EC 3.4.21.1(例如，胰凝乳蛋白酶)、EC 3.4.21.19(例如，谷氨酰内肽酶)、EC 3.4.21.26(例如，脯氨酰寡肽酶)、EC 3.4.21.4(例如，胰蛋白酶)、EC 3.4.21.5(例如，凝血酶)、EC 3.4.21.63(例如，蜂蜜曲霉蛋白酶)、EC 3.4.21.65(例如，热霉菌素)、EC 3.4.21.80(例如，链霉菌素A)、EC3.4.22.X(例如，半胱氨酸内肽酶)、EC 3.4.22.14(例如，猕猴桃蛋白酶(actinidain))、EC3.4.22.2(例如，木瓜蛋白酶)、EC 3.4.22.3(例如，无花果蛋白酶)、EC 3.4.22.32(例如，茎菠萝蛋白酶)、EC 3.4.22.33(例如，水果菠萝蛋白酶)、EC 3.4.22.6(例如，木瓜凝乳蛋白酶)、EC 3.4.23.1(例如，胃蛋白酶A)、EC 3.4.23.2(例如，胃蛋白酶B)、EC 3.4.23.22(例如，栗疫霉胃蛋白酶)、EC 3.4.23.23(例如，毛霉胃蛋白酶)、EC 3.4.23.3(例如，胃亚蛋白酶)、EC 3.4.24.X(例如，金属内肽酶)、EC 3.4.24.39(例如，氘代溶素(deuterolysin))、EC3.4.24.40(例如，舍雷肽酶)、EC 3.5.1.1(例如，天冬酰胺酶)、EC 3.5.1.11(例如，青霉素酰胺酶)、EC 3.5.1.14(例如，N-酰基-脂族-L-氨基酸酰胺水解酶)、EC 3.5.1.2(例如，L-谷氨酰胺酰胺水解酶)、EC 3.5.1.28(例如，N-乙酰胞壁酰-L-丙氨酸酰胺酶)、EC 3.5.1.4(例如，酰胺酶)、EC 3.5.1.44(例如，蛋白-L-谷氨酰胺酰胺水解酶)、EC 3.5.1.5(例如，脲酶)、EC 3.5.1.52(例如，肽-N(4)-(N-乙酰基-β-葡糖胺基)天冬酰胺酰胺酶)、EC 3.5.1.81(例如，N-酰基-D-氨基酸脱酰基酶)、EC 3.5.4.6(例如，AMP脱氨酶)、和EC 3.5.5.1(例如，腈水解酶)。

在其他实施例中，POI是裂解酶，包括但不限于选自以下的EC 4(裂解酶)酶：EC4.1.2.10(例如，扁桃腈裂解酶)、EC 4.1.3.3(例如，N-乙酰神经氨酸裂解酶)、EC 4.2.1.1(例如，碳酸脱水酶)、EC 4.2.2.-(例如，鼠李半乳糖醛酸聚糖裂解酶)、EC 4.2.2.10(例如，果胶裂解酶)、EC 4.2.2.22(例如，果胶三糖-裂解酶)、EC 4.2.2.23(例如，鼠李半乳糖醛酸聚糖内切裂解酶)、和EC 4.2.2.3(例如，甘露糖醛特异性海藻酸裂解酶)。

在某些其他实施例中，POI是异构酶，包括但不限于选自以下的EC5(异构酶)酶：EC5.1.3.3(例如，醛糖1-差向异构酶)、EC 5.1.3.30(例如，D-阿洛酮糖3-差向异构酶)、EC5.4.99.11(例如，异麦芽酮糖合酶)、和EC 5.4.99.15(例如，(1→4)-α-D-葡聚糖1-α-D-葡糖基变位酶)。

在又其他实施例中，POI是连接酶，包括但不限于选自以下的EC 6(连接酶)酶：EC6.2.1.12(例如，4-香豆酸:辅酶A连接酶)和EC 6.3.2.28(例如，L-氨基酸α-连接酶)。

鉴于本说明书和以下实例，本发明的菌株和方法的这些和其他方面以及实施例对于技术人员是显而易见的。

实例

根据以下实例可以进一步理解本发明的某些方面，所述实例不应被解释为限制性的。材料和方法的修改对本领域技术人员而言是显而易见的。

实例1

aprE Cas9靶向载体的构建

将编码来自酿脓链球菌的Cas9蛋白(SEQ ID NO:1)的合成的多核苷酸(其包含N-末端核定位序列(NLS；“APKKKRKV”；SEQ ID NO:2)、C-末端NLS(“KKKKLK”；SEQ ID NO:3)和十-组氨酸标签(“HHHHHHHHHH”；SEQ ID NO:4))有效地连接到来自枯草芽孢杆菌的aprE启动子(P-aprE)(SEQ ID NO:5)，并使用Q5 DNA聚合酶(NEB)(按照制造商的说明书)用下表1中列出的正向(SEQ ID NO:6)和反向(SEQ ID NO:7)引物对进行扩增。

表1

正向和反向引物对

正向	ATATATGAGTAAACTTGGTCTGACAGAATTCCTCCATTTTCTTCTGCTAT	SEQ ID NO:6
			反向	TGCGGCCGCGAATTCGATTACGAATGCCGTCTCCC	SEQ ID NO:7

使用Q5 DNA聚合酶(NEB)(按照制造商的说明书)用下表2中列出的正向(SEQ IDNO:10)和反向(SEQ ID NO:11)引物对扩增质粒pKB320(SEQ ID NO:9)的主链(SEQ ID NO:8)。

表2

正向和反向引物对

正向	GGGAGACGGCATTCGTAATCGAATTCGCGGCCGCA	SEQ ID NO:10
			反向	ATAGCAGAAGAAAATGGAGGAATTCTGTCAGACCAAGTTTACTCATATAT	SEQ ID NO:11

按照制造商的说明书用Zymo清洁和浓缩(Zymo clean and concentrate)5柱纯化PCR产物。随后，用Q5聚合酶(NEB)与等摩尔比的两个片段混合，使用延长重叠延伸PCR(POE-PCR)组装PCR产物。POE-PCR反应循环进行：98℃持续五(5)秒，64℃持续十(10)秒，72℃持续四(4)分钟十五(15)秒，持续30个循环。将五(5)μl POE-PCR(DNA)按照制造商的说明书转化进入Top10大肠杆菌(英杰公司(Invitrogen))，并在包含五十(50)μg/ml硫酸卡那霉素并用1.5％琼脂固化的溶源性(L)培养液(Miller配方；1％(w/v)胰蛋白胨、0.5％酵母提取物(w/v)、1％NaCl(w/v))中选择。允许菌落在37℃生长十八(18)小时。挑取菌落，并使用QiaprepDNA迷你制备试剂盒(按照制造商的说明书)制备质粒DNA，并用五十五(55)μl ddH₂O进行洗脱。使用下表3中列出的测序引物(SEQ ID NO:12-20)对质粒DNA进行桑格测序(Sangersequenced)以验证正确组装。

表3

测序引物

反向	CCGACTGGAGCTCCTATATTACC	SEQ ID NO:12
			反向	GCTGTGGCGATCTGTATTCC	SEQ ID NO:13
正向	GTCTTTTAAGTAAGTCTACTCT	SEQ ID NO:14
			正向	CCAAAGCGATTTTAAGCGCG	SEQ ID NO:15
正向	CCTGGCACGTGGTAATTCTC	SEQ ID NO:16
			正向	GGATTTCCTCAAATCTGACG	SEQ ID NO:17
正向	GTAGAAACGCGCCAAATTACG	SEQ ID NO:18
			正向	GCTGGTGGTTGCTAAAGTCG	SEQ ID NO:19
正向	GGACGCAACCCTCATTCATC	SEQ ID NO:20

使用正确组装的质粒pRF694(SEQ ID NO:21)以组装中间质粒pRF748(SEQ ID NO:22)。通过将中断的合成的gRNA盒克隆到质粒pRF694的NcoI/SalI位点来进行质粒pRF748的构建。此盒由IDT合成生产并含有枯草芽孢杆菌rrnIp2启动子(SEQ ID NO:39)、合成的双终止子(SEQ ID NO:24)、大肠杆菌rpsL基因(SEQ ID NO:25)、编码Cas9核酸内切酶识别结构域的DNA(SEQ ID NO:26)、以及λ噬菌体T0终止子(SEQ ID NO:27)。

可以使用产生质粒pRF748的标准分子生物学技术将含有gRNA表达盒的DNA片段组装到pRF694中，从而产生含有Cas9表达盒和gRNA表达盒的大肠杆菌-枯草芽孢杆菌穿梭质粒。

使用中间质粒pRF748组装用于将表达盒引入枯草芽孢杆菌的aprE基因座中的质粒。更特别地，枯草芽孢杆菌的aprE基因座中的yhfN基因(SEQ ID NO:28)含有Cas9靶位点(SEQ ID NO:29)。可以通过去除PAM序列(SEQ ID NO:31)，将靶位点转化为编码可变靶向(VT)结构域的DNA序列(SEQ ID NO:30)。可以将编码VT结构域的DNA序列(SEQ ID NO:30)有效地融合到编码Cas9核酸内切酶识别结构域(CER；SEQ ID NO:26)的DNA序列，使得当被细胞中RNA聚合酶转录时，它产生功能性gRNA(SEQ ID NO:32)。可以将编码gRNA的DNA(SEQ IDNO:33)有效地连接到在芽孢杆菌属物种细胞中有效的启动子(例如，枯草芽孢杆菌rrnIp2启动子；SEQ ID NO:39)和在芽孢杆菌属物种细胞中有效的终止子(例如，λ噬菌体t0终止子；SEQ ID NO:26)，使得所述启动子位于编码gRNA的DNA的5′，并且所述终止子位于编码gRNA的DNA的3′，从而产生gRNA表达盒(SEQ ID NO:34)。

通过使用Q5(根据制造商的说明书)以及表4中列出的正向(SEQ ID NO:37)和反向(SEQ ID NO:37)引物对扩增质粒pRF748(SEQ ID NO:22)来产生靶向枯草芽孢杆菌yhfN基因(SEQ ID NO:36)的质粒pRF793(SEQ ID NO:35)。

表4

正向和反向引物对

正向	TTCAGGATTTGGCCGTGACGGTTTTAGAGCTAGAAATAGCAAGTT	SEQ ID NO:37
			反向	CGTCACGGCCAAATCCTGAATTTATTACTATAACATTTAGCTTCTTTTAA	SEQ ID NO:38

这些引物扩增整个质粒(pRF748)，除了gRNA的可变靶向区，所述可变靶向区产生其中5′和3′端重叠的片段并包含yhfN可变靶向结构域。使用NEBuilder(新英格兰生物实验室公司(New England Biolabs))(按照制造商的说明书)将此PCR产物用于分子内组装反应，以产生质粒pRF793(SEQ ID NO:35)，从而产生含有Cas9表达盒和gRNA表达盒(其编码靶向yhfN的gRNA)的大肠杆菌-枯草芽孢杆菌穿梭质粒。

实例2

包含示例性表达盒的芽孢杆菌属细胞的产生

在本实例中，申请人将蛋白酶表达盒(例如，示例性POI)引入枯草芽孢杆菌细胞中。更具体地，表达盒包含：(1)与yhfN基因的上游(5′)侧翼区(SEQ ID NO:39)同源的DNA序列，所述DNA序列有效地融合到(2a)编码天然枯草芽孢杆菌rrnIp2启动子(SEQ ID NO:39)的DNA序列或(2b)其经遗传修饰的rrnIp2序列，本文命名为“rrnIp2-1”启动子(SEQ ID NO:40)，所述天然的和经修饰的启动子DNA序列(3)有效地融合到编码成熟(枯草杆菌蛋白酶)蛋白酶的DNA序列，所述编码成熟(枯草杆菌蛋白酶)蛋白酶的DNA序列(4)有效地融合到编码解淀粉芽孢杆菌apr终止子序列(SEQ ID NO:41)的DNA序列，其中所述启动子位于编码蛋白酶的DNA序列的5′，并且所述终止子位于编码蛋白酶的DNA序列的3′。最后，将上文所述的表达盒有效地融合到与yhfN基因的下游(3′)侧翼区(SEQ ID NO:42)同源的DNA序列。

因此，在本实例中，使包含枯草芽孢杆菌comK基因(SEQ ID NO:44；使用PxylA诱导型启动子在amyE基因座处引入)的亲本枯草芽孢杆菌细胞在一百二十五(125)ml带挡板的烧瓶中在十五(15)ml的L培养液(1％w·v^-1胰蛋白胨、0.5％酵母提取物w·v^-1、1％NaClw·v^-1)中于37℃并以250RPM生长过夜。将过夜培养物在一百二十五(125)ml带挡板的烧瓶中在十(10)ml新鲜L培养液中稀释至0.2(OD₆₀₀单位)。

使细胞在37℃(250RPM)生长直至培养物达到0.9(OD₆₀₀单位)。将D-木糖从30％(w/v)储液添加到0.3％(w/v)。使细胞在37℃(250RPM)再生长两个半(2.5)小时，并以1700x g沉淀七(7)分钟。使用用过的培养基将细胞重悬于四分之一(1/4)体积的原始培养物中。将一百(100)μl浓缩的细胞与大约一(1)μg的(a)包含天然rrnIp2启动子(SEQ ID NO:39)的蛋白酶表达盒或(b)包含经修饰的rrnIp2-1启动子(SEQ ID NO:40)的蛋白酶表达盒混合，并且使用滚环扩增(Syngis公司(Syngis))(根据制造商的说明书)将实例1描述的pRF793质粒(SEQ ID NO:34)扩增十八(18)小时。将细胞/DNA转化混合物铺板到含有十(10)μg/mL卡那霉素、1.6％(w/v)脱脂奶并用1.5％(w/v)琼脂固化的L培养液(Miller)上。允许菌落在37℃形成。

挑取在含有卡那霉素和脱脂奶的L琼脂上生长并在菌落附近区域产生可见透明区(即，表明蛋白水解活性)的菌落，并在含有1.6％(w/v)脱脂奶的琼脂板上划线。将含有具有天然rrnIp2启动子的蛋白酶表达盒的菌落储存并命名为菌株“SS066”。将含有具有经修饰的rrnIp2-1启动子的蛋白酶表达盒的菌落储存并命名为菌株“SS065”。

实例3

在经修饰的启动子控制下芽孢杆菌属细胞中的蛋白酶表达

在本实例中，在小规模条件下评估两(2)种芽孢杆菌属细胞(即，菌株SS066和SS065)的蛋白酶生产，所述两(2)种芽孢杆菌属细胞包含具有天然rrnIp2启动子(SEQ IDNO:39)或经修饰的rrnIp2-1启动子(SEQ ID NO:40)的蛋白酶表达盒。在含有1.6％(w/v)脱脂奶的L琼脂板上对两种菌株进行划线纯化，并使其在37℃生长大约二十四(24)小时。将单个晕圈阳性菌落接种到25ml的L培养液(1％w·v^-1胰蛋白胨、0.5％酵母提取物w·v^-1、1％NaCl w·v^-1)中，并使其在37℃(250RPM)生长五(5)小时。将此预培养物稀释至0.2(OD₆₀₀单位)到25ml的MPS2培养基(10％w·v^-1 10X MOPS基础培养基(8.4％w·v^-1MOPS、2.9％w·v^-1氯化钠、1.2％w·v^-1氢氧化钾、1％w·v^-1硫酸钾、15w·v^-1氯化镁、0.7％w·v^-1曲辛(曲辛))，10％w·v^-1Maltrin M150，10％w·v^-1微量营养素，6％w·v^-1大豆蛋白胨，0.78％w·v^-1磷酸二钾，0.3％w·v^-1尿素，0.2％磷酸一钾(pH 7.4，含氢氧化钾))中，并使其在37℃(250RPM)生长。将微量营养素制成一(1)升100X储液：400mg FeSO₄ 7H₂O、100mg MnSO₄ H₂O、100mg ZnSO₄ 7H₂O、50mg CuCl₂ 2H₂O、100mg CoCl₂6H₂O、100mg NaMoO₄ 2H₂O、100mg Na₂B₄O₇10H₂O、10ml的1M CaCl₂、和10ml的0.5M柠檬酸钠。在生长四十(40)小时后，使用suc-AAPF-pNA测定法确定全细胞培养液中的蛋白酶浓度。

例如，suc-AAPF-pNA蛋白酶测定法包括在确定条件下用显色肽底物孵育全培养液并测量显色。底物是N-琥珀酰-L-Ala-L-Ala-L-Pro-L-Phe-对硝基酰苯胺(suc-AAPF-pNA)。在蛋白酶水解肽底物后，切割4-硝基酰苯胺并产生为黄色发色团的4-硝基苯胺。因此，测量405nm处的吸光度并与分析样品中的蛋白酶水平直接相关。用于这组测定的设备包括SpectraMAX MTP读数器(340型-分子装置公司(Molecular Device))。更特别地，在此测定系统中，使用的试剂和溶液是：(1)N-琥珀酰-L-Ala-L-Ala-L-Pro-L-Phe-对硝基酰苯胺(西格玛公司(Sigma))；(2)稀释缓冲液：100mM Tris-HCl、10mM CaCl2、0.005％80缓冲液(pH 8.6)；以及(3)Tris缓冲液：100mM Tris-HCl、0.005％80缓冲液(pH8.6)。

因此，将含有100mg suc-AAPF-pNA底物的小瓶溶解在一(1)ml的DMSO中，并通过将一(1)ml的suc-AAPF-pNA添加到100mL的Tris缓冲液中来制备一(1)mg/ml的工作储液。将蛋白酶样品(全细胞培养液)用稀释缓冲液稀释1000X。通过将十(10)μl稀释的蛋白酶溶液添加到MTP的孔中，随后添加一百九十(190)μl的1mg/ml工作suc-AAPF-pNA底物溶液来进行测定。将溶液混合，并在MTP读数器中在(λ)405nm处读取吸光度。使用非蛋白酶对照来校正背景吸光度值。为了计算蛋白酶浓度(mg/L)，使用稀释系列的纯化的(变体)蛋白酶作为标准品(对照样品)并将其并入实验中。相对蛋白酶活性呈现在下表5中，表5示出了SS065细胞(包含经修饰的rrnIp2-1启动子)相对于SS066细胞(包含天然rrnIp2启动子)的(标准化)相对蛋白酶表达，这表明蛋白酶活性增加大约2倍。

表5

蛋白酶的小规模生产

实例4

将异源淀粉酶表达盒引入芽孢杆菌属细胞中

在本实例中，将(异源)α-淀粉酶表达盒引入亲本地衣芽孢杆菌细胞中。更具体地，将下面列出的α-淀粉酶表达盒引入地衣芽孢杆菌细胞中，其中所述细胞包含(a)在天然rrnIp2启动子(SEQ ID NO:39)控制下的表达盒或(b)在经修饰的rrnIp2-1启动子(SEQ IDNO:40)控制下的表达盒。因此，在本实例中，使包含携带木糖诱导型comK表达盒(SEQ IDNO:43)的质粒的地衣芽孢杆菌细胞在一百二十五(125)ml带挡板的烧瓶中在含有一百(100)μg/ml壮观霉素二盐酸盐的十五(15)ml的L培养液(1％(w/v)胰蛋白胨、0.5％(w/v)酵母提取物、1％(w/v)NaCl)中于37℃并以250RPM生长过夜。将过夜培养物在两百五十(250)ml带挡板的烧瓶中在含有一百(100)μg/ml壮观霉素二盐酸盐的25ml新鲜L培养液中稀释至0.7(OD₆₀₀单位)。使细胞在37℃并以250RPM生长一(1)小时。将D-木糖从25％(w/v)储液添加到0.1％(w/v)，并使细胞在37℃并以250RPM再生长四(4)小时。将细胞以1700·g沉淀七(7)分钟。使用用过的培养基将细胞重悬于四分之一(1/4)体积的原始培养物中。将一百(100)μl浓缩的细胞与大约一(1)μg的(a)天然rrnIp2启动子表达构建体(SEQ ID NO:44)或(b)经修饰的rrnIp2-1启动子表达构建体(SEQ ID NO:45)混合。

例如，每个盒包含(在5′到3′方向上)相同的5′lysA基因座同源臂(SEQ ID NO:46)、有效地连接到经修饰的aprE 5′-UTR(SEQ ID NO:47)的天然rrnIp2启动子(SEQ IDNO:39)或经修饰的rrnIp2-1启动子(SEQ ID NO:40)。更特别地，国际PCT申请号PCT/US2018/049470(2018年9月05日提交；通过援引以其全文并入本文)进一步描述了SEQ IDNO:47的经修饰的aprE 5′-UTR。此外，经修饰的5′-UTR有效地连接到编码lat信号序列(SEQID NO:48)的DNA序列，随后是编码(变体)噬细胞菌属物种α-淀粉酶的DNA序列(SEQ ID NO:49)，所述编码(变体)噬细胞菌属物种α-淀粉酶的DNA序列有效地连接到lat终止子序列(SEQ ID NO:50)，所述lat终止子序列连接到3′lysA基因座同源臂(SEQ ID NO:51)。

将转化反应在37℃、以1400RPM孵育九十(90)分钟。将细胞在1％(w/v)KCl中洗涤两次并铺板到含有1％(w/v)不溶性淀粉的TSS琼脂(50mM Tris、37mM NH₄Cl、1.5mMK₂HPO₄·3H₂O(pH 7.4)、0.5％(w/v)右旋糖、1mM MgSO₄·7H₂O、0.004％(w/v)FeCl₃、0.004％(w/v)柠檬酸三钠)上。在37℃回收转化体。

在含有1％(w/v)不溶性淀粉的L琼脂上对rrnIp2_α-淀粉酶(SEQ ID NO:44)和rrnIp2-1_α-淀粉酶(SEQ ID NO:45)表达盒的晕圈阳性转化体进行划线纯化，以纯化单菌落。通过使用表6中列出的引物，使用标准PCR技术扩增表达盒来确定纯化的晕圈阳性菌落中表达盒的序列。

表6

正向和反向引物对

lysA-F	GATTTGGGATTTGGAAATCC	SEQ ID NO:52
			lysA-R	CAACACATTGCTTCAGGC	SEQ ID NO:53

使用表7中列出的引物，使用标准技术对PCR产物进行桑格测序，以验证表达盒的序列。

表7

测序引物

1032	TCAGAGAGAGACGTATGAGG	SEQ ID NO:54
			1033	GCATGGACAGGCTTCAACTT	SEQ ID NO:55
1034	GGATGTCATTGGCTGGACGA	SEQ ID NO:56
			1035	TCTACTCCGCCTCTAAATCC	SEQ ID NO:57

将具有rrnIp2_α-淀粉酶盒(SEQ ID NO:44)的序列验证盒的菌落储存并命名为“BF399”，并且将具有rrnIp2-1_α-淀粉酶盒(SEQ ID NO:45)的序列验证盒的菌落储存并命名为“BF401”。

实例5

包含淀粉酶表达盒的芽孢杆菌属细胞中的异源淀粉酶生产

在本实例中，申请人测定了包含实例4中描述的α-淀粉酶表达盒的芽孢杆菌属菌株。因此，如下表8所呈现，测试了天然rrnIp2启动子(即，rrnIp2_α-淀粉酶盒；SEQ ID NO:44)和经修饰的rrnIp2-1启动子(即，rrnIp2-1_α-淀粉酶盒；SEQ ID NO:45)的α-淀粉酶的生产，以确定这些不同的启动子对这种异源蛋白生产的影响。

表8

用于测定α-淀粉酶生产的菌株

菌株	表达盒	SEQ ID NO
			BF399	rrnIp2_α-淀粉酶	SEQ ID NO:44
BF401	rrnIp2-1_α-淀粉酶	SEQ ID NO:45

将菌株在含有1％(w/v)不溶性淀粉、用1.5％(w/v)Bacto琼脂固化的L培养液(1％(w/v)胰蛋白胨、0.5％(w/v)酵母提取物、1％(w/v)NaCl)上划线，并使其在37℃生长24小时。将单菌落接种在4个独立的TSB(2％(w/v)非动物来源的蛋白胨、0.25％(w/v)右旋糖、0.5％(w/v)NaCl、0.25％(w/v)K₂HPO₄)中。使培养物在37℃、以250RPM并在80％湿度生长二十四(24)小时。将培养物以4000RPM沉淀七(7)分钟。使用牛血清白蛋白(BSA)标准品，使用Bradford方法，以一式两份测量十(10)μl的每种澄清培养物上清液的总蛋白生产。通过相对于包含rrnIp2_α-淀粉酶盒(SEQ ID NO:44)的菌株的性能确定每个菌株的相对淀粉酶生产。更特别地，包含天然(启动子)rrnIp2_α-淀粉酶盒(SEQ ID NO:44)或经修饰的(启动子)rrnIp2-1_α-淀粉酶盒(SEQ ID NO:45)的菌株的相对生产在下表9中示出，表9的数据表明，包含经修饰的rrnIp2-1_α-淀粉酶盒(SEQ ID NO:45)的菌株生产的淀粉酶比包含天然rrnIp2_α-淀粉酶盒(SEQ ID NO:44)的菌株平均高30％。

表9

包含单拷贝的rrnIp2_α-淀粉酶盒或rrnIp2-1_α-淀粉酶盒的菌株的相对淀粉酶生产

菌株	表达盒	SEQ ID NO	相对蛋白生产±SEM
				BF399	rrnIp2_α-淀粉酶盒	SEQ ID NO:44	1.00±0.06
BF400	rrnIp2-1_α-淀粉酶盒	SEQ ID NO:45	1.33±0.03

实例6

将异源支链淀粉酶表达盒引入芽孢杆菌属细胞中

在本实例中，将异源(截短的)支链淀粉酶表达盒引入地衣芽孢杆菌细胞中。更具体地，将下面列出的截短的支链淀粉酶表达盒引入地衣芽孢杆菌细胞中，其中所述细胞包含(a)在天然地衣芽孢杆菌amyL启动子区(即，PamyL-1；SEQ ID NO:64)控制下的表达盒、(b)在经修饰的启动子区PamyL-2(SEQ ID NO:65)控制下的表达盒、(c)在经修饰的启动子区PamyL-3(SEQ ID NO:66)控制下的表达盒、或(d)在经修饰的启动子区PamyL-4(SEQ IDNO:67)控制下的表达盒。

因此，在本实例中，使包含携带木糖诱导型comK表达盒(SEQ ID NO:43)的质粒的地衣芽孢杆菌细胞在一百二十五(125)ml带挡板的烧瓶中在含有一百(100)μg/ml壮观霉素二盐酸盐的十五(15)ml的L培养液(1％(w/v)胰蛋白胨、0.5％(w/v)酵母提取物、1％(w/v)NaCl)中于37℃并以250RPM生长过夜。将过夜培养物在两百五十(250)ml带挡板的烧瓶中在含有一百(100)μg/ml壮观霉素二盐酸盐的25ml新鲜L培养液中稀释至0.7(OD₆₀₀单位)。使细胞在37℃并以250RPM生长一(1)小时。将D-木糖从25％(w/v)储液添加到0.1％(w/v)，并使细胞在37℃并以250RPM再生长四(4)小时。将细胞以1700·g沉淀七(7)分钟。使用用过的培养基将细胞重悬于四分之一(1/4)体积的原始培养物中。将一百(100)μl浓缩的细胞与大约一(1)μg的PamyL-1表达盒(SEQ ID NO:78)、PamyL-2表达盒(SEQ ID NO:79)、PamyL-3表达盒(SEQ ID NO:80)、或PamyL-4表达盒(SEQ ID NO:81)混合。

例如，每个盒包含(在5′到3′方向上)相同的5′lysA基因座同源臂(SEQ ID NO:46)，天然地衣芽孢杆菌启动子区PamyL-1(SEQ ID NO:64)或以下经修饰的启动子区序列之一：PamyL-2(SEQ ID NO:65)、PamyL-3(SEQ ID NO:66)、或PamyL-4(SEQ ID NO:67)，所述启动子区序列有效地连接到编码lat信号序列(SEQ ID NO:48)的DNA序列，随后是编码成熟且截短的脱支芽孢杆菌支链淀粉酶的DNA序列(SEQ ID NO:68)，所述编码成熟且截短的脱支芽孢杆菌支链淀粉酶的DNA序列有效地连接到lat终止子序列(SEQ ID NO:50)，所述lat终止子序列连接到3′lysA基因座同源臂(SEQ ID NO:51)。

将转化反应在37℃、以1400RPM孵育九十(90)分钟。将细胞在1％(w/v)KCl中洗涤两次并铺板到含有0.5％(w/v)Remazol亮蓝染色淀粉的基本琼脂(Minimal agar)(50mMTris、37mM NH₄Cl、1.5mM K₂HPO₄·3H₂O(pH 7.4)、0.5％(w/v)右旋糖、1mM MgSO₄·7H₂O、0.004％(w/v)FeCl₃、0.004％(w/v)柠檬酸三钠)上。在37℃回收转化体。

在HI琼脂上对PamyL-1支链淀粉酶盒(SEQ ID NO:78)、PamyL-2支链淀粉酶盒(SEQID NO:79)、PamyL-3支链淀粉酶盒(SEQ ID NO:80)、和PamyL-4支链淀粉酶盒(SEQ ID NO:81)的转化体进行划线纯化，以纯化单菌落。通过使用表10中列出的引物，使用标准PCR技术扩增表达盒来确定纯化的菌落中表达盒的序列。

表10

正向和反向引物对

447	CTACAGCATGGCCAACAACTA	SEQ ID NO:69
			674	GTCATGATCTTTTTAACAAAAAAC	SEQ ID NO:70

使用表11中列出的引物，使用标准技术对PCR产物进行桑格测序，以验证表达盒的序列。

表11

测序引物

447	CTACAGCATGGCCAACAACTA	SEQ ID NO:69
			674	GTCATGATCTTTTTAACAAAAAAC	SEQ ID NO:70
766	GATTGCTGACGCTGTTATTTGC	SEQ ID NO:71
			1694	GTAGAAGTTGGTGCCCAGAC	SEQ ID NO:72
1695	GGAATACCTATACACAGAAAGCAAC	SEQ ID NO:73
			1697	CATTCGCATTTGTAGCATACTGCC	SEQ ID NO:74
1766	CACGCAAATCTCTGACTTCG	SEQ ID NO:75
			1767	CAAGCAGCGCCATTAAGTC	SEQ ID NO:76
1768	GCAACGACAATAGTTATAATG	SEQ ID NO:77

分别对具有PamyL-1支链淀粉酶盒(SEQ ID NO:78)、PamyL-2支链淀粉酶盒(SEQID NO:79)、PamyL-3支链淀粉酶盒(SEQ ID NO:80)、和PamyL-4支链淀粉酶(SEQ ID NO:81)表达盒的序列验证盒的菌落进行划线纯化，将其储存并命名为“PamyL-Pulltr.”、“LDN461”、“LDN462”、和“LDN463”。

实例7

包含截短的支链淀粉酶表达盒的芽孢杆菌属细胞中的异源截短的支链淀粉酶生产

在本实例中，申请人测定了包含实例6中描述的截短的支链淀粉酶表达盒的芽孢杆菌属菌株。因此，如下表12所呈现，测试了PamyL-1支链淀粉酶盒(SEQ ID NO:78)和PamyL-2支链淀粉酶盒(SEQ ID NO:79)的(截短的)支链淀粉酶的生产，以确定这些不同的启动子和5′-UTR对这种异源支链淀粉酶蛋白生产的影响。

表12

用于测定截短的支链淀粉酶生产的菌株

菌株	表达盒	SEQ ID NO
			PamyL-Pulltr.	PamyL-1支链淀粉酶	SEQ ID NO:78
LDN461	PamyL-2支链淀粉酶	SEQ ID NO:79

同样，如下表13所呈现，测试了PamyL-3支链淀粉酶盒(SEQ ID NO:80)和PamyL-4支链淀粉酶盒(SEQ ID NO:81)的(截短的)支链淀粉酶的生产，以确定这些不同的启动子和5′-UTR对这种异源支链淀粉酶蛋白生产的影响。

表13

用于测定截短的支链淀粉酶生产的菌株

菌株	表达盒	SEQ ID NO
			LDN462	PamyL-3支链淀粉酶	SEQ ID NO:80
LDN463	PamyL-4支链淀粉酶	SEQ ID NO:81

将菌株在用1.5％(w/v)Bacto琼脂固化的L培养液(1％(w/v)胰蛋白胨、0.5％(w/v)酵母提取物、1％(w/v)NaCl)上划线，并使其在37℃生长24小时。将三个菌落接种在TSB(2％(w/v))中，使其在37℃、以250RPM生长过夜，并且以1:10(v/v)转移到基于MOPS缓冲液的非限定培养基中，并在37℃、以250RPM孵育68小时。收获培养物，并使用麦格酶公司(Megazyme)的方法(支链淀粉酶/极限-糊精酶测定程序(PULLULANASE/LIMIT-DEXTRINASEASSAY PROCEDURE)(PullG6方法)将培养物直接用于测量总蛋白生产。

通过相对于菌株PamyL-Pulltr(PamyL-1支链淀粉酶盒；SEQ ID NO:78)的性能确定菌株LDN461(PamyL-2支链淀粉酶；SEQ ID NO:79)的相对(截短的)支链淀粉酶生产。更特别地，PamyL-Pulltr菌株(PamyL-1支链淀粉酶盒；SEQ ID NO:78)和LDN461菌株(PamyL-2支链淀粉酶盒；SEQ ID NO:79)的相对生产在下表14中示出，表14的数据表明，LDN461菌株生产的支链淀粉酶比PamyL-Pulltr.菌株(PamyL-1支链淀粉酶盒；SEQ ID NO:78)平均高78％。

表14

包含单拷贝的PamyL-1支链淀粉酶盒或PamyL-2支链淀粉酶盒的菌株的相对支链淀粉酶生产

菌株	表达盒	SEQ ID NO	相对蛋白生产±SEM
				PamyL-Pulltr.	PamyL-1支链淀粉酶	SEQ ID NO:78	1.00±0.05
LDN461	PamyL-2支链淀粉酶	SEQ ID NO:79	1.78±0.05

同样，通过相对于菌株LDN462(PamyL-3支链淀粉酶盒；SEQ ID NO:80)的性能确定菌株LDN463(PamyL-4支链淀粉酶盒；SEQ ID NO:81)的相对(截短的)支链淀粉酶生产，其中所述菌株的相对生产在下表15中示出，表15的数据表明，LDN463菌株(PamyL-4支链淀粉酶盒)生产的(截短的)支链淀粉酶比LDN462菌株(PamyL-3支链淀粉酶盒；SEQ ID NO:80)平均高16％。

表15

包含单拷贝的PamyL-3支链淀粉酶盒或PamyL-4支链淀粉酶盒的菌株的相对截短的支链淀粉酶生产

菌株	表达盒	SEQ ID NO	相对蛋白生产±SEM
				LDN462	PamyL-3支链淀粉酶	SEQ ID NO:80	1.00±0.03
LDN463	PamyL-4支链淀粉酶	SEQ ID NO:81	1.16±0.07

参考文献

International PCT Application No.PCT/US 2018/049470

International PCT Publication No.WO 2003/083125

International PCT Publication No.WO 2003/089604

International PCT Publication No.WO 2013/086219

Botstein and Shortle,Science 229:4719,1985.

Brode et al.,“Subtilisin BPN'variants:increased hydrolytic activityon surface-bound substrates via decreased surface activity”,Biochemistry,35(10):3162-3169,1996.

Caspers et al.,“Improvement of Sec-dependent secretion of aheterologous model protein in Bacillus subtilis by saturation mutagenesis ofthe N-domain of the AmyE signal peptide”,Appl.Microbiol.Biotechnol.,86(6):1877-1885,2010.

Chang et al.,Mol.Gen.Genet.,168:11-115,1979.

Devereux et al.,Nucl.Acid Res.,12:387-395,1984.

Earl et al.,“Ecology and genomics of Bacillus subtilis”,Trends inMicrobiology.,16(6):269-275,2008.

Ferrari et al.,"Genetics,"in Harwood et al.(ed.),Bacillus,PlenumPublishing Corp.,1989.

Fisher et.al.,Arch.Microbiol.,139:213-217,1981.

Hamoen et al.,“Controlling competence in Bacillus subtilis:sharedused of regulators”,Microbiology,149:9-17,2003.

Hamoen et al.,Genes Dev.12:1539-1550,1998.

Higuchi et al.,Nucleic Acids Research 16:7351,1988.

Ho et al.,Gene 77:61,1989.

Hoch et al.,J.Bacteriol.,93:1925-1937,1967.

Hopwood,The Isolation of Mutants in Methods in Microbiology(J.R.Norris and D.W.Ribbons,eds.)pp 363-433,Academic Press,New York,1970.

Horton et al.,Gene 77:61,1989.

Iglesias and Trautner,Molecular General Genetics 189:73-76,1983.

Jensen et al.,“Cell-associated degradation affects the yield ofsecreted engineered and heterologous proteins in the Bacillus subtilisexpression system”Microbiology,146(Pt 10:2583-2594,2000.

Liu and Zuber,“A Molecular Switch Controlling Competence andMotility:Competence Regulatory Factors ComS,MecA,and ComK Control DependentGene Expression in Bacillus subtilis”,J.Bacteriology,180(16):4243-4251,1998.

Lo et al.,Proceedings of the National Academy of Sciences USA 81:2285,1985.

Mann et al.,Current Microbiol.,13:131-135,1986.Holubova,1985；

McDonald,J.Gen.Microbiol.,130:203,1984.

Needleman and Wunsch,J.Mol.Biol.,48:443,1970.

Olempska-Beer et al.,“Food-processing enzymes from recombinantmicroorganisms--a review”’Regul.Toxicol.Pharmacol.,45(2):144-158,2006.

Palmeros et al.,Gene 247:255-264,2000.

Pearson and Lipman,Proc.Natl.Acad.Sci.USA 85:2444,1988.

Perego,1993,In A.L.Sonneshein,J.A.Hoch,and R.Losick,editors,Bacillussubtilis and Other Gram-Positive Bacteria,Chapter 42,American Society ofMicrobiology,Washington,D.C.

Raul et al.,“Production and partial purification of alpha amylasefrom Bacillus subtilis(MTCC 121)using solid state fermentation”,BiochemistryResearch International,2014.

Sarkar and Sommer,BioTechniques 8:404,1990.

Saunders et al.,J.Bacteriol.,157:718-726,1984.

Shimada,Meth.Mol.Biol.57:157；1996.

Smith and Waterman,Adv.Appl.Math.,2:482,1981.

Smith et al.,Appl.Env.Microbiol.,51:634 1986.

Solberg and Krauss,“Luciferase assay to study the activity of acloned promoter DNA fragment”,Methods Mol Biol.977:65-78,2013.

Stahl et al,J.Bacteriol.,158:411-418,1984.

Van Dijl and Hecker,“Bacillus subtilis:from soil bacterium to super-secreting cell factory”,Microbial Cell Factories,12(3).2013.

Vorobjeva et al.,FEMS Microbiol.Lett.,7:261-263,1980.

Westers et al.,“Bacillus subtilis as cell factory for pharmaceuticalproteins:a biotechnological approach to optimize the host organism”,Biochimica et Biophysica Acta.,1694:299-310,2004.

Youngman et al.,Proc.Natl.Acad.Sci.USA 80:2305-2309,1983.

Claims

1.一种启动子核酸，其与SEQ ID NO:39的差异在于：在SEQ ID NO:39的核苷酸位置30处的C突变为T、在SEQ ID NO:39的核苷酸位置89处的A突变为T、在SEQ ID NO:39的核苷酸位置90处的A突变为G、和在SEQ ID NO:39的核苷酸位置91处的A突变为T。

2.如权利要求1所述的启动子核酸，其有效地连接到位于所述启动子下游3’的编码目的蛋白的基因或可读框。

3.一种启动子核酸，其由SEQ ID NO:40组成。

4.如权利要求3所述的启动子核酸，其有效地连接到位于所述启动子下游3′的编码目的蛋白的基因或可读框。

5.一种多核苷酸，其包含权利要求1或权利要求3的启动子核酸以及位于其下游3′且与其有效地连接的编码目的蛋白的基因或可读框。

6.如权利要求5所述的多核苷酸，其中所述目的蛋白是酶。

7.如权利要求6所述的多核苷酸，其中所述酶是水解酶。

8.一种经修饰的芽孢杆菌属物种(Bacillus sp.)细胞，其包含如权利要求1-4任一项所述的启动子核酸。

9.一种经修饰的芽孢杆菌属物种细胞，其包含如权利要求5-7任一项所述的多核苷酸。

10.一种表达盒，其包含如权利要求1-4任一项所述的启动子核酸、或如权利要求5-7任一项所述的多核苷酸。

11.一种经修饰的芽孢杆菌属物种细胞，其包含如权利要求10所述的表达盒。

12.一种用于在经修饰的芽孢杆菌属物种细胞中进行增强的蛋白生产的方法，所述方法包括：

(a)将多核苷酸表达盒引入亲本芽孢杆菌属物种细胞中，其中所述表达盒包含位于编码目的蛋白的基因或可读框上游5′并有效地连接到编码目的蛋白的基因或可读框的启动子序列，其中所述启动子序列与SEQ ID NO:39的差异在于：在SEQ ID NO:39的核苷酸位置30处的C突变为T、在SEQ ID NO:39的核苷酸位置89处的A突变为T、在SEQ ID NO:39的核苷酸位置90处的A突变为G、和在SEQ ID NO:39的核苷酸位置91处的A突变为T；

(b)从步骤(a)分离包含所述引入的表达盒的经修饰的细胞；以及

(c)在适于产生所述目的蛋白的条件下发酵步骤(b)的经修饰的细胞，

其中相对于等同芽孢杆菌属物种细胞，步骤(c)的经修饰的细胞产生增加量的目的蛋白，所述等同芽孢杆菌属物种细胞包含多核苷酸表达盒，所述多核苷酸表达盒包含位于编码相同目的蛋白的相同基因或可读框的上游5′并有效地连接到所述编码相同目的蛋白的相同基因或可读框的启动子序列，其中所述启动子为SEQ ID NO:39。

13.如权利要求12所述的方法，其中所述目的蛋白是酶。

14.如权利要求13所述的方法，其中所述酶是水解酶。