1. 全基因組從頭測序
在選擇育種歷史中,經(jīng)歷了從經(jīng)驗育種到育種理論和方法的探索,有選擇學說,純系學說,回交育種、輪回育種、誘變育種、單粒傳、理想株型;再到標記輔助選擇育種,探索了各種各樣的標記,比如擴增片段長度多態(tài)性標記輔助選擇(aflp)、微衛(wèi)星標記輔助選擇(ssr)和單核苷酸多態(tài)性標記輔助選擇(snp)。隨著測序技術(shù)的發(fā)展,測序的通量越來越高,成本越來越低,加之計算機運算能力不斷提升,這為全新育種技術(shù)的發(fā)展創(chuàng)造了技術(shù)條件,興起了基因組選擇(genomicselection,gs)育種浪潮。
基因組選擇育種能有效的解決難測量性狀、運氣成分大,耗時長、技術(shù)難度高等因素的限制,加快育種的步伐?;蚪M選擇育種是利用覆蓋全基因組的高密度分子遺傳標記進行的標記輔助選擇的一種育種方式。
目前比較出名的基因組選擇(gs)分析功能軟件是ipat軟件,ipat軟件界面比較友好,但是ipat只有三種gs模型,分別為基因組最佳線性無偏估計(gblup)、嶺回歸最佳線性無偏估計(rrblup)、貝葉斯嶺回歸(brr)。
然而,對于有快速育種需求的公司來說,現(xiàn)有的基因組選擇分析的效率低,分析結(jié)果的準確性也相對較低,無法滿足需求。
技術(shù)實現(xiàn)要素:
本發(fā)明的主要目的在于提供一種全基因組選擇育種的方法和裝置,以解決現(xiàn)有技術(shù)中的分析結(jié)果準確性低的問題。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種全基因組選擇育種的方法,該方法包括:獲取訓練群體中與目標表型顯著關(guān)聯(lián)的標記;根據(jù)訓練群體及標記,利用多種全基因組選擇預(yù)測模型計算育種群體中每個個體的基因組估計育種值;按照基因組估計育種值從高到低的順序,選擇在多個全基因組選擇預(yù)測模型中均排在前預(yù)定數(shù)量的個體作為育種材料。
進一步地,多種全基因組選擇預(yù)測模型包括:基因組最佳線性無偏預(yù)測模型、嶺回歸最佳線型無偏估計模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少4種。
進一步地,多種全基因組選擇預(yù)測模型包括嶺回歸最佳線型無偏估計模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少3種時,利用多種全基因組選擇預(yù)測模型計算育種群體中每個個體的基因組估計育種值包括:利用訓練群體中的目標表型與標記之間的顯著關(guān)聯(lián)性,對多種全基因組選擇預(yù)測模型進行精確度評估,得到滿足精確度要求的一個或多個全基因組選擇預(yù)測模型;利用滿足精確度要求的一個或多個全基因組選擇預(yù)測模型,計算得到各標記的效應(yīng)值;利用各標記的效應(yīng)值計算得到育種群體中每個個體的基因組估計育種值。
進一步地,獲取訓練群體中與目標表型顯著關(guān)聯(lián)的標記包括:對訓練群體來源于基因芯片或基因組重測序的測序數(shù)據(jù)進行全基因組關(guān)聯(lián)分析,從而獲得與目標表型顯著關(guān)聯(lián)的標記。
進一步地,從測序數(shù)據(jù)進行全基因組關(guān)聯(lián)分析從而獲得與目標表型顯著關(guān)聯(lián)的標記包括:對測序數(shù)據(jù)進行綜合分析,綜合分析表型分布分析、群體結(jié)構(gòu)分析、連鎖不平衡分析以及親緣關(guān)系分析;根據(jù)綜合分析的結(jié)果進行全基因組關(guān)聯(lián)分析,從而獲得與目標表型顯著關(guān)聯(lián)的標記。
進一步地,對測序數(shù)據(jù)進行綜合分析,并根據(jù)綜合分析的結(jié)果進行全基因組關(guān)聯(lián)分析,從而獲得與目標表型顯著關(guān)聯(lián)的標記包括:檢測測序數(shù)據(jù)中數(shù)量性狀的表型是否符合正態(tài)分布或者偏態(tài)分布,并剔除偏離杠桿值的極端表型;通過主成分分析或者群體結(jié)構(gòu)分析計算訓練群體中群體結(jié)構(gòu),并將群體結(jié)構(gòu)作為固定效應(yīng)加入全基因組關(guān)聯(lián)分析模型中;通過衰減距離對全基因組的標記進行連鎖不平衡過濾,去除存在多重共線性的效應(yīng)的標記;通過計算訓練群體中各個體間的親緣距離,并將親緣距離作為隨機效應(yīng)加入全基因組關(guān)聯(lián)分析模型;利用全基因組關(guān)聯(lián)分析模型計算數(shù)量性狀的表型中與全基因組的標記之間的關(guān)聯(lián)性,從而選擇得到與目標表型存在顯著關(guān)聯(lián)的標記;優(yōu)選地,全基因組關(guān)聯(lián)分析模型為混合線性模型。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種全基因組選擇育種的裝置,該裝置包括:獲取模塊、育種值估計模塊及選擇模塊,獲取模塊用于獲取訓練群體中與目標表型顯著關(guān)聯(lián)的標記;育種值估計模塊用于根據(jù)訓練群體及標記,利用多種全基因組選擇預(yù)測模型計算育種群體中每個個體的基因組估計育種值;選擇模塊用于按照基因組估計育種值從高到低的順序,選擇在多個全基因組選擇預(yù)測模型中均排在前預(yù)定數(shù)量的個體作為育種材料。
進一步地,多種全基因組選擇預(yù)測模型包括:基因組最佳線性無偏預(yù)測模型、嶺回歸最佳線型無偏估計模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少4種。
進一步地,多種全基因組選擇預(yù)測模型包括嶺回歸最佳線型無偏估計模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少3種時,育種值估計模塊包括:模型精確度評估模塊,用于利用訓練群體中的目標表型與標記之間的顯著關(guān)聯(lián)性,對多種全基因組選擇預(yù)測模型進行精確度評估,得到滿足精確度要求的一個或多個全基因組選擇預(yù)測模型;效應(yīng)值計算模塊,用于利用滿足精確度要求的一個或多個全基因組選擇預(yù)測模型,計算得到各標記的效應(yīng)值;育種值估計子模塊,用于利用各標記的效應(yīng)值計算得到育種群體中每個個體的基因組估計育種值。
進一步地,獲取模塊包括:全基因組關(guān)聯(lián)分析模塊,用于對訓練群體來源于基因芯片或基因組重測序的測序數(shù)據(jù)進行全基因組關(guān)聯(lián)分析,從而獲得與目標表型顯著關(guān)聯(lián)的標記。
進一步地,全基因組關(guān)聯(lián)分析模塊包括:綜合分析模塊,用于對測序數(shù)據(jù)進行綜合分析,綜合分析表型分布分析、群體結(jié)構(gòu)分析、連鎖不平衡分析以及親緣關(guān)系分析;全基因組關(guān)聯(lián)分析子模塊,用于根據(jù)綜合分析的結(jié)果進行全基因組關(guān)聯(lián)分析,從而獲得與目標表型顯著關(guān)聯(lián)的標記。
進一步地,全基因組關(guān)聯(lián)分析模塊包括:表型分布分析模塊,用于檢測測序數(shù)據(jù)中數(shù)量性狀的表型是否符合正態(tài)分布或者偏態(tài)分布,并剔除偏離杠桿值的極端表型;群體結(jié)構(gòu)分析模塊,用于通過主成分分析或者群體結(jié)構(gòu)分析計算訓練群體中群體結(jié)構(gòu),并將群體結(jié)構(gòu)作為固定效應(yīng)加入全基因組關(guān)聯(lián)分析子模塊中;連鎖不平衡分析模塊,用于通過衰減距離對全基因組的標記進行連鎖不平衡過濾,去除存在多重共線性的效應(yīng)的標記;親緣關(guān)系分析模塊,用于通過計算訓練群體中各個體間的親緣距離,并將親緣距離作為隨機效應(yīng)加入全基因組關(guān)聯(lián)分析子模塊;全基因組關(guān)聯(lián)分析子模塊,用于計算數(shù)量性狀的表型中與全基因組的標記之間的關(guān)聯(lián)性,從而選擇得到與目標表型存在顯著關(guān)聯(lián)的標記;優(yōu)選地,全基因組關(guān)聯(lián)分析分析子模塊為混合線性模塊。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種存儲介質(zhì),存儲介質(zhì)包括存儲的程序,其中,在程序運行時控制存儲介質(zhì)所在設(shè)備執(zhí)行上述任一種全基因組選擇育種的方法。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種處理器,處理器用于運行程序,其中,程序運行時執(zhí)行任一種全基因組選擇育種的方法。
應(yīng)用本發(fā)明的技術(shù)方案,本發(fā)明綜合多個模型進行基因組估計育種值計算,并利用多個模型結(jié)果共定位,并選擇出在所有的模型中都具有高育種值的個體作為育種材料,大大提高結(jié)果的精確性。此外,本申請的方法可以從多種模型中尋找出最佳模型預(yù)測最佳育種材料,從而提高了基因組選擇育種結(jié)果的準確性。本發(fā)明的方法能適應(yīng)大部分的材料背景,填補了在超級計算機中基因組選擇分析上的空白,提高育種選擇的效應(yīng),促進育種的進展。
2. 全基因組測序數(shù)據(jù)分析流程
基因組拷貝數(shù)變異通常是指某個基因或某個基因區(qū)域的拷貝數(shù)在個體間的差異。測序結(jié)果中的拷貝數(shù)變異可以通過基因組測序數(shù)據(jù)進行分析。以下是一些常見的分析步驟:
1. 使用軟件對測序數(shù)據(jù)進行比對,如BWA或Bowtie等,將測序reads與參考基因組比對。
2. 對比對結(jié)果進行拷貝數(shù)變異檢測,常用的軟件包括CNVnator、DECoN、FREEC等。這些軟件會根據(jù)reads的比對情況和深度信息來檢測拷貝數(shù)變異。
3. 根據(jù)檢測結(jié)果,生成基因組拷貝數(shù)變異圖譜(copy number variation profile),可視化拷貝數(shù)變異的基因和區(qū)域。通常使用軟件如GISTIC、CONTRA等。
4. 對拷貝數(shù)變異進行功能注釋和生物信息學分析,探究其與疾病、表型等的關(guān)聯(lián)。
需要注意的是,基因組拷貝數(shù)變異測序結(jié)果的分析需要結(jié)合臨床資料和其他生物信息學分析結(jié)果,才能作出更為準確的解釋。
3. 全基因組從頭測序方法
WGS全稱為whole-genome shotgun就是全基因組鳥槍法 它的作法是把基因組直接打碎成3kb(也有地方寫的是2Kb……)左右的小片段,測序并拼接。并且,WGS在現(xiàn)在的測序項目中使用得越來越廣泛。例如水稻基因的測序,就是使用的WGS策略。 百科給的是基因測序的方法 是在獲得一定的遺傳及物理圖譜信息的基礎(chǔ)上,繞過bac克隆逐個排序的過程,將基因組dna分解成2kb左右的小片段進行隨機測序,輔以一定數(shù)量的10kb的克隆和bac克隆的末端測序,利用超級計算機進行整合進行序列組裝
4. 全基因組測序的兩種策略
全基因組測序,即對一種生物的基因組中的全部基因進行測序,測定其dna的堿基序列。
全基因組測序的意義是使人類從根本上認知疾病發(fā)生的原因,做到正確的治療疾病、盡早的預(yù)防疾病。
1986年, Renato Dulbecco是最早提出人類基因組定序的科學家之一。他認為如果能夠知道所有人類基因的序列,對於癌癥的研究將會很有幫助。美國能源部(DOE)與美國國家衛(wèi)生研究院(NIH),分別在1986年與1987年加入人類基因組計劃。
5. 全基因組測序檢測的準確率能達到多少?
腫瘤基因檢測,是針對引起腫瘤的致病突變進行的檢測。根據(jù)檢測目的主要分為兩類:指導(dǎo)腫瘤患者的精準治療,評估腫瘤患者的親屬罹患腫瘤的易感性。
腫瘤的本質(zhì)是體細胞突變累積的結(jié)果。通過二代測序技術(shù)檢測患者的腫瘤組織中含有哪些突變,確認引起在腫瘤發(fā)生過程中發(fā)揮驅(qū)動作用的突變,就可以針對性使用靶向藥物。靶向藥物相比傳統(tǒng)化療藥物具有針對性強,副作用小的優(yōu)點,可有效改善腫瘤患者的預(yù)后。靶向藥物在肺癌治療中的應(yīng)用經(jīng)驗最豐富。目前有條件的肺癌患者需要常規(guī)進行基因檢測,有助于臨床醫(yī)生選擇個體化的醫(yī)療方案。
有一些腫瘤的遺傳性很強,比如卵巢癌,乳腺癌,結(jié)直腸癌等。這意味著腫瘤患者的親屬也有可能發(fā)生腫瘤。最著名的例子是安吉麗娜朱莉,她的媽媽和姨媽都患有乳腺癌,提示她的家族可能存在乳腺癌致病基因。為了確認自己是否攜帶相關(guān)致病基因,她進行了BRCA基因檢測,發(fā)現(xiàn)自己果然攜帶這個BRCA1基因突變。
攜帶這種基因突變并不意味著一定發(fā)生腫瘤,但是腫瘤發(fā)生的風險要遠高于一般人。因此她先后切除了乳腺和卵巢,預(yù)防乳腺癌和卵巢癌的發(fā)生。需要注意的是,進行這種基因檢測,使用的是血液樣本。
以上只是簡單介紹了腫瘤基因檢測的兩個最主要目的。實際上根據(jù)不同的檢測技術(shù)和檢測樣本,腫瘤基因檢測還可以實現(xiàn)腫瘤早期篩查和診斷,腫瘤動態(tài)檢測,腫瘤患者預(yù)后等多種目的。腫瘤基因檢測專業(yè)性較強,需要配套相應(yīng)的遺傳咨詢,與臨床,實驗室,患者三方面充分溝通,才能全面發(fā)揮腫瘤基因檢測的重要作用。