n 慧算生物信息平臺(tái)整體解決方案
慧算生物為生命科學(xué)相關(guān)科研機(jī)構(gòu)、基因測(cè)序公司等用戶提供專(zhuān)業(yè)的生物信息平臺(tái)的軟硬件一體化解決方案,目的是為客戶提供無(wú)憂后臺(tái)支撐,使科研工作者和相關(guān)公司聚焦其核心業(yè)務(wù)。
該整體解決方案,是為客戶提供定制化的軟硬件系統(tǒng)集成服務(wù),既包括了服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、文件系統(tǒng)、操作系統(tǒng)、集群管理軟件等IT基礎(chǔ)設(shè)施;也包括了全基因組、全外顯子、轉(zhuǎn)錄組等各種多樣化的生物信息數(shù)據(jù)分析流程的搭建;提供從軟件到硬件的全系統(tǒng)維護(hù);提供在云端的“慧算生物信息云”服務(wù);為復(fù)雜的高級(jí)定制數(shù)據(jù)分析提供外包服務(wù);并依托“慧算生物信息學(xué)院”提供集中式或定制化培訓(xùn)服務(wù)以及考試認(rèn)證;另外,慧算還提供相關(guān)的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等。
n 高性能計(jì)算與海量存儲(chǔ)系統(tǒng)
應(yīng)用場(chǎng)景一:測(cè)序儀配套高性能計(jì)算和存儲(chǔ)系統(tǒng)
針對(duì)Illumina 大型測(cè)序儀提供海量的并行文件存儲(chǔ)系統(tǒng)和適當(dāng)規(guī)模的高性能計(jì)算系統(tǒng)。目前通量較高(雙流動(dòng)槽)的一套測(cè)序系統(tǒng)三天一輪能產(chǎn)生約18T的堿基數(shù)據(jù)。
基因測(cè)序與分析一般包含三大階段:
階段一:Illumina 測(cè)序儀采集數(shù)據(jù)并經(jīng)過(guò)處理后產(chǎn)生fastq格式原始文件;
階段二:Tophat/BWA/Bowtie等軟件讀取fastq格式文件及人類(lèi)參考基因組索引,經(jīng)過(guò)序列比對(duì)生成BAM格式文件;
階段三:GATK/samtools等軟件或其他基因分析類(lèi)軟件如Manta/Varsand等基因結(jié)構(gòu)變異檢測(cè)軟件、CNVnator基因拷貝數(shù)變異檢測(cè)軟件等讀取序列比對(duì)后的BAM文件,經(jīng)過(guò)分析處理生成VCF格式文件。
需要PB級(jí)的大規(guī)模橫向擴(kuò)展能力和并行文件系統(tǒng)存儲(chǔ)設(shè)備,以及數(shù)十個(gè)高性能計(jì)算的節(jié)點(diǎn)。一方面滿足測(cè)序儀大量fastq文件存儲(chǔ)需求,另一方面滿足生物信息數(shù)據(jù)分析的計(jì)算資源和存儲(chǔ)資源需求。
應(yīng)用場(chǎng)景二:De novo組裝分析
De novo組裝分析包括三個(gè)階段:
階段一:測(cè)序儀采集數(shù)據(jù)并經(jīng)過(guò)處理后產(chǎn)生fastq格式原始文件;
階段二:對(duì) fastq格式文件進(jìn)行質(zhì)量控制,并經(jīng)過(guò)序列拼接生成contig/ scaffold拼接結(jié)果文件;
階段三:Glimmer等預(yù)測(cè)軟件對(duì)contig進(jìn)行基因預(yù)測(cè)并對(duì)預(yù)測(cè)的基因進(jìn)行功能注釋。
n 搭建生物信息分析流程
高通量測(cè)序數(shù)據(jù)金標(biāo)準(zhǔn)分析流程 + 定制化分析流程
l 預(yù)置三大類(lèi)共九套高通量測(cè)序數(shù)據(jù)金標(biāo)準(zhǔn)分析流程,滿足絕大多數(shù)測(cè)序項(xiàng)目的分析需求
l 提供數(shù)據(jù)分析軟件及數(shù)據(jù)庫(kù)的定期維護(hù)和升級(jí)
l 提供生物信息人員遠(yuǎn)程指導(dǎo)及到場(chǎng)培訓(xùn)
l 提供特殊分析流程定制和布置服務(wù)
基因組工作流整合了一些分析軟件和相關(guān)生物信息學(xué)數(shù)據(jù)庫(kù),把原始序列數(shù)據(jù)(fastq)處理為變型(VCF)數(shù)據(jù)。每個(gè)框表示一個(gè)分析模塊,由集成的基因組分析軟件組成,如數(shù)據(jù)質(zhì)量控制、序列比對(duì)、變異提取和變異注釋分析等模塊。這些模塊自身可作為獨(dú)立工作流被使用,也可以按照邏輯關(guān)系被連接到一個(gè)更大的工作流中。
基因組工作流展示
高度集成各類(lèi)生物學(xué)軟件及數(shù)據(jù)庫(kù)