程翔仔細盯著屏幕,屏幕上的堿基對,時不時標出一段帶問號的替代符號,時不時又是一段紅色缺失替代符,或疏或密,帶問號的替代符是遠在火星掃描時就已經無法確定的堿基對,而紅色的缺失替代符,則是因為火星傳輸數據到地球數據發生了丟失,漫長的距離,光是信號抵達都需要好幾分鐘,要做到傳輸不丟數據,代價太大。
以現在的技術能力,也沒辦法做到高效的確認重發機制。有眼前這個時間戳表示有信號沒收到已經非常的不錯。
“不少錯漏啊。”程翔感慨,不過也沒辦法,搞研究就是這樣,哪有那么多理想的條件,“不過,還能有這么多信息,已經相當的不錯了。”
“知足吧。”
畢竟,前期最重要的任務,就是初步確定這個盒子的價值,確切的說,是這盒子里基因的價值。
眼下的工程文件,左側的活動面板上是一個樹形結構,里面有十個子節點,表示著從1到10號盒子的基因測序矢量圖文檔,雙擊就可以打開對應的數據視圖。這款工程軟件,就是銀河研究所制定的。
有程翔的把關,一眾專業生物專業的專家教授不斷給出意見,這款軟件在使用上自然非常順利可靠。
現在最重要的工作是確定這份基因的研究價值,而這種類似解謎般的工作向來都是難度最高的,那種感覺,跟只告訴你前面那座大山里有寶藏,但是不知道埋哪里,要你自己去找一樣。
大海撈針莫過于此。
程翔沒有立刻去查看基因的細節,想了想,“被發現的盒子,在內部一共有49個形狀一致的小盒。”
“這也算是一個線索,既然如此。”
程翔想起了這款軟件的一個功能,也是非常方便的功能,就是基因測序比對。
和常用的文檔字符串比對一樣,基因比對,則是將不同DNA測序文檔進行比對,比對的則是堿基對的排列組合是否一致。不一致的,會逐個做下標記,比對完成后,按快捷鍵F3,可以快速依次查看每一個不同點。
“先比對下吧。”
“說不定就有了什么發現。”
探索過程最常見的就是試錯,試錯,自然也是從成本最低的開始,沒有什么比這個更簡單,想到這里,陳翔立刻將使用鼠標,選擇全部文檔,右鍵選擇比對所有。進度條頓時展開,比對結果實時展示。
一份200MB的DNA圖譜,足夠存儲16億個堿基對信息。十份DNA測序圖譜同時比對,這個運算量一般的電腦根本撐不住。不過,得益于軟件需求是一群專業生物研究工作者提出,所以算法早就考慮到了生物科學的特殊性。比對按照增量的方式進行,即時開始,即時出具實時結果,又可以隨時終止。
而且,更別提,實驗室大樓內部早就配置一部超算,復雜計算可以委托超算進行處理。以超算每秒10的17次方每秒的運算速度,區區兩百億數據量的比對工作,根本不值得一提。
進度條幾乎是眨眼即過,比對的結果應聲而出。
程翔緊緊盯住屏幕,屏幕上,一份DNA堿基對比對視圖已經繪制完成,十份視圖全部重合的部分則打印白色,存在不同則會黃色標注,點擊上去,還能看到各編號視圖在該位置時基因的實際情況。
不過因為顯示和內存的關系,顯示器同一時間只能顯示一個區間段的結果。
這個區間分段足足十幾萬個。
程翔直接翻看旁邊的統計結果。
這一看,程翔立刻放下了嘴邊的枸杞茶,神情變得格外凝重。
粗檢驗,重合率百分之四十五。
去除丟失片段,重合率百分之六十,
再去掉本身遺失的片段,重合率足足百分之九十九點九九九!
“重合率百分之九十九點九九九!”
程翔深深吸了口氣,拿起旁邊的內線電話,就撥通了候志潔的辦公座機,電話響了兩聲就被接起。
“侯主任,你來一下,我想,我已經有了發現。”
電話那頭的候志潔沒有任何猶豫,她才剛剛把剛才收到的數據分發給各個小組,其他的都還沒來得及做,程翔這邊就已經有了突破,放在其他人身上她會懷疑對方的專業性,但是,放在程翔身上,對于程翔的快她早就習慣,二話不說掛斷電話立刻趕了過來。
“程所長。”候志潔趕到。
“侯主任,你看,統計結果!”程翔讓開位置,讓候志潔觀看比對結果,候志潔立刻俯身,統計結果非常明確。那五個九的的重合率,分外的顯眼。
“五個九?如果再排除掉因為遠程傳輸,信號在中途被擾亂的誤差。”候志潔驚訝,本以為會非常艱巨的探索性任務,誰想到這么快就有了實質性的突破。
“沒錯,在現在的條件下,可以初步做一個假設,那就是,這四十九個盒子里的DNA序列是完全一致的。”程翔點點頭說道。
“那就是說,這四十九個盒子的作用,就是一個備份容錯的措施?”候志潔馬上想到了一種可能性。
“應該是沒錯的。”程翔肯定了候志潔的說法。
“但是,為什么要這么做呢?”候志潔問道,一個問題得出結論,總能帶出更多的問題,這是研究的復雜所在,也是其中的樂趣所在。
“十千克DNA,平攤到四十九個盒子,以五十進行估算的話,每個盒子的DNA重量為兩百克。這兩百克的基因到底會是什么?”確定了備份的猜想,縮小了研究的范圍,加快了研究進程,但是,對于價值的真正評估,還是要確定基因里面保存的是什么。
“單個生物體的DNA不可能有那么大,人體單個細胞的DNA重量只有3皮克,我現在有個猜想,這些基因的含義可能并不是某種生物基因,而是利用DNA序列的特性,作為一種存儲介質進行數據保存。”
“以堿基對序列存儲二進制數據,生物學界在實驗室早就獲得了成功。所以,在理論上,這是絕對可行的。”
“如果真要給一個猜測的話,我現在更傾向于這些基因就是生物存儲介質。”
“四十九個盒子,則是存儲陣列。”程翔緩緩說道,“而這個大盒子的本質,就是個大硬盤!”