下一代基因測序等新的生物醫學技術正在製造海量的數據,改變這個科學領域。這一趨勢帶來了過去無法想象的突破,也讓研究人員不得不奮起直追,好趕上先進技術的步伐。
: G: N; T$ l& t4 O7 d 安妮·柯克蘭(Anne Corcoran)說:“這讓我感覺自己老了。”她是位於英國劍橋的人類生物學研究中心——巴布拉漢姆研究所(Babraham Institute)的一名科學家。柯克蘭帶領的團隊在研究人類基因組與免疫係統、尤其是抵禦感染的抗體之間的關係,
6 y" H+ B! d0 q- k4 v% V; T 用她自己的話說,她是一個“老派生物學家”,練就了一身使用移液管、培養皿和護目鏡的技術,那種坐在板凳上擺弄瓶瓶罐罐的工作被稱為“濕實驗”。回想自己早年的職業生涯,她說:“我很清楚凝膠上的基因長什麼樣。”
8 H& `3 f, q; c 現如今僅有這些技能是不夠的。柯克蘭說:“十五年前我開始招博士的時候,他們全是擅長濕實驗室技術的。但現在我們招博士生的時候,首先考慮的是他們能不能處理複雜的生物信息分析。”現在,要想成為一名生物學家,你還得是個統計學家,甚至是程序員。你得會寫算法才行。 k5 W6 a7 a1 I6 ~( o: @) [( E
算法本質上是一組指令,即一組預先定義的步驟。菜譜也可以被視為一種算法,當然更明顯的算法是計算機程序。你確定了輸入,食材、數字或者隨便什麼,一步步運行算法(可以像“對每個數字加一”那麼簡單,也能像穀歌的搜索算法那麼複雜),就能得到輸出:蛋糕、搜索結果,或者一個 Excel 電子表格。
* }4 y9 x7 W- L/ N0 P" u" w V 像柯克蘭這樣的研究者們需要用到算法,在她擔任團隊領導者的 17 年中,生物學發生了天翻地覆的變化。引發改變的原因,正是隨生物醫學技術,尤其是新一代測序技術發展而產生的海量數據。
) Y! m6 @( Z9 a! l4 d+ r 不久之前,對整個基因組進行測序、確定 DNA 螺旋中所有 30 億個堿基對的順序還需要花費數年。人類基因組計劃(The Human Genome Project)首次確定了人類全套基因組序列,它從提出到 2003 年結束共耗費了 13 年時間、20 億英鎊(約合人民幣 180 億元)。而現在,新一代測序技術僅需 24 小時就能完成同樣的工作,花費不超過 1000 英鎊 (人民幣 9100 元)。
, J4 t! @( x+ l% v# c0 B5 S 這完全改變了科學家的工作方式。這不僅意味著他們需要幹的髒活變少了,需要具備的技能改變了,更意味著科學的整個過程,即從產生想法到完成驗證,都已經被顛覆。 ; h& o: ~' [1 G5 X. k0 f- E
許多年長的科學家都得了解之前沒有接觸過的技術,還得對學生進行指導。那些原本沒有教授現代生物學所需技術的學校也在你追我趕,爭相開設相關課程。但最重要的是,這些技術的出現為科學發現帶來了突破性的進展,這是在 20 年前、甚至 10 年前根本不可能實現的。
( Y m0 S; M- b 全基因組關聯研究 從巴布拉漢姆出發,只需十分鍾車程,就能到達欣克斯頓村(Hinxton),這裏坐落著另一個重要的生命科學中心,維爾康姆基金會桑格研究所(Wellcome Sanger Institute)。它最近滿 25 歲了,這裏的一磚一瓦都記錄了基因組學的飛速發展。 8 R3 q0 J" D! {2 w: M Z3 j* e
桑格研究所旁邊就是歐洲生物信息學研究所(the European Bioinformatics Institute),目前在這裏工作的莫裏茨·格斯登(Moritz Gerstung)回憶起往事,笑了出來。他說:“我的博士後研究就是在桑格做的。你幾乎一眼就能看出這建築是什麼時候設計的,用來做實驗的空間特別大,但是可以讓科學家們在電腦前坐著分析數據的地方卻沒有多少。”
- ?0 Q I J; J# I: B! E 牛津大學大數據研究所(Big Data Institute)的統計遺傳學教授吉爾·麥克維恩(Gil McVean)表示,這點在哪兒都一樣。如今,基因組研究的大部分工作都是在電腦上完成的,很少會用到實驗台。他說:“那些成立十五年以上的研究所裏,90% 都是濕實驗室,但如果你進去看看,就會發現幾乎讓人人都坐在電腦前。現在建立的生物醫學研究中心裏,僅有 10% 的濕實驗室,其他 90% 都是電腦計算實驗室。”
6 x# U z) s5 _/ }. g# k 這並不是唯一的變化。麥克維恩認為:“科學界一個重大的變化,是人們漸漸拋棄之前那種專一、有針對性、假設引導的模式,即那種‘產生想法、設計實驗、進行實驗、驗證結果’的模式。”
/ E' t6 D1 d/ G 在過去,你必須事先對某個基因可能起到的作用作出基本可靠的設想,也就是說,要對其生化作用通路展開合理的想象,判斷這個基因與某一疾病或特征的關聯。耗時的基因測序以及有限的電腦計算能力意味著,為了節約時間和金錢,在實驗之前你就要明確自己要找的是什麼。
5 z2 N- l1 p% h; S: H8 M 但現在,你只需要收集大量的數據,讓數據決定假設是什麼,麥克維恩說道。如果你有 10000 個某種疾病患者的基因組和 10000 個健康人的基因組數據,那麼你就不再需要提前甄別出可能有關的基因,只要寫一個算法來比較這些數據,分析兩組的差異,然後找出與疾病有關的基因就行了。
" f; @' _/ v4 I+ H% ^. S 這就是全基因組關聯研究(genome-wide association study),數據驅動時代一種常見的分析形式。理念很簡單,就是從一大群人中獲取基因組信息,進行測序,然後用算法來比較所有的 DNA。要比較的信息不僅包含大約 2.4 萬個編碼 DNA(即基因,只占基因組中的 1-2%),還包括那些目前仍然保持神秘的未編碼 DNA。算法也很簡單:例如,比較特定 DNA 突變在具有某種特征和不具有這種特征的人群中出現的頻率。如果這個突變在具有某種特征的人群中出現的頻率顯著高於預期,算法就會將其標記出來。 ! D& t3 o' k) Z1 _9 N4 ]
這種做法的難點在於,疾病大都很複雜,涉及成百上千個基因或未編碼 DNA 片段。因此,複雜的多維分析很快應運而生。雖然不會用到新的數學知識,但在如此龐大的任務中,算法必不可少。應用算法,通常能一次比較幾十個到數百個參數。
2 I. v) Z' i; ?$ t' k( v' n 這和穀歌的搜索算法有點相似。對網頁進行排序的過程並不複雜——比如檢測你的搜索關鍵詞在頁面上出現的頻率、位置,以及到該頁面的鏈接數量等。但算法能夠結合數百種方法,同時完成數十億網頁的檢測,這是人力不所能及的。
9 T: r0 O- I w/ _+ J" e0 W% T6 M 癌症基因組 算法的應用給人來帶來了巨大的便捷。格斯登的研究領域——癌症基因組學可能是受益最大的領域之一,比如在白血病方面。 & j+ A$ j% l. {/ j* c& [0 b
在某些情況下,這種給人致命打擊的疾病可以通過骨髓移植完全治愈。不過骨髓移植是一場大手術,它帶來的並發症也可能導致病人死亡。只有在無計可施的時候,醫生才會對白血病患者進行骨髓移植。
0 Y: `9 f* g$ q+ _# f 然而,預測哪種白血病最為致命十分困難。白血病的症狀非常複雜,醫生不一定能夠據此推斷出準確的預後。 6 N7 P# a& M* l& I w
因此,格斯登團隊的研究對 1500 名癌症患者的基因組進行測序,找出相關的 DNA 突變,然後判斷這些突變分別對應哪些症狀。他們共找到了 5000 種不同的突變和約 1000 種不同的組合,然後將這些組合按死亡風險的高低分為 11 類。格斯登表示:“這能讓臨床醫生做出更準確的決定。”
0 c! K1 Q' w9 _/ x' ^$ o 數據驅動帶來的影響還要比這大得多。南安普敦大學(University of Southampton)癌症免疫學教授埃德·詹姆斯(Edd James)認為,對腫瘤基因組進行測序已經在癌症治療方法中引發了“思維轉變”,“癌症不只是一大堆複製的細胞,如今我們對這一事實感到更加慶幸”。
+ r B' y7 x$ R7 ~* s% L 一種癌症可能會包含數十種不同類型的細胞,每種細胞又有不同的 DNA 突變組合,需要使用不同的藥物進行治療。所以基因測序讓臨床醫生能夠對他們的病人(和腫瘤)選擇更有針對性的藥物。詹姆斯說:“以前,治療都是針對人群的,‘X% 的病人在接受這種治療後會有好轉’,但有了基因測序的信息之後,你能判斷每個個體是否適合這種治療。”
8 P5 v2 n, D* u 除了發現差異,基因測序也能反映不同癌症之間的共性。詹姆斯說,曆史上,癌症根據解剖部位來定義:如肺癌、肝癌、頭頸癌等,“但應用新一代測序技術,你會發現有些不同部位癌症之間的共同點比同一部位之間的還要多。這讓我們意識到,某些癌症(如乳腺癌)的特效藥也許能治療其他部位的癌症。”
" S4 r0 E. z6 v 格斯登支持這個觀點:“從遺傳學角度看,不同解剖部位的癌症存在大量重疊。甚至有人在某些前列腺癌中發現了 BRCA1(一種與乳腺癌密切相關的基因)。” * K2 H- }' P" u: x/ C1 f/ D
這種相似性也變得愈發重要。美國食品藥品監督管理局(Food and Drug Administration)最近批準一種抗癌藥物——派姆單抗(pembrolizumab)——用於治療任何出現錯配修複缺陷(一種 DNA 修複錯誤)跡象的癌症,這標誌著按基因而不是發病部位治療癌症的藥物開始獲批。 " h/ H$ n# o; k- M2 Z$ p& {
這一切都歸功於不斷湧現的數據流。 : _: f- M4 u. \* S. P
從生物到編程 桑格研究所研究致病菌基因組的數據科學家妮可·惠勒(Nicole Wheeler)表示:“我們很善於生成數據,結果得到了過多的數據。”麥克維恩也表示讚同:“根據摩爾定律,計算能力每 18 個月能翻一番。通過基因組測序和醫學成像、數字病理學采集到的生物醫學數據增長速率比這還要快。生物醫學數據遵循的是‘超級摩爾定律’。”
6 E0 f% d$ H6 @0 M$ _% m& p 在本世紀初,生物學家自己檢查數據還是一件完全不可能的事。這也就意味著生物學家要麼聘用專人,要麼自己成為數據科學家。 ' f0 J1 Q0 R) U* q- S) e x; E
安妮·柯克蘭說:“幾年前我們遇到了瓶頸。我們有許多數據,卻不知該如何處理。由此算法應運而生,處理數據,使其發揮最大價值。如果研究一個或幾個基因,還可以手動計算;但如果你要研究兩萬個基因表達,手動統計根本不現實。” + }! f! u( J# L; G) }. J9 M
許多生物學家都像柯克蘭一樣,在實驗台和玻璃器皿之間成長起來,而不是電腦和辦公桌旁——他們不得不學著使用這些算法。柯克蘭說:“我覺得年長的科學家常常被算法嚇倒,他們比對年輕的同事可能會過於依賴,或者更願意承認這點。” 7 a4 f' q# b. L& X5 a0 F$ ]
柯克蘭發展出了關於算法原理的 “實用知識”,但她也承認,“這是一個有些脆弱的時期,團隊領導看不懂下屬們做的工作。”
0 t# ]0 r; c# O& L+ v4 f% _ W: \ 柯克蘭在巴布拉漢姆研究所的同事沃爾夫·瑞克(Wolf Reik)對此表示同意。瑞克領導著一個表觀遺傳學研究團隊,他說,老一輩科學家的思考方式完全不同,“這點很有趣——開組會的時候,我的員工會把基因組當做一個整體來思考問題;而我會分析單個基因,然後進行歸納,因為這就是我受到的思維訓練。”
3 A, S3 K9 ^, y/ U4 J7 D 他認為,對處在他這個位置的人來說,理解新一輩科學家的工作很關鍵,“最關鍵的是要對如何使用算法工具形成直覺理解……畢竟工作中最後會有我的署名。”
; o3 a1 H% V7 p) }- D 另一方面,年輕科學家在數據環境下長大,而且其中一些人之前就接觸過相關知識。格斯登本科學的是物理,不過有些團隊負責人也是如此,如麥克維恩。但一些原本學習生物的人現在卻學起了編程。在桑格研究所研究基因型與人類不同表現型關係的博士後蔡娜(音,Na Cai)說:“我本科學的是生物,那才是我的專業領域。” 1 M, p1 V: m( v; o+ G% }7 ?4 ?* _
“而現在我每天做的是統計分析。這就像學習一種或幾種新的語言一樣,我得把之前大腦中生化路徑和流程圖的思維方式,轉化成一種更結構化的編程思維。”
; @% Q$ d" H% B5 f' ~ 與她共事的那些年長科學家都“挺跟得上發展潮流”,她說道,“他們可能自己不會寫代碼,但是能看懂寫好的代碼能做什麼分析。” ! ?5 G6 J' U0 f" r+ x" s1 z
蔡娜的同事惠勒也是生物學出身,後來學起了編程。惠勒說:“我沒有傳統的軟件工程背景,我是邊讀博士邊學了編程。(我編的程序)不是最高效的,也不是最迷人的,但編程的目的是明確你要進行怎樣的計算,然後實現它。”
) |: O) z$ s# g- Q 為了滿足這些需求,這幾年本科學位發生了很大變化。比如,紐卡斯爾大學(Newcastle University)在生物係本科課程中增設了生物信息學。雷丁大學(Reading University)的畢業設計課題中也包含了計算生物學,不過學生們很少在前幾年選修計算課程,所以他們會在最後一年“臨時抱佛腳”。倫敦帝國理工學院(Imperial College London) 已經開設了生物信息學課程,正計劃給大一大二學生增設編程課。惠勒說:“我覺得人們已經認識到,生物學涉及的數據比過去要多得多,因此人們需要具備處理這些數據的技能。” ! n" X. B! J+ t( ~+ o
但是,改變過程很慢,而且有時候會受到學生們的抵觸,畢竟有些人選擇生物可不是為了學編程。柯克蘭表示:“我只能說本科課程正在追趕這一趨勢,但總體而言還沒趕上,從計算機相關碩士課程的激增就能看出這點。” 5 O* _5 h$ j0 M4 p
當然,改變還是必要的。即使是那些最需要做濕實驗工作的科學家,在接受采訪時也表示他們做實驗的時間比以往減少了 50%;更有一些人表示,這一比例已經降到了 10%,例如蔡娜的例子,自從專門研究生物信息學以來就根本就沒做過濕實驗。
6 f1 g. ? W5 t) l; | 惠勒說,向數據驅動的轉變,可以看做是科學從假設-檢驗到假設-生成的轉變。一位不願透露姓名的科學家擔心這會降低科學的創造力,但惠勒認為事實並非如此,她說:“這只是轉移了創造力。在某些方面,發揮創造力的空間反而更大了。你能夠用相對較低的成本嚐試一些瘋狂的想法。” $ A# C! T2 G' x$ f, }3 l
好處還不止這些。位於英國諾福克的計算生物學研究中心——厄勒姆研究所(Earlham Institute)的生物信息學家馬特·鮑恩(Matt Bawn)說:“你的思路可能會被假說限製。最好是做一個沒有先入之見的公正觀察者,等待畫面從空白的畫布中浮現出來。”
/ a3 ?2 C4 r; w 但最大的好處是,數據驅動的研究總能在之前無法探究的複雜領域,提出迷人的新發現。 0 ]7 C7 N% N! Q% b3 }5 x
算法與DNA 斯蒂芬·肖恩菲爾德(Stefan Schoenfelder)也是巴布拉漢姆研究所的研究員,研究染色體的 3D 形狀及其對基因表達的影響。人類基因組工程完成之時,發現的基因數量遠比預想的少——只有 2.4 萬個,大約是科學家估計的最小數量的四分之一。其餘的 DNA 根本不編碼蛋白質。 ( O" L$ S5 E v. `
後來人們意識到,非編碼區域的作用之一是調節基因表達:在一些細胞中開啟表達,在另一些中關閉表達。它們實現這種功能的方式之一,就是在不同細胞中折疊成不同形狀。
. Q; P p5 L# s) b5 B# D# }5 K 人們通常將染色體描繪為“X”形,但它們只有在細胞分裂時才是這種形態。在其他時間裏,幾乎在所有細胞中,兩米長的 DNA 都會蜷曲成複雜的一團。所以,即使某段 DNA 與染色體上的基因相距很遠,它仍能有可能對其起調節作用,因為在實際情況下,兩者有密切的物理接觸,肖恩菲爾德講道。“所以研究 3D 狀態下的染色體很重要:如果你只觀察序列,假設相鄰的基因才會受到調節,常常會得出錯誤的結論。” ( Z. q& x L* [6 T2 i% O
最重要的是,染色體折疊的方式很不一樣,肖恩菲爾德說。“相同的基因組,在T細胞中與在肝細胞和腦細胞中的構象都不一樣,因此它們表達的基因不同,細胞的功能也不同。”
, x$ D3 [7 G9 T( V& n 研究各個情況下染色體的 3D 形狀是很困難的,這涉及細胞類型的測序,和發現其與其他細胞類型的差異、分析是哪段 DNA 產生了相互作用。但首先 ,需要用一種被稱為交聯和連接的複雜技術處理 DNA,進行測序,從而判斷哪些 DNA 片段是相近的。如果兩段原本相距很遠的 DNA 在細胞核中緊密相鄰,那有可能這種折疊方式就是為了方便其中一個基因調控另一個。但在更普遍的情況下,這只是 DNA 隨機纏結的結果。 ; H7 h( Z0 V1 b. G( m
要從噪聲中分辨出真正起作用的關聯段,需要對數十億數據進行分析,找出那些出現頻率較高的基因連接片段。這就需要算法發揮作用了。一旦找到染色體中哪幾對片段有相互接觸,你就可以在此基礎上用其他算法進行 3D 建模了。
- D; J' i6 V4 V 肖恩菲爾德說:“這整個領域只有 15 年的曆史。”他還說,在這之前,“我從來沒考慮過基因組的形狀,我認為它就像一團塞入細胞核的意大利面。而它到底怎樣塞入直徑大約 5 微米的細胞核中,我覺得這只是怎麼安排的問題。”
7 ~# Y; R7 `* z7 z0 _- k “讓我震驚的是結構微調,即使在這種極度壓縮的條件下,結構微調依然存在。”染色體的 3D 形狀,以及這種形狀的染色體中哪些基因會對另一些起調控作用,將告訴我們人類體內的 200 多種細胞是如何產生的。 + X5 C- ~7 o+ I/ e, v7 K' V
與此同時,麥克維恩指出,基因組研究迫使臨床醫生對多發性硬化(multiple sclerosis)這種疾病完全重新分類。他說:“我們發現了 250 多個增加患病風險的基因片段,由此可以對個人的患病風險作出較準確的判斷。這些基因還使我們發現了它與類風濕性關節炎等疾病的重合之處:某些增加多發性硬化患病風險的基因,也會降低類風濕性關節炎的風險。”
# {0 q1 Q a7 u! j) k5 F8 `7 m 麥克維恩接著說:“因此我們發現,盡管多發性硬化表現出神經退行性疾病的症狀,它其實是一種自身免疫性疾病。目前已有四五家公司基於這一判斷推出了新的治療方案。” 5 B! N/ e, J3 H# V$ W
巴布拉姆研究所的伍爾夫·瑞克還有個令人激動、甚至有點科幻的故事要講。他研究表觀遺傳學,觀察細胞的化學環境如何影響基因表達。他的研究也要對 RNA(一種可以讀取 DNA 並製造蛋白質的信使分子)進行測序,了解它在不同細胞中的差異。他們的團隊對衰老尤其感興趣。
9 L; z |2 ~ Y* o% J! L 五年前,科學家們發現(瑞克的工作也證實了這點),人體所有細胞中都有一個控製衰老的時鍾,即 DNA 甲基化(DNA methylation)。DNA 共有四種堿基:C(胞嘧啶)、A(腺嘌呤)、G(鳥嘌呤)和T(胸腺嘧啶)。隨著年齡的增長,我們的 DNA 中越來越多的 C 會被打上一個小小的化學標記,叫做甲基。要看懂這個時鍾十分簡單,數一下甲基數就行了。但這又一次涉及到了龐大的返回數據,只能用算法計算。
% w0 H+ N& t1 v0 R 裏克說:“通過讀取這個時鍾,我們可以預測你我的年齡,誤差不超過 3 年。它的準確度出奇的高,這是我們擁有的關於衰老最準確的生物標記。” - I( c: B. A3 I! v% g
當然,“無論是對老化過程的解讀,還是用程序預測壽命”,都非常有意思。但裏克認為,這項研究的意義還在於我們可以打斷衰老時鍾:“我相信未來一定會發展出能夠減慢衰老時鍾的藥物和小分子。”
' k- ~3 e6 Q" D' K* ]/ D* K 非凡的革命 通過大數據來獲得永生可能有點不切實際,但每一位接受采訪的科學家都同意,算法主導、數據密集型基因組研究的興起已經改變了生命科學。它令老一輩科學家有時會看不懂新一輩同事的工作,也令現代研究中心的實驗室變得富餘,而能夠使用用電腦的辦公室變得緊缺。肖恩菲爾德認為,變化的步伐可能會“讓人迷失方向”。
8 j. h. L3 k# e7 e 他說:“現代生活太複雜了,13 年前我讀博士時掌握的技能已經完全跟不上現代科學發展的腳步。”但這些變化給基因組研究帶來的影響是正面的。人類基因組工程快要告一段落的時候,大家都特別興奮,相信解開了基因的謎題後,很多疾病很快就能被攻克。但這些疾病大多涉及多個基因,很是複雜,僅靠研究單個基因是不可能實現的。現在,借助新一代基因測序和篩選數據的工具,攻克這些疾病成為了可能。 + u: g; v- ]8 A; c; `7 X
肖恩菲爾德說:“現在我每做一個實驗,都能得到一兩億個數據點。我之前還以為這輩子也不會出現這樣的事,但短短幾年就實現了。我們能夠解決十年前想都不敢想的問題,這真是一場非凡的革命。” |