Глава 14
Карта генома
Ну вот, необходимые библиотеки ДНК составлять мы научились, скоро команда из 454 запустит свои мощные машины и все прочитает. Так что можно браться за новую задачу: картирование. Нам предстояло найти для каждого короткого фрагмента неандертальской ДНК соответствие в эталонном геноме человека. Звучит просто, но на деле задача оказалась колоссально сложной, примерно как если бы вы складывали гигантскую головоломку, в которой часть кусочков потеряна, часть попорчена и еще множество попало в коробку из других наборов и поэтому не подходит вообще.
Суть задачи по сортировке фрагментов состояла в том, что нужно было одновременно держать в голове две противоположных возможности. С одной стороны, если требовать абсолютно точного соответствия неандертальских и человеческих отрезков ДНК, то можно упустить или отбросить те, в которых имеются значимые отличия (или ошибки). И в результате неандертальский геном предстанет более похожим на человеческий, чем на самом деле. Но с другой стороны, если позволить слишком приблизительное соответствие, то в неандертальский геном попадут фрагменты бактериальных ДНК, которые иногда похожи на те или иные участки человеческой последовательности. В этом случае неандертальский геном будет слишком сильно отличаться от человеческого – больше, чем в реальности. Собственно, на том этапе можно было забыть обо всех остальных частностях и сосредоточиться на балансировании между этими двумя крайностями; от выбранного баланса зависел весь дальнейший анализ и подсчет различий между человеческим и неандертальским геномами.
Кроме того, была еще и практическая сторона дела. Компьютерные алгоритмы для картирования не могли учитывать слишком много параметров: мы ведь хотели сравнивать массивы в 3 миллиарда человеческих нуклеотидов с миллиардом неандертальских фрагментов по 30–70 нуклеотидов каждый (именно такое количество ДНК мы планировали секвенировать из костей). Программам с такими объемами быстро не справиться.
Несколько человек взялись за монументальную задачу по составлению алгоритма картирования: Эд Грин, Дженет Келсо и Удо Штенцель. Дженет приехала к нам в лабораторию в 2004 году из Университета Западно-Капской провинции в своей родной ЮАР и возглавила у нас группу биоинформатики. Как-то незаметно, но очень эффективно из самых разных и необычных личностей она создала целостную сплоченную команду. Взять, например, Удо: немного мизантроп, убежден, что большинство тех, кто выше его в академической должностной иерархии, – спесивые дураки. Удо бросил университет, так и не получив диплом по информатике. И тем не менее, когда дело касалось программирования и умения логически мыслить, большинство его учителей не шли с ним ни в какое сравнение. Нам повезло, что он нашел неандертальский проект достойным своего внимания, хотя временами он сводил меня с ума своей абсолютной убежденностью в непогрешимости собственных знаний. Честно говоря, если бы не Дженет, я бы с ним, скорее всего, не сработался.
Все работы по картированию полученных фрагментов, по сути, координировал Эд, чей собственный проект по сплайсингу РНК тихо и незаметно скончался. Вместе с Удо они разработали алгоритм картирования, который учитывал закономерности появления ошибок в последовательностях неандертальских ДНК. Эти закономерности, в свою очередь, определяли Эдриан с Филипом Джонсоном, талантливейшим студентом из группы Монти Слаткина из Беркли. Они-то и выяснили, что ошибки располагались в основном на концах фрагментов ДНК. Дело в том, что, когда молекула ДНК рвется, получаются две неравных по длине нити, и у той, что длиннее, конец торчит, становясь уязвимым для химических атак. Эдриан провел тщательный анализ и понял, что ошибки происходят из-за отщепления молекул азота от цитозинов, а не от аденинов, как мы ошибочно посчитали годом раньше. Даже больше: если Ц стоит на самом конце цепочки, то риск появления его в наших последовательностях в виде Т оценивается в 20–30 процентов.
Эд по-хитрому сумел включить в алгоритм эту Эдрианову закономерность: вероятность ошибок в зависимости от позиции нуклеотида в отрезке последовательности. Например, если неандертальская молекула имела Т на конце, а человеческий геном – Ц, то это считалось как точное соответствие, так как вероятность ошибки “отщепление и замена Ц на Т” очень часто встречается. И напротив, Ц на конце неандертальской молекулы и Т – человеческой считалось как полное несовпадение. Теперь мы не сомневались: алгоритм Эда значительно снизит уровень ложного наложения фрагментов и увеличит, соответственно, уровень корректных попаданий.
Дальше нам предстояло решить, какой из человеческих геномов выбрать для сравнения с неандертальским. Мы хотели понять – и это было одной из целей наших исследований, – будет ли генная последовательность неандертальцев ближе к европейскому человеку или к людям из других частей света. Ведь если мы составим карту фрагментов неандертальского генома относительно европейского варианта (а примерно половина эталонного генома принадлежит индивиду европейского происхождения, как известно)[57], то фрагменты, совпадающие с европейским геномом, останутся, тогда как те, что больше напоминают африканские геномы, отсеются. И тогда в результате мы получим геном неандертальца, слишком сильно похожий на европейский, что будет неверно. Понятно, что для сравнения нужно что-то нейтральное, и мы остановились на геноме шимпанзе. У неандертальцев, людей и шимпанзе был общий предок, и жил он, скорее всего, в промежутке от 4 до 7 миллионов лет назад. Это означало, что геном шимпанзе отличается и от человеческого, и от неандертальского. Мы также составили карту фрагментов неандертальской ДНК относительно гипотетического генома общего предка гоминидов и шимпанзе; этот геном разрабатывали в других лабораториях. После того как мы произведем картирование по геномам нашего общего отдаленного предка, фрагменты неандертальской ДНК можно будет сравнить с соответствующими последовательностями современных человеческих геномов из разных частей света. И тогда появится смысл обсуждать найденные различия, не опасаясь ошибок неверного начального выбора.