Ознакомительная версия. Доступно 15 страниц из 73
Г или Ц. Поэтому изолейцин в ее геноме записывается как АУЦ почти в 30 раз чаще, чем АУА, или в 5 раз чаще, чем АУУ[31].
Это явление получило название «предпочтение кодонов», и оно активно изучается эволюционными биологами уже много десятилетий. Какие-то организмы более строго придерживаются правил предпочтения кодонов, а какие-то менее. Для нас тут самое интересное в том, что относительно недавний перенос гена из одного организма в геном другого можно предположить, если в этом гене статистика употребления каких-то кодонов отличается от картины в других генах этого же организма. Сработает этот метод, конечно, лишь для некоторых пар организмов. Мы не сможем использовать его, если хотим, например, найти в геноме яблони сорта X следы переноса генов от яблони сорта Y. А вот найти в том же геноме яблони сорта X следы переноса генов из бактерии вида Agrobacterium tumefaciens вполне реально, так как бактерия предпочитает использовать свой набор кодонов[32].
Вторая подсказка для биоинформатиков также основана на статистике и во многом следует из факта существования принципа предпочтения кодонов. Представьте, что перед вами фото многолюдной улицы неизвестного вам города. Вы бы хотели понять, где именно сделано это фото. Оценив, какой оттенок кожи и разрез глаз вы видите на фото чаще, вы можете сделать первые выводы. Если добавить к признакам, какую одежду предпочитают люди с фото, можно скорректировать свои выводы. Добавим далее то, какая архитектура преимущественно попала на снимок, и вуаля – наш прогноз стал достаточно хорошим даже для снимка крупного портового города, каковые известны своей смесью национальностей, культур и архитектур. Примерно так же мы можем посмотреть и на геном. Сначала оценить, как часто в нем встречаются определенные буквы. Чаще всего измеряют долю букв Г и Ц (этот параметр получил название ГЦ-состав) или долю букв А и Т (АТ-состав) на геном или на определенный фрагмент генома. Уже по такому простому, казалось бы, параметру можно неплохо различать между собой различные организмы. Например, в человеческом геноме доля букв Г и Ц составляет в среднем 41 % (есть отдельные специфические регионы в геноме, которые содержат значительно больше или меньше, но среднее для большей его части такое)[33], а в геноме бабочки монарха (Danaus plexippus) ГЦ-контент равен 31,6 %[34].
Затем можно изучить различные двухбуквенные сочетания. Например, сколько раз в геноме (или определенном регионе генома) найдется сочетание АГ, или АТ, или ЦЦ. Потом вычислить частоту вхождения различных троек. Например, как много в геноме сочетаний ЦЦЦ, ГГГ или АГА. После перейти к четверкам и определить, скажем, процент вхождения сочетаний ААГГ и ЦЦГА. Затем к пятеркам… Таким образом мы сформируем индивидуальный портрет генома из признаков частоты вхождения в него различных подстрок. Такой же портрет мы можем получить для каждого отдельного региона в этом геноме. А потом наложить два портрета друг на друга и сделать выводы о том, вписывается ли рассматриваемый фрагмент в картину всего генома. Если ответ «да», вероятно, все в нем «родное». Если ответ «нет», можно предположить, что там есть ген, который был перенесен из генома организма другого вида.
К сожалению, даже этот и так не слишком-то однозначный метод имеет свои недостатки, осложняющие биоинформатический анализ. Во-первых, со временем ген как бы адаптируется к организму, в котором он оказался. То есть нетипичные кодоны в результате последовательных мутаций со временем становятся самыми типичными. Генетики говорят, что гены «одомашниваются» в процессе эволюции[35]. О том, почему это происходит, ученые тоже думают уже очень давно. Об этом мы поговорим немного далее в главе о мутациях. Во-вторых, чтобы искать чужеродный (перенесенный) ген в геноме, надо хотя бы примерно знать, что мы ищем и где именно – в каком месте генома. Иначе такая задача поиска будет достаточно вычислительно сложной, что связано с большой длиной эукариотических[36] геномов и просто огромным количеством комбинаторных вариантов, по которым можно осуществлять поиск.
В таком случае, мы можем понять, имел ли место перенос чужеродного гена в чей-то геном, но уверенность наших выводов будет зависеть от того, случился ли этот перенос относительно недавно (по эволюционным меркам) и были ли донор и реципиент организмами разного вида.
Что же еще есть в арсенале биоинформатиков? Кое-какие методы из тех, что использовал еще Шерлок Холмс. Помнится, доктор Ватсон написал в списке характеристик своего нового соседа: «способен по внешнему виду отличать разные виды почв; после прогулок показывал мне пятна на своих брюках и по их цвету и консистенции определял, какое в каком районе Лондона получено»[37]. Некоторые приемы генной инженерии оставляют от себя вот такие пятна – следы вмешательства, небольшие фрагменты из генетических букв, которые можно найти, если знать, какой именно фрагмент мы ищем, и указывать примерный диапазон поисков в геноме. Почему так происходит и что нужно искать, рассмотрим дальше в главе 3.1. Дело о картошке. Недостатки у этого метода такие же, какие бы помешали и великому сыщику: если ваш подозреваемый притащил на штанах пятна грязи не из районов Лондона, а, скажем, из пригорода Челябинска, то ничего бы эти пятна ему сами по себе о своем происхождении не рассказали – ведь почвы тех мест ему попросту незнакомы. Да и способов не принести с собой на одежде никаких пятен, наверное, столько же, сколько современных технологий редактирования геномов, которые следов в геноме не оставляют.
Ну и уж совсем напоследок биоинформатический метод, который требует довольно высоких вычислительных ресурсов и… наличия явного подозреваемого. Текст конкретного гена (или фрагмента гена) можно приложить по очереди к каждому из известных науке геномов и узнать, на чей ген он больше всего похож. Биоинформатики говорят, что ген нужно выравнять на геном. Тут важно, что выравнивать (прикладывать) надо именно этот самый подозреваемый ген, а не весь (предположительно отредактированный) геном. Потому что, во-первых, при сравнении «в лоб» одного полного генома с другими полными геномами всех известных организмов это будет невероятно вычислительно сложная задача для очень мощного компьютера, которая займет не одни сутки, а то и недели. А во-вторых, сравнение одного генома с другими геномами однозначного ответа все равно не даст – по разным генам организмы могут походить на геномы разных организмов. Ведь эволюция шла очень заковыристыми путями. Отсюда в науке есть даже такая сложная задача – построение эволюционных (так называемых филогенетических) деревьев.
Подводя небольшой итог: опознать, что в геном произведена встройка чьего-то чужого гена, теоретически
Ознакомительная версия. Доступно 15 страниц из 73