авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 |

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. М.В. ЛОМОНОВОСА На правах рукописи БОЕВА Валентина ...»

-- [ Страница 2 ] --

Приведем конкретный пример подсчета вероятностей для обеих моделей. Длина теста 100000п.н., частоты нуклеотидов PA 0.288, PC 0.212, PG 0.212, PT 0.288. Повторы искались в 18ой версии человеческого генома [93].

Пример (3.26). Рассмотрим повтор на Chr1, позиции с 4456131 по 4456152: GGTCC|TGCCC|TGCCC|TGTGC|TG;

период повтора L = 5, количество копий k = 4.4. Под консенсус подходят 8 слов, вероятность мотива (в смысле модели «motif») Pr(Hk) = 3.66e-10, pF-value = 3.63e-05. Для модели «mask» вероятность «маски» равна PrS(5;

4.4;

4, 5, 2, 3, 4) = 3.63e-05, pS-value = 6.94e-02.

Для другого повтора на хромосоме 18, позиции с 88752 по 88793:

ccctaa|ccctaa|cccgaa|ccctaa|cccgaa|ccctaa|ccctaa;

период равен 6, количество копий 7, консенсус CCCKAA. Вероятность мотива (в смысле модели «motif») Pr( H k ) = 3.80e - 23, pF-value = 3.80e-18. Для модели «mask»

вероятность «маски» равна PrS(6;

7;

7, 7, 7, 5, 7, 7) = 2.27E-19, pS-value = 2.27e-14.

Видно, что вероятность мотива всегда меньше, чем вероятность «маски». Так происходит, потому что обычно под маску подходит больше слов, чем под консенсус, т.к. «маска» не учитывает буквенный состав повтора.

Глава II. Разработка алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов.

Реализация алгоритма и создание web-приложения.

Разработка Интернет-сайта, посвященного программе.

В этой главе описывается алгоритм поиска вырожденных тандемных повторов с использованием оценок статистической значимости найденных повторов, полученных в предыдущей главе. Также приводится краткое описание других популярных программ поиска тандемных повторов в последовательностях ДНК и объясняется, почему они не полностью отвечают специфике нашей задачи.

Тандемные повторы отличаются между собой самой длиной повтора, длиной периода, количеством копий (экспонентой) и количеством замен между повторяющимися единицами повтора (вырожденностью). Например, в повторе ATcgc|ATggc|ATtcc|ATcgg (IUPAC консенсус – ATBSS) только две первые позиции в повторяющейся единице консервативны. Можно привести множество примеров тандемных повторов с еще более вырожденным консенсусом. Нужно сказать, что современные программы поиска заточены в основном на поиск слабо вырожденных повторов, где хотя бы 70-80 процентов позиций консервативны [81, 89].

Обычно, поиск периодических сигналов в последовательностях биополимеров осуществляется при помощи автокорреляционного анализа [83-85] и/или выравнивания повторяющихся единиц (например, [81]).

Однако, такие алгебраические методы, сами по себе, не могут выбрать наилучший повтор среди нескольких пересекающихся повторов с различной длиной периода. К тому же, в случае сильно вырожденных тандемных повторов нельзя пренебрегать возможностью наблюсти вырожденный повтор случайно, просто потому что вероятность встретить данный повтор на произвольной позиции велика, а текст, в котором осуществляется поиск, имеет достаточно большую длину. В нашей работе мы добавили к алгоритму поиска повторов статистический критерий, позволяющий различить значимые повторы от менее значимых.

Первый шаг алгоритма состоит в определении кандидатных повторов с помощью автокорреляционного анализа. На втором шаге происходит фильтрация кандидатных повторов в зависимости от их статистической значимости. Этот этап позволяет получить покрытие данной последовательности множеством непересекающихся тандемных повторов.

Данная разметка в дальнейшем может быть сопоставлена с соответствующей разметкой геномной аннотации и картами различных функциональных участков.

До настоящего времени не существовало алгоритмов, отвечающих всем вопросам, связанным с поставленной задачей. Некоторые алгоритмы, такие как Tandyman [90], определяют только точные повторы, другие находят повторы только с четко фиксированными параметрами, такими как фиксированная длина периода, [80, 87], или же не могут решить проблему пересекающихся повторов и выводят либо все, либо k лучших [81, 89]. Мы встроили в наш программный пакет опцию, позволяющую оценить статистическую значимость повторов, найденных другими поисковыми программами, в частности TRF [81] и MREPS [89].

Далее алгоритм поиска тандемных повторов описывается более подробно.

Распознавание кандидатных повторов.

На первом шаге алгоритма мы ищем кандидатные повторы для каждого значения длины периода T из интересующего нас интервала.

Рис. 1. Распознавание кандидатных повторов. Позиция i массива w (output array) содержит количество замен между тремя позициями последовательности (sequence) : i, i+T, i–T. Позиция i массива A (local sum) содержит сумму Т последовательных элементов массива w, начиная с позиции i. Позиции, содержащие малые значения массива А, соответствуют тандемным повторам с длиной периода Т (более подробно этот шаг алгоритма описан в тексте).

Для каждой позиции i данной последовательности алгоритм производит сравнение слова длины T на позиции i со словами той же длины на позициях i-T и i+T. Для каждой буквы изначального слова количество замен, найденных при сравнении на каждой позиции, записывается в соответствующей позиции массива w (output array). Т.е., если все три символа, разделенные периодом Т, совпадают, то в позиции, соответствующей средней букве, массива w записывается 0;

если только два символа из трех совпадают, то в w записывается значение 1;

и если все три символа различны, то значение соответствующей позиции w будет равно 2.

Пример заполнения массива w с помощью описанной автокорреляционной процедуры представлен на рисунке 1. Алгоритм определяет возможные тандемные повторы, находя минимальные значения массива А, массива локальных сумм элементов массива w, при вторичном проходе всех позиций последовательности:

i +T i wT k.

AT i = (4.1) k= Все позиции с локальной суммой, превышающей определенный порог K, включаются в кандидатный повтор длины периода T. Бльшие значения K соответствуют тандемным повторам с большей степенью вырожденности.

Данная процедура повторяется для каждого значения Т длины повтора из заданного интервала. Для каждого Т алгоритм находит повторы с длиной периода Т, пробегая все значения K от нуля до (T-C), где С это определяемый пользователем параметр, ‘уровень значимости’ (significance level), буквально означающий максимально допустимое количество замен.

На втором шаге алгоритма происходит процесс фильтрации найденных тандемных повторов.

Фильтрация кандидатных повторов. На предыдущем шаге алгоритма мы получаем набор кандидатных повторов, характеризующихся своей начальной и конечной позициями, длиной периода, экспонентой и уровнем вырожденности. В общем случае найденные на этом шаге повторы могут пересекаться. Но для составления геномных карт желательно, чтобы пересечение повторов, покрывающих последовательность, было минимально. Поэтому мы производим фильтрацию пересекающихся повторов (например, с кратными периодами, такими как 3 и 6) с целью выбрать из них наиболее значимый повтор. В предыдущей главе представлены два методы оценки статистической значимости повтора – motif и mask. Первый метод, motif, основан на описании тандемного повтора при помощи его IUPAC консенсуса (Приложение 1), формула для подсчета соответствующего значения PF-value получена, используя теорию производящих функций в рамках теории элементарных языков развитой в INRIA, Rocquencourt. Второй метод, mask, основан на представлении тандемного повтора как структуры, учитывающей консервативность позиций;

формула для соответствующего значения PS-value получена с помощью средств комбинаторной алгебры.

На шаге фильтрации повторов, все найденные тандемные повторы сравниваются попарно между собой. Сначала повторы с одинаковой длиной периода, а потом все оставшиеся. При сравнении пары повторов, в случае их пересечения в базе остается более значимый, т.е. тот, у которого P-value меньше. Мы считаем, что повторы пересекаются, если длина пересекающегося слова больше, чем максимальная длина периода двух слов.

Какую конкретно модель, mask или motif, использовать для фильтрации повторов, определяет пользователь. Обычно, когда текст имеет достаточно сдвинутое распределение нуклеотидов (например, CpG острова), лучше использовать модель motif, т.к. в ней учитываются вероятности букв, из которых состоит повтор. В случае же более-менее равномерных частот нуклеотидов, скажем, средних по геному, является более обоснованным использовать модель mask.

После стадии фильтрации, оставшиеся, наиболее значимые повторы, выводятся в виде таблицы с указанием последовательности, в которой они были найдены, начальной и конечной позиций, длины повтора, длины периода, количества копий, консенсуса, PS-value и PF-value, количества слов, подходящих под консенсус и самого повтора.

Надо заметить, что алгоритм не определяет повторы с длиной периода равной 1 или 2, что соответствует полинуклеотидным трактам и последовательностям типа TATA. Данные виды повторяющихся структур и способы их обнаружения в последовательностях ДНК были описаны в других работах [1, 9, 97] Реализация алгоритма и создания web-приложения. Разработка Интернет-сайта, посвященного программе.

Алгоритм поиска тандемных повторов без делеций и вставок в последовательностях ДНК, подробно описанный в предыдущем разделе, был реализован на языке С++ и получил название TandemSWAN. Также был создан сайт, с которого можно загрузить запускаемую с командной строки версию программы или же использовать web-версию TandemSWAN.

Сайт может быть найден по адресу http://bioinform.genetika.ru/projects/swan/www.

Алгоритм основан на оценке статистической значимости найденных тандемных повторов и включает в себя способность правильно распознавать период повторяющейся единицы и количество копий. На данный момент на сайте доступны две версии программы. Более старая версия позволяющая искать тандемные повторы только с целым числом копий, была опубликована в [98]. Последняя версия, откомпилированная под системы Linux и Windows, позволяет осуществлять более адекватный выбор между пересекающимися повторами и позволяет искать повторы с дробным количеством копий.

Новая версия программы TandemSWAN ищет периодические структуры с количеством копий повторяющейся единицы больше двух.

Возможны два варианта запуска программы – в одном случае происходит нахождение повторов с целым количеством копий, т.е. все единицы повтора имеют одинаковую длину, и с дробным количеством копий, т.е. последнее слово может быть короче длины основой повторяющейся единицы.

Длина повторяющейся единицы искомых повторов всегда больше двух. Таким образом, программа не определяет последовательности типа поли-A или TATA-боксы.

Входные и выходные данные, опции программы TandemSWAN:

На вход подаются файл с последовательностями ДНК и следующие параметры:

i. Уровень значимости;

ii. минимальная и максимальная длина повторяющейся единицы;

iii. тип экспоненты (целое или дробное количество копий);

iv. модель оценки статистической значимости повтора (т.е. модель «motif» или «mask»);

v. формат данных в файле с последовательностями (простой, fasta, EMBL или GenBank).

Программа выдает один файл с результатами поиска, содержащий таблицу со следующей информацией о найденных повторах:

i. название последовательности;

ii. начальная, конечная позиции и длина повтора;

iii. длина повторяющейся единицы;

iv. количество копий;

v. IUPAC консенсус;

vi. количество слов, удовлетворяющих консенсусу;

vii. вероятность мотива ("motif" probability);

viii. вероятность «маски» ("mask" probability);

ix. "motif" P-value;

x. "mask" P-value;

xi. статистическая значимость мотива ("motif" statistical significance);

xii. статистическая значимость «маски» ("mask" statistical significance);

xiii. сама последовательность повтора.

Подробное описание параметров:

Уровень значимости. Уровень значимости, D, оценивает количество допустимых замен между соседними единицами повтора. Только повторы, имеющие не более чем (P-D) замен между соседними единицами, где P это длина периода, будут найдены алгоритмом.

Минимальная и максимальная длина повторяющейся единицы.

Минимальная и максимальная длина повторяющейся единицы это определяемые пользователем параметры, которые могут варьироваться от 3п.н. до половины длины последовательности. Значения по умолчанию: для минимальной длины повторяющейся единицы, 100 для максимальной длины.

Тип экспоненты. Экспонента это другое название для количества копий мотива. Она может быть задана либо как целое число, тогда программа будет находить повторы с целым числом копий, т.е. все повторяющиеся единицы будут иметь одинаковую длину, либо как дробное число, тогда длина последней единицы повтора может быть короче длины основной повторяющейся единицы. Например, экспонента целая у повтора ATC|ACG|AGC и дробная у ATC|ACG|AGC|ACC|A.

Модель оценки статистической значимости повтора (т.е. модель «motif» или «mask»). Для оценки статистической значимости повтора пользователь может выбрать либо модель «mask», либо «motif». Мотив (motif) означает множество слов, подходящих под IUPAC консенсус, построенный для повтора. Статистическая значимость повтора в модели «motif» основана на подсчете вероятности найти в случайном тексте длины N мотив, повторенный не менее k раз (где k экспонента повтора), при условии, что мотив уже был найден хотя бы раз. Это условие буквально отражает наш алгоритм поиска: «для каждого слова в последовательности мы смотрим, не повторилось ли оно где-то в тексте k раз с возможными ошибками. Во второй модели, «mask», оценка значимости основана на учете структуры повтора, консервативности позиций. Для нее важны не конкретные буквы, из которых состоит повтор, а скорее насколько часто одна и та же буква встречается в конкретной позиции.

Формат данных в файле с последовательностями.

Последовательность может быть записана в файле просто как набор нуклеотидов, без дополнительной информации – простой формат, либо каждая последовательность начинается со знака ‘’, за которым следует ее имя, либо последовательность задается в формате баз данных EMBL или GenBank.

Также нужно сказать, что на сайте, посвященном программе TandemSWAN можно посчитать значимость тандемных повторов, найденных другими поисковыми программами, такими как MREPS [89] and TRF [81]. Но, т.к. при подсчете статистической значимости не учитываются делеции и вставки, то для повторов, найденных TRF, содержащих делеции или вставки, результату нельзя однозначно доверять.

Глава III. Создание базы данных тандемных повторов в различных эукариотических организмах. Анализ распределений повторов и выделение характерных особенностей повторов для хромосом.

Целью нашего дальнейшего исследовании было получить распределения микро- и минисателлитов с различными характеристиками в человеческом и других эукариотических геномах и выявить характерные особенности их распределения.

Для работы с человеческим геномом мы использовали 17ю версию генома человека, предоставляемую базой The Human Genome Browser at UCSC [93]. В качестве инструмента для нахождения тандемных повторов в нуклеотидной последовательности мы использовали программу TandemSWAN, подробно описанную в главах I и II, основной особенностью которой является оценка статистической значимости найденных структур.

Тем самым была решена проблема выделения правильного периода и была возможность отфильтровать незначимые/случайные повторы. В программе TandemSWAN использовались следующие значения параметров: длина повторяющего слова от 3 п.н. до 200 п.н., модель mask, уровень значимости повторов равный трем.

Была создана база данных тандемных повторов, найденных с такими параметрами в геноме человека. В ней, помимо самих периодических последовательностей, лежит информация о хромосоме, в которой был найден повтор, о начальной и конечной позициях, длине повтора, длине периода, количестве копий, количестве слов, подходящих под консенсус, а также сам консенсус, Ps-value и Pf-value. Полная база повторов доступна по адресу /www.bionform.genetika.ru/.

Множество тандемных повторов, лежащих в базе данных, покрывает около 30% процентов человеческого генома. Мы не рассматривали так называемые одно- и динуклеотидные повторы, считая, что это объекты другой природы, к тому же хорошо исследованные в последнее время.

Полученная цифра в 30% хорошо согласуется с пятидесятью процентами, человеческого генома покрываемыми сателлитами и участками низкой сложности согласно [74].

При поиске регулярных структур, в нашем случае тандемных повторов, в тексте большой длины важно иметь в виду возможность случайной встречи этих структур. Так, например, если трехкратный повтор слова длины три будет значимым в тексте длины пятнадцать, то в геномном тексте длины 100000 п.н. его уже можно считать случайным. Таким образом, нам было необходимо провести дополнительную фильтрацию по значимости повторов. На рисунке 2 показано распределение суммарных длин повторов для каждого периода в зависимости от порога значимости, используемого при фильтрации. Порог при фильтрации выбирался на вероятность PrS, определение которой дано в главе I.

Из рисунка 2 видно, что плотность распределения найденных повторов сдвинуто в сторону коротких периодов (до 25 п.н.). Но по мере фильтрации повторов по значимости, короткие или сильно вырожденные повторы отсеиваются, и остаются длинные повторы, в основном с большой длиной повторяющейся единицы, либо повторы коротких мотивов, но с большим количеством копий.

Для дальнейшего исследования мы выбрали порог 10-15 на вероятность PrS. Порог фильтрации был выбран так, чтобы вероятность наблюдения данной периодической структуры на произвольной позиции была бы не больше 10-15. В дальнейшем, в нашей работе будут фигурировать только такие статистически значимые тандемные повторы.

Используя полученную базу данных повторов в человеческом геноме мы сравнили разметку для минисателлитов в аннотации генома [74], с разметкой, полученной при помощи программы TandemSWAN. Оказалось, что значительная часть минисателлитов с периодами от 25 до 70 п.н. не была ранее определена как повторы. Таким образом, одним из результатов нашей работы явилось создание более полной карты минисателлитов в человеческом геноме. На рисунке 3 для каждого значения длины периода показано суммарное покрытие соответствующими повторами 22-ой хромосомы человека: серым – повторы, найденными программой TandemSWAN, черным – те из них, что были замаскированы программами TRF или RepeatMasker в 17-ой версии генома человека [93]. Точная доля повторов с длиной периода от 25 до 70 п.н., найденных на 22-ой хромосоме и замаскированных ранее TRF или RepeatMasker, равняется 57 процентам.

Оставшиеся 43 процента повторов можно считать найденными впервые.

Примеры найденных, но не замаскированных TRF или RepeatMasker повторов приведены в таблице 1.

Глядя на рисунки 2 и 3 можно заметить, что на 22-ой хромосоме человеческого генома сильно перепредставлены повторы с длиной повторяющегося мотива 48 и 67-68 п.н. Что касается других хромосом (рисунок 4), то во всех них есть пики, соответствующие обилию повторов с периодом 67-68 п.н., в некоторых (например, в хромосомах 22 и Х) наблюдается пик на длине периода 48 п.н. Например, на хромосоме 19 мы видим сильно перепредставленные повторы с длиной периода 84 п.н., а на хромосоме Y обилие повторов с длиной периода 125. Выделив эти повторяющиеся структуры, мы посмотрели насколько они диспергированны (т.е. разбросаны по длине хромосомы) и какие функции приписаны этим повторам в современных аннотациях генома. Оказалось, что повторы с периодом 67 маскируются программой RepeatMasker как Alu повторы [99, 100].

Повторы же с длиной периода 84 п.н., перепредставленные в 19-ой хромосоме человека, распределены по всей ее длине (рисунок 5) и образуют 7 явных скоплений вдоль хромосомы 19. В процессе выделения консенсуса множество повторов разбилось на три кластера по степени схожести мотива. На рисунке они представлены синим, красным и зеленым цветами.

Видно, что повторы, принадлежащие к третьему кластеру, имеют тенденцию располагаться на 3’-конце хромосомы 19.

Из всего множества повторов с длиной периода 84 п.н. 82% не были замаскированы как повторы программами TRF/RepeatMasker. Оказалось, это в основном повторы с количеством повторений мотива больше 3.5.

Остальные же, короткие повторы, были классифицированы программой RepeatMasker как входящие в состав длинных диспергированных повторов (LINE) [100], сателлитных последовательностей и др. Применив программу BLAST [82], мы обнаружили, что данные высококопийные элементы, немаскируемые RepeatMasker выравниваются с белок-кодирующими последовательностями для белков, имеющего структуру цинкового пальца [101, 102]. К примеру, позиции 11859670-11886130 соответствуют белку zinc finger protein 69 (Cos5), 12497536-12552789 белку zinc finger protein и т.д. Сам по себе этот факт интересен, т.к известны случаи, когда гены расположены тандемно. Но в данном случае, в силу слишком высокой копийности повторов, было трудно предполагать, что это именно такой случай.

Что касается повторов с длиной периода 48 на хромосоме 22, то здесь, наоборот, повторы явно сосредоточены на участке 14886890-14999883 на 3’-конце центромеры (рис.6) и представляют собой повторы из семейства сателлитов CER, согласно аннотации [93]. Большинство (72%) повторов с длиной периода 48п.н. на хромосоме 22 были замаскированы как сателлитные последовательности программами TRF/RepeatMasker в 17й версии UCSD генома человека.

С целью выявления семейств минисателлитов в геномах эукариот, был разработан метод, берущий за основу предположение, что повторы из интересующих нас семейств минисателлитов не распределены случайно вдоль хромосом, а образуют своего рода кластеры. Нами было написано простое приложение, которое для каждого значения длины периода P из рассматриваемого диапазона (3-200 п.н.) считает значение статистики Колмогорова-Смирнова [103].

Dn,m = sup Fn ( x) Gm ( x), x n m ( x) = 1 I ( x) = I{Y x}, а выборка X = { X i }1in где Fn { X x}, Gm n i =1 i m i =1 i состоит из начальных позиций повторов с длиной периода P, выборка Y = {Yi }1i m состоит из начальных позиций повторов с всевозможными длинами периода из рассматриваемого диапазона (3-200 п.н.).

Н. В. Смирнов в 1939 году доказал, что если выполнены следующие условия:

i. Функция F(x) неизвестна, но принадлежит множеству всех непрерывных функций распределения, ii. Все компоненты вектора (X1, …, Xn, Y1,…,Ym) независимы и имеют общую функцию распределения F(x), то при неограниченном увеличении размеров выборок n и m ( ) nm /(n + m) Dn,m x K ( x), P где K(x) – функция распределения Колмогорова. Доказательство при условии, что размеры m, n так, что n /(n + m) (0,1), можно найти в [104].

nm /( n + m) Dn, m противоречит гипотезе Слишком большое значение об однородности X и Y. Т.е. нам как раз и нужны такие длины периодов, для которых значение этой статистики значимо превышает -квантиль ( можно положить равным 10%).

С точки зрения точной науки применение данного критерия к данной задаче спорно, т.к. не выполнены условия (i) и (ii). Первое в силу того, что функция F(x) не непрерывна, ибо значение начальной позиции может быть только целым числом. Но в силу того, что длина хромосомы человека составляет обычно несколько миллионов, если фактом можно почти что пренебречь. Второе условие тоже очевидно не выполняется: во-первых, в выборку Y выборка X входит как подвыборка. Но это тоже не должно сильно влиять на результат, ибо размер выборки Y более чем, в сотню раз превышает размер выборки X. Во-вторых, мы используем предположение, что повторы не могут сильно пересекаться (в случае пересекающихся повторов мы выбираем лучший период и рамку на основе статистической значимости). Это еще одна причина, по которой начальные позиции найденных повторов нельзя считать независимыми. Но опять таки, в силу большой длины хромосомы эти соображения не могут сильно испортить статистику.

Тем не менее, в виду выше сказанного нельзя полностью полагаться только на значение статистики. Поэтому нами был проведен дополнительный анализ повторов с выделенными длинами периодов, для которых тест показал максимальное отклонение от общего распределения.

В результате для каждой из хромосом человеческого генома были обнаружены семейства минисателлитов с неслучайным распределением вдоль хромосом. В Таблице 2 проведены значения соответствующих длин периодов для каждой из хромосом. Из таблицы видно, что почти для всех хромосом характерно наличие неоднородно распределенных семейств повторов для длин периодов 170-172 п.н. и 67-68 п.н. Про последние, как уже было сказано, известно, что они являются Alu-элементами. Повторы с периодом 170-172 п.н. маскируются программой RepeatMasker как сателлитные последовательности и относятся к классу -сателлитов [105, 106]. Они характерны для центромерных областей всех нормальных хромосом генома человека. В таблице 2 исключение составляет хромосома 22 в силу того, что ДНК ее прицентромерной области не вошла в последнюю версию генома человека [93]. Также, -сателлиты можно найти в других геномах человекоподобных обезьян [107], при этом сходство последовательностей внутри генома будет всегда выше, чем между геномами разных видов. Известно, что существует два типа -сателлитных семейств в человеческом геноме, длина мономера у обоих семейств примерно 171 нуклеотид, но для одного семейства характерны длинные гомогенные повторы, тогда как для второго последовательность мономера сильнее вырождена и отсутствует четкая периодическая структура [108, 109]. С помощью программы TandemSWAN нам удается картировать повторы, принадлежащие первому семейству.

Помимо выше перечисленных семейств почти для каждой хромосомы характерны семейства повторов со своим особенным периодом. На рисунке 7 представлен пример распределения неоднородных семейств минисателлитов для хромосомы Y человеческого генома. Как видно из рисунка 7 и таблицы 2 множество выделенных периодов для хромосомы Y включает в себя период 125, для которого наблюдался пик в доле покрытия хромосомы на рисунке 4. Повторы в этом участке классифицируются программой RepeatMasker [74] как длинные концевые повторы (LTR) [110, 111] класса ERV-1. В этой же области лежат и повторы, с длиной повторяющейся единицы равной 124п.н. (Рис. 7f, 7g). Также, как видно из таблицы 2 и рисунка 7a, для хромосомы Y на 5’-конце характерно наличие повторов с длиной периода 26п.н. В аннотации генома [93] большинство из них фигурируют как простые повторы (simple repeats). Однако, нами были обнаружены и новые члены этого семейства, не классифицированные в последней аннотации генома как повторы. Примером может служить повтор, найденный на позициях 2342928-2343044 хромосомы Y, выравнивание для которого дано ниже.

AATGACCAATCCCACTAGACCTCATC ATGACCTAACCAAACTGGACTTCATC ATAACCTAACCCAACTAGACCTCATC ATGACATGAGACAACTAGATCTCATC ACGACCTACCCAA.

Для повторов с периодом 38п.н. и кратным 76п.н. явно видны пять кластеров. Первый примерно с 7803156 по 8398559 слева от центромеры, далее справа от центромеры 21559000-21717990, 23066054-24202682, 25000002-25200923, 25552739-25764174. Большинство повторов определены в аннотации человеческого генома как бета-сателлиты (BSR) [112]. Эти же участки содержат повторы с длиной периода 71п.н. (рис. 7d).

Примечательно, что длина периода в этом случае не кратна 38.

Интересно также заметить, что для других выделенных периодов в хромосоме Y (165 п.н., 177 п.н., 183 п.н., 200 п.н.) мы наблюдаем скопления повторов с данными длинами периодов в субтеломерной зоне 5’-конца хромосомы. Что касается скопления повторов с длиной периода 200п.н. на участке 12309207-12383373 (рис.7l), то в действительности эти повторы являются производными от мотива (GAATG)n, характерного для хромосом генома человека [113].

В данной работе в силу ограниченного объема мы не будем детально рассматривать все найденные семейства минисателлитов во всех хромосомах генома человека. Кроме хромосомы Y коснемся еще минисателлитных семейств на хромосоме 19. На рисунке 8 представлено распределение минисателлитных последовательностей некоторых выделенных периодов для хромосомы 19.

Выше уже было описано распределение семейства повторов с длиной периода 84 п.н. (рис.5), консенсус для которых выравнивался с кодирующей последовательностью для белков, имеющих структуру цинкового пальца.

Помимо этого семейства, в прицентромерных областях мы наблюдаем скопления повторов с длинами периода 35 п.н., 70 п.н., 170 п.н., 171 п.н., 172 п.н. Последние три относятся к -сателлитным последовательностям [106] и находятся и справа, и слева от центромеры. Повторы с длиной периода, кратной 35п.н. относятся к семейству HSAT4 прицентромерных сателлитов и их кластер наблюдается на участке 32817371- 33049368, в 3’ прицентромерной области.

Что интересно кластер повторов с длиной периода 38 п.н. и 76 п.н. на участке 20841323-20889356 хромосомы 19 не вошел в аннотацию [93] как участок, содержащий повторы. Более того, это область богатая однонуклеотидными полиморфизмами (SNPs) [100] и относительно высоко консервативная (рис.9). В 5’-прицентромерной области (20889356– 24164329) тоже присутствует скопление повторов с длиной периода 38 п.н.

и 76 п.н., а также 71 п.н. Большинство из них классифицированы как бэта сателлитные последовательности (BSR) [112]. Скопление повторов с длиной периода 76 п.н. в районе позиций 46658404-46723278 соответствуют семейству SATR1. Показано, что гиперметилирование таких сателлитных последовательностей, например, в хромосоме 5 генома человека, может приводить к возникновению рака груди [114].

Использовать информацию о различных превалирующих периодичностях в различных хромосомах можно для определения принадлежности произвольного, достаточно длинного участка ДНК к соответствующей хромосоме по наличию или отсутствию характерных сателлитов. На рисунках 10а и 10b представлены распределения количества копий 84 п.н.-повторов для хромосом 19 и 22 соответственно. Ясно видны различия между последовательностями.

Следующим шагом был поиск и анализ распределения минисателлитов в геномах других видов эукариот. Мы взяли геномы представленные в базе данных Ensembl [115]: Caenorhabditis elegans, Drosophila melanogaster, Tetraodon nigroviridis, Danio rerio, Gallus gallus, Rattus norvegicus и Mus musculus. В этих геномах были определены повторы со следующими параметрами: минимальная длина периода – 3 п.н., максимальная – 200 п.н., минимальное количество копий – три, модель – mask, уровень значимости повторов равный трем. Далее были выделены повторы с высокой статистической значимостью, а именно с PrS10-15.

В результате подсчета суммарной доли покрытия периодическими структурами рассматриваемых геномов выяснилось, что не наблюдается никакой видимой корреляции между длиной генома и долей его покрытия повторами (рис. 11).

Однако, относительное отличие между долей покрытия различных хромосом одного генома повторами тем больше, чем короче геном. Для примера можно сравнить распределения доли покрытия для повторов с разными длинами периодов в геномах человека (рис. 4) и C. elegans (рис.

13). Если кривые распределений в геноме человека практически совпадают (исключение составляют хромосомы 19 и Y), то для C. elegans отличие распределений для различных хромосом хорошо заметно. Надо сказать, что это наблюдение полностью согласуется с интуицией, т.к. чем короче геном, тем выше ожидается отклонение для средней доли покрытия повторами с данной длиной периода для конкретной хромосомы.

Несмотря на вышеприведенное замечание, в дальнейшем, на сравнительном графике распределений периодичностей в различных организмах (рисунок 12) мы будем приводить данные только для одной хромосомы для каждого из рассматриваемых организмов. Отдельно приведены данные для хромосом отдельных организмов (рисунки 13-16).

Поскольку мы смотрели покрытие тандемными повторами целых хромосом без дифференцировки на кодирующие и некодирующие области, то, возможно, наличие пиков на кратных трем периодах в организмах с высокой плотностью экзонов (например, C.elegans) связано с периодичностями в кодирующих областях, вызванных триплетной структурой и периодичностями в последовательностях аминокислот. Но, т.к. в большинстве рассматриваемых геномов процент экзонов не превышал 10%, то было решено анализировать распределение повторов в хромосомах без предварительной фильтрации кодирующих участков.

В геноме C. elegans процент генов составляет около 30% всей геномной ДНК [93]. Сравнение распределений покрытия тандемными повторами различной длины периода всей хромосомы I генома C. elegans и покрытия только участков хромосомы I, не содержащих гены, показано на рисунке 17. Как видно из рисунка, кривые распределений повторов для длины периода свыше 45 п.н. и не кратной трем, практически совпадают.

Это означает, что повторы с такими параметрами были найдены в основном в некодирующих участках. Тогда как для периодов 48 п.н., 51 п.н., 54 п.н., 57 п.н., 60 п.н., 63 п.н. наблюдаются пики в распределении повторов во всей хромосоме, отсутствующие в распределении в некодирующих участках.

Что означает, что повторы с такими периодами часто расположены внутри генов. Также на участки, содержащие гены, приходится некоторая часть повторов с периодами от 30 п.н. до 46 п.н., опять же большинство повторов в генах имеют длину периода, кратную трем.

При сравнении распределения периодичностей в различных организмах (рисунок 12) оказалось, что кривые распределения повторов могут значительно различаться даже у достаточно близких видов. Так, покрытие тандемными повторами различной длины периода геномов Tetraodon nigroviridis и Danio rerio разительно отличается. Или, что более удивительно, тандемные повторы с длиной периода до 50 п.н. в геноме Rattus norvegicus встречаются, чуть ли не в два раза реже, чем в геноме Mus musculus.

Что касается особенностей распределения повторов в хромосомах отдельных видов, то, например, замечено, что в распределение в половых хромосомах эукариот значительно отличается от распределения в аутосомах (рис. 4, 12, 15, 16). Так, например, в хромосомах Y обычно перепредствлены по сравнению с другими хромосомами сателлитные последовательности с определенными длинами периода. В X хромосомах частота покрытия повторами обычно в среднем чуть выше почти для всех длин периодов. Исключение составляет, например, геном C. elegans, для которого наоборот плотность покрытия повторами Х-хромосомы значимо ниже плотности покрытия аутосом (рис. 13). Однако, как видно из рисунков 4 и 13-16, распределения для различных аутосом одного генома, в достаточной мере совпадают.

Рассмотрим более подробно минисателлитные повторы в геномах видов C. elegans и M. musculus.

Проанализировав распределение повторов в геноме C. elegans сходным образом с распределением повторов в геноме человека, мы заметили, что повторы с определенными длинами периодов локализованы в первой и третьей третях хромосом (рис. 18). Отметим, что это касается не всех рассматриваемых длин периодов, а лишь некоторой их значительной части.

В геноме C. elegans мы наблюдаем факт скопления повторов с длинами периодов, кратными 6 и 7, в кластеры вдоль хромосом.

В аутосомах генома M. musculus и Y-хромосоме тандемные повторы для большинства длин периодов распределены довольно равномерно вдоль хромосом. Но что интересно, в хромосоме 13 мы наблюдаем выраженные кластеры повторов с длиной периода, кратной 84 п.н. на участках 21376198 21376784, 61639704-62784553, 65263763-68325377 и 74837656- (рисунок 19). Эти повторы гомологичны ДНК-последовательностям, кодирующим протеины, имеющие структуру цинкового пальца. Здесь наблюдается та же ситуация, что и в хромосоме 19 генома человека. Что касается X-хромосомы M. musculus, то в ней можно отметить два крупных участка ДНК богатых периодическими структурами, первый (позиции 23267741-32139929) – повторами с длиной периода 37 п.н., 74 п.н., 111, п.н., 118 п.н., 198 п.н., второй (позиции 119146137-121570057) – повторами с длиной периода 90 п.н., 120 п.н., 150 п.н., 180 п.н., 191 п.н., а также кластер повторов с длинами периода 54 п.н. и 161 п.н. (позиции 8499607- 8805844), и отдельные кластеры повторов с длинами периода 59 п.н., 31 п.н., 24 п.н.

Существующая аннотация [74] [REF] предполагает в этих местах наличие длинных диспергированных повторов (LINE), повторов семейства RMER1C, сателлитных последовательностей, но так же, как и для генома человека, некоторые последовательности не аннотированны как имеющие периодическую структуру.

Как мы видим из анализа минисателлитных семейств в геномах C.

elegans, M. musculus и H. sapiens, в каждом геноме имеются семейства периодических структур, локализованные на одном участке одной хромосомы, образующие скопления в нескольких участках одной или нескольких хромосом, диспергированные относительно равномерно по всей длине генома. Информацию о таких семействах можно использовать, например, для выявления принадлежности участка ДНК к некому участку определенного генома.

Глава IV. Анализ распределений повторов с короткой длиной периода и выделение характерных особенностей повторов в различных функциональных участках ДНК на примере D. melanogaster. Гипотеза частичного происхождения минисателлитных последовательностей от микросателлитных.

Если до настоящего момента речь шла только о периодических последовательностях с большой длиной повторяющейся единицы (длина периода от 10 п.н.), то в этом разделе проводится анализ распределения микросателлитов и коротких минисателлитов (с длиной периода до 23 п.н.) в эукариотических геномах, в частности, в хромосомах человека. Как видно из рисунка 20, в хромосомах генома человека большая часть найденных повторов с длиной повторяющейся единицы меньше 23 п.н. имеет период, кратный 4. Мы предполагаем, что причина такого распределения длин периодов объясняется происхождением этих минисателлитных повторов от микросателлитных повторов. Предполагается следующий процесс возникновения данных минисателлитных последовательностей:

микросателлит удлиняется путем, например, проскальзывания репликативного комплекса (replication slippage). В результате формируется микросателлитный повтор с большим количеством копий. В последовательности этого повтора происходят точечные замены, инсерции или делеции нуклеотидов, в результате которых микросателлит теряет способность к самоудлиннению путем проскальзывания репликативного комплекса. В дальнейшем происходит размножение (удлинение) повтора или его части уже как минисателлита по минисателлитному механизму. В итоге возникает минисателлит, для которого можно выявить меньший подпериод с более вырожденным повторяющимся мотивом, и сам повтор, таким образом, имеет фрактальную структуру.

Для проверки этого предположения мы произвели дополнительный поиск меньших подпериодов в уже найденных программой тандемных повторах. Оказалось, что в большинстве своем найденные минисателлиты с длиной периода до 23 п.н. можно рассматривать как производные от микросателлитов. Примеры, таких повторов представлены в таблице 3. В значительной части найденных повторов с длиной периода, кратной четырем, можно выделить повторяющийся мотив длиной четыре. Это видно из рисунка 21. На графике показан процент покрытия тандемными повторами 1-й и 22-й хромосом человека, где длиной периода повтора считалась длина наименьшего подпериода.

Интересно также, что в человеческом геноме слова, наиболее часто образующие тандемные повторы, составляют довольно ограниченное множество (таблица 4). Как видно из таблицы, для разных хромосом повторяющиеся мотивы могут различаться. Резкие пики для частот повторов с периодами, кратными четырем, в человеческом геноме связаны с наличием слов-лидеров длины 4 (AAAT, AAAG, TAGA, AAGG, CCAT).

От микросателлитов с такими мотивами возможно произошли семейства минисателлитов. Этот результат согласуется с наблюдениями авторов [8] о частоте слов, составляющих микросателлиты с длиной периода 1-6 п.н.

Интересно добавить, что в нашем предыдущем исследовании генома (в частности, межгенных областей) D. melanogaster [98] были получены пики на периодах, кратных шести. Словами-лидерами у D. melanogaster являются GCA, AGATAC, ATT, CCA и другие.

В заключении можно добавить, что, по-видимому, разница в типах минисателлитов, присутствующих в геномах различных видов, может объясняться эволюционно, благодаря предшествующей экспансии различных типов микросателлитов, в частности с различной длиной порождающего ДНК-слова.

Распределение микро- и минисателлитов в различных функциональных последовательностях.

Для изучения повторов в последовательностях с различными функциональными характеристиками была выбрана экспериментально проаннотированная система локусов генов раннего развития D.

melanogaster, система локусов D. pseudoobsura, проаннотированная по гомологии, а также была использована аннотация проекта FlyBase [116].

Мы исследовали, действительно ли повторы с определенными длинами периодов могут превалировать в определенных функциональных участках.

Для этого мы собрали базы данных последовательностей в том числе содержащие все экзоны D. melanogaster, 3’- и 5’-нетранслируемые области (UTRs), межгенные участки, межгенные гетерохроматиновые последовательности (из проекта Drosophila Heterochromatin Project http://www.dhgp.org/) и базу данных регуляторных последовательностей, состоящую из 124 энхансеров, регулируемых транскрипционными факторами (http://webdisk.berkeley.edu/~dap5/). Соответствующие базы данных последовательностей были созданы и для D. pseudoobsura. Для изучения распределения повторов в группе генов, обладающих определенной функцией, мы выделили соответствующие наборы последовательностей для выборки из 16и локусов генов раннего каскада развития D. melanogaster и D. pseudoobscura. Распределение тандемных повторов с длинами периода до 25 п.н. в данных наборах последовательностей представлено на рисунке 22.

Как мы и ожидали, наиболее сильное отличие от случайного распределения было замечено для последовательностей экзонов (рисунок 22а). Видно, что в кодирующих участках превалируют повторы с длиной периода, кратной трем. Тогда так периодичности с длиной периода, не кратной трем, наоборот недопредставлены (по сравнению частотой встреч в случайной последовательности). Также было обнаружено, что доля покрытия 3k-периодичностями кодирующих участков Х-хромосомы выше, чем доля покрытия кодирующих участков аутосом. Учитывая, что частота повторов во всей Х-хромосоме в среднем выше, чем в аутосомах, мы делаем вывод, что частота тандемных повторов даже в участках одинаковой функциональности также связана с физической картой, а именно с определенным местом в геноме.

Что было особенно интересно, это факт перепредстваленности повторов с длиной периода, кратной шести (в отличие от 3k периодичностей), в некодирующих участках. Похоже, что в геномах D.

melanogaster и D. pseudoobscura присутствуют 6/12-периодичности, несвязанные с триплетной структурой кодирующих областей. Такие повторы превалируют во всей рассматриваемых множествах, включая регуляторные участки, спейсеры (не промоторные, не регуляторные и не кодирующие участки внутри локусов), межгенные участки, нетранслируемые области и даже межгенный гетерохроматин (рисунки 22b, 22c и 22d). В то же время, в некодирующих участках перепредставлены повторы с некратной трем длиной периода. Во всех последовательностях, кроме кодирующих, частота таких повторов в 2-3 раза больше, чем в случайной последовательности, что поддерживает тезис о неслучайном происхождении тандемных повторов в ДНК и о неслучайности кода ДНК в целом.

Сравнение суммарной доли покрытия повторами различных множеств последовательностей показало, что межгенный гетерохроматин в среднем содержит меньше тандемных повторов с длиной периода до 25 п.н., что эухроматин (рисунок 22b).

В общем, сравнение частоты повторов в различных функциональных последовательностях показало, что тандемные повторы перепредствлены в геноме, и повторы с длиной периода, кратной 6, по некой причине превалируют в некодирующей ДНК.

Периодические структуры в регуляционных последовательностях (энхансерах) представляют особый интерес. Нам было интересно проверить, насколько распределение в энхансерах отличается от фонового распределения повторов в межгенных областях и спейсерах. Для этого мы отнормировали частоты покрытия энхансеров и спейсеров на частоты покрытия повторами межгенных областей, что в некотором смысле «удалило» фоновые 6k-повторы. Мы сосредоточили свое внимание на наборе из 124 экспериментально подтвержденных энхансерах D.

melanogaster (http://webdisk.berkeley.edu/~dap5/data_06/124_Dmel_Enc.fa).

Большинство этих последовательностей вовлечено в регуляцию транскрипции генов развития. Однако, эта группа не однородна ни функционально, ни по своей структуре. Энхансеры имеют различную длину (от 30 до 300 п.н.) и регулируют гены, транскрибируемые на разных стадиях развития D. melanogaster. Для достижение больше функциональной однородности мы разбили и дополнили это множество ( последовательности суммарной 181690 п.н.) энхансеров на два подмножества: энхансеров генов раннего (72 последовательности общей длины 117377 п.н.) и более позднего развития «dorsal и twist» ( последовательностей общей длины 114354 п.н.).

Множества регуляторных последовательностей для D. pseudoobscura были получены по гомологии с последовательностями D. melanogaster.

Анализ нормализованного распределения тандемных повторов во всех трех множествах энхансеров и спейсерах (рисунок 22e) показал, что множества, соответствующие генам раннего развития, богаты повторами с длиной периода 7 и 8 п.н. Значимой разницы в распределении повторов в регуляторных и спейсерных последовательностях замечено не было.

Однако надо сказать, что распределение повторов внутри локусов значимо отличается от распределения в не несущих никакой функции межгенных участках генома.

Сравнение последовательностей повторов в регуляторных областях с мотивами сайтов связывания соответствующих регулирующих факторов показало их несхожесть в общем случае. Хотя были найдены отдельные примеры [117], когда некоторые вырожденные тандемные повторы могут играть роль кассет, содержащих тандемы сайтов связывания. Однако также возможно, что присутствие специфических периодических последовательностей задает некую пространственную геометрию для ДНК энхансера, необходимую для корректной сборки комплекса регуляторных белков. Роль тандемных повторов в регуляторных областях также недавно обсуждалась в работе [17]. Авторы, используя данные по тандемным повторам, найденным в энхансерах D. melanogaster и D. pseudoobscura в результате использования программ TRF и MREPS, показали низкую консервативность повторов в гомологичных участках геномов двух мух.

Авторы заключают, что по всей видимости тандемные повторы несут ограниченную функцию, что подтверждается нашим наблюдением, что повторы в энхансерах имеют те же превалирующие длины периодов, что и в межгенных областях.

ЗАКЛЮЧЕНИЕ В результате диссертационного исследования были достигнуты следующие результаты:

1) Разработка алгоритма поиска сильно вырожденных тандемных повторов без делеций и вставок.

2) Получение формул для оценки статистической значимости сильно вырожденных тандемных повторов без делеций и вставок с учетом их самоперекрывающейся структуры.

3) Использование разработанного алгоритма для выявления новых объектов, обладающих выраженной регулярной структурой.

4) Выявление характерных паттернов распределения тандемных повторов в зависимости от длин периодов для хромосом различных геномов эукариот, включая геном человека.

5) Выделение семейств локальных и дисперсных микро- и минисателлитов, характерных для той или иной хромосомы, и их анализ с учетом существующих аннотаций.

6) Выявление различий в распределении тандемных повторов в различных функциональных областях геномов: регуляторных, кодирующих, спейсерных, межгенных областях, гетерохроматине, 5’ и 3’- нетранслируемых областях.

ТАБЛИЦЫ И ИЛЛЮСТРАЦИИ без фильтрации SSV 600000 SSV суммарное покрытие (п.н.) SSV 500000 SSV SSV SSV SSV SSV 300000 SSV SSV SSV SSV 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 длина периода Рисунок 2. Суммарное покрытие тандемными повторами с различной длиной периода хромосомы (49554710 п.н.) генома человека (17ая UCSC версия, [93]). Фильтрация на основе различной статистической значимости PrS (SSV = -log10 PrS).

Все повторы, найденные TandemSWAN (SSV 15, C = 3) Суммарное покрытие (п.н.) Из них, замаскированные TRF/RepeatMasker 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 Длина периода Рисунок 3. Покрытие 22-ой хромосомы генома человека тандемными повторами, найденными программами TandemSWAN и TRF/RepeatMasker.

Таблица 1. Примеры выравниваний повторов, найденных программой TandemSWAN на 22 хромосоме в 17-ой версии человеческого генома, незамаскированных TRF или RepeatMasker.


chr 22, 14564582-14564906, длина периода 66 chr 22, 43460819-43461054, длина периода TTTCAAGCTCCATGTTGTTACGAGCATCTGCTCTGAGCTCCATCTTACACCGAGCAACATCTGCTC CATATGGGGATGCTCCCACAGCACAGAGAGGTGCCC CAAGTTCCATCTTGCTTGGAGCTCCTTTTTGTTCAGAGCTCTATCTGCTCCAAGCTCAATCTTCTC ATCATATGGAGATGCTCCCACTGCACAGATACTCCC TGAGCTCCATCTTGCTTGGAGCTCTAATCATTCTGAGCTCCATCATGCTCTGAGCACCATCTGCTC ATTGCACAGATACTCCCACAGCACAGAGAGGTGCCC TGAGCAACATCTGCACCAAGCTCCATCTTGCTTAGATCTCCTTATTGCTCAGAGTTTCATCTGCTC ATCATATGGGGATGCTCCCACTGCACAGATACTCCC TGAGCACCATCTTGTTCAGAGCTCCATCTTGCTCAGAGTTCCAACTGCTCAGAGAACTGTT ATTGCACAGATACTCCCACCGCACAGAGAGGCACCC chr 22, 19678751-19678939, длина периода 63 ATGATATGGGGATGCTCCCACTGCACAGATGCTCCC GCAAAGTCCTGCACATGCTCCTTCAGAGTCTGGCGGGCATCTGCCTGTGCCCGCTTCTCCCGT ACGGCACAGAAAGGCACCCA chr 22, 17112843-17113046, длина периода GCCCGCTCCTGCTGCAGCTTGGTCAGTCTCAACCGCAGCCGCTGCTCCCGCCGCTTGCAGGCC TGCAGCTGGCGCTGGGCCTTGTCAAGGGCATCAAGGGCTGCCTCGGCTCGCCGCTTCCAGAGT CACGCTAACAAGGATGCTGTACACAAC chr 22, 23414686-23414980, длина периода 55 GTCGCTAATGAGGACAGTGTACAAGCC TTTCGGTTGTTGAGGGACTGGTGTGTACCCCTGGGGGCTCGGTATCCACTTGGAG ATCGCTAATGAGGACACTGTATATGAC GTTGGGTGTCCGTGTGGAACCTGATGTACCTGTGGACCTGGTTGCCCACATGGGT ATTGCTAACGAGGACACTGTACAAGGC CCTGGTGTCCACCTGGAGCCTGATGTTTCCCAGGGGCCTGGGTATCCACTGGGGT ATTGCTAACGAGGACGCTGTACACAAC CCCGATGTTCATCTAGGAGCTGGTGTTCACCTAGGCCCTGATAGTCACCTGGGGG ATCGCTAATGAGGACACCATATAAGAC CTGGGTATGTACCTGAGGCCTCATGTCCACCTGTGCTGTAGGTATCTATGCATGG ATCACCAATGAGGATGCTGTATATGAC GCTGTGTGCCAACCTGGTGC ATCGCTAATGACACC 1. chr1 chr 1.2 chr4 chr Процент Суммарного Покрытия (%) chr6 chr chr8 chr chr10 chr 1 chr12 chr chr14 chr chr16 chr chr19 chr 0.8 chr21 chr chrY chrX 0. 0. 0. 0 3 8 13 18 23 28 33 38 43 48 53 58 63 68 73 78 83 88 93 98 103 108 113 118 123 128 133 138 143 148 153 158 163 168 173 178 183 188 193 Длина периода Рисунок 4. Распределение тандемных повторов с высоким уровнем значимости (SSV 15) в хромосомах человеческого генома.

Рисунок 5. Распределение повторов с длиной периода 84 п.н. вдоль хромосомы 19 генома человека. По оси Х начальная позиция повтора, по оси Y количество копий. В процессе выделения консенсуса множество повторов разбилось на три кластера по степени схожести мотива. На рисунке они представлены синим, красным и зеленым цветами. 82% не были замаскированы как повторы программами TRF/RepeatMasker.

Рисунок 6. Распределение повторов с длиной периода 48 п.н. вдоль хромосомы 22 генома человека. По оси Х начальная позиция повтора, по оси Y количество копий. Большинство повторов (72%) были замаскированы как повторы программами TRF/RepeatMasker в 17й версии UCSD генома человека.

Таблица 2. Длины периодов, для которых повторы распределены неоднородно вдоль хромосом человеческого генома.

Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr Chr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 X Y 4 16 67 25 32 24 52 24 19 67 67 28 17 12 35 67 171 54 35 24 30 48 20 32 18 170 171 34 30 54 54 20 170 85 48 27 16 67 68 172 67 37 67 32 67 25 67 19 171 67 32 67 64 28 171 169 171 31 20 68 170 68 38 68 33 96 26 68 103 68 52 68 67 30 172 170 172 67 21 91 171 170 42 171 36 191 27 171 171 166 67 85 108 32 195 171 68 23 172 171 44 67 192 32 170 68 86 168 46 200 172 102 24 67 68 35 171 75 169 169 67 32 68 170 45 172 149 170 170 68 34 70 171 48 171 171 171 170 48 71 172 52 172 172 172 171 67 76 54 173 68 84 67 75 135 68 96 170 171 171 191 172 Рисунок 7. Распределения неоднородных семейств минисателлитов для хромосомы Y человеческого генома. Длина периода минисателлитов (а) 26п.н., (b) 38п.н., (с) 67п.н., (d) 71п.н., (e) 76п.н., (f) 124п.н., (g) 125 п.н., (h) 165п.н., (i) 171п.н., (j) 177п.н., (k) 183п.н., (l) 200п.н.

Рисунок 8. Распределения некоторых неоднородных семейств минисателлитов для хромосомы человеческого генома. Длина периода минисателлитов (а) 35п.н., (b) 38п.н., (с) 70п.н., (d) 76п.н., (e) 71п.н., (f) 170п.н., (g) 171 п.н., (h) 172п.н.

Рисунок 9. Участок 20841323-20889356 хромосомы 19 генома человека в Genome Browser UCSC [93].

Этот участок богат минисателлитными последовательностями с длиной периода 38п.н. и 76п.н., найденными при помощи программы TandemSWAN.

Рисунок 10. Различие в распределении 84п.н.-повторов в хромосомах 19 (рис.10а) и 22 (рис.10b) человеческого генома.

0. C. elegans доля суммарного покрытия 0. тандемными повторами D. melanogaster T. nigroviridis 0. G. gallus D. rerio 0. C. familiaris 0. M. musculus R. norvegicus 0. H. sapiens 0 5E+08 1E+09 1.5E+09 2E+09 2.5E+09 3E+09 3.5E+ длина генома (п.н.) Рисунок 11. Отсутствие видимой корреляции между длиной генома и долей его покрытия периодическими структурами.

0. chr13, H.sapiens chrX, H.sapiens 0. chr5, R.norvegicus chrX, R.norvegicus 0. Доля покрытия (%) chrY, M.musculus 0.5 chrX, M.musculus chr1, G.gallus 0.4 chrZ, G.gallus chr1, T.nigroviridis 0.3 chr1, D.rerio 0. 0. 3 10 17 24 31 38 45 52 59 66 73 80 87 94 101 108 115 122 129 136 143 150 157 164 171 178 185 192 Длина периода Рисунок 12. Сравнение покрытия тандемными повторами с различной длиной периода хромосом организмов Tetraodon nigroviridis, Danio rerio, Gallus gallus, Rattus norvegicus, Mus musculus и Homo sapiens.

0. Процент суммарного покрытия 0.8 Chr I Chr II 0. Chr III 0. Chr IV 0. Chr V 0.4 Chr X 0. 0. 0. 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 Длина периода Рисунок 13. Покрытие тандемными повторами с различной длиной периода хромосом C. elegans.

0. 0. Chr 2L Chr 2R 0. Процент покрытия (%) Chr 3L 0.5 Chr 3R Chr 0. Chr X 0. 0. 0. 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 Длина периода Рисунок 14. Покрытие тандемными повторами с различной длиной периода хромосом D. melanogaster.

Процент суммарного покрытия 0. chr 2 chr 3 chr 0. chr5 chr 6 chr 0.3 chr 8 chr 9 chr chr11 chr 12 chr 0.25 chr 14 chr 15 chr chr 17 chr 18 chr 0.2 chr20 chrX 0. 0. 0. 0 10 20 30 40 50 60 70 80 90 10 11 12 13 14 15 16 17 18 19 Длина периода Рисунок 15. Покрытие тандемными повторами с различной длиной периода хромосом R. norvegicus.

0. 0. Процент суммарного покрытия (%) chr 1 chr 2 chr chr 4 chr 5 chr 0.6 chr 8 chr 9 chr chr 11 chr 13 chr 0.5 chr 15 chr 16 chr chr 18 chr Y chr X 0. 0. 0. 0. 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 Длина периода Рисунок 16. Покрытие тандемными повторами с различной длиной периода хромосом M. musculus.

120000 C. elegans, chr I, без генов C. elegans, chr I 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 Рисунок 17. Покрытие тандемными повторами с различной длиной периода всей хромосомы I C. elegans и хромосомы I с замаскированными генами в аннотации генома. Длина всей хромосомы I 15080556 п.н., ее участков, не содержащих гены 10598834 п.н.

Рисунок 18. Локализация повторов с определенными длинами периодов в первой и третьей третях хромосом I (a) и II (b) генома C. elegans.

Рисунок 19. Кластеры повторов с длиной периода 84 п.н. и 168 п.н. в хромосоме 13 генома M. musculus.

0. 0. chr1, 245522847 bp chr8, 146274826 bp 0.05 chr19, 63811651 bp процент покрытия (%) chr22, 49554710 bp chrX, 154824264 bp 0. 0. 0. 0. 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Длина периода Рисунок 20. Процент покрытия тандемными повторами с различной длиной периода хромосом 1, 8, 19, 22 и X человеческого генома.

Таблица 3. Примеры минисателлитных повторов, найденных программой TandemSWAN, которые можно рассматривать как производные от микросателлитов.

(ccag)n on chr22 (tcatc)n on chr cat-ccaagccagccaag gccagccaagcc-agcca cc-agcc-atccagccaaccag tcatttcatctca tcagcc-agccagccaag gccagcc-agccaagcca ccaagcc-agccagccagcgag tcagttcatctca ccagccaagccagcc-ag cccagcc-agccaagcca cc-agccaagccagccagcgag tcatttcatctca ctagccaagccaccc-ag gcca (15419186-15419247) tcatctcatctca cca (15416689-15416743) tcatttcatctca (15422147-5422217) (gccac)n on chr22 tcact (20965525 gccatgccac 20965594) (ggat)n on chr1 gccatgccac tggatggatgtt ggatgaatggagggaa gccacgccac tgaatggatagg ggatggatggagggaa accatgccaa tggatagatagg ggatggatgggtgagt gccacgccac tggatggatgga agatagatgggtgggt accatagcac ttggtggaggg gggtg accatgccac (47404286-47404344) (25783856-25783924) (42815130-4281519) 0. 0. процент покрытия (%) 0. chr22, 49554710 bp 0.2 chr1, 245522847 bp 0. 0. 0. 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Длина наименьшего возмож ного подпериода Рисунок 21. Процент покрытия тандемными повторами с различной длиной наименьшего возможного подпериода 1-ой и 22-ой хромосомы H. sapiens.

Таблица 4. Наиболее часто встречающиеся слова в тандемных повторах с длиной периода до 23 п.н.

Видно, что большинство самых распространенных повторяющихся слов идентично для всех хромосом.

chr 1 chr 8 chr 19 chr 22 chr X слово кол-во повт. слово кол-во повт. слово кол-во повт. слово кол-во повт. слово кол-во повт.

AAAT 17525 AAAT 9917 GGA 7912 GGAT 3643 ATTT ATTT 17500 ATTT 8534 AAAT 7507 AAAT 3640 AAAT CCT 11540 TAGA 7897 ATTT 7075 CCA 3471 CTAT GGA 10293 TCTT 6835 CCT 6016 CCT 3220 TAGA TTC 10069 CTAT 6488 CCAT 4868 ATTT 3200 TCTT AAG 9724 GGA 6474 ATT 4674 CCAT 2537 TTC AAAG 9536 CCT 6469 CCA 4116 TGA 2096 AAAG TAGA 9238 AAG 5980 TTC 3867 ATT 1780 AAG AAT 8810 CCTT 5928 AAG 3729 AAAG 1729 GGA GGAA 8771 GGAA 5541 CCTT 3613 GGA 1678 ATT CTAT 8478 TTC 5411 AAT 3485 ATC 1582 AAT ATT 8237 ATT 5062 GGT 3449 AAT 1422 CCT TCTT 8235 AAAG 4869 GGAT 3429 TTC 1274 CCTT CCTT 7574 AAT 4242 AAAG 3369 TCTT 1224 GGAA CCAT 6807 CCAT 3306 CTAT 3261 TAGA 1219 AAAAT GGAT 5462 GGAT 3170 GGAA 2994 CTAT 1165 TTTTA TGA 5017 ATC 3130 TCTT 2622 AAG 1018 GGAT AAAAT 4809 TGA 2866 TGA 2376 TTTTA 952 TGA TTTTA 4353 TTTTA 2657 TAGA 2057 GGT 847 ATC GGT 3779 AAAAT 2567 AAAAT 1857 AAAAT 831 CCAT Рисунок 22. Доля покрытия тандемными повторами с различной длиной периода различных функциональных участков ДНК геномов D.

melanogaster и D. pseudoobscura. Для сравнения на всех графиках ‘––‘ показывает долю покрытия 1Мб случайной последовательности Бернулли с частотами букв, средними по геному.


(a) Экзоны D. melanogaster: ‘–*–‘, аутосомы;

‘––‘, X-хромосома;

(b) межгенные участки и гетерохроматин D. melanogaster: ‘–*–‘, межгенные участки в аутосомах;

‘––‘, межгенные участки в Х-хромосоме;

‘––‘, гетерохроматин.

(c) Нетранслируемые участки D. melanogaster: ‘–•–‘, 5’-UTRs в аутосомах;

‘––‘, 5’-UTRs в X-хромосоме;

‘––‘, 3’-UTRs в аутосомах;

‘–*–‘, 3’-UTRs в Х-хромосоме;

(d) Сравнение регуляторных и межгенных участков в аутосомах D. melanogaster: ‘–*–‘, энхансеры системы dorsal и twist ;

‘––‘, энхансера раннего развития D. melanogaster;

‘––‘, межгенные участки в аутосомах;

(e) Доля покрытия в регуляторных участках D. melanogaster, нормализованная на долю покрытия межгенных областей аутосом D. melanogaster: ‘––‘, энхансеры системы dorsal и twist, ‘–*–‘, энхансера из базы Д. Папаценко;

‘––‘, энхансеры начального каскада развития D. melanogaster;

‘–•–‘, спейсеры начального каскада развития D.

melanogaster;

(f) Межгенные и кодирующие участки в геноме D. pseudoobscura: ‘––‘, межгенные участки в аутосомах;

‘––‘, межгенные участки в X-хромосоме ;

‘–*–‘, экзоны в аутосомах;

‘––‘, экзоны в X-хромосоме;

(g) Кодирующие участки D. pseudoobscura и D. melanogaster: ‘––‘, аутосомы D. pseudoobscura;

‘–*–‘, аутосомы D. melanogaster;

(h) Межгенные участки D. pseudoobscura и D. melanogaster: ‘––‘, аутосомы D. pseudoobscura;

‘–*–‘, аутосомы D. melanogaster;

(i) регуляторные участки D. pseudoobscura и D. melanogaster: ‘––‘, D. pseudoobscura;

‘–*–‘, D. melanogaster.

ПРИЛОЖЕНИЯ Приложение 1. IUPAC (International Union of Pure and Applied Chemistry) консенсус для выравнивания последовательностей ДНК.

Символ Значение Происхождение Обозначения A A Adenine C C Cytosine G G Guanine T T Thymine R A или G puRines Y C или T pYrimidines W A или T Weak hydrogen bonding S G или C Strong hydrogen bonding M A или C aMino group at common position K G или T Keto group at common position H A, C или T not G B G, C или T not A V G, A, или C not T D G, A или T not C N G, A, C или T aNy БЛАГОДАРНОСТИ Я благодарю Всеволода Юрьевича Макеева и Андрея Александровича Миронова за руководство, помощь в работе и терпение, своих соавторов и коллег – Марину Фридман за поиск литературы по теме микро- и минисателлитов, Дмитрия Папаценко за новые идеи, Мирей Ренье за поддержку, сотрудничество и организацию работы в INRIA, а также всех коллег, способствующих созданию творческой атмосферы в научной среде, Дмитрия Малько, Елизавету Пермину, Ивана Кулаковского, Юлию Медведеву, Сергея Рахманова, Марко Каррераса, Александра Фаворова, Людмилу Данилову, Елену Ставровскую, Анну Герасимову, Ольгу Калинину, Екатерину Ермакову, Рамиля Нуртдинова, Дмитрия Равчеева, Алексея Неверова, Романа Сутормина, Галину Ковалеву, Алексея Казакова, Нику Опарину, Петра Власова, Александра Лифанова, Владимира Гаевича Туманяна и Михаила Сергеевича Гельфанда.

Отдельное спасибо Василию Раменскому и Наталье Георгиевне Есиповой за дружеское участие и поддержку в работе над диссертацией.

СПИСОК ЛИТЕРАТУРЫ 1. Subramanian, S., V.M. Madgula, G. Ranjan, R.K. Mishra, M.W. Pandit, C.S. Kumar, and L. Singh, Triplet repeats in human genome: distribution and their association with genes and other genomic regions.

Bioinformatics, 2003. 19(5): p. 549-552.

2. O'Dushlaine, C.T., R.J. Edwards, S.D. Park, and D.C. Shields, Tandem repeat copy- variation in protein-coding regions of human genes. Genome Biology, 2005. 6(8): p. R69.

3. Ellegren, H., Microsatellites: simple sequences with complex evolution.

Nature Genetics, 2004. 5: p. 5435-445.

4. Li, Y.C., A.B. Korol, T. Fahima, and E. Nevo, Microsatellites within genes: structure, function, and evolution. Mol Biol Evol., 2004. 21(6): p.

991-1007.

5. Li, Y.C., A.B. Korol, T. Fahima, A. Beiles, and E. Nevo, Microsatellites:

genomic distribution, putative functions and mutational mechanisms: a review. Mol Ecol., 2002. 11(12): p. 2453-2465.

6. Gorbunova, V., Seluanov, A., Mittelman, D., Wilson, J.H., Genome-wide demethylation destabilizes CTG·CAG trinucleotide repeats in mammalian cells. Human Molecular Genetics, 2004. 13(23): p. 2979-2989.

7. Dieringer, D. and C. Schlotterer, Two distinct modes of microsatellite mutation processes: evidence from the complete genomic sequences of nine species. Genome Res, 2003. 13(10): p. 2242-51.

8. Toth, G., Z. Gaspari, and J. Jurka, Microsatellites in different eukaryotic genomes: survey and analysis. Genome Res, 2000. 10(7): p. 967-81.

9. Katti, M.V., P.K. Ranjekar, and V.S. Gupta, Differential Distribution of Simple Sequence Repeats in Eukaryotic Genome Sequences. Mol. Biol.

Evol., 2001. 18(7): p. pp.1161–1167.

10. Ross, C.L., K.A. Dyer, T. Erez, S.J. Miller, J. Jaenike, and T.A. Markow, Rapid divergence of microsatellite abundance among species of Drosophila. Mol Biol Evol, 2003. 20(7): p. 1143-57.

11. Webster, M.T., N.G. Smith, and H. Ellegren, Microsatellite evolution inferred from human-chimpanzee genomic sequence alignments. Proc Natl Acad Sci U S A, 2002. 99(13): p. 8748-53.

12. Andres, A.M., M. Soldevila, O. Lao, V. Volpini, N. Saitou, H.T. Jacobs, I.

Hayasaka, F. Calafell, and J. Bertranpetit, Comparative genetics of functional trinucleotide tandem repeats in humans and apes. J Mol Evol, 2004. 59(3): p. 329-39.

13. Clark R.M., B.S.S., Miyahara M., Dalgliesh G.L., Bidichandani S.I., Expansion of GAA trinucleotide repeats in mammals. Genomics, 2006. 87:

p. 57-67.

14. Majewski, J. and J. Ott, Distribution and characterization of regulatory elements in the human genome. Genome Res, 2002. 12(12): p. 1827-36.

15. Han, K., G. Yeo, P. An, C.B. Burge, and P.J. Grabowski, Combinatorial Code for Splicing Silencing: UAGG and GGGG Motifs. PLOS Biology, 2005. 3(5): p. 0843-0860.

16. Li Y.-C., A.B.K., T. Fahima, E. Nevo, Microsatellites Within Genes:

Structure, Function, and Evolution. Molecular Biology and Evolution, 2004. 21(6): p. pp.991–1007.

17. Sinha, S. and E.D. Siggia, Sequence turnover and tandem repeats in cis regulatory modules in drosophila. Mol Biol Evol, 2005. 22(4): p. 874-85.

18. Spinelli, G., Heterochromatin and complexity: a theoretical approach.

Nonlinear Dynamics Psychol Life Sci, 2003. 7(4): p. 329-61.

19. Morgante M., H.M., Powell W., Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes. Nature genetics, 2002. 30: p. 194-200.

20. Xu, G., Goodrige, A.G., A CT repeat in the promoter of the chicken malic enzyme gene is essential for function at an alternative transcription start site. Arch. Biochem Biophys., 1998. 358(1): p. 83-91.

21. Lu Q, T.J., Granok H, Swede MJ, Xu J, Elgin SC., The capacity to form H DNA cannot substitute for GAGA factor binding to a (CT)n*(GA)n regulatory site. NAR, 2003. 31(10): p. 2483-94.

22. Raghu G., T.S., Anant S., Subramanian K.N., George D.L., Mirkin S.M., Transcriptional activity of the homopurine-homopyrimidine repeat of the c-Ki-ras promoter is independent of its H-forming potential. NAR, 1994.

22(16): p. 3271–3279.

23. Sun, D., K. Guo, J.J. Rusche, and L.H. Hurley, Facilitation of a structural transition in the polypurine/polypyrimidine tract within the proximal promoter region of the human VEGF gene by the presence of potassium and G-quadruplex-interactive agents. NAR, 2005. 33(18): p. 6070-6080.

24. Stallings R.L., F.A.F., Nelson D., Torney D.C., Hildebrand C.E., Moyzis R.K., Evolution and distribution of (GT)n repetitive sequences in mammalian genomes. Genomics, 1991. 10(3): p. 807-15.

25. In, K.H., K. Asano, D. Beier, J. Grobholz, P.W. Finn, E.K. Silverman, E.S.

Silverman, T. Collins, A.R. Fischer, T.P. Keith, K. Serino, S.W. Kim, G.T.

De Sanctis, C. Yandava, A. Pillari, P. Rubin, J. Kemp, E. Israel, W. Busse, D. Ledford, J.J. Murray, A. Segal, D. Tinkleman, and J.M. Drazen, Naturally occurring mutations in the human 5-lipoxygenase gene promoter that modify transcription factor binding and reporter gene transcription. J Clin Invest, 1997. 99(5): p. 1130-7.

26. Wilkins, R.C. and J.T. Lis, GAGA factor binding to DNA via a single trinucleotide sequence element. Nucleic Acids Res, 1998. 26(11): p. 2672 8.

27. Schwendemann, A. and M. Lehmann, Pipsqueak and GAGA factor act in concert as partners at homeotic and many other loci. Proc Natl Acad Sci U S A, 2002. 99(20): p. 12883-8.

28. Lehmann, M., Anything else but GAGA: a nonhistone protein complex reshapes chromatin structure. Trends Genet, 2004. 20(1): p. 15-22.

29. Meloni, R., V. Albanese, P. Ravassard, F. Treilhou, and J. Mallet, A tetranucleotide polymorphic microsatellite, located in the first intron of the tyrosine hydroxylase gene, acts as a transcription regulatory element in vitro. Hum Mol Genet, 1998. 7(3): p. 423-8.

30. Nakamura, Y., Koyama, K., Matsushima, M., VNTR (variable number of tandem repeat) sequences as transcriptional, translational, or functional regulators. J. Hum. Genet., 1998. 43: p. 149-152.

31. Gebhardt, F., K.S. Zanker, and B. Brandt, Modulation of epidermal growth factor receptor gene transcription by a polymorphic dinucleotide repeat in intron 1. J Biol Chem, 1999. 274(19): p. 13176-80.

32. Chamberlain N.L., D.E.D., Miesfeld R.L., The length and location of CAG trinucleotide repeats in the androgen receptor N-terminal domain affect transactivation function. NAR, 1994. 22(15): p. 3181-3186.

33. Okladnova, O., Y.V. Syagailo, M. Tranitz, G. Stober, P. Riederer, R.

Mossner, and K.-P. Lesch, A Promoter-Associated Polymorphic Repeat Modulates PAX-6 Expression in Human Brain. Biochem. and Biophys.

Res. Communications, 1998. 248: p. 402–405.

34. Vafiadis P., B.S.T., Tedd J.A., Nadeau J., Grabs R., Goodyer C.G., Wickramasinghe S., Colle E., Polychronakos C., Insulin expression in human thymus is modulated by INS VNTR alleles at the IDDM2 locus.

Nat.Genet., 1997. 15(3).

35. Streelman, J.T. and T.D. Kocher, Microsatellite variation associated with prolactin expression and growth of salt-challenged tilapia. Physiol Genomics, 2002. 9(1): p. 1-4.

36. Akai, J., A. Kimura, R. I. Hata., Transcriptional regulation of the human type I collagen alpha2 (COL1A2) gene by the combination of two dinucleotide repeats. Gene, 1999. 239: p. pp.65–73.

37. Ranum L.P., D.J.W., Dominantly inherited, non-coding microsatellite expansion disorders. Car Opin Genet Dev., 2002. 12(3).

38. Liquori C.L., R.K., Moseley M.L., Jacobsen J.F., Kress W., Naylor S.L., Day J.W., Ranum L.P.W., Myotonic Dystrophy Type 2 Caused by a CCTG Expansion in Intron 1 of ZNF9. Science, 2001. 293(5531): p. 864 - 867.

39. Saveliev, A., C. Everett, T. Sharpe, Z. Webster, and R. Festenstein, DNA triplet repeats mediate heterochromatin-protein-1-sensitive variegated gene silencing. Nature, 2003. 422(6934): p. 909-13.

40. Pearson, C.E. and R.R. Sinden, Alternative structures in duplex DNA formed within the trinucleotide repeats of the myotonic dystrophy and fragile X loci. Biochemistry, 1996. 35(15): p. 5041-53.

41. Sinden, R.R., V.N. Potaman, E.A. Oussatcheva, C.E. Pearson, Y.L.

Lyubchenko, and L.S. Shlyakhtenko, Triplet repeats DNA structures and human genetic diseass: dinamic mutations from dynamic DNA. J.Biosci (Suppl.1), 2002. 27: p. 53-65.

42. Catasti P., C.X., Mariappan S.V., Bradbury E.M., Gupta G., DNA repeats in the human genome. Genetica, 1999. 106(1-2): p. 15-36.

43. Pearson, C.E., A. Ewel, S. Acharya, R.A. Fishel, and R.R. Sinden, Human MSH2 binds to trinucleotide repeat DNA structures associated with neurodegenerative diseases. Human Molecular Genetics, 1997. 6(7): p.

1117-1123.

44. Aharoni, A., N. Baran, and H. Manor, Characterization of a multisubunit human protein which selectively binds single stranded d(GA)nand d(GT)nsequence repeats in DNA. NAR, 1993. 21(22).

45. Sharma, V.K., S.K. Brahmachari, and S. Ramachandran, 3(TG/CA)n repeats in human gene families: abundance and selective patterns of distribution according to function and gene length. BMC Genomics, 2005.

6(83).

46. Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CUG repeat binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids Res., 1999. 27(22): p. 4517-4525.

47. Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CUG repeat binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids Research, 2005. 27(22): p. 4517-4525.

48. Jackson, R.J., Alternative mechanisms of initiatiating translation of mammalian mRNAs. Biochemical Society transaction, 2005. 3(6): p. 1231 1241.

49. Yamada, M., S. Tsuji, and H. Takahashi, Involvement of lysosomes in the pathogenesis of CAG repeat diseases. Ann Neurol, 2002. 52(4): p. 498 503.

50. Galvao, R., L. Mendes-Soares, J. Camara, I. Jaco, and M. Carmo-Fonseca, Triplet repeats, RNA secondary structure and toxic gain-of-function models for pathogenesis. Brain Res Bull, 2001. 56(3-4): p. 191-201.

51. Duval, A., S. Rolland, E. Tubacher, H. Bui, G. Thomas, and R. Hamelin, The Human T-Cell Transcription Factor-4 Gene: Structure, Extensive Characterization of Alternative Splicings, and Mutational Analysis in Colorectal Cancer Cell Lines. Cancer Research, 2000. 60: p. 3872-3879.

52. Filippova, G.N., Thienes, C.P., Penn, B.H., Cho, D.H., Hu, Y.J., Moore, J.M., Klesert, T.R., Lobanenkov, V.V., Tapscott, S.J., CTCF-binding sites flank CTG/CAG repeats and form a methylation-sensitive insulator at the DM1 locus. Nat Genet, 2001. 28(4): p. 335-43.

53. Riley, D.E. and J.N. Krieger, Transcribed short tandem repeats occur in couples with strongly preferred registers. Biochem Biophys Res Commun, 2003. 305(2): p. 257-65.

54. Riley, D.E. and J.N. Krieger, Diverse eukaryotic transcripts suggest short tandem repeats have cellular functions. Biochem Biophys Res Commun, 2002. 298(4): p. 581-6.

55. Gomez, D., T. Lemarteleur, L. Lacroix, P. Mailliet, J.-L. Mergny, and J. F.A. Riou, Telomerase downregulation induced by the G-quadruplex ligand 12459 in A549 cells is mediated by hTERT RNA alternative splicing. Nucleic Acids Research, 2004. 32(1): p. 371-379.

56. Hefferon, T.W., J.D. Groman, C.E. Yurk, and G.R. Cutting, A variable dinucleotide repeat in the CFTR gene contributes to phenotype diversity by forming RNA secondary structures that alter splicing. Proc Natl Acad Sci U S A, 2004. 101(10): p. 3504-9.

57. Hui, J., G. Reither, and A. Bindereif, Novel functional role of CA repeats and hnRNP L in RNA stability. Rna, 2003. 9(8): p. 931-6.

58. Gabellini, N., A polymorphic GT repeat from the human cardiac Na+Ca2+ exchanger intron 2 activates splicing. Eur J Biochem, 2001.

268(4): p. 1076-83.

59. Shelley, C.S. and F.E. Baralle, Deletion analysis of a unique 3' splice site indicates that alternating guanine and thymine residues represent an efficient splicing signal. Nucleic Acids Res, 1987. 15(9): p. 3787-99.

60. Okamura, K., Y. Hagiwara-Takeuchi, T. Li, T.H. Vu, M. Hirai, M. Hattori, Y. Sakaki, A.R. Hoffman, and T. Ito, Comparative Genome Analysis of the Mouse Imprinted Gene Impact and Its Nonimprinted Human Homolog IMPACT: Toward the Structural Basis for Species-Specific Imprinting.

Genome Res, 2000. 10(12): p. 1878-1889.

61. Krontiris, T.G., B. Devlin, D.D. Karp, N.J. Robert, and N. Risch, An association between the risk of cancer and mutations in the HRAS minisatellite locus. N Engl J Med, 1993. 329(8): p. 517-23.

62. Kashi, Y. and D.G. King, Simple sequence repeats as advantageous mutators in evolution. Trends in Genetics, 2006. 22(5): p. 253-259.

63. Sawyer, L.A., J.M. Hennessy, A.A. Peixoto, E. Rosato, H. Parkinson, R.

Costa, and C.P. Kyriacou, Natural Variation in a Drosophila Clock Gene and Temperature Compensation. Science, 1997. 278(5346): p. 2117 2120.

64. Sawyer, L.A., F. Sandrelli, C. Pasetto, A.A. Peixoto, E. Rosato, R. Costa, and C.P. Kyriacou, The period Gene Thr-Gly Polymorphism in Australian and African Drosophila melanogaster Populations: Implications for Selection. Genetics, 2006. 174(1): p. 465–480.

65. Lim, M.M., Z. Wang, D.E. Olazabal, X. Ren, E.P. Terwillinger, and L.J.

Young, Enchanced partner prefrence in a promiscous species by manipulating the expression of a single gene. Nature, 2004. 429(17): p.

754-757.

66. Hammock, E.A.D. and L.J. Young, Microsatellite Instability Generates Diversity in Brain and Sociobehavioral Traits. Science, 2005. 308(5728):

p. 1630 - 1634.

67. Hammock, E.A.D. and L.J. Young, Functional Microsatellite Polymorphism Associated with Divergent Social Structure in Vole Species.

Mol. Biol. Evol., 2004. 21(6): p. 1057-1063.

68. Fondon, J.W. and H.R. Garner, Molecular origins of rapid and continuous morphological evolution. PNAS USA, 2004. 101(52): p. 18058-18063.

69. Kashi, Y. and D.G. King, Simple sequence repeats as advantageous mutators in evolution. Trends Genet, 2006. 22(5): p. 253-9.

70. Makeev, V.J., A.P. Lifanov, A.G. Nazina, and D.A. Papatsenko, Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res, 2003. 31(20): p. 6016-26.

71. Trifonov, E.N., 3-, 10.5-, 200- and 400-base periodicitiesin genome sequences. Physica A, 1998. 249: p. 511-516.

72. Ioshikhes, I., E.N. Trifonov, and M.Q. Zhang, Periodical distribution of transcription factor sites in promoter regions and connection with chromatin structure. PNAS USA, 1999. 96: p. 2891–2895.

73. Rice, P., I. Longden, and A. Bleasby, EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet, 2000. 16(6): p. 276-7.

74. Smit, A.F.A., R. Hubley, and P. Green, RepeatMasker Open-3.0, 1996 2004.

75. Landau, G.M., J.P. Schmidt, and D. Sokol, An algorithm for approximate tandem repeats. J Comput Biol, 2001. 8(1): p. 1-18.

76. Hamming, R.W., Error detecting and error correcting codes. Bell System Tech. J., 1950. 29: p. 147-160.

77. Levenshtein, V.I., Binary codes capable of correcting spurious insertions and deletions of ones. Russian Problemy Peredachi Irzfbrmatsii, 1965. 1:

p. 12-25.

78. Rivals, E., O. Delgrange, J.P. Delahaye, M. Dauchet, M.O. Delorme, A.

Henaut, and E. Ollivier, Detection of significant patterns by compression algorithms: the case of approximate tandem repeats in DNA sequences.

Comput Appl Biosci, 1997. 13(2): p. 131-6.

79. Benson, G. and M.S. Waterman, A method for fast database search for all k-nucleotide repeats. Nucleic Acids Res, 1994. 22(22): p. 4828-36.

80. Sagot, M.-F. and E.W. Myers. Identifying satellites in nucleic acid sequences. in The 2nd Annual International Conference on Computational Molecular Biology (RECOMB 98). 1998: ACM Press.

81. Benson, G., Tandem repeats finder: a program to analyze DNA sequences.

Nucleic Acids Res., 1999. 27: p. 573-578.

82. Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman, Basic local alignment search tool. J Mol Biol, 1990. 215(3): p. 403-10.

83. Makeev, V.J. and V.G. Tumanyan, Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci, 1996. 12(1): p. 49-54.



Pages:     | 1 || 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.