авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 |
-- [ Страница 1 ] --

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ИМ. М.В. ЛОМОНОВОСА

На правах рукописи

БОЕВА Валентина

Анатольевна

Идентификация и анализ тандемных повторов и близких

структурированных сигналов в ДНК

ДИССЕРТАЦИЯ НА СОИСКАНИЕ УЧЁНОЙ СТЕПЕНИ

КАНДИДАТА ФИЗИКО-МАТЕМАТИЧЕСКИХ НАУК

ПО СПЕЦИАЛЬНОСТИ 03.00.02 «БИОФИЗИКА»

Научные руководители:

Кандидат физико-математических наук

, В.Ю. Макеев Доктор биологических наук, А.А. Миронов Москва - 2006 СОДЕРЖАНИЕ ВВЕДЕНИЕ Стр. ОБЗОР ЛИТЕРАТУРЫ Микро-, минисателлиты и другие виды тандемных Стр. повторов. Механизмы возникновения и размножения в геноме. Их роль и особенности распределения.

Поиск тандемных повторов в последовательностях Стр. биополимеров. Обзор алгоритмов и приложений.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Глава I. Построение статистической модели для оценки Стр. статистической значимости наблюдаемых периодических структур. Формулировка статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах.

Глава II. Разработка алгоритма поиска периодических Стр. структур в последовательностях ДНК с использованием статистических инструментов. Реализация алгоритма и создание web-приложения. Разработка Интернет-сайта, посвященного программе.

Глава III. Создание базы данных тандемных повторов в Стр. различных эукариотических организмах. Анализ распределений повторов и выделение характерных особенностей повторов для хромосом.

Глава IV. Анализ распределений повторов с короткой Стр. длиной периода и выделение характерных особенностей повторов в различных функциональных участках ДНК на примере D. melanogaster. Гипотеза частичного происхождения минисателлитных последовательностей от микросателлитных.

ЗАКЛЮЧЕНИЕ стр. ТАБЛИЦЫ И ИЛЛЮСТРАЦИИ стр. ПРИЛОЖЕНИЯ стр. БЛАГОДАРНОСТИ стр. СПИСОК ЛИТЕРАТУРЫ стр. ВВЕДЕНИЕ Актуальность темы исследования. Основным механизмом геномной эволюции долгое время считались точечные мутации нуклеотидов в последовательностях ДНК. Однако в последнее время было показано, что одним из важных дополнительных механизмов изменчивости являются геномные перестройки, в частности тандемные дупликации и мультипликации.

Механизмы дупликаций коротких слов, приводящие к возникновению и размножению микросателлитов, отличны от механизмов дупликации более длинных участков генома, приводящих к возникновению минисателлитов.

Тем не менее, в обоих случаях могут возникнуть новые промоторные области, сайты альтернативного сплайсинга и т.д.

После возникновения сателлитной последовательности в результате действия одного из вышеописанных механизмов возможно изменение последовательности в результате точечных мутаций, что может привести к почти полному «исчезновению» сателлита. По-видимому, именно такие, деградировавшие сателлиты рекрутируются для различных биологических функций, включая регуляцию транскрипции и репликации, структурные модификации белков и т.д. Таким образом, требуется метод поиска сильно вырожденных, тандемно повторяющихся мотивов в последовательностях ДНК. Ввиду значительной вырожденности подобных повторов возможна неверная идентификация случайного участка генома как вырожденной сателлитной последовательности. Поэтому необходима оценка значимости найденных структур как неслучайных.

Вопрос разработки алгоритма для поиска тандемных повторов в ДНК стоит последние пятнадцать лет. В настоящий момент существует более десяти различных программ для поиска периодических структур в последовательностях ДНК. Но пока нельзя сказать, что существует единственно возможный исчерпывающий алгоритм поиска. Каждый алгоритм нацелен на определенную задачу и класс определяемых повторов;

степень их вырожденности, длина периода и другие параметры различны от программы к программе.

Объект, предмет и метод исследования. Объектом исследования являются периодические структуры в ДНК: микросателлиты (вырожденные и точные повторы с длиной повторяющейся единицы до 6 п.н.), минисателлиты (точные и средне вырожденные повторы с длиной повторяющейся единицы от 6 п.н. до 100 п.н.), сателлитные последовательности (точные и средне вырожденные тандемные повторы с длиной повторяющейся единицы от п.н. до 200 п.н.) и сильно вырожденные, «исчезающие» тандемные повторы с длиной периода до 200 п.н. Предметом исследования является разработка метода идентификации тандемных повторов в ДНК и анализа свойства распределения тандемных повторов в различных функциональных участках ДНК, а также в хромосомах различных эукариотических геномов. Основные применяемые в диссертационном исследовании методы – автокорреляционный анализ для поиска кандидатных тандемных повторов, метод производящих функций и элементарных языков, а также средств комбинаторного анализа для получения формул для оценки статистической значимости найденных повторов. Исходной теоретической основой исследования являются труды отечественных и зарубежных ученых как в области теории алгоритмов, так и в области построения статистических моделей.

Цель и задачи исследования. Основной целью данного исследования является построение алгоритма идентификации тандемных повторов в ДНК с последующим анализом свойств распределения тандемных повторов в ДНК различных эукариотических геномов. Основным результатом работы должно стать получение алгоритма поиска повторов, удовлетворяющих заданным условиям по степени вырожденности и длине периода, как на уровне полногеномного анализа, так и в коротких ДНК-последовательностях, его использование для картирования геномов на предмет наличия периодических структур, выводы о свойствах распределений повторов в геномах.

Достижение поставленных целей предполагает решение следующих задач.

• Построение моделей для представления периодических последовательностей в ДНК.

• Получение формул для оценки статистической значимости повторов для построенных моделей через подсчет вероятностей наблюдения данных структур в случайной последовательности.

• Разработка алгоритма идентификации участков ДНК, обладающих периодической структурой на основе методов автокорреляционного анализа.

• Интеграция процедуры оценки статистической значимости с процедурой поиска периодичностей для построения нового современного алгоритма определения сильно и слабо вырожденных тандемных повторов.

• Имплементация алгоритма в виде отдельного приложения, а также создание Интернет-сайта для возможности сканирования последовательностей ДНК на наличие периодических участков через Интернет.

• Создание базы данных тандемных повторов в различных функциональных участках ДНК различных организмов.

• Анализ распределений повторов и выделение характерных особенностей повторов в каждой группе.

Научная новизна диссертационного исследования.

• Благодаря построению нового алгоритма идентификации периодических структур в ДНК стало возможно изучение нового объекта – сильно вырожденных тандемных повторов.

• Стало возможно получение более полных карт повторов для геномов эукариот. С помощью нового метода были определены обладающие периодической структурой участки, покрывающие до 30% генома, значительная часть которых не была определена как таковая до настоящего момента в существующих аннотациях геномов.

• С помощью нового алгоритма поиска повторов стало возможно провести сравнительный анализ распределения повторов с большой длиной периода (до 200п.н.) в маштабе полных геномов эукариот.

Практическая значимость. Получение формул для оценки статистической значимости повторов дает возможность оценить значимость повторов, найденных в ДНК при помощи других алгоритмов, тем самым, давая инструмент для сравнения качества работы различных алгоритмов.

Были созданы базы данных для различных эукариотических геномов, включая геном человека, содержащие информацию о расположении, длине и количестве копий повторов с указанием их статистической значимости. Эти данные могут быть использованы в научных исследованиях как для маскирования повторов для их дальнейшей элиминации, так и для поиска в них различных сигналов: сайтов связывания белков, горячих точек рекомбинации и др.

Также, анализ распределения повторов в геномах близких и далеких организмов позволит лучше понять процессы эволюции геномов, предположить новые возможные механизмы. Более того, сравнение тандемных повторов в различных гаплотипах даст информацию о полиморфизмах и мутационных явлениях. Это может помочь понять причины возникновения некоторых наследственных заболеваний, а также заболеваний, вызванных соматической изменчивостью, в том числе некоторых разновидностей канцерогенеза.

Знание о характерных семействах или свойствах повторов может позволить определить принадлежность последовательностей ДНК к определенным участкам геномов или хромосомам.

Апробация диссертационного исследования. Основные результаты были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии MCCMB в 2003 и 2005 годах, на конференции BGRS по Биоинформатике Геномной Регуляции и Структуре в Новосибирске в 2004 и 2006 годах, на конференции JOBIM в Монреале в 2004 году, на конференции молодых ученых «Ломоносов» в 2004 и 2005 годах, на Международной школе «Биоинформатика, геномика, протеомика» в Алматы в 2006 году, на Международной Конференции по Исследованиям в области Вычислительной Молекулярной Биологии RECOMB в Венеции в 2006 году, на симпозиуме по Биоинформатике, Геномике и Функциональному Назначению Микросателлитов и Полиморфных Тандемных Повторов (VNTRs) MICROSAT в Будапеште в 2006 году, а также на Международной Летней Школе и Симпозиуме по Эволюционной Геномике в Берлине в году.

Структура и объем диссертационного исследования.

Диссертационное исследование состоит из Введения, Обзора Литературы, четырех глав, Заключения, Приложений и библиографического списка. Глава 1 основной части (Результаты и Обсужедение) посвящена подробному описанию построения статистической модели для оценки статистической значимости наблюдаемых периодических структур, используя вероятностные формулы (полученные с помощью производящих функций в рамках теории элементарных языков развитой в INRIA), либо с помощью средств комбинаторной алгебры и формулировке статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах. Подробное описание алгоритма поиска периодических структур в последовательностях ДНК с использованием статистических инструментов приводится в главе 2 основной части. Также глава 2 содержит описание реализации алгоритма, списка параметров и выдачи программы.

Главы 3 и 4 посвящены применению алгоритма для поиска периодичных сигналов в последовательностях ДНК различных эукариотических геномов, а также в последовательностях с различными структурными и функциональными свойствами.

Выводы 1. Разработан алгоритм поиска сильно вырожденных тандемных повторов без делеций и вставок.

2. Получены формулы для оценки статистической значимости сильно вырожденных тандемных повторов без делеций и вставок с учетом их самоперекрывающейся структуры.

3. Разработанный алгоритм использован для выявления новых объектов, обладающих выраженной регулярной структурой.

4. Выявлены характерные паттерны распределения тандемных повторов в зависимости от длин периодов для хромосом различных геномов эукариот, включая геном человека.

5. Выделены семейства локальных и дисперсных микро- и минисателлитов, характерных для той или иной хромосомы, и проведен их анализ с учетом существующих аннотаций.

6. Выявлены различия в распределении тандемных повторов в различных функциональных областях геномов: регуляторных, кодирующих, спейсерных, межгенных областях, гетерохроматине, 5’- и 3’ нетранслируемых областях.

Публикации. Основные результаты диссертационного исследования опубликованы в следующих печатных и электронных изданиях и тезисах конференций:

Научные журналы:

1. Boeva, V., M. Regnier, D. Papatsenko, and V. Makeev. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006. 22(6): стр. 676-684.

2. Боева, В.А., М.В. Фридман, и В.Ю. Макеев, Эволюция микро- и минисателлитов в геноме человека. Биофизика, 2006. 51(4): стр. 650-655.

3. Boeva, V., J. Clement, M. Regnier, and M. Vandenbogaert. Assessing the Significance of Sets of Words. В тезисах Combinatorial Pattern Matching (CPM) 2005. 2005. Jeju Island, Korea: Опубликовано в электронном виде в Lecture Notes in Computer Science, Springer Verlag, 3537: стр. 358-370.

Тезисы конференций:

1. Boeva, V., V.J. Makeev, and M. Regnier. Probability of tandem repeats in nucleotide sequences. В тезисах International conference MCCMB’03.

2003. Moscow, Russia. Стр. 46-47.

2. Boeva, V.A., M. Regnier, and V.J. Makeev. Algorithm for searching for highly divergent tandem repeats in DNA sequences, statistical tests, and biological application in Drosophila melanogaster genome. В тезисах The Fourth International Conference on Bioinformatics of Genome Regulation and Structure.

2004. Novosibirsk, Russia. Том 1, стр. 34-37.

3. Boeva, V.A., M. Regnier, and V.J. Makeev. SWAN: searching for highly divergent tandem repeats in DNA sequences with the evaluation of their statistical significance. В тезисах JOBIM 2004. 2004. Montreal, Canada. Стр. 40.

4. Boeva, V., V.J. Makeev, and M. Regnier. Search for degenerate tandem repeats in nucleotide sequences. Their possible role in regulation of gene expression. В тезисах International conference MCCMB’05. 2005. Moscow, Russia. Стр. 54-56.

5. Боева, В.А. Поиск тандемных повторов (минисателлитов) в последовательностях ДНК, сравнение распределений минисателлитов в различных эукариотических геномах. В Материалах Международной школы «Биоинформатика, геномика, протеомика». 2006. Алматы, Казахстан. Стр. 7.

6. Boeva, V. and V.J. Makeev. Minisatellites in Eukaryotic Genomes, Analysis with TandemSWAN Program. В Материалах The 2nd International Tandem Repeat Consortium workshop on the Bioinformatics, Genomics and Functionality of Microsatellites and VNTRs, MICROSAT 2006. 2006. Budapest, Hungary. Стр.14.

7. Boeva, V. and V.J. Makeev. Minisatellites Evolution in Eukaryiotic Genomes. В тезисах Otto Warburg International Summer School and Workshop on Evolutionary Genomics. 2006. Berlin, Germany. Стр. 33.

8. Boeva, V.A. and V.J. Makeev, Micro- and Minisatellites in Human genome, TandemSWAN software in use. В тезисах of The Fifth International Conference on Bioinformatics of Genome Regulation and Structure, 2006. Том 3:

стр. 118-121.

ОБЗОР ЛИТЕРАТУРЫ МИКРО-, МИНИСАТЕЛЛИТЫ И ДРУГИЕ ВИДЫ ТАНДЕМНЫХ ПОВТОРОВ. МЕХАНИЗМЫ ВОЗНИКНОВЕНИЯ И РАЗМНОЖЕНИЯ В ГЕНОМЕ. ИХ РОЛЬ И ОСОБЕННОСТИ РАСПРЕДЕЛЕНИЯ.

В эукариотических геномах представлено большое разнообразие различных регулярных структур. Значимую их часть составляют тандемные повторы. Тандемным повтором называют последовательность нуклеотидов, которую можно представить, как некое слово, повторяющееся одно за другим без делеций и вставок, но с возможными ошибками. Примером может служить последовательность TCCT|TCAT|TCAT|TCAC|TCAC (хромосома генома человека, позиции 19313716-19313735), которую можно рассматривать как пятикратный повтор слова TCAT. В дальнейшем для обозначения длины повторяющейся единицы будет использоваться слово период. В зависимости от длины периода тандемные повторы классифицируют на полинуклеотидные последовательности, микросателлиты, минисателлиты и, в случае длины периода более 100п.н., используют термин сателлитная ДНК без уточнения типа.

Примером мононуклеотидного тракта может служить последовательность aaaacttaaagtataataaaaaaaaaaaattaaaaaaaaaaaaaagaaaa (хромосома 22 генома человека, позиции 15336249-15336298). Зачастую их относят к микросателлитным последовательностям, для которых в большинстве классификаций длина периода не превышает шести нуклеотидов. Современная классификация также допускает определение микросателлитной последовательности как повтора с периодом меньше пар оснований, а минисателлитной – с периодом от 15 до 50 пар оснований.

В дальнейшем в нашей работе мы будет придерживаться более распространенной классификации: для микросателлитной ДНК длина периода от двух до шести пар оснований, для минисателлитной ДНК от шести до 100 пар оснований.

Принятые разными авторами ограничения на минимальные число таких повторов в блоке и длину самого блока варьируют, особенно в случае наличия неполной гомологии среди части повторов. Например, в работе [1] авторы анализировали распределение по геному точных триплетных повторов, повторённых не менее четырех раз. В работе [2] для динуклеотидных повторов учитывали блоки не менее, чем из 8 повторов, с гомогенностью не менее 0,9.

Принятые определения отражают особенности возникновения и экспансии сателлитных последовательностей. Например, поли-А и поли-Т тракты часто рассматриваются отдельно, поскольку чаще всего являются результатом обратной транскрипции м-РНК с последующей инсерцией в геном. Повторы с единицей из двух оснований могут быть результатом внедрения транспозона. Поэтому нередко считается, что микросателлиты – это не менее, чем двух-нуклеотидные повторы [3].

Здесь и далее многие результаты будут процитированы по весьма детальным обзорам [4] и [5]. Основные механизмы, которые порождают вариабельность микросателлитов, – это replication slippage, то есть диссоциация репликативного комплекса от реплицирующейся нити ДНК с последующим смещением при реассоциации, а также неравный кроссинговер и успешная или неуспешная репарация ошибок предыдущих процессов. Надо заметить, что именно с частотой залипания полимеразы (replication slippage) связывают, например, зависимость длины блоков растительных микросателлитов от их удалённости от центромеры.

При количестве копий повтора более пяти он может начать случайным образом размножаться или, напротив, сокращаться, что может привести к его экспансии или вымыванию из ДНК. По ещё не вполне понятным причинам наиболее подвержены экспансии тринуклеотидные повторы, возможно, ввиду наибольшей стабильности образуемых ими шпилечных структур и их способности избегать репарации. Увеличение длины их блока может вести к резкому увеличению вероятности дальнейшей экспансии [3].

Соответствующие механизмы эволюции микросателлитных блоков, видимо, работают лишь для блока повторов, который не прерван какими либо ещё последовательностями. Поэтому мутации, прерывающие блок, останавливают его экспансию.

«Размножение» повтора может быть индуцировано внешними воздействиями. Например, показано, что ингибирование метилаз ведёт к дестабилизации блока повторов CTG/CAG [6].

Интересно, что в различных геномах распространены различные семейства повторов. В работе [7] на широком круге систематически разнообразных видов было показано, что доля повторов на геном для моно- и ди- нуклеотидных повторов возрастает по квадратичному закону пропорционально отклонению в любую сторону от 50% GC.

Для растений и грибов характерно преобладание мононуклеотидных повторов, в то время как у животных преобладающим классом были динуклеотидные. Однако, в геноме приматов преобладают мононуклеотидные повторы. Позвоночных отличает относительное обилие тетрануклеотидных повторов, в то время как для беспозвоночных характерно относительное обилие пяти- и шестинуклеотидных [8]. Авторы [9] отмечают, что средняя протяжённость блоков динуклеотидных повторов наиболее велика, кроме того для человека характерны относительно длинные тетрануклеотидные, а для дрозофилы – тринуклеотидные повторы. Эти же авторы указывают, что относительная частота разных ди- и тринуклеотидных повторов невыводима ни из нуклеотидного состава, характерного для генома, ни из относительной способности повторов формировать альтернативные структуры ДНК.

Для разных видов Drosophila в работе [10] было найдено как изменение относительных частот различных индивидуальных повторов (даже для близких видов), так и изменение соотношений разных повторяющихся единиц (моно-, ди-, три-, тетра-, пента- и секстануклеотидных). При этом характерные длины блоков были довольно стабильны как для индивидуальных повторов, так и для классов повторов с определённой длиной повторяющейся единицы. В работе [11] при сравнении несмещённой выборки микросателлитов из 2467 микросателлитных локусов человека, шимпанзе и бабуина было показано, что для шимпанзе характерна относительно большая длина мононуклеотидных повторов, а для человека – динуклеотидных.

В работе [7] было показано, что традиционные модели залипание полимеразы (replication slippage) не объясняют сниженное по сравнению с ожидаемым количество коротких повторов и повышенное – длинных.

Вообще, для крупных блоков микросателлитов становятся вероятными внутриаллельные перестройки и дупликации. Но, несмотря на то, что предполагается участие рекомбинации и конверсии в их порождении (как и у минисателлитов), межаллельных перестроек обычно не наблюдают. К тому же это и технически сложнее ввиду малости повторяющейся единицы. В работе [11] было показано, что скорость дивергенции ортологичных локусов и мутабильность на единицу повтора тем больше, чем длиннее локус. В работе [12] были исследованы как склонные, так и не склонные к экспансии тринуклеотидные повторы у человекообразных обезьян и человека. Блоки повторов были консервативны. Часто сохранялись и характерные для них полиморфизмы, хотя соотношение разных типов локусов было специфичным для вида. Вариабельность для человека была наибольшей, хотя это касалось только локусов, склонных к экспансии.

В [9] авторы отмечают, что для многих видов характерны тетрануклеотидные повторы типа (AAAN)n. Из работы [8] следует достаточно широкая распространённость в разных группах живых организмов повторов типа (AAAAN)n и (AAAAAN)n. Для млекопитающих отмечалась как характерная особенность распространённость длинных (несколько десятков повторяющихся единиц) повторов GAA[13].

Однако для разных групп организмов типично преобладание различных индивидуальных повторов, хотя практически всеми авторами отмечается обеднённость геномов повторами, содержащими CG (по причине их подверженности мутациям). Интересным исключением является повтор ССG, вопрос о котором будет затронут далее. Он сравнительно нередок в геномах позвоночных. Характерно почти полное отсутствие ACG-повторов у позвоночных, семенных растений и грибов. Из двадцати семи практически отсутствующих в геномах пента- и секстануклеотидных повторов в двадцати трех содержится один или несколько CG, а три из оставшихся содержат стоп кодон по крайней мере в одной из рамок считывания. Однако в экзонах позвоночных нередки пента- и секстануклеотиды, содержащие GGG, хотя многие из них содержат CG. В интронах как таковых они редки, однако их частота резко повышена на границах с экзоном, особенно рядом с 5’-cайтом сплайсинга [14]. В работе [15] отмечается важность мотива GGGG, примыкающего к 5’-сайту сплайсинга, (+6-+8 нуклеотиды) для скипинга кассетных экзонов. Содержащие GGG пентануклеотиды нередки и в межгенных участках позвоночных, что может быть связано с формированием Sp1-узнающих мотивов.

Менее объяснима крайне малая частота ACT во всех участках различных геномах, а не только в экзонах, где она может объясняться порождением стоп-кодона [8].

Что касается распределения микросателлитов по геному, для Drosophila melanogaster было показано, что 39% микросателлитных последовательностей распределены по геному неслучайно, т.е. их распределение не является просто следствием случайного возникновения при данных частотах нуклеотидов [16]. В работе [17] указывается, что 15-18% регуляторных последовательностей D. melanogaster и D. pseudoobscura заняты малокопийными тандемными повторами со средней длиной повторяющейся единицы 5-10 пар, что значительно больше их общей доли в геноме. Именно с этими участками связаны инверсии-делеции, отличающие эти два генома. Отметим, однако, что у дрозофилид одни из самых компактных эукариотических геномов, в других же группах неслучайность распределения функционально значимых микросателлитов может быть замаскирована большим количеством «мусорной» (junk-) ДНК.

Как уже говорилось, наиболее крупные блоки микросателлитов связаны с прицентромерными участками хромосом. Для центромер человека характерен повтор (AATGG)n. Значительная часть микросателлитов находится в межгенных участках [3].

В 5’- и 3’-некодирующих участках генов микросателлиты нередки. В гене человека hsp 70 присутствует, например, повтор (GA)6CAG(TC)24.

Нередки они и в интронах. У Mus musculus в интроне гена Adh- присутствует последовательности (TA)14, (TG)8 и (TA)19, а в интроне гена IL-5 - последовательность (AT)17. В работе [18] среди тринуклеотидных блоков у человека «вверх по течению» от гена большинство составляли повторы CCG, следующим по распространённости был повтор AGG. В то же время в интронах повторы CCG практически не встречались. Для интронов самых разных эукариот характерно преобладание среди мононуклеотидных повторов (А)n и (Т)n. Интронные и межгенные последовательности, человека, согласно [1], обогащены триплетами AAT и AAC.

Для растительных геномов показана приуроченность микросателлитов к транскрибируемой, но не транслируемой части геномов, особенно к 5’ концам генов, где у Arabidopsis thaliana преобладали ди- и тринуклеотидные повторы (в 3’-концах преобладали три- и тетрануклеотидные повторы) [19].

В кодирующей части генов самых разных организмов повторы встречаются гораздо реже. Однако следует заметить, что у эукариот доля белков, содержащих повторы, в три раза выше, чем у прокариот (14%).

Интересно, что обилие и длина микросателлитных блоков у позвоночных выше, причём микросателлиты наиболее обильны у грызунов, а длиннее всего – у холоднокровных [16].

В кодирующей части генов отбор сохраняет в первую очередь блоки микросателлитов с единицей, кратной шести. Однако интересно, что согласно работе [2] у человека блоки ди-, тетра- и пентануклеотидных повторов встречаются в кодирующей области лишь в 3-4 раза реже, чем блоки три- и гексануклеотидов. Более того, хотя среди вариабельных по длине внутригенных микросателлитных блоков преобладали тринуклеотидные последовательности, вариабельных динуклеотидных было всего в шесть раз меньше (и больше, чем гексануклеотидных), и даже вариабельные тетрануклеотидные блоки составляли вполне заметную фракцию. Это наблюдение кажется тем более удивительным, что такая вариабельность может приводить к сдвигу рамки считывания. Авторы [9] отмечают, что в кодирующей области отбор наиболее всего благоприятствует кодонам для маленьких гидрофильных аминокислот и элиминирует кодоны для гидрофобных и основных аминокислот.

Тринуклеотидные повторы остаются, таким образом, объектом наиболее пристального изучения. В работе [1] у человека было обнаружено 2135 генов с тринуклеотидными повторами в экзонах, причём среди них в 171 гене длина блока составляла не менее 30 пар нуклеотидов. Интересно, что среди этих тринуклеотидов 67% составляли повторы AGC и CCG.

Таким образом, повторы CCG могут вносить значительный вклад в формирование CpG-островов. Они, как известно, обычно захватывают как 5’ конец, так и кодирующую часть гена, что хорошо согласуется с их наличием в межгенных участках и экзонах, но не в интронах.

Обратимся теперь к возможным функциям микро- и минисателлитов.

Значительное влияние микросателлиты могут оказывать на транскрипцию.

Так, например, увеличение количества CT-блоков в расположенном вверх по течению минисателлите повышало активность альтернативного промотора куриного гена малик энзима по отношению к репортёрному гену [20]. Авторы считают, что соответствующее влияние связано с образованием не В-форм ДНК, возможно триплексов. Аналогичные блоки связаны и с функционированием регуляторной области гена hsp26 у Drosophila [21], но в данном случае значимой, видимо, является не только структура, но и способность связывать GAGA-фактор. Связыванию с транскрипционными факторами приписывают и влияние повтора ТССС на активность c-KI-ras [22]. Взаимодействие проксимального промотора TGF-b3 с факторами транскрипции Sp1 and Egr-1 считается следствием образования не В-формы в области такого же повтора [23].

Примечательно, что динуклеотиды типа (GT)n влияют на активность промотора на расстоянии и независимо от ориентации, хотя при сближении с ними транскрипция и усиливается [24].

Также было показано, что тандемные повторы Sp-1-узнающего мотива GGCGGG в промоторе гена 5-липоксигеназы человека влияют на его транскрипцию. В норме ген содержит пять повторов, а у мутантов наблюдалась делеция одного, делеция двух или добавление одного сайта связывания цинкового пальца. Эти варианты менее активны транскрипционно [25].

Повтор GA у Drosophila, может в разных местах генома варьировать по длине от GAG до GAGAGAG и далее, сохраняя способность связывать транскрипционные факторы [26]. Для генов hsp70 и hsp26 показано, что до индукции теплового шока GAGA-транскрипционный фактор GAF связывается только с длинными повторами в промоторе, а после – начинается связываться с короткими повторами 3-5 п.н., разбросанными в теле гена в среднем через 75 п.н. (то есть с точки зрения принятого нами определения данные структуры не относятся к тандемным повторам) [26]. Фактор GAF является Trithorax-подобным белком, но участвует также в репрессии генов белками группы Polycomb и действует, видимо, совместно с белком Pipsqueak, тоже способным взаимодействовать с этими повторам [27].

Показано, что белковые комплексы, связывающиеся с GAGA, могут вызывать перемещёние нуклеосом, что облегчает различные типы взаимодействий [28].

Также, известно, что на транскрипцию могут влиять повторы и в интронах. Например, на транскрипцию гена тирозингидроксилазы оказывает влияние полиморфный тетрануклеотидный повтор ТСАТ в первом интроне [29]. Независимо от ориентации он усиливает транскрипцию в девять раз, проявляя, таким образом, энхансерные свойства. Белки семейства Fos-Jun могут образовывать комплекс с этим повтором [30].

На транскрипцию гена EGFR влияет полиморфный тракт (CA)n, тоже локализованный в первом интроне. Непосредственно вниз по течению от этого блока располагается сайт, на котором может быть терминирована транскрипция, а также два других мажорных старта транскрипции.

Эффективность транскрипции гена для «длинных» вариантов с 21 повтором снижена примерно на 80% [31].

В репортёрной системе CAT, содержащей андроген-чувствительный элемент, экспансия повтора CAG от 25 до 77 единиц пропорциональным образом снижала интенсивность транскрипции [32]. С другой стороны, в иных системах увеличение числа повторов повышало интенсивность транскрипции. Так, для гена PAX-6 наибольшей транскрипционной активностью обладали варианты, содержащие 29 и более повторов единицы (AC)m(AG)n, а содержащие 26 повторов – наименьшей [33]. 5’-район инсулинового гена содержит полиморфный повтор 14 нуклеотидной единицы, причём в тимусе плода аллели с 140-210 повторами дают более интенсивную транскрипцию этого гена, чем аллели с 26-63 повторами [34].

Полиморфизмы по повторам могут быть связаны и с качественными различиями в регуляции. Так, авторы [35] обнаружили значимость полиморфизма по GT- повтору в 5’-нетранслируемом конце гена пролактина тиляпии. Индивиды, гомозиготные по «длинному» аллелю, экспрессировали меньше пролактина в пресной воде, но больше в солоноватой.

Для транскрипции человеческого гена COL1A2 важно присутствие как (CA)n в 5’-UTR, так и (GT)n в первом интроне [36].

Согласно [4], повторы на 3’-нетранслируемом конце гена могут вызывать «проскальзывание» полимеразы и образование протяжённого транскрипта, который может накапливаться в ядре или нарушать ход сплайсинга. Подобную роль могут играть повторы CAG/CTG за счёт формирования вторичной структуры м-РНК. С этим связывается, в частности, миотоническая дистрофия типа 1 [37]. К накоплению транскрипта в ядре может приводить и «размножение» повтора (CCUG)n в первом интроне гена ZNF9, приводящее к миотонической дистрофии второго типа [38].

Влияние повторов на транскрипцию может быть и не прямым, а связанным с гетерохроматинизацией, которая отмечалась в случае экспансии даже сравнительно короткого блока тринуклеотидных повторов для миотонической дистрофии и атаксии Фридриха. Механизм гетерохроматинизации, видимо, был тривиальным, поскольку эффект увеличивался под действием классического модификатора гетерохроматинизации Hp1 [39].

Как уже говорилось, возможные функции микросателлитов в значительной степени связаны со структурными особенностями подобных блоков ДНК. Характерные для синдрома ломкой Х-хромосомы повторы (CCG)n образуют шпильки [40].

Для (GAA)n/(TTC)n типично образование триплексов, которое может играть роль в регуляции активности генов [41]. Уже упоминавшийся центромерный повтор человека (AATGG)n может формировать шпилечные структуры с двумя петлями. Для повтора 3’-концов теломер (TTAGGG)n харктерно образование G-квартета шпилек [42].

Повторы (CAG)n и (CTG)n могут формировать специфические структуры, легко узнаваемые белками (например, белком MSH2, [43]) после денатурации и последующей ренатурации ДНК. Вообще белки, способные узнавать те или иные повторы, присутствуют в различных системах. В человеческих фибробластах, например, были идентифицированы белки, узнающие повторы GA и GT [44]. В отвечающих за иммунный ответ генах в течение длительного эволюционного времени сохранялись повторы (GT)n или (GT)n(GA)m, узнаваемые внутриядерными белками [45].

Существуют и белки, узнающие повторы в РНК. Специфический белок узнаёт повторы CUG на 5’-конце РНК C/EBPbeta и регулирует таким образом трансляцию соответствующей изоформы [46, 47]. Таким образом, возможно и влияние микросателлитов на трансляцию. Считается, что в регуляции трансляции существенную роль играет блок повторов САА в 5’ нетранслируемой части, образующий бесструктурный участок РНК [48].

Экспансия повторов (CTG)n в 5’-UTR репортёрного гена затрудняла трансляцию соответствующей РНК из-за образования шпилек, ведущего к нарушению сканирования [4].

Другой пример влияния повторов на трансляцию: М-РНК гена C/EBPb может транслироваться с двух разных AUG-кодонов, причём белок CUGBP1, принимающий участие в определении старта транскрипции, может связываться как с повтором CUG в 5’-UTR м-РНК, так и с повтором CCG внутри ORF [46].

Как уже отмечалось, тринуклеотидные повторы CTG/CAG, для которых характерна внутрилокусная экспансия, связаны с различными локусами человека и различными заболеваниями (например, с миотонической дистрофией, болезнью Гентингтона (Huntington's) и спиноцеребральными атаксиями). Найдено уже 14 неврологических заболеваний, связанных с экспансией тринуклеотидных повторов как в кодирующей, так и в некодирующей части генов [6, 41]. Примером влияния таких повторов на белок может быть увеличение числа тринуклеотидных единиц CAG, кодирующих полиглутаминовую последовательность, до 39 и более при Machado Joseph Disease. Сообщалось, что протяжённые участки (Gln)n обеспечивают вовлечение белка в лизосомный путь деградации [49], а также делают его токсичным для клетки [50].

Для гена hTCF-4 использование альтернативных рамок считывания в его семнадцатом экзоне (которое может быть результатом изменения длины (А)9 последовательности) приводит к образованию продуктов, противоположным образом взаимодействующих с -катенином, что влияет на колоректальный канцерогенез [51].

Другим механизмом влияния подобной экспансии может быть то, что эти повторы образуют, особенно на флангах, сайты узнавания CTCF, значимые для инсуляции [52]. Таким образом, инсуляция тоже является одной из функций микросателлитов. Метилирование соответствующих сайтов (которое провоцируется увеличением числа повторов) предотвращает связывание CTCF и инсуляцию, что влияет на активность прилегающих к локусу генов [52]. Этот механизм описан, в частности, при миотонической дистрофии Дюшена [52]. Выше говорилось о связи экспансии таких повторов с гетерохроматинизацией ДНК. По всей видимости, метилирование, инсуляция и гетерохроматинизация представляют собой взаимосвязанные процессы.

Интересно, что метилирование также увеличивает стабильность таких локусов, поскольку ингибирование метилаз ведёт к дестабилизации блока повторов [6].

Для динуклеотидных повторов в м-РНК, особенно в 3’-UTR, характерна совместная встречаемость, например (GC)n и (GU)n, причём с определённой полярностью. Авторы [53] на основании анализа альтернативных транскриптов выдвигают гипотезу о роли этих последовательностей в процессинге. (GATA)n-последовательности группируются у ряда многоклеточных вокруг стоп-кодона на расстоянии 500 п.н. Они характерны для различных мембранных белков. Для этих повторов нередко встречается вариабельность по ориентации и числу копий. При наличии альтернативного сплайсинга варианты, содержащие (GATA)n, представлены в клетке в большем количестве [54].

GGG-повторы, как сами по себе, так и содержащиеся внутри более крупных минисателлитных единиц могут формировать G-квадруплекс, который способны стабилизировать различные внутриклеточные лиганды [55]. При образовании на теломерах такой стабилизированный квадруплекс ингибирует теломеразу, что пытаются связать с антиопухолевой активностью. Альтернативный сплайсинг теломеразы с образованием неактивного фермента также связан с наличием GGG-повторов. Они расположены в минисателлитах, в том числе вариабельных, находящихся в интроне 6, то есть как раз в месте альтернативного сплайсинга.

Отметим, что триплет GGG вообще является регулятором сплайсинга (чаще всего в составе пентануклеотидных повторов). Авторы [14] обнаружили повышение их содержания на границах интронов различных генов, особенно на 3’-концах. В позициях 3-10 примыкающего ниже по течению интрона он, в сочетании с другими мотивами, вызывает пропуск кассетных экзонов [15].

Повтор ТG расположен в акцепторе сплайсинга девятого экзона гена CFTR. Это 9-13 повторов, лежащих сразу же после поли-T тракта. Поли-Т и поли(TG) влияют на сплайсинг, причём при большой копийности повтора (12-13) возможно почти полное исчезновение полноразмерной м-РНК, что ведёт к бесплодию мужчин или неклассическому цистозному фиброзу [56]. В то же время замещение последовательности (TG)n на случайную исключает сплайсинг. Результаты замены её на другие последовательности, обладающие способность образовывать шпилечные структуры (например, на повтор ТА), показывают, что для эффективного сплайсинга необходимо образование определённой вторичной структуры РНК, причём лучше обеспечивают сплайсинг структуры с умеренной термодинамической стабильностью. В то же время и такие влияющие на сплайсинг факторы, как изменение расстояния между сайтом сплайсинга и сплайсосомой или связывание специфических белков тоже зависят от длины повтора.

Сплайсинг человеческого гена eNOS зависит от блока повторов СА (от 14 до 44 повторов) в 13 интроне. Он расположен в 80 п.н. от 5’-сайта сплайсинга экзона 13. Его действие как энхансера сплайсинга зависит от связывания с белком hnRNP L. В отсутствие же этого белка присутствие блока повторов необходимо и достаточно для разрезания примыкающей с 5’ конца РНК [57]. Хотя последний процесс и не зависит прямо от длины повтора, тем не менее «длинные» аллели связаны с высоким риском болезни коронарных артерий.

Сохранение 10-16 единиц GT-повтора во втором интроне гена NCX необходимо для его сплайсинга [58]. Тем не менее, влияние повторов на сплайсинг часто не вполне специфично, и возможны значительные вариации повторяющейся последовательности. В 3’-сайте сплайсинга второго интрона человеческого гена apo-AII находится последовательность (GT)16GGGCAG, замещение которой полипиримидиновым трактом нарушает сплайсинг. Тем не менее, последовательности (GT)2GG уже достаточно для его адекватного протекания [59].

Потеря повторов может коррелировать с потерей импринтинга. Так, например, известно, что мышиный ген Impact в отличие от человеческого является импринтированным. Его CpG-остров лежит внутри первого интрона, дифференциально метилирован и содержит тандемные повторы TCGGC. Человеческий Impact захватывает лишь первый экзон, тандемных повторов не содержит и не метилирован для обоих аллелей [60].

Центромерным повторам приписываются такие функции как когезия сестринских хроматид и участие в образовании и функционировании кинетохора.

Сообщалось, что динуклеотидные повторы обладают высоким сродством к белкам, участвующим в рекомбинации. Предполагается, что в рекомбинации могут участвовать белки, узнающие повторы GT, CA, CT, GA, GC и AT в связи с их способностью образовывать Z-форму ДНК или другие неканонические структуры. Однако для 22 хромосомы человека существенная связь между частотой рекомбинации и наличием повторов была найдена только для повторов GT, причём более значительным было влияние на рекомбинацию у мужчин.

Предполагается участие повторов в контроле репликации и клеточного цикла. Такие контролирующие клеточный цикл гены, как hMSH3, hMSH6, BAX, IGFIIR, TGFbetaIIR, E2F4 и BRCA2 содержат микросателлитные повторы, значимые для их экспрессии. Их мутационная нестабильность может привести к опухолеобразованию. С нестабильность повторов могут быть связаны и нарушения в работе белков системы MMR репарации, которые, ограничивая микросателлитную нестабильность, в то же время содержат блоки микросателлитов в собственных генах.

В гене HRAS1 примерно в 1000 п.н. вниз по течению от кодирующей последовательности находится 28 п.н. минисателлит, содержащий от 30 до 100 единиц. Редкие варианты этого локуса ассоциированы с несколькими типами рака [61]. Отметим, что часть этой последовательности высоко гомологична последовательности, узнаваемой белком rel/NF-B (GGGGAC(G/T)(C/T)(C/T)CC).

Есть и примеры влияния повторов собственно на фенотип [62]. У гена Drosophila melanogaster period есть аллель, содержащий (Thr-Gly)17 и аллель, содержащий (Thr-Gly)20. Они в разной степени способны поддерживать циркадный цикл при колебаниях температуры и характеризуются выраженной широтной клиной [63, 64].

Высокий уровень экспрессии гена вазопрессинового рецептора avpr1a в мозге способен вызвать у немоногамных полёвок предпочтение определённого партнёра [65]. Моногамные и социальные виды этого рода имеют в 5’-регуляторной области соответствующего гена сложные повторы, большинство из которых отсутствует у немоногамных и асоциальных видов.

Аналогичная изменчивость есть и у приматов. Человек и бонобо (для которых характерна привязанность к половому партнёру) имеют перед этим геном гомологичный тракт повторов, в то время как у шимпанзе значительная его часть делетирована [66]. В трансгенных экспериментах avpr1a, сопровождаемый повторами, характеризовался более высоким уровнем экспрессии, причём индивидуальные варианты с более протяжённым трактом GA давали повышенный уровень экспрессии [67].

У собак ген Runx-2 содержит два смежных блока повторов, кодирующих 18-20 глутаминовых остатков и 12-17 аланиновых [68]. Число повторов коррелировало с формой лицевой части черепа у потомства от разных скрещиваний. У человека гомологичный ген OSF2 влияет на форму лицевой части черепа, причём в семье, где число аланиновых повторов было увеличено с 17 до 27 наблюдалась клейдокраниальная дисплазия. Для породы собак, характеризующейся полидактилией, было показано сокращение на 51 нуклеотид гексануклеотидного повтора в гене Alx-4, который у мыши связан с полидактилией [69].

По понятным причинам в большинстве работ изучались главным образом совершенные (невырожденные) повторы. Механизм их экспансии более понятен. Однако в тех случаях, когда роль повтора определяется, например, взаимодействием с тем или иным белком, предполагается возможность связывания белка с достаточно разнообразными последовательностями, лишь бы они соответствовали консенсусу.

Регуляторами сплайсинга могут быть различные пентануклеотидные повторы, содержащие GGG.

Крайний случай сильно вырожденного повтора – наличие периодически повторяющихся мотивов в ДНК. Подобная периодика была показана, например, в статье [70] для мотивов связывающих транскрипционные факторы дрозофилы. Авторы дают обзор тех работ, в которых периодичность мотивов, взаимодействующих с транскрипционными факторами, оказывалась значимой для адекватной работы гена. Особо выделяется ими период 10- п.н., при наличии которого соответствующие белки на трёхмерной структуре ДНК оказываются сближенными. Для эффективного взаимодействия с нуклеосомой структура ДНК тоже должна содержать определённые типы последовательностей с аналогичной периодичностью. На наличие 3-, 10.5-, 200- and 400-периодичностей в ДНК указывают и другие авторы [71]. Этой же группой авторов также отмечалась периодичность расположения сайтов связывания транскрипционных факторов [72].

Нас интересовали как точные повторы в ДНК, как и вырожденные, то есть те, в которых прослеживается периодичность в последовательности нуклеотидов, но так же допускается высокий процент замен. Второй тип повторов (с длиной повторяющейся единицы от 4 до 9 пар оснований) был отмечен в регуляторных областях, где он может выступать в роли сайта связывания факторов транскрипции [70].

ПОИСК ТАНДЕМНЫХ ПОВТОРОВ В ПОСЛЕДОВАТЕЛЬНОСТЯХ БИОПОЛИМЕРОВ. ОБЗОР АЛГОРИТМОВ И ПРИЛОЖЕНИЙ.

Вопрос разработки алгоритма для поиска тандемных повторов в ДНК стоит последние пятнадцать лет. В настоящий момент существует более десяти различных программ для поиска периодических структур в последовательностях ДНК. Но пока нельзя сказать, что существует единственно возможный правильный алгоритм поиска. Каждый алгоритм нацелен на определенную задачу и класс определяемых повторов;

степень их вырожденности, длина периода и другие параметры различны от программы к программе. Ниже мы дадим краткий обзор наиболее часто используемых приложений.

Для полногеномного сканирования с целью поиска микросателлитных последовательностей зачастую используется инструмент EQUICKTANDEM, входящий в пакет проекта EMBOSS [73]. EQUICKTANDEM это простая, основанная на подсчете статистик замен программа, которая позволяет определять тандемные структуры в ДНК для каждого заранее заданного значения длины повторяющейся единицы. Возможный консенсус для повторяющейся единицы и правильная длина периода могут быть посчитаны с использования другой программы, ETANDEM, из пакета EMBOSS.

Программа REPEATMASKER [74] (http://ftp.genome.washington.edu/RM/RepeatMasker.html) широко используется для ‘маскирования’ последовательностей ДНК низкой сложности или обладающих периодической структурой с целью понизить ‘шум’, к которому они приводят при поиске гомологичных участков.

Программа нацелена на определение повторов ограниченных типов, в том числе не только тандемных, но и дисперсных. Среди тандемных повторов в основном это микросателлитные повторы и некоторые минисателлитные повторы ограниченной длины.

Были предложены различные алгоритмы [75] для поиска вырожденных тандемных повторов, как с разрешенными заменами между словами (расстояние Хамминга [76]), так и с разрешенными делециями и вставками букв (расстояние Левенштейна [77]). Максимальная временная сложность предлагаемых алгоритмов составляет O ( nk log( k ) log( n) + S ) в случае O ( nk log( n / k ) + S ) расстояния Левенштейна и в случае расстояния Хамминга (k это максимальное расстояние между двумя тандемно повторяющимися копиями, S количество найденных повторов).

Для перечисленных ниже методов поиска тандемных повторов пока, как нам известно, не существует исполняемых программ в свободном доступе.

Так, один из методов [78] находит тандемно повторяющиеся заранее заданные мотивы с целью компрессировать последовательность ДНК для оценки ее «количества информации». Алгоритм [79] предлагает эвристический подход к поиску тандемных повторов a priori заданной длиной повторяющейся единицы. Другой предлагаемый алгоритм [80] использует общий комбинаторный подход для определения «консенсуса повтора», а также эвристические методы фильтрации данных с целью избежать экспоненциального роста временной сложности.

В 1999 году был представлен алгоритм, включающий эвристическую и статистическую составляющую, воплощенный в программе Tandem Repeats Finder (TRF) [81]. Подход, используемый для определения повторов, можно сравнить с известным алгоритмом BLAST (Basic Local Alignment Search Tool) [82]: он основан на первоначальном получении информации о коротких (в действительности 5-7п.н.) точных повторяющихся фрагментах (seeds), и дальнейшего удлинения этих фрагментов в соответствии с неким статистическим критерием уже до вырожденных тандемных повторов.

Также, проблема поиска периодических сигналов в последовательностях биополимеров решалась с помощью автокорреляционного анализа [83-85].

Однако такие методы, как и описанный выше Tandem Repeat Finder [81] не могут решить проблему выбора лучшей длины периода повтора среди перекрывающихся найденных тандемных структур.

Чтобы завершить обзор известных инструментов поиска повторов в ДНК, приведем еще несколько недавно опубликованных программ. Одна из них [86] основана на технике поиска точных коротких повторяющихся фрагментов, и в этом смысле она похожа на TRF [81], и определяет тандемные повторы обладающих дополнительной структурой (VLTRs и MPTRs). Вторая часто используемая программа TROLL [87] ищет точные тандемные повторы с заранее заданными мотивами, используя модификацию алгоритма Ахо-Корасика [88]. Другой недавно опубликованный алгоритм, MREPS, [89] использует комбинированный комбинаторно-эвристический подход. Но в силу того, что он, как и большинство других приведенных алгоритмов, не оценивает значимость найденных структур, он не способен определить наиболее подходящую длину периода среди самоперекрывающихся повторов с различной длиной периода. К тому же, mreps использует своеобразный фильтр на количество замен между словами, что не позволяет получить на выходе одновременно короткие и длинные повторы с определенным процентом замен между копиями. Например, в случае малых значений соответствующего параметра (‘fuzziness’ = 5) на выходе получаются повторы с короткой длиной периода, но с большим количеством замен между повторяющимися единицами, и высоко консервативные повторы с большой длиной периода.


Одна из наиболее часто используемых программ для поиска точных повторов в последовательности биополимеров это tandyman [90]. Опять же нужно заметить, что с помощью этой программы возможно искать только невырожденные тандемные повторы.

Короткие вырожденные повторы с длиной периода от 2 до 5 пар оснований можно искать, используя программу Sputnik [91]. Программа сканирует последовательно каждую позицию, предполагая наличие повтора, сравнивает нуклеотиды на данной и последующей позициях и пересчитвает скор. Если скор превышает пороговое значение, позиция включается в повтор, в противном случае сканирование начинается со следующей позиции. Трем возможным типам ошибок: заменам, вставкам и делециям, соответствуют свои значения штрафа. Рекурсивная динамическая процедура позволяет выбрать наилучший с точки зрения суммарного скора тип ошибки.

Как и многие другие программы Sputnik ищет периодический структуры для заранее заданного значения периода.

Но надо заметить, что согласно существующей теории [92] при возникновении микро- и минисателлиты (replication slippage, неравный кроссинговер) не содержат ошибок (замен, делеций и вставок), но в силу происходящих в процессе биологической эволюции точечных мутаций сателлитные последовательности их накапливают. Из этого следуют, что даже при постановке такой узкой задачи, как картирование микросателлитных последовательней необходимо учитывать возможность нуклеотидных замен.

Кроме того, стоит задача выбора правильного периода в периодических последовательностях. Примером может служить последовательность ACT|ACT|ATT|ACT|ATT|ACT, которую можно рассматривать как шестикратный повтор слова ACT, либо как трехкратный повтор слова ATTACT. Большинство алгоритмов, включая наиболее популярный Tandem Repeat Finder [81], не могут дать ответ на вопрос, какой период будет в данной ситуации правильным, и выводят одну и ту же последовательность по нескольку раз с различными значениями периода. И хотя есть задачи, когда это и требуется, зачастую для составления карт, например в таких приложениях, как The Human Genome Browser [93], нужно иметь инструмент для выбора «правильного» периода. Для решения этой задачи можно использовать оценку статистической значимости найденного повтора с соответствующим разбиением на повторяющиеся единицы. Статистическая значимость отражает вероятность найти структуру подобную данной в случайном тексте, сгенерированном в соответствии с определенной моделью.

Отсюда следует еще одно важное приложение значения статистической значимости – для сильно вырожденных повторов возможность оценить вероятность их случайного появления в тексте. Другими словами подсчет статистической значимости для периодической или псевдопериодической последовательности может дать ответ на вопрос, действительно ли следует ее рассматривать как повтор, или же ее появление в тесте генома можно отнести на счет случайных точечных мутаций.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Глава I. Построение статистической модели для оценки статистической значимости наблюдаемых периодических структур. Формулировка статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах.

В этой главе мы строим две статистические модели для наблюдаемых периодических структур, выводим формулы для оценки их статистической значимости. Одна из формул, будет получена с помощью производящих функций в рамках теории элементарных языков развитой в INRIA, Rocquencourt, другая с помощью средств комбинаторной алгебры. Будут описаны области использования того или иного подхода.

В главе «Обзор Литературы» было подробно описано, когда возникает проблема оценки статистической значимости найденной структуры.

Представим, что в последовательности нуклеотидов, мы нашли некую регулярную структуру. Пусть она представляет собой слово длины три, повторенное три раза. Можно ли считать, что это слово встретилось не случайно в тексте? Видимо, все зависит от длины текста, в котором была найдена данная структура и от распределения букв в тексте. Например, если длина текста составляет несколько тысяч нуклеотидов, то представляется, что вероятность найти некое слово, длины три, повторенное три раза должна быть близка к единице, и факт нахождения этой структуры нужно считать незначимым. Можно также учитывать состав букв в слове – чем реже встречаются в тексте буквы (или сочетания букв), составляющие данное слово, тем более значимым представляется событие найти это слово в случайном тексте.

Таким образом, оценка значимости найденной структуры необходима, чтобы отбросить структуры, найденные в тесте «случайно». То есть отфильтровать структуры, для которых вероятность найти их в случайном тексте данной длины, распределенном в соответствии с данной моделью, близка к единице.

Есть также и другая проблема, возникающая, при поиске тандемных повторов в тексте, для решения которой можно использовать оценку значимости найденных структур. Представим, что в нашем тексте встретилась подпоследовательность ACT|ACT|ATT|ACT|ATT|ACT, которую можно рассматривать как шестикратный повтор слова ACT, либо как трехкратный повтор слова ATTACT. Какой период следует считать правильным? Для решения этого вопроса можно оценить вероятность встретить в случайном тексте каждую из структур – шестикратный повтор слова длины три, либо трехкратный повтор слова длины шесть. Чем меньше вероятность встретить подобную структуру в случайно-сгенерированном тексте, тем больше значимость повтора. Для примера, в тексте с частотами нуклеотидов pA=0.28, pC=0.18, pG=0.18, pT=0.36, вероятность встретить первую структуру (в смысле модели Mask описанной ниже) будет равняться 1.623214e-006, а вероятность встретить вторую структуру – 2.207286e-006.

Таким образом, в данном случае первая структура будет предпочтительнее, и мы будем считать, что правильный период в случае повтора ACT|ACT|ATT|ACT|ATT|ACT в тексте с данными частотами будет равен трем.

Здесь мы вводим понятие случайного текста, отвечающего модели (схеме) Бернулли [94]. В дальнейшем под «случайным текстом» будет пониматься именно такой текст.

Определение (1.1). Пусть дан алфавит = {1,…, n}. Случайная последовательность S = S1S2…SN распределена согласно схеме Бернулли c вероятностями P1, P2, …, Pn, если P(Si = k) = Pk для любой позиции i, где Pk =1, и Si и Sj независимы для i j.

Заметим, что вероятности PA, PC, PG, PT оцениваются из текста, в котором был найден повтор.

Как уже было сказано, мы разработали два подхода к построению модели для оценки статистической значимости повтора. Опишем сначала первую, называемую в дальнейшем моделью «motif». Ее отличие от второй модели, «mask» во многом состоит в том, что конкретные буквы, из которых состоит повтор, играют роль в подсчете вероятности.

Модель ‘Motif’.

Итак, пусть у нас есть подпоследовательность S = S1S2…SkL, которую мы рассматриваем, как k-кратный повтор мотива длины L. То есть можно выписать k слов, похожих друг на друга, найденных одно за другим в последовательности: w1 = S1S2…SL, w2 = SL+1SL+2…S2L,…, wk = SLk-L+1SLk L+2…SkL. Выписав эти слова одно под другим, мы можем увидеть, что одни позиции более консервативные, чем другие;

например, на одних возможен выбор из двух букв, на других может стоять любая буква. Чтобы учесть эту информацию, мы составляем IUPAC консенсус (Приложение 1) для выровненных слов – единиц повтора.

Пример (2.1). Пусть наша подпоследовательность это ccctaaccctaacccgaaccctaacccgaaccctaaccctaa (human genome, 17th UCSC release, хромосома 18, позиции 88752-88793). Разбив ее на слова длины 6 п.н., мы увидим, что возможны всего два варианта: ccctaa или cccgaa. Таким образом, наш консенсус для повторяющегося слова будет CCCKAA, где буква K на четвертой позиции означает «либо g, либо t».

Пример (2.2). Аналогично для подпоследовательности 17th GGTCC|TGCCC|TGCCC|TGTGC (human genome, UCSC release, хромосома 1, позиции 4456131-4456150), IUPAC консенсус будет KGYSC, где K означает «либо G, либо T», Y «либо C, либо T», S «либо C, либо G».

Заметим, что во втором примере под консенсус подходят не только те слова, которые образуют данный тандемный повтор (GGTCC, TGCCC, TGTGC), но и GGCCC, GGTGC, TGCGC и т.д. В рамках этой модели мы считаем, что с точки зрения структуры повтора ошибки в каждой позиции независимы. То есть, например, если среди слов образующих повтор есть слово с заменой, скажем, С на G в первой позиции, и есть слово с заменой, скажем, С на Т во второй позиции, то мы будем считать, что слово с буквами G и T на первой и второй позициях тоже удовлетворяет наблюденной структуре. Таким образом, мы можем рассматривать повтор из второго примера как слово из множества H4 = H.H.H.H, где H это множество слов, подходящих под построенный консенсус.

Теперь мы можем считать, что построена модель для тандемного повтора: конкретный тандемный повтор рассматривается как реализация множества Hk, где H это множество слов, подходящих под IUPAC консенсус, а k число копий. Таким образом, оценить статистическую значимость повтора можно через подсчёт вероятности встретить слово из Hk в случайном тексте с заданными распределением и длиной. В нашем подходе мы считаем вероятность встретить слово из Hk при условии, что мы нашли уже хотя бы раз слово из H.


В литературе вероятность встретить в случайном тесте длины N слово из произвольного множества M, состоящего из q слов длины m, называется «вероятностью первой встречи» слова из множества или p-value. Самый простой способ ее посчитать это применить приближенную формулу Пуассона:

P-valuePoisson ( M ) = 1 (1 Pr( M ) ) N m +, (2.3) где Pr(M) это вероятность встретить слово из множества M на произвольной позиции, N длина текста, m длина слов из множества M.

Формулу можно понимать так: 1 Pr( M ) это вероятность НЕ встретить слово из множества M на произвольной позиции;

(1-Pr(M))N-m+1 это приближенная вероятность не встретить слово из множества M нигде в тесте, т.е. ни на одной из (N-m+1) позиций;

1-(1-Pr(M))N-m+1 будет соответственно приближенной вероятностью встретить хотя бы одно вхождение слова из множества M в тексте длины N.

Вероятность Pr(M) есть сумма вероятностей встретить каждое отдельное слово из множества M на произвольной позиции.

P( ).

Pr( M ) = В рамках модели Бернулли вероятность Pr() есть M произведение вероятностей букв i, составляющих слово.

L ) = Pr(i ).

Pr( ) = Pr( i Основной минус использования формулы Пуассона для множества Hk следующий: события встречи слова из данного множества на соседних или близких позициях считаются независимыми. Такое приближение, в принципе, может иметь место, но оно является слишком грубым в случае тандемных повторов. Рассмотрим пример:

Пример (2.4). Пусть наш тандемный повтор это повторяющееся пять раз слово ACT, длина текста 18, вероятности встречи букв A,C,G,T на любой позиции i равны и независимы (модель Бернулли). Тогда вероятность найти слово на первой позиции равна ()15. Тому же равна вероятность найти это слово на четвертой позиции. Но вероятность найти это слово на четвертой позиции, зная, что мы его нашли на первой, будет уже равна ()3, что почти в 17 миллионов раз больше. Все же, даже в этом примере вероятность найти слово на четвертой позиции, зная, что мы его не нашли на первой, будет не много отличаться от ()15: она будет равна (1 ()3)/(415-1), т.е. реальная вероятность меньше в (1-()3)0.984 раза. Так как длина текста может быть большой, то ошибка при использовании формулы Пуассона будет накапливаться, грубо говоря, возводиться в степень (N-Lk).

Но мы можем использовать приближение Пуассона для множества H, т.к. в нем нет такой явной периодической структуры по построению:

множества, для которых используется формула, проходят предварительную проверку на отсутствие периодичностей в составляющих их словах.

В случае же тандемных повторов (множества Hk) оказалось, что ошибки, связанной с самопериодичностью слов, можно избежать, введя поправочный множитель аналогичный (1-()3) из примера (2.4).

PF -value( H k ) 1 (1 PrFk ( H ) (1 PrF ( H ) ) ) N Lk + (2.5) Здесь PrF(H) означает то же самое, что и Pr(H) в формуле Пуассона, вероятность мотива как множества слов. Буква ‘F’ добавлена, чтобы в дальнейшем не путать вероятность мотива в рамках этой модели, ‘motif’, с вероятностью мотива рамках второй модели, ‘mask’ (см. ниже). Уточненная формула была выведена с использованием аппарата производящих функций в рамках теории элементарных языков развитой в INRIA, Rocquencourt.

Подробный вывод представлен в разделе «Вывод формулы для PF -value( H k ) » ниже.

Сама формула, по которой будет считаться условная вероятность, на основе которой будет оцениваться статистическая значимость повтора в модели «motif», есть:

PF -value(H k ) ( ) HH= k Prconditional (2.6) P-value Poisson ( H ) k Вывод формулы для PF -value( H ).

В этой части мы приводим подробный вывод формулы (2.5) для вероятности встречи тандемного повтора в случайной последовательности.

Здесь тандемный повтор представляет слово из множества Hk=H·H···H, где H это множество слов, подходящих под консенсус. Так как важную роль в подсчете вероятности первой встречи играют пересечения слов из множества Hk, охарактеризуем все возможные пересечения/перекрытия.

Утверждение (3.1). Пусть H есть множество, состоящее из q слов длины L. Тогда множество Hk состоит из qk слов H i : H k = {H i }1 i q, k всевозможных конкатенаций k слов из H. Пусть слово Hi из Hk пересекается со словом Hj из Hk. Пусть w это их общее подслово, так что w является суффиксом Hi и префиксом Hj. Тогда существуют три возможных случая перекрытия, характеризующиеся длиной перекрытия |w|:

i. |w| = rL, где 1 r k.

ii. 1 |w| L.

iii. |w| = (m-1)L+p, где 1 p L и 2 m k.

Тогда для каждого случая верно:

Слово w принадлежит к Hr, а его левое дополнение для Hi (т.е.

i.

префикс p для Hi, такой, что Hi = p·w) принадлежит к Hk-r, так же как и его правое дополнение для Hj (т.е. суффикс s для Hj, такой, что Hj = w·s).

ii. L-суффикс Hi и L-суффикс Hj это два (возможно одинаковых) пересекающихся слова из H.

wim и wj1 wj Существуют два слова wi1 wi2 wjm из Hm iii.

такие, что они пересекаются на слово длины x, где (m 1) L x mL.

Пример (3.2). Пусть множество H = {ATAT, ACAT} и при k = 2 Hk = {ATATATAT, ATATACAT, ACATATAT, ACATACAT}. Пусть ATATATAT пересекается с ATATACAT с общим подсловом ATAT:

ATAT(ATAT)ACAT. Тогда это будет перекрытие типа (i), w = ATAT будет принадлежать к H1, так же как и левое и правое дополнения ATAT и ACAT соответственно. Перекрытие ATATAT(AT) ATACAT относится к типу (ii) c общим подсловом w = AT. Такое перекрытие возможно, потому что существует потенциальное перекрытие между L-суффиксом ATAT слова ATATATAT и L-префиксом ATAT слова ATATACAT. Мы видим, что в данном случае ATAT это одно самопересекающееся слово из H.

Перекрытие AC(ATATAT)AT относится к третьему типу (iii), общее слово w = ATATAT. Можно заметить, что данное перекрытие возможно из-за периодической структуры слова ATAT.

Далее мы вводим понятие тривиальных перекрытий слов из множества Hk. Учет только таких возможных перекрытий для слов из множества Hk позволит получить упрощение более общей формулы (3.8) для вероятности первой встречи слова из Hk.

Определение (3.3). Пусть даны множества H и Hk. Перекрытие между двумя словами Hi и Hj из Hk называется тривиальным, если оно относится к типу (i) или (ii) из Утверждения (3.1), т.е. длина общего слова либо кратна длине L слов из H, либо меньше L. Если все пары слов из Hk имеют только тривиальные перекрытия, то мы говорим, что множество Hk имеет только тривиальные перекрытия.

Замечание (3.4). Если множество Hk имеет только тривиальные перекрытия для некоторого k 2, то это верно для любого другого целого k 2.

Здесь мы дадим общий результат для формулы для подсчета вероятности первой встречи для слова из произвольного множества H.

Формула основывается на самопересечениях слов из множества H. Далее будет дано определение автокорреляционной матрицы для множества слов H. Более подробно теория излагается в работах [95, 96], посвященных элементарным языкам и корреляционным функциям.

Определение (3.5). Пусть даны два слова Hi и Hj из множества H.

Тогда корреляционным множеством для слов Hi и Hj называется множество CHi, H j, которое включает в себя все возможные правые дополнения w к Hi до Hj, т.е. такие слова w, что длина w не больше длины слова Hj и Hj является суффиксом слова Hi· w.

Корреляционным полиномом Сi,j(z) слов Hi и Hj называет многочлен:

P( w) z |w|.

Ci, j ( z ) = wCHi,H j Корреляционной матрицей для множества слов H называют матрицу qq, A( z ) = (Ci, j ( z ) + i, j )1i, j q.

A(z) размера такую что Матрицей вероятностей назовем q q -матрицу H ( z ) с q одинаковыми строками H ( z ) : H ( z ) = ( P ( H1 ) z L,…, P ( H q ) z L ).

Минимальным корреляционным множеством для слов Hi и Hj из H называется множество CH, H, которое включает в себя все возможные i j минимальные правые дополнения w к Hi до Hj, т.е. такие слова w, что длина w не больше длины слова Hj и Hj является суффиксом слова Hi· w и к тому же никакой собственный префикс w не является правым дополнение к Hi до некоторого произвольного слова из H.

Определение (3.6). Пусть дано множество H. Тогда коэффициентом перекрывания С(H) называется C ( H ) = Pr( H i w).

H i, H j H wCHi,H j Одним из результатов, изложенных в работе [96] явилась хорошая приближенная формула для подсчета вероятности первой встречи для слов из множества H.

Лемма (3.7). Пусть N длина текста, распределенного по закону Бернулли, H множество слов. Тогда вероятность FN ( H ) первой встречи слова из множества H равна:

FN ( H ) = 1 (1 + Pr( H ) C ( H ) ) N 1 + O N. (3.8) Доказательство этой леммы приводится в [96].

Таким образом, видно, что для подсчета вероятности первой встречи тандемного повтора, т.е. слова из множества Hk, необходимо посчитать все возможные перекрытия слов из Hk. Это может занять O(q2k) операций, где q это количество слов в H. Если длина периода повтора равняется нескольким десяткам нуклеотидов, повтор достаточно вырожденный и повторяет много раз, то это число q2k может легко превысить несколько миллионов. К тому же в задаче нахождения повторов в таком длинном тексте, как эукариотический геном, мы будем вынуждены делать подсчет С(H) для очень большого множества кандидатных повторов и, соответственно, множеств H. Но можно учесть структуру перекрытий слов из множества Hk, что и будет сделано ниже.

Выше было дано определение тривиальных перекрытий слов из Hk.

Заметим, что если период повтора определен правильно, то есть, нет меньших подпериодов, то множество Hk будет иметь только тривиальные перекрытия.

В дальнейшем мы считаем, что множество Hk, построенное для тандемного повтора по модели motif (с использованием IUPAC консенсуса), не содержит нетривиальных перекрытий. Этого можно добиться, находя для каждого кандидатного повтора минимальный подпериод. Таким образом, в этих условиях верна следующая теорема:

Теорема (3.9). Пусть даны множества H и Hk: Hk имеет только тривиальные перекрытия. Пусть NPrk(H)1, где N длина текста, Pr(H) вероятность мотива (сумма вероятностей слов из множества H). q – количество слов в H, L – длина слов из H.

Тогда в рамках модели Бернулли для вероятности FN ( H k ) первой встречи слова из множества Hk верно:

L FN ( H k ) = 1 (1 + Pr k ( H ) (1 Pr( H ) ) ) N 1 + O N (3.10) Формула (3.10) может быть переписана в виде:

N Pr k ( H )(1 Pr( H ) ) FN ( H k ) 1 e.

Для доказательства теоремы нам понадобится дополнительное утверждение (3.11).

Утверждение (3.11). Пусть H множество из q слов длины L. Hk имеет только тривиальные перекрытия. Тогда для модели Бернулли C ( H k ) = Pr( H k ) Pr( H ) + O ( L Pr 2 k 1 ( H ) ). (3.12) Доказательство. Так как Hk имеет только тривиальные перекрытия, возможны только два вида перекрытий слов из Hk: типов (i) и (ii). Заметим сначала, что для любого слова из Hk любое слово из H будет является правым дополнением до какого-то соответствующего слова из Hk. И никакое слово длины менее чем L, не может быть правым дополнением к некоторому слову из Hk, так как случай (iii) нетривиальных перекрытий исключен. Поэтому вклад случая (i) в сумму для C(Hk) из определения (3.6) k + будет Pr( H ) Pr( H ), что в случае модели Бернулли равно Pr ( H ).

k Заметим, что пересечения слов Hi и Hj из H с длиной пересекающегося слова кратной (но не равной) L не войдут в C(Hk), т.к. они не будут минимальны в смысле определения (3.5), а именно они будут содержать одно из слов из множества H в качестве префикса.

Рассмотрим, какой вклад в сумму для С(Hk) дает случай (ii). Для произвольного слова Hi из Hk возможное правое дополнение запишется в виде w·w1w2···wk-1, где wi принадлежит множеству H, длина w меньше L.

Таким образом, |w| принимает не больше L возможных значений.

Вероятность Pr(w) ограничена единицей. Следовательно, вклад в C(H k ) = Pr( H i w) случая (ii) для модели Бернулли будет k H i, H j H wCH i,H j 2 k ограничен значением Pr( H k )m Pr( H k 1 ), что равно Pr( H ) L.

Суммируя вклады в С(Hk) случаев (i) и (ii) получаем требуемое утверждение.

Замечание (3.13). Обычно требуется считать вероятность для редких событий, т.е. когда Pr(Hk)N1. Очевидно, что тогда само значение Pr(Hk) 2 k очень мало. Тогда, значение Pr( H ) L может быть оценено как N Pr( H k ) N Pr( H k 1 ) L 1 L L 2 k )L = = O O = O 2.

Pr( H N N N N N Теперь можно легко доказать теорему (3.9).

(3.9). Пусть даны множества H и Hk: Hk имеет только Теорема тривиальные перекрытия. Пусть NPrk(H)1, где N длина текста, Pr(H) вероятность мотива (сумма вероятностей слов из множества H). q – количество слов в H, L – длина слов из H.

Тогда для модели Бернулли верно:

L FN ( H k ) = 1 (1 + Pr k ( H ) (1 Pr( H ) ) ) N 1+ O (3.14) N Доказательство. Учитывая утверждение (3.11) лемма (3.7) переписывается в виде:

( ) FN ( H k ) = 1 1 + Pr( H k ) Pr( H k ) Pr( H ) + O ( L Pr 2 k 1 ( H ) ) N 1 + O N (3.15) Обозначим через выражение 1 + Pr( H k ) (1 Pr( H ) ) =. Тогда, используя замечание (3.13), выражение (3.15) переписывается в виде:

N L FN ( H ) = 1 + O 2 1 + O N.

k N N L Здесь множитель + O 2 может быть представлен как N L N L L L N log 1+ O N + O N 2 = N 1 + N O = N 1 + O =e N N.

L 1 L И т.к. 1 + O 1 + O = 1 + O, то вытекает (3.14).

N N N Замечание (3.16). Если длина текста N сравнима с длиной мотива kL, то приближение (3.14) лучше уточнить:

FN ( H k ) 1 (1 + Pr k ( H ) (1 Pr( H ) ) ) N + kL. (3.17) Замечание (3.18). От выражения (3.17) легко перейти к эквивалентному выражению (2.5) взяв первый член от разложения (1 + x) N, где x = Pr( H k ) (1 Pr( H ) ) :

N = (1 x + x x + …) = (1 x + O ( x ) ) = (1 x ) + O ( Nx ) N N N N (1 + x) = 2 3 2 1+ x В случае NPrk(H)1, получаем аналогично замечанию (3.13):

O( Nx 2 ) = O( NP k ( H )) = O( N ).

Таким образом, мы видим, что точность аппроксимации при переходе от формулы (3.14) к формуле (2.5) не страдает.

Модель ‘Mask’.

Вторая модель для подсчета вероятности повтора основана на учете структуры повтора, консервативности позиций. Для нее не важны конкретные буквы, из которых состоит повтор, а скорее насколько часто одна и та же буква встречается в конкретной позиции.

Рассмотрим k-кратный повтор, слово S, S = w1w2…wk. Слова w1,w2,…wk похожи между собой, но не обязательно идентичны. Обозначим через L их общую длину: L = wi. Выровняв их относительно друг друга, т.е. выписав слова w1,w2,…wk одно под другим, для каждой позиции i :1 i L, мы можем сказать чему равно максимальное количество идентичных букв для этой позиции. Обозначим эти числа через ki.

Пример (3.19). Рассмотрим повтор TTC|TCC|TGG. Для него k = 3;

k1=3, т.к. буква T встречается на первой позиции три раза из трех;

k2=1, т.к.

все буквы на второй позиции разные;

k3=2, т.к. на третьей позиции буква C встречается два раза из трех.

Далее, для набора (L;

k;

k1,…,kL) мы можем посчитать вероятность PrS ( L;

k ;

k1, k2, …, k L ) встретить такую структуру случайно на произвольной позиции в тексте. Мы находимся в рамках модели Бернулли для текста, с вероятностями букв pA, pC, pG, pT. Поэтому мы можем считать позиции независимыми и просто перемножить вероятности встречи как минимум ki идентичных букв на позиции i для каждой позиции i :1 i L. Для каждой же позиции i вероятность найти не менее чем ki, идентичных букв, получается как сумма вероятностей полиномиальных распределений.

L k!

PrS ( L;

k ;

k1, k2, …, k L ) = n n n n p AA pCC pGG pTT (3.20) nA !nC !nG !nT !

i =1 n A, nC, nG, nT Z0 :

n A + nC + nG + nT = k, { A,C,G,T }:n ki Для оценки значимости найденного повтора в тексте длины N в модели “mask” мы используем оценку вероятности встретить структуру, описываемую набором (L;

k;

k1,…,kL) в случайном тексте длины N. Под эту структуру, «маску», подходят все слова длины Lk, для которых при выравнивании их k подслов w1,w2,…wk длины L на каждой позиции i количество идентичных букв не меньше, чем ki. Эту вероятность мы оцениваем, применяя приближенную формулу Пуассона и (3.20).

PS -value = 1- (1- PrS ( L;

k ;

k1, k2,…, k L )) N - Lk +1 (3.21) Безусловно, минусом этого подхода является то, что мы не учитываем самоперекрывания слов, подходящих под «маску». Но учет этого слишком усложнил бы задачу, к тому же, в случае модели «mask» нет такой строгой структуры самопересечений, как в модели «motif», и вероятность, которой мы пренебрегаем, обычно сильно меньше, чем та, которой мы бы пренебрегли, если бы использовали обычную формулу Пуассона в модели «motif» (2.3).

В заключение, можно сказать, что мы сформулировали две модели для сопоставления повтору множества слов с похожей структурой, включающее данный повтор. В модели «motif» это слова, подходящие под консенсус, в модели «mask» это слова, подходящие под «маску», т.е. обладающее не меньшей, чем у данного повтора, консервативностью позиций.

Выбор между этими моделями для оценки статистической значимости повторов стоит за исследователем. Наш опыт показывает, что алгоритм поиска не сильно чувствителен к смене модели, но в наших экспериментах мы все же предпочитали модель «mask», потому что в тех случаях, где наблюдалось расхождение, модель «mask» работала более адекватно. С другой стороны, эта модель не учитывает буквенный состав повтора, поэтому в текстах с сильно смещенным от равномерного распределением букв, мы бы посоветовали пользоваться моделью «motif».

Замечание (3.22). Формулы (2.5) и (3.21) можно обобщить на случай дробного количества копий x = k + x0 : k Z, 0 x0 1. Пусть L длина мотива, а l = x0 L – длина последнего неполного периода. Например, для повтора CTT|CAT|CT k=2, x0= 3, x =2 3, L=3, l=2.

Для модели «motif»: строим, как и раньше, консенсус. Например, для повтора CTT|CAT|CT консенсус будет CWT. Далее, вероятность мотива будет вероятность Hk, умноженная на вероятность l-‘хвоста’, т.е. Px-motif = Pr(Hk)·Pr([H]l). Для повтора CTT|CAT|CT вероятность Hk будет Pr(Hk) = Prk(H) = ( P(C)·P(W)·P(T) ), а вероятность l-хвоста Pr([H]l) = Pr(C)·Pr(W).

Таким образом, для нашего примера вероятность всего x-мотива будет Pr 3 (C)·Pr 3 (W)·Pr 2 (T). Далее, в формуле (2.5) мы заменяем PrF(Hk) на Px-motif = Pr(Hk)·Pr([H]l), но поправочный множитель (1 PrF ( H ) ) остается тем же, в силу тандемной структуры Hk. В результате, для дробного количества копий мотива, x = k + l L, формула (2.5) переписывается в виде:

PF -value 1 (1 Pr k ( H )·Pr([ H ]l ) (1 PrF ( H ) ) ) N Lk + (3.23) В модели «mask»: первые k слов полной длины L так же, как и раньше, выравниваются одно под другим, последним словом записывается l-хвост.

Дальше, точно так же для каждой позиции i подсчитываются ki. Заметим, что количество букв в первых l позициях равно (k+1), в последних (L-l) позиции равно k. Поэтому формула (3.20) превращается:

l k!

PrS ( L;

l;

k ;

k1, k2,…, kL ) = pAA pCC pGG pTT n n n n nA !nC !nG !nT !

i =1 nA, nC, nG, nT Z0 :

nA + nC + nG + nT = k, { A,C,G,T }:n ki (3.24) (k + 1)!

L n n n n pAA pCC pGG pTT nA !nC !nG !nT !

i =l +1 nA, nC, nG, nT Z0 :

nA + nC + nG + nT = k +1, { A,C,G,T }:n ki А формула (3.21) соответственно в PS -value = 1- (1- PrS ( L;

l ;

k ;

k1, k2,…, k L )) N - Lk l +1 (3.25) Для повтора CTT|CAT|CT с k = 2, L = 3, l = 2, значения ki будут следующие: k1=3, k2=2, k3=2.



Pages:   || 2 | 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.