авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 21 | 22 || 24 | 25 |   ...   | 26 |

«Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции English Труды RCDL 2010 ...»

-- [ Страница 23 ] --

слова, т. е. представляют собой свертки, достаточ • тема «ЕГЭ» (или «единый государственный ным для понимания образом отражающие инфор экзамен») была выбрана из-за того, что в самой мационную структуру анализируемого набора тек природе рассматриваемого объекта (и текстов, его стов, что верифицируется с помощью эксперимента, описывающих) заключены периодизация и хорошо в котором на основании этих сверток информанты знакомый лингвистам принцип построения сюжета, извлекают требуемую (в инструкции к эксперимен причем эти периоды несут особую информацион ту) информацию;

ную нагруженность (подготовка – проведение – • возможности ресурса Галактики-Зум в це подведение итогов), что позволяет в процедуре про лом позволяют использовать его в исследователь ведения эксперимента с информантами через опре ских проектах при решении задач понимания и деления интервала эксплицировать основную ин смысловой компрессии текстов 1 ;

к тому же этот формацию, содержащуюся в предъявляемых Инфо ресурс оказался единственным из доступных авто портретах.

рам, который позволил провести исследование в рамках поставленной задачи 2. 2.2.3 Методика эксперимента Цель данной работы – апробировать методику На вход системе были посланы запросы:

экспериментального анализа особенностей Инфо (1) «ЕГЭ» и (2) «единый государственный экзамен».

портретов как сверток текстов. В результате такого Результаты этих запросов система распределила по анализа предполагается получение методики работы 9 выборкам, каждая из которых содержит докумен с информационными потоками – через систему, по ты, относящиеся к одному из прошедших месяцев рождающую Инфопортреты как свертки, – анало 2009 года (от января по сентябрь включительно). В гичной той методике, что используется для текстов.

табл. 1 приведены объемы этих выборок в числе 2.2 Цели и задачи, материал и методика документов.

2.2.1 Задача эксперимента Таблица 1. Объемы выборок по запросу «ЕГЭ» и «единый государственный экзамен»

Основной задачей данного эксперимента было определить, является ли Инфопортрет реальной «ЕГЭ» «единый государст сверткой текста, т. е. сможет ли информант восста- венный экзамен»

новить по нему информацию об объекте, описанном месяц Число до в данном тексте, в частности, информацию проце- кументов Число документов дурно-временного характера. Для этого перед ин- Январь 566 формантами ставится задача определения времен Февраль 831 ного периода, к которому относится группа текстов.

Март 800 При этом из свертки должны быть удалены все не Апрель 1036 посредственные указания на временной период (ме Май сяц, квартал, конкретные даты). Июнь 1225 2.2.2 Материал Июль 817 Нами анализировались новостные тексты: их Август 739 имеется достаточное количество по выбранной на Сентябрь 790 ми тематике, они, в основном, компактны и ограни итого 7768 чены лексически.

В качестве запросов были выбраны запросы При проведении эксперимента с информантами «ЕГЭ» и «единый государственный экзамен», т. е.

основной задачей было определить, насколько пол выбирались тексты, содержащие данные слово или но и точно свертка (ИП) – последовательность зна чимых слов и словосочетаний, ранжированных по убыванию значимости (см. пример в табл. 2) – от Субъективный подход к компрессии (задача, адресат и ражает информацию, содержащуюся в множестве предметная область) реализуется в виде запроса пользо текстов, в частности, информацию процедурно вателя, а объективных подход – в виде правил, согласно временного характера, т. е. перед информантами которым осуществляется компрессия (определение слов и стояла задача на основании свертки определить, к словосочетаний, задающих свертку текста) (ср. [2]) какому периоду относятся тексты данной выборки.

Например, на сайте Nigma.ru, который тоже дает сверт Каждому информанту выдавалась инструкция:

ку, нельзя отсечь документы по дате, что необходимо по «Каждый из 9 листов соответствует выборке условиям данного эксперимента одного месяца 2009года. Ваша задача – оценить и области (переход на систему ЕГЭ) ни в силу про отметить на каждом листе свой выбор: фессиональной деятельности, ни в силу жизненного 1. предположительный период: подготовка к опыта (т. к. сами сдавали традиционные экзамены).

экзамену – проведение экзамена – подведение ито- Процедуры принятия решения и используемые ими гов;

критерии не связаны со специальными знаниями и 2. месяц: от января до сентября 2009 года;

навыками (например, аналитической работой с ин 3. критерии, особенности, комментарии и формационными потоками). Смысловая структура т. д.» текстов (выборок текстов) данной предметной об ласти в большинстве случаев неоднородна и пред Таблица 2. Пример Инфопортрета (февраль) полагает конкуренцию критериев, т. к. включает в себя в качестве подтем как минимум три: окончание все специально школы – сдача ЕГЭ – поступление в вуз.

государственный экзамен сти Второй эксперимент проводился через 2,5 меся общеобразовательные предме ца после первого с той же бригадой информантов Госэкзамен ты (добавился один новый). Методика проведения экс ЕГЭ успешная сдача перимента должна была минимизировать влияние итоговая аттестация репетиционный индивидуальных ассоциативных связей. Собранная Обществозна бригада участвовала в двух экспериментах. В про вступительные испытания нию межутке результаты эксперимента с информантами обязательные не обсуждались. Сопоставительный анализ прото экзамены уважительные причины колов второго эксперимента исключает возмож штатный режим все выпускники ность влияния на его результаты первого экспери Аттестация основные сроки мента;

таким образом, мы считаем, что эксперимен Аттестат пересдать тальный дизайн удовлетворяет требованиям чисто досрочная сдача те предметы ты эксперимента.

экзаменацион 3 Результаты единый госэкзамен ный вторая волна Двойка Первичной задачей анализа данных двух экспе дополнительные сроки все экзамены риментов было определить корректность Инфо вступительные экзамены первая волна портретов как достаточной свертки текста по пра дополнитель- вильности определения периода времени для задан обязательные предметы ные занятия ных выборок. Кроме этого, было необходимо:

неудовлетвори- • выделить свертки, лучше всего отражаю тельный резуль- щие рассматриваемую информацию, т. е. обеспечи экзаменационный лист тат вающие «правильный» ответ информантов;

единственная форма • ранжировать свертки по степени «правиль ности» ответов, для чего в анкете задано два пара Помимо основной задачи эксперимента реша метра – период, месяц);

лись следующие методические задачи:

• определить критерии, помогающие и ме • выделить свертки, лучше всего отражаю шающие «правильному» принятию решения.

щие рассматриваемую информацию, т. е. обеспечи вающие «правильный» ответ информантов;

3.1 Определение периода • ранжировать свертки по степени «правиль На основании результатов определения испы ности» ответов, для чего в анкете задано два пара туемыми периода в эксперименте 1 можно выде метра – период (главный параметр), месяц (уточ лить четыре класса (по убыванию числа правиль няющий параметр) 3 ;

ных и согласованных ответов информантов, • определить причины «правильного» и «не см. табл. 3)):

правильного» выборов ответов.

1 февраль, март, сентябрь (подготовка экзаме Как уже говорилось, в нашем исследовании на и подведение итогов);

смысловой компрессии важно учитывать не только 2 январь (подготовка экзамена);

объективную, но и субъективную сторону, прежде 3 апрель, август (подготовка экзамена и под всего, факторы адресата (в пользу которого осуще ведение итогов);

ствляется компрессия) и предметной области.

4 май, июнь, июль (неопределенность прове В качестве информантов (адресатов компрессии) дение экзамена/подведение итогов).

выступили 16 (17) студентов и аспирантов СПбГУ Свертки, предъявленные испытуемым в ходе гуманитарных специальностей в возрасте 20 – эксперимента 2, дали другое распределение пра лет. Они не являлись специалистами в предметной вильных и согласованных ответов испытуемых.

Если аналогичным образом сгруппировать свертки в классы по данным эксперимента 2, выделяется Напомним, что параметры, заданные в анкетах испы пять классов (см. табл. 3):

туемых, нужны для определения правильности восста 1 июль, февраль (подведение итогов и подго новления смысла (информационной структуры) выборки товка соответственно);

текстов Определение параметра «месяц» (частично рас 2 апрель (проведение экзаменов вместо подго смотрено далее) носит уточняющий характер.

товки);

3 январь, май, сентябрь (подготовка, проведе- Вполне объективно месяцы апрель, май, июнь и июль характеризуются максимальным накалом ние и подведение итогов соответственно);

4 июнь (подготовка экзамена вместо проведе- страстей и конкуренцией рассматриваемых трех ния, но сравнительно высокая согласованность);

подтем (окончание школы – сдача ЕГЭ – поступле 5 август, март (подведение итогов и подготов- ние в вуз). Возможно, именно в реализации функ ка соответственно). ции воздействия на адресата наряду с традиционной Месяц февраль сохранил лидерство среди свер- информационной функцией (т. е. в «публицистич ток эксперимента 2 (класс 1), хотя, если сравнивать ности») заключается причина того, что в экспери с данными эксперимента 1, количество правильных менте 2 «период» определяется для этих месяцев ответов несколько упало (с 81 % до 65 % случаев). гораздо согласованнее (по сравнению с экспери Свертка март занимает полярные места в распреде- ментом 1). Кульминация этого эффекта падает на лении сверток по правильности периода: лидирую- месяц июль: наихудшее распознавание периода в щее положение в эксперименте 1 и одно из самых эксперименте 1 и наилучшее в эксперименте низких в эксперименте 2. (44 % vs. 71 %).

Таблица 3. Результаты определения испытуемыми периода имя свертки (месяц, для которого осуществлялась выборка) Эксперимент 1: запрос «ЕГЭ»

Период (соглас но анкетам ии.) январь февраль март апрель май июнь июль август сентябрь Подготовка эк 0,19 0,06 0,13 0,31 замена 0,69 0,81 0,81 0, Проведение эк замена 0,13 0,13 0,25 0,38 0,50 0,50 0,44 0,13 0, Подведение ито гов 0,19 0,06 0 0,06 0,31 0,44 0,44 0,56 0, Эксперимент 2: запрос «единый государственный экзамен»

Период (соглас но анкетам ии.) январь февраль март апрель май июнь июль август сентябрь Подготовка эк 0,41 0,29 0,35 0,00 0,35 0, замена 0,59 0,65 0, Проведение эк замена 0,24 0,24 0,12 0,18 0,29 0,12 0, 0,65 0, Подведение ито гов 0,18 0,12 0,47 0,06 0,06 0,24 0, 0,71 0, Эксперимент 1 Эксперимент Свертка «апрель»: несогласованность опреде- Свертка «апрель»: сравнительно высокая согла ления периода для свертки «апрель» в (56 % «под- сованность определения периода – 65 % «проведе готовка к экзамену» и 38 % «проведение экзамена») ние экзамена» (а не подготовка к нему, как было в эксперименте 1) – соотносится с гораздо лучшими связана с невозможностью правильного определе результатами восстановления месяца (35 % «ап ния месяца (25 % «февраль» и 38 % «май»).

Свертка «май»: наблюдается правильный выбор рель» и 29 % «июнь»).

и периода, и месяца, но низкая согласованность Свертка «май»: наблюдается правильный выбор (50 % для периода и 25 % для месяца). периода, но низкая согласованность и наилучшее Свертка «июнь»: наилучший результат восста- определение месяца (59 % для периода и 76 % для новления месяца – 50 % информантов;

более того, месяца).

это редкий случай, когда задачи определения пе- Свертка «июнь»: невозможность определения риода и месяца оказались равносложными: 50 % – месяца, определение периода как «подготовка к это и число испытуемых, правильно определивших экзамену» в 59 % случаев (т. е. резкое отличие от «июня» в эксперименте 1).

период.

Свертка «июль»: колебания в определении пе- Свертка «июль»: максимальная согласован риода для свертка (по 44 % между «проведением ность (в отличие от эксперимента 1) в определении экзамена» и «подведением итогов»), по-видимому, периода «подведение итогов» и колебания в опре делении месяца (24 % «июль» и 47 % «август»).

связаны с особенностями выбора месяца (25 % «июль» и 31 % «август»). Свертка «август»: колебания в выборе периода Свертка «август»: колебания в выборе периода между «подготовкой к экзамену» и «подведением между «подготовкой к экзамену» и «подведением итогов» (35 % и 47 %) и невозможность определе итогов» (31 % и 56 %) и невозможность определе- ния месяца (максимальное для этой сверти число испытуемых – всего лишь 29 % – отнесло ее к «сен ния месяца (максимальное для этой сверти число испытуемых – всего лишь 25 % – отнесла ее к «ию- тябрю»).

лю»). Анализ тем текстов разных выдач показывает, что однозначное определение периода и месяца не Применяя нарративную метафору, можно рас обязательно должны соответствовать друг другу. смотреть девять сверток (для каждого из периодов, Сроки проведения ЕГЭ колеблются от апреля до которому соответствовала одна выборка) как ком июля (согласно приказу «Об утверждении сроков и поненты единой смысловой структуры высокого единого расписания проведения …» уровня, характеризующейся динамичной сменой (http://www1.

ege.edu.ru/content/view/475/36/): дос- ситуаций (при том, что каждая из этих ситуаций рочное проведение – апрель, для основной массы сама имеет сложную смысловую структуру). Тогда выпускников 2009 года – июнь (а также 26 и 29 свертку «январь» можно описать как преамбулу мая), для выпускников прошлых лет – июль. (фазу ориентации), «февраль» – как основу завязы Выборочный анализ текстов выдач по рассмат- вания сюжета, «сентябрь» – как коду (мораль всей риваем запросам (месяцы апрель – июль) показыва- истории). Именно эти компоненты нарратива ведут ет, что выдача на запрос «единый государственный себя сходным образом и для запроса «ЕГЭ», и для экзамен» в большей степени ориентированы на запроса «единый государственный экзамен». Наи «проблемные» случаи, а на запрос «ЕГЭ» – на ти- более сюжетными и неоднозначными оказались пичные. Для «апреля» (эксперимент 2) проблемным свертки «апрель – июль», на которых происходит является досрочное проведение ЕГЭ (ср. высокую развитие сюжета. Анализ результатов эксперимен согласованность и сравнительно неплохим восста- тов демонстрирует разные сюжетные линии. Сте новлением месяца). Для июня и июля – сдача ЕГЭ пень «публицистичности» (воздействия на адресата, выпускниками прошлых лет (неравное положение например, убеждения) задает разные направления:

выпускников 2009 года и прошлых лет, т. е. более типичное положение дел (для «информационных сложные условия для последних). Поэтому «июнь» текстов») или проблемные случаи (для «публици дает большее внимание к подготовке, а «июль» – к стичных текстов»).

подведению итогов. Степень «публицистичности» соотносится с преимущественной стратегией работы информан 4 Заключение тов: на основании анализа свертки как целостного объекта или выделения наиболее важных слов в ИП.

Результаты эксперимента подтвердили обосно Информационно нагруженные тексты характеризу ванность работы с Инфопортретом (ИП) выборки – ются:

сверткой множества текстов – как единым объек • более определенными наборами (более вы том. На данном этапе исследования инфопортретов сокими значениями коэффициента значимости);

была отработана методика проведения эксперимен • в таких наборах информантам легче выде тов и сформирован круг вопросов, которые возмож лить слова, важные для последующего принятия но изучать на рассматриваемом материале.

решения, критерии выбора близки у разных инфор 1. ИП можно рассматривать как свертку текста, мантов.

т. е. даже наивный адресат (а не подготовленный Публицистически окрашенные тексты, напро работник аналитического или информационного тив, отличаются:

отдела) может восстановить по свертке (сверткам) • менее определенными наборами (более информацию об исходном объекте. Под исходным низкими значениями коэффициента значимости);

объектом понимается множество текстов выдачи, • т. е. срез информационного потока, полученный в в этих случаях информанты указывают на соответствии с заданным запросом в рамках работы важность разнообразных слов, критерии определе система Галактика-Зум. Таким образом, мы получи- ния этих слов во многом определяются личными ли методику работы с информационными потоками предпочтениями.

– через систему, порождающую Инфопортреты как Литература свертки.

2. Новостные тексты различаются по коммуни- [1] Антонов А.В., Ягунова Е.В. Лингвистический кативной цели, типу и структуре текста. С помощью анализ информационного портрета как свертки разработанной методики можно анализировать спе- множества текстов. Постановка эксперимента // цифику преимущественно информационных и пре- Новые информационные технологии в автома имущественно публицистических текстов (названия тизированных системах: материалы тринадца условные и уточняются по ходу работы). того науч.-практ. семинара. – М., 2010. – С. 50 3. Разные лексические варианты анализируемого 59.

термина («ЕГЭ, единый государственный экзамен, [2] Леонтьева Н.Н. О методах смысловой компрес единый госэкзамен, единый экзамен») в запросе сии текста // Интернет и современное общество:

порождают выдачи, различающиеся по составу ин- труды X Всерос. объединенной конф., СПбГУ.

формационных и публицистических текстов. Запрос СПб., 2007.

с самым кратким вариантом – «ЕГЭ» – обеспечива- [3] Ягунова Е.В. Вариативность стратегий воспри ет выдачу преимущественно информационных тек- ятия звучащего текста (экспериментальное ис стов, а запросу «единый государственный экзамен» следование на материале русскоязычных тек (максимально развернутое атрибутивное сочетание) стов разных функциональных стилей). – Пермь, соответствует выдача с большим количеством пуб- 2008.

лицистических текстов. [4] Ягунова Е.В. Набор опорных слов как вид свёртки текста (в сопоставлении с набором ключевых слов) // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Межд. конф. «Диалог» (Бекасово, 4 – 8 июня 2008 г.). – М.: РГГУ, 2008. – Вып. (14).

Интегрированная система для информационной поддержки исследования механизмов регуляции транскрипции © Н.Л. Подколодный1,2, Е.В. Игнатьева1, Д.А. Рассказов1, О.А. Подколодная1, Е.А. Ананько1, Н.Н. Подколодная1, Е.М. Залевский Институт цитологии и генетики СО РАН, г. Новосибирск Институт вычислительной математики и математической геофизики СО РАН, г. Новосибирск pnl@bionet.nsc.ru ции транскрипции, выполняют различные функции Аннотация и работают в тесной кооперации, в составе сложных В настоящее время накоплен колоссальный комплексов. Важную роль в контроле транскрипции объем данных в области регуляции экс- играют транскрипционные факторы, специфически прессии генов эукариот. В данной работе взаимодействующие с регуляторными районами представлены подходы к построению онто- генов и другими белками транскрипционной маши логии предметной области, формализации ны.

описания механизмов регуляции транс- Интенсивность транскрипции гена в значитель крипции и разработки на этой основе мето- ной степени определяется и другими обстоятельст дов и системы интеграции гетерогенной вами, к числу которых относятся состояние хрома информации об особенностях регуляции тина (открытый, закрытый), уровень метилирования экспрессии генов. Результаты являются ак- ДНК, а также плотность нуклеосомной упаковки туальными как для научных, так и приклад- ДНК.

ных исследований в области системной Коэкспрессирующиеся гены, имеющие сходный биологии и биоинформатики. уровень транскрипции при определенных условиях в конкретном типе клеток, являются удобным объ 1 Введение ектом для исследования механизмов регуляции транскрипции. Исследования показывают, что регу Исследование механизмов регуляции транс ляторные районы групп коэкспрессирующихся ге крипции является важной фундаментальной про нов зачастую имеют общие черты организации, что блемой. Ее решение необходимо как для успешного выражается в наличии регуляторных паттернов предсказания особенностей экспрессии генов, так и (CRM – цис регуляторных модулей), состоящих из для выполнения прикладных исследований, напри устойчивых сочетаний сайтов связывания траснк мер, реконструкции регуляторных сетей, конструи рипционных факторов различных типов и других рования генетических конструкций с заданными мотивов [1]. Выявление и анализ регуляторных пат свойствами, исследования механизмов заболеваний, тернов является основой для построения обобщен поиск мишеней для лекарств, токсикологических ных моделей регуляторных районов группы коэкс исследованиях, выявлении ключевых биомаркеров и прессирующихся генов [2] и обеспечивают понима т.д.

ние общего механизма регуляции транскрипции.

У многоклеточных эукариотических организмов Наличие большого разнообразия тканей и типов транскрипционная активность конкретного гена клеток у животных организмов подразумевает на зависит от органа, ткани, типа клетки, стадии разви личие достаточно большого разнообразия механиз тия организма, стадии клеточного цикла или диф мов регуляции транскрипции и, соответственно, ференцировки клеток, многочисленных индукторов большое разнообразие регуляторных паттернов, либо репрессоров и т. д. Такая тонкая и сложная ответственных за их реализацию. В настоящее вре регуляция обеспечивается участием большого раз мя накоплен колоссальный объем данных в области нообразия регуляторных белков и механизмов их регуляции экспрессии генов эукариот, и наблюдает функционирования. Белки, участвующие в регуля ся их непрерывный рост. В связи с этим, большую актуальность приобретают формализация описания механизмов регуляции транскрипции и разработка Труды 12й Всероссийской научной конференции на этой основе методов интеграции гетерогенной «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, Казань, Россия, информации об особенностях регуляции экспрессии об уровнях экспрессии генов и структурных моде генов. лей регуляторных районов генов.

Семантическая интеграция гетерогенных данных основывается на результатах концептуального ана 2 Постановка задач по исследованию ме лиза предметной области, в рамках которого опре ханизмов регуляции транскрипции деляются множество понятий (терминов) предмет ной области, их определений и атрибутов, отноше 2.1 Интеграция данных по регуляции транскрип- ний между ними, способы их описания и использо ции генов вания, а также связанных с ними аксиом и правил вывода. Такое согласованное описание конкретной Разрабатываемая система предназначена для предметной области называют онтологией.

компьютерной поддержки исследований механиз На рис. 1 представлена схема интеграции дан мов регуляции транскрипции генов в различных ных по регуляции транскрипции и экспрессионным типах клеток, тканей и органов, в частности, инте паттернам генов из различных источников инфор грации данных по регуляции транскрипции и экс мации: баз данных EMBL/GenBank, UniGene, En прессионным паттернам генов из различных миро trezGenome, EntrezGene, SWISS-PROT, TRRD и др.

вых ресурсов, накопления информации об извест ных механизмах регуляции транскрипции, выявле ния групп коэкспрессирующихся генов, обнаруже ния закономерностей организации районов регуля ции транскрипции у групп коэкспрессирующихся генов, реконструкции гипотетических механизмов регуляции транскрипции с учетом информации о функциях и структурах регуляторных белков, при сутствующих в заданных клетках или тканях на оп ределенной стадии развития, а также закономерно стей строения регуляторных районов коэкспресси рующихся генов.

Интегрированная система включает следующие компоненты:

• Рис. 1. Схема интеграции данных по регуляции база данных, интегрирующая информацию, транскрипции и экспрессионным паттернам генов необходимую для исследования механизмов регу из различных источников информации ляции транскрипции:

- структурно-функциональная организация рай 2.2 Структура онтологии регуляции экспрессии онов регуляции транскрипции генов;

генов - локализация генов, стартов транскрипции, эк зон/интронной структуры и других сигналов в пол- Одним из основных этапов семантической инте ных геномах;

грации гетерогенных данных является согласование - уровень экспрессии генов в различных тканях и понятий предметной области, способов их описания органах, полученный на основе ДНК-чиповых дан- и использования (сопоставления данных, обработки ных;

данных и т. д.).

- компьютерная аннотация регуляторных рай- Онтологии позволяют представить понятия в та онов генов, человека, мыши, крысы функциональ- ком виде, что они становятся пригодными для ма ными сигналами, значимыми для регуляции транс- шинной обработки и вследствие этого используются крипции, включая сайты связывания транскрипци- в качестве посредника между пользователем и ин онных факторов, функциональные мотивы, CpG формационной системой или между членами науч острова, нуклеосомный потенциал, структурные ного сообщества при обмене данными.

закономерности, значимые для регуляции транс- Формально онтология включает набор понятий крипции, и т. д.;

(терминов) предметной области, их определений и - экспрессия генов белков-регуляторов транскрип- атрибутов, а также связанных с ними аксиом и пра ции в различных клеточных ситуациях;

вил вывода.

- формальное описание механизмов регуляции Таким образом, формальная модель онтологии – транскрипции, включая стадии регуляции транс- это упорядоченная тройка конечных множеств крипции;

O = Т, R, F, - функциональные роли регуляторов транскрипции на различных стадиях;

где Т – конечное и непустое множество классов и • компонента поиска закономерностей и по- концептов (понятий, терминов) предметной облас строения моделей структурно-функциональной ор- ти, которую описывает онтология О;

ганизации регуляторных районов коэкспрессирую- R – конечное множество отношений между кон щихся генов эукариот (человека, мыши, крысы);

цептами заданной предметной области;

• компонента реконструкции сетей регуляции транскрипции генов с использованием информации F – конечное множество функций интерпрета- котором представлены способы доступа к тем или ции, заданных на понятиях и/или отношениях онто- иным программам, обеспечивающим решение кон логии O или аксиом, которые используются для мо- кретных прикладных задач заданным методом;

про делирования утверждений, которые всегда являются токолы обращения;

форматы и состав входных и истинными, что ограничивает интерпретацию и выходных данных и т. д.

обеспечивает корректное использование понятий.

2.3 Онтология верхнего уровня Разработка онтологии регуляции транскрипции является сложным и затратным процессом. Первым Пусть X – некоторый класс, а x – конкретные эк этап этого процесса – онтологический анализ пред- земпляры этого класса, которые могут принимать метной области регуляции транскрипции генов эу- различные значения. Например, будем обозначать кариот, результатом которого являются: через G, R, P, C классы РНК, генов, белков, белко • словарь терминов, точных их определений вых комплексов, а через g, r, p, c – конкретные гены, и взаимосвязей между ними;

РНК, белки и белковые комплексы, соответственно.

• описание правил и ограничений, согласно В качестве базовых отношений верхнего уровня которым на базе введенной терминологии форми- нами используются следующие отношения:

руются достоверные утверждения, описывающие • foundational relations – is_a (has_subclass), состояние системы;

part_of (has_part), part_for, instance_of (has_instance), • модель, которая на основе существующих includes (include_of), composed_of, consist_of;

утверждений позволяет сделать соответствующие • spatial relations – located_in, contained_in, in выводы, позволяющие вносить изменения в систему cludes, composed_of, adjacent_to;

для повышения эффективности её функционирова- • temporal relations – transformation_of, de ния. rives_from, preceded_by;

Структура онтологии регуляции экспрессии ге- • participation relations – has_participant, нов, которая разрабатывается нами, включает сле- has_agent, regulates.

дующие разделы: Введем определения некоторых отношений:

(1) Онтология верхнего уровня или онтология базовых знаний. В этом разделе онтологии описы x instance_of X =def x X.

ваются наиболее общие концепты и отношения, которые не зависят от конкретной проблемы или области. Например: p instance_of P – белок p входит в (2) Понятия предметной области. В этом раз- класс белков P.

деле онтологии описываются такие понятия пред- Введем отношения между классами, которые ис метной области, как ген, РНК, белок, геномная по- пользуются нами при описании предметной облас следовательность, район регуляции транскрипции, ти:

промотор, сайт связывания транскрипционного фактора, структура и функция белка, механизм ре- X1 is_a X2 =def x: x instance_of X1 x instance_of X2.

гуляции транскрипции, путь передачи сигнала, ме таболические пути, генная сеть и т. д.

Например: P1 is_a P2 – любой белок из класса P (3) Онтология экспериментальных исследо входит в класс P2.

ваний и доказательств. Этот раздел онтологии включает описание экспериментальных методик, A has_subclass B =def B is_a A.

методов трансформации и интерпретации данных, Например: P1 has_subclass P2 =def P2 is_a P1 – обоснования и оценки достоверности получаемых любой белок из класса P2 входит в класс P научных результатов.

(4) Онтология представления знаний или тер минологическая и информационная онтология X part_for Y =def x: x instance_of X y: (y in включает тезаурусы и метаописание существую щих баз данных, например, схему баз данных, опи сание полей, их интерпретацию в терминах онтоло stance_of Y & x part_of y).

гии предметной области. Цель – концептуализация формализмов представления знаний. Например: для любого белка из класса P1 суще (5) Онтология задач включает описания задач, ствует белковый комплекс из класса P2, в который методов и программных средств решения задач. входит этот белок.

Описания задач выполняются в терминах предмет ной области. Описания методов решения конкрет ных задач могут включать такие характеристики, P2 has_part P1 =def y: y instance_of P2 x:

как эффективность, ограничения метода, точность решения задачи, вычислительные затраты, парамет ры программы, значения которых наиболее адек- (x instance_of P1 & x part_of y) ватны при решении конкретной задачи, и т. д. К этому разделу также относится и метаописание, в • Например: для любого белкового комплекса из описание клеточных ситуаций, в которых класса P2 существует белок из класса P1, который получены экспериментальные данные по экспрес входит в этот белковый комплекс. сии генов;

• свойства регуляторов транскрипции, кото P1 part_of P2 =def P1 part_for P2 & P2 has_part P рые коррелируют с их функциональными возмож Например: для любого белкового комплекса из ностями;

компьютерное предсказание этих свойств класса P2 существует белок из класса P1, который позволяет, например, делать выводы о возможности входит в этот белковый комплекс, а также для лю- участия конкретного белка в регуляции транскрип бого белка из класса P1 существует белковый ком- ции на определенной стадии, т. е. выполнение опре плекс из класса P2, в который входит этот белок. деленной роли на этой стадии;

Таким образом, P1 – класс белков, которые образу- • структурно-функциональные закономерно ют комплексы, а P2 – класс белковых комплексов, сти организации регуляторных районов генов (регу которые образуют белки из P1. ляторные структурные модули), обуславливающих Отношение part_of может иметь различный особенности регуляции экспрессии генов, коэкс смысл. В частности, выделяют следующие типы прессирующихся в разных клеточных ситуациях.

отношений part_of: На рис. 2 представлена схема фрагмента раздела • part_of _Place – Area;

“Biomaterials” онтологии регуляции транскрипции.

• part_of _Stuff – Object;

Transcription regulation • part_of _Portion – Mass;

Species ontology: biomaterial organism Gender • part_of _Member – Collection;

Age de Stage of development • ri v part_of _Component – Integral object. es_ Nationality fro m Disease P1 part_of P2 =def P1 part_for P2 & P2 has_part P1 organ Верхний уровень понятий предметной области der from ives es_ _fro регуляции транскрипции включает классы с отно- iv der m шениями is_a: organ part tissue Cell cycle stage • Thing Cell differentiation stage a. Abstract_Entity derives_from i. Quantity cell modification derives_from cell ii. Proposition cell line iii. Attribute iv. Relation Рис. 2 Фрагмент раздела “Biomaterials” онтологии v. Role регуляции транскрипции b. Physical_Entity На рис. 3 представлен фрагмент раздела i. Biomaterials “Genome_Entity” онтологии регуляции транскрип ii. Genome_Entity ции.

iii. … c. Occurrence Transcription regulation consist_of DNA methylation i. Process gene DNA ontology: entites chromatin structure promoter structure ii. Event TF binding sites code_for iii. State RNA iv. Situation part_of code_for v. Causation part_of protein- protein consist_of monomer complex 2.4 Понятия предметной области part_of consist_of consist_of Основой для формирования онтологии регуля- regulatory RNA regulatory protein nucleosome ции транскрипции генов является формальное пред- is_a is_a domain structure.

ставление следующих понятий:

•DNA binding domain chemical modifications of •oligomerization domain amino acid residues transcription •protein-protein interaction domain • phosphorylation/dephospho Основные понятия предметной области - regulator •activation domain rylation, glycosylation, •ligand-binding domain methylation/demethylation, is_a физические сущности (Physical_Entity), в частности, hydroxylation, is_a is_a is_a acetylation/deacetylation, ген, рнк, белок, белковый комплекс, геномная по- ubiquitinization/deubiquitina transcription co-activator co-repressor mediator tion, sumoylation, factor следовательность, район регуляции транскрипции, isomerisation промотор, сайт связывания транскрипционного Рис. 3. Фрагмент раздела “Genome_Entity” онтологии фактора, нуклеосома, транскрипционный фактор, регуляции транскрипции регулятор транскрипции и т. д.

• механизм регуляции транскрипции;

2.5 Представление знаний о механизмах регуля • стадии регуляции транскрипции с ролями, ции транскрипции которые играют участники регуляции;

• Под механизмом функционирования молекуляр регуляторные события, которые обуславли но-генетической системы будем понимать описание вают реализацию механизма;

структуры этой системы и множества взаимосвя занных событий, которые определяют поведение системы и роли, которые играют отдельные элемен- Protein effects transcription:

Protein Pi ты системы в реализации тех или иных событий. Pi activates Gk Механизм регуляции транскрипции можно опи- activation сывать на разном уровне детальности, и полнота Gene  Gk Gk mRNA описания зависит от наших знаний и возможностей.

Следует отметить, что знания о механизме регу- Regulatory event:

Pi acetylates lysine residues H3 (9,14,18) ляции транскрипции генов основываются на инте- Protein Pi Nucleosome грации гетерогенных знаний о биологических объ- H2a H2b ектах (белках, генах, рнк и др.), вовлеченных в ре H2a H2b H3 H H3 H гуляторный процесс, их структурно- K K K9 Ac функциональной организации и ролях, которые они Ac Ac играют на различных стадиях регуляции.

Механизм регуляции транскрипции удобно ха- Molecular mechanism:

рактеризовать с помощью таких понятий, как со- Acetylation of lysine decreases the affinity of histones for DNA, thereby making DNA more accessible for transcription.

бытие, действие, процесс.

Рис. 4. Пример описания регуляторных событий, Таким образом, для описания механизма регуля определяющих механизм регуляции транскрипции ции транскрипции необходимо выделить основные подпроцессы, из которых складывается это биоло- Так, например, ковалентные модификации гис гическое явление, описать основных участников тонов являются одним из механизмов регуляции этих процессов и их ролевые функции. транскрипции. В частности, знание о том, что белок В качестве участников процесса регуляции Pi активирует экспрессию гена Gk путем ацетилиро транскрипции выступают гены и регуляторы транс- вания аминокислоты лизина в позициях 9, 14 и крипции различного типа, включая транскрипцион- гистона H3 может быть формально представлено в ные факторы, активаторы, медиаторы. виде (см. рис. 4):

Пространство описания понятий предметной об- Pi activates Gk through Event(Pi acetylate ласти определяется необходимостью отвечать на lysine.H3(9,14,18)).

вопросы ЧТО? (уровень экспрессии генов в клетках Интерпретация полученных данных с учетом из конкретного биоматериала), ГДЕ и КОГДА? (опи- вестных механизмов функционирования транскрип сание биоматериалов и клеточной ситуации: вид ционных факторов позволит сформировать новые организма, состояние организма, индукторы, орга- гипотезы механизмах регуляции транскрипции, ны, ткани, клетки, их стадии развития), КАК и обеспечивающих координированную регуляцию ПОЧЕМУ? (механизмы регуляции транскрипции и групп коэкспрессирующихся генов.

их нарушение).

2.5 Анализ данных и построение множества не В качестве основных типов молекулярно противоречивых гипотез о механизмах регуля генетических событий, которые играют важную ции траснкрипции генов роль в регуляции транскрипции, можно выделить:

• связывание (bind);

Анализ данных используется в системе как для • освобождение (release);

извлечения знаний из слабоструктурированных • расщепление (cleavage);

данных, так и для вывода новых знаний и их интер • модификации (modify): претации.

o модификации, связанные с появлением но- Часть информации, которая должна быть интег вых связей, например, phosphorylatе, glycosy- рирована в систему, представлена в неформализо late, methylate, hydroxylate, acetylate, acylate, ванном виде в текстовых источниках. В частности, ubiquitinize;

структура белковых комплексов, участвующих в o модификации, связанные с разрушением регуляции транскрипции, описана в текстовых по связей, например, dephosphorylatе, лях базы данных SWISS-PROT. Для работы с такого glycosylate, demethylate, dehydroxylate, deace- рода источниками информации нами были разрабо tylate, deacylate, deubiquitinize;

таны специальные методы извлечения знаний с ис • транспорт (transport). пользованием методов text-mining.

Нами построены правила, использующие тек стовые шаблоны, для извлечения информация о белковых комплексах и их составе, взаимодействии белков, участии в регуляции транскрипции. На рис. 5 представлен пример структуры шаблона для извлечения знаний о составе белкового комплекса.

получаем точное описание структуры белкового component_of protein_list1(exact list) комплекса:

part_of protein_list2(probably list) “TFIIH basal transcription factor” composed_of complex_name +bind_expression belong_to Object protein_list3(one or more) member_of (GTF2H1, GTF2H2, GTF2H3, GTF2H4, ERCC2, protein_list4(may also contain) subunit_of ERCC3, CDK7, “CCNH/cyclin H”, MNAT1).

Object context | sentence bind_expression which [is] cont_expr [at least] | at least Такой результат с четко определенной структу cont_expr [at least] | that [is] cont_expr [at least] рой и функцией белкового комплекса не всегда воз cont_expr contain(s|ing) | includ(ing|es|e) | consist(ing|s) of | compos(ing|ed|e) of можно получить.

Рис. 5. Пример структуры и фрагмент описания од Знания, полученные из гетерогенных источни ного из текстовых шаблонов для извлечения из тек ков, могут быть неполными, нечеткими, косвенны стовых источников информации о структуре белко ми и противоречивыми. В частности, может ока вого комплекса заться известным только то, что белок в составе Как правило, информация о составе и функции некоторого неизвестного комплекса участвует в белковых комплексов фрагментарна, и требуется регуляции транскрипции. Знания о составе белково проводить логический анализ всей совокупности го комплекса могут быть неполными. Например, не информации для вывода знаний о структуре и все субъединицы комплекса известны или неизвест функции белкового комплекса. но, сколько всего субъединиц входит в комплекс.

Приведем простой пример логического анализа В случае неполных, нечетких, косвенных или информации о структуре белковых комплексов. В противоречивых данных нами используется метод поле “Subunit structure” описания белка “TFIIH basal генерации правдоподобных гипотез, которые не transcription factor complex helicase subunit” в базе противоречат известным фактам. Такого рода гипо данных SWISS-PROT (Имя белка – тетические знания с указанием относительного ERCC2_HUMAN) приводится следующая информа- уровня достоверности полезны при дальнейшем ция: «One of the six subunits forming the core-TFIIH basal анализе и построении непротиворечивой картины transcription factor which associates with the CAK com- мира.

plex composed of CDK7, CCNH/cyclin H and MNAT1 to В некоторых случаях имеется возможность уси form the TFIIH basal transcription factor. …». лить уровень достоверности гипотезы путем при Первая фаза анализа включает выявление имен влечения дополнительной информации, которая комплексов и белков с применением правил в виде также не противоречит этой гипотезе. Это позволяет текстовых шаблонов и сравнения имен со словарем задать частичный порядок на множестве гипотез по белков. В результате из этого поля извлечены сле- уровням относительной достоверности.

дующие знания: Пусть, например, известно, что некоторый белок 1. “core-TFIIH basal transcription factor” includes в составе неизвестного комплекса участвует в регу (“ERCC2”);

ляции транскрипции. Среди множества белковых 2. number_of_components(“core-TFIIH basal tran- комплексов, в состав которых входит этот белок, те scription factor”) := (6,6);

// интервал значений комплексы, в состав которых входят другие белки, 3. “CAK complex” composed_of(CDK7, имеющие транскрипционную активность, с боль “CCNH/cyclin H”, MNAT1);

шой вероятностью могут быть транскрипционными 4. “TFIIH basal transcription factor” composed_of факторами.

(“core-TFIIH basal transcription factor”, “CAK Примером косвенных знаний могут быть знания complex”);

о взаимодействии между субъединицами, участ Дальнейший анализ информации из базы данных вующими в регуляции транскрипции. Эти знания SWISS-PROT выявил 5 других белков, которые дают основание предположить, что участие обоих также входят в комплекс: этих белков в регуляции транскрипции может осу 5. “core-TFIIH basal transcription factor” includes ществляться через образование транскрипционного (GTF2H1);

комплекса, в который входят оба белка. Это пред 6. “core-TFIIH basal transcription factor” includes положение становится более правдоподобным, если (GTF2H2);

известно, что действие этих белков на транскрип 7. “core-TFIIH basal transcription factor” includes цию одинаково (либо подавление, либо усиление (GTF2H3);

транскрипции).

8. “core-TFIIH basal transcription factor” includes В ряде случаев можно распространять свойства (GTF2H4);

через мереологические иерархии. В качестве при 9. “core-TFIIH basal transcription factor” includes мера вывода гипотетических свойств белкового (ERCC3);

комплекса по свойствам субъединиц можно привес Здесь: ти связывание с ДНК (DNA_binding). Наличие ДНК A includes B, C def (A includes B) & (A includes C). связывающего домена в субъединице позволяет Используя правило: сделать предположение о возможности связывания белкового комплекса, в который входит эта субъе IF(A includes (B1,…, Bn)) & number_of_components(A)=(*,n) диница:

THEN (A composed_of (B1, B1, …, Bn)), Выборка флангов База данных по Полногеномные x, y, z : rel(x, y) part-of(y, z) rel(x, z). регуляторных тканеспецифической последовательности последовательностей экспрессии генов Разметка Группы База данных Выявление групп регуляторных коэкспрессирующихся регуляторных коэкспрессирующихся Безусловно, это предположение может рассмат- районов сигналами генов районов генов генов риваться только как гипотеза, и только эксперимен- Уточнение тальная проверка может подтвердить этот факт. Поиск закономерностей Промоторы групп Построение моделей районов структурно-функциональной коэкспрессирующихся генов с регуляции транскрипции организации промоторов размеченными сигналами функционально значимых коэкспрессирующихся генов групп генов 3 Результаты и выводы С целью информационной поддержки исследо- Методы предсказания База знаний о База знаний о ролях ролевых функций регуляторных белков механизмах регуляции транскрипционных транскрипции вания механизмов тканеспецифичной регуляции факторов транскрипции генов нами разработана система RETRA [6], интегрирующая информацию, необхо- Биологическая интерпретация и поиск аналогичных механизмов регуляции димую для исследования механизмов регуляции транскрипциии, анализ новых регуляторных районов, предсказание транскрипционной транскрипции, включая: активности генов и искусственных конструкций • структурно-функциональную организацию Рис. 6. Типовой сценарий использования системы районов регуляции транскрипции генов;

локализа при исследовании механизмов регуляции коэкс ции генов, стартов транскрипции, экзон/интронной прессирующихся генов структуры и других сигналов в полных геномах (En trezGene, RefSeq, TRRD [7]);

В качестве примеров запросов, на которые ори • уровень экспрессии генов в различных тка- ентирована система, можно привести следующие нях и органах на основе ДНК-чиповых данных и запросы:

EST;

• экстракция определенных участков генов • функциональную аннотацию генов (Gene (промоторных областей, интронов, экзонов, 5’-НТП, Ontology);

3’-НТП и др.);

• компьютерную аннотацию регуляторных • выявление групп генов, расположенных оп районов генов, человека, мыши, крысы функцио- ределенным образом в геноме (гены с определенно нальными сигналами, значимыми для регуляции го участка хромосомы, вложенные гены, перекры транскрипции, включая сайты связывания транс- вающиеся гены);

крипционных факторов, функциональных мотивов, • поиск множеств коэкспрессирующихся ге CpG острова, нуклеосомный потенциал, структур- нов (ткане-, стадиеспецифичных и др.);

ные закономерности, значимые для регуляции • поиск структурно-функциональных зако транскрипции, и т. д.;

номерностей организации промоторов коэкспресси • экспрессию генов белков-регуляторов рующихся генов;

транскрипции в различных клеточных ситуациях;

• реконструкция сетей регуляции транскрип • формальное описание механизмов регуля- ции.

ции транскрипции, включая стадии регуляции транскрипции, функциональные роли регуляторов транскрипции на различных стадиях.

Литература Одной из функций системы являются анализ экспериментальных данных, поиск закономерностей [1] Blanchette M., Bataille A.R., Chen X et al. Ge и построение моделей структурно-функциональной nome-wide computational prediction of transcrip организации регуляторных районов коэкспресси- tional regulatory modules reveals new insights into рующихся генов, предсказание ролей белков- human gene expression// Genome Res. – 2006. – регуляторов на различных стадиях регуляции V. 16, No 5. – P. 656-668.

транскрипции, реконструкции сетей регуляции [2] Krivan W., Wasserman W.W. A predictive model транскрипции генов с использованием информации for regulatory sequences directing liver-specific об уровнях экспрессии генов и структурных моде- transcription// Genome Res. – 2001. – V. 11, No 9.

лей регуляторных районов генов, генерации гипотез – P. 1559-1566.

о механизмах регуляции транскрипции;

интерпре- [3] Smith B., Ceusters W., Klagges B. et al. Relations тация экспериментальных данных по экспрессии in biomedical ontologies // Genome Biology. – генов в терминах механизмов регуляции транскрип- 2005. – V. 6. – No R46.

ции. На рис. 6 приведен типовой сценарий исследо- [4] Rzhetsky A., Koike T., Kalachikov S. et al. A вания механизмов регуляции коэкспрессирующихся knowledge model for analysis and simulation of генов. regulatory networks // Bioinformatics. – 2000. – V. 16, No 12. – P. 1120-1128.

[5] Hoehndorf R., Kelso J., Herre H. The ontology of biological sequences // BMC Bioinformatics. – 2009. – V. 10, No 377.

[6] Podkolodnyy N.L., Nechkin S.S., Ignatieva E.V. et al. A database for analysis of the organizational fea tures of the promoter regions in the co-expressed groups of genes // Proc. of the Sixth Int. Conf. on Bioinformatics of Genome Regulation and Struc ture, 2008.

[7] Kolchanov N.A. et al. Transcription Regulatory Regions Database (TRRD): its status in 2002 // Nucl. Acids Res. – 2002. – V. 30. – P. 312-317.

Integrated system for information support of research on transcription transcription regulation mechanisms N.L. Podkolodnyy, E.V. Ignatyeva, D.A. Rasskazov, O.A. Podkolodnaya, E.A. Ananko, N.N. Podkolodnaya, E.M. Zalevsky Now the huge volume of experimental data in the field of gene expression regulation has been accumulated.

This paper describes the approaches to construction of ontology of subject domain, formalization of the de scription of mechanisms of regulation of a transcription and developing on this basis the methods and systems of integration of the heterogeneous information on features of regulation of an expression of genes. The integrated system for study the mechanism of gene transcription regulation was developed using ontology based ap proach.

These workings out are actual as for scientific, and applied researches in the field of system biology and bioinformatics.


Работа выполнялась при поддержке Министерства обра зования и науки РФ (госконтракты П721, П857), СО РАН (Междисциплинарные интеграционные проекты 119, 26) WheatPGE – компьютерная система для анализа взаимо связи признаков фенотипа, генотипа и параметров окружающей среды у пшеницы * © М.А. Генаев1, A.В. Дорошков1, Д.А. Афонников1, Институт цитологии и генетики СО РАН, Новосибирск Новосибирский государственный университет mag@bionet.nsc.ru содержит информацию о генах аллелях и генетиче Аннотация ских маркерах различных злаков. Chlroloplast Для решения задачи интеграции генотипи- [8] аккумулирует информацию о различных морфо ческих и фенотипических данных, а также логических признаках арабидопсиса. Также созда параметров окружающей среды и анализа ются инструменты, помогающие биологу взаимосвязей между генотипом и феноти- селекционеру. Эти базы данных, однако, не позво пом у пшеницы представлена система ляют описать параметры генотипа, фенотипа для WheatPGE. Система служит для интеграции одного растения. Этот недостаток делает невозмож разнородных данных о растении, хранении ным сбор материала для отдельных растений с це и доступе к информации об отношениях, лью его дальнейшей статистической обработки.

описывающих различные характеристики PlantDB [9] – инструмент на основе Microsoft растения, его генотипа, фенотипа и факто- Access для занесения базовой информации о гено ров внешней среды. Система имеет простой типе и некоторых фенотипических признаках ис и удобный веб-интерфейс и доступна по ад- следуемых растений. Эта база данных, в отличие от ресу www.wheatdb.org [1]. предыдущих, ориентирована на описание парамет ров каждого растения, для которого проводится 1 Введение эксперимент. Однако ее структура не является гиб кой и не позволяет расширять описание фенотипа Современная биология характеризуется взрыв растений. Она также не позволяет учитывать пара ным ростом данных в самых разных областях этой метры внешней среды. Интересная разработка – науки. Методы секвенирования ДНК и выявления система PHENOME [10] – предлагает проводить полиморфизма генома позволяют быстро и эффек фенотипирование растений в полевых условиях, тивно устанавливать генотип, мутантные аллели для используя карманный компьютер. Эта база данных большого числа генов для тысяч организмов [2].

позволяет собирать информацию о фенотипе тома Эти достижения позволяют революционизировать тов и хранить их в базе данных.

методы селекции растений с новыми важными для В настоящей работе для решения задачи сбора, сельского хозяйства признаками, что особенно ак интеграции, хранения и статистической обработки туально для таких широко используемых в сельском информации о растениях пшеницы мы предлагаем хозяйстве растений, как пшеница. Наряду с этим компьютерную систему WheatPGE (Wheat Pheno разрабатываются новые методы высокопроизводи type, Genotype and Environment). Система хранит тельного фенотипирования растений, позволяющие различные отношения, описывающие характеристи получать эквивалентные по объему массивы данных ки отдельного растения, и позволяет однозначно о фенотипических признаках [3 – 5]. Сопоставление устанавливать взаимосвязь между генотипическими большого количества таких данных позволит био и фенотипическими признаками растений, а также логам получать новые знания о взаимосвязи между параметрами окружающей среды. Применение сис генотипом и фенотипом организмов [6]. Однако при темы позволит автоматизировать получение данных решении этой задачи возникает проблема интегра о взаимосвязи генотипа, фенотипа и окружающей ции большого объема данных о фенотипах и гено среды у пшеницы, способствуя тем самым эффек типах растений, а также об условиях окружающей тивному созданию новых сортов пшеницы с улуч среды, с целью их дальнейшего анализа.

шенными свойствами.

Для решения этой проблемы создаются различ ные базы данных. Например, проект GrainGenes [7] 2 Реализация й Для описания различных характеристик расте Труды 12 Всероссийской научной конференции «Электронные библиотеки: перспективные методы и ний пшеницы нами была спроектирована реляцион технологии, электронные коллекции» – RCDL’2010, ная база данных, которая лежит в основе системы Казань, Россия, WheatPGE и содержит более 23 таблиц, связанных между собой. В качестве сервера используется MySQL. Для работы с базой данных разработан веб интерфейс, реализованный на основе модуля Cata lyst – свободного кроссплатформенного программ ного каркаса, написанного на языке Perl. В Catalyst заложена методология разработки программного обеспечения MVC, в которой модель данных при ложения, пользовательский интерфейс и управляю щая логика разделены на три отдельных компонен та. В результате модификация одного из компонен тов оказывает минимальное воздействие на другие.

Это позволяет добиться эффективной масштаби руемости системы. Для связи базы данных с Catalyst используется технология ORM (объектно реляционная проекция) – технология программиро вания, которая связывает базы данных с концеп циями объектно-ориентированных языков програм мирования, создавая «виртуальную объектную базу данных». Технология позволяет связывать таблицы базы данных с объектами реального мира, напри мер, объект генотип состоит из 9 связанных таблиц.

Важная особенность нашей системы – возмож ность для пользователя описывать произвольные морфологические признаки и параметры окружаю щей среды без помощи программиста. При этом происходит автоматическое расширение схемы ба Рис. 1. Пример визуализации схемы скрещивания зы данных, создается новая модель, описывающая для гибридного генотипа объекты этого признака. Генерируются контролле ры и представления, реализующие базовые возмож ности работы с признаком (создание, удаление, ре дактирование). Этот подход имеет существенное ограничение. Семантическое описание нового при знака ограничено одним реляционным отношением.

Это означает, что описание должно укладываться в одну таблицу базы данных. Тем не менее, этого ока зывается достаточным для описания большинства морфологических признаков и параметров окру жающей среды, с которыми имеют дело экспери ментаторы.

При занесении в базу большого количества гиб ридных генотипов становится актуальной задача визуализации схем скрещивания растений. Система WheatPGE позволяет автоматически визуализиро Рис. 2. Схема взаимосвязи между основными разде вать схемы скрещивания растений на основе ин лами информации в системе WheatPGE формации об отношениях родитель – потомок, ко торые хранятся в базе данных. Схема представляет- 3.1 Генотип ся в виде ориентированного графа. Для размещения Описание генотипа растения содержит следую графа на плоскости и его рендеринга используется щую информацию: сорт растения, линия (в случае, библиотека GraphViz (рис. 1).

если растение из чистой линии) или родители (в Интерфейс системы WheatPGE реализован на случае, если растение – гибрид). Для родителей ука основе сервера Apache с модулем mod_perl под зываются ссылки на генотипы соответствующих управлением операционной системы CentOS Linux.

растений. Дополнительно для гибридов можно ука зать поколение и материнское растение. Для гено 3 Структура базы данных WheatPGE типа можно определить список молекулярных мар Центральным объектом базы данных является керов (характеристик геномных ДНК, которые оп ределяются экспериментально или могут быть им растение (рис. 2). Растение описывается как сово купность признаков генотипа, фенотипа и окру- портированы из других баз данных). Маркеры объе жающей среды, в которой данное растение произра- диняются в группы. Для каждого маркера из группы определяется его состояние (например, молекуляр стает.

ная масса или длина). Группа маркеров является 3.4 Авторизация пользователей и разделение характеристикой генотипа растения (рис. 3). При прав доступа описании маркера указываются его тип, имя, список Пользователь может получить доступ к базе состояний и локализация на хромосоме.

данных, зарегистрировавшись на сайте www.

wheatdb.org. Зарегистрированный пользователь имеет возможность добавлять и аннотировать соб ственные растения. В каждой таблице базы данных содержатся поля, в которых прописываются иден тификационный номер пользователя, создавшего запись в таблице, и идентификационный номер пользователя, отредактировавшего запись в табли це.

Рис. 3. Структурная схема реляционных отношений таблиц, описывающих молекулярные маркеры 3.2 Фенотип Для описания фенотипа растения система WheatPGE позволяет создавать наборы отношений, каждое из которых содержит описание характери стик определенного морфологического признака (опушение листа, длина побега и колоса, количество колосьев, продуктивность и т. п.) В текущей версии базы данных наиболее полно представлено описание такого морфологического признака, как опушение. Для него заданы следую щие характеристики: плотность опушения (количе ство ворсинок (трихом) на единицу площади), век тор распределения трихом по длине. Система по зволяет сохранять оцифрованные изображения морфологического признака, если это необходимо.

Интерфейс для описания признака позволяет также подключать внешние программы анализа изображе ния для получения различных его характеристик, например, для получения информации о морфоло гических характеристиках опушения на основе ана лиза цифровых фотографий была использована про грамма LHDetect [4]. Структура базы данных позво ляет легко расширять список анализируемых мор фологических признаков растения и модифициро вать информацию о них.

3.3 Окружающая среда Рис. 3. Пример работы с системой WheatPGE. Из влечение данных о взаимосвязи сорта растения и Подобно фенотипу WheatPGE позволяет расши его опушения: (а) интерфейс формирования запроса рять схему базы данных, добавляя произвольные отбора растений;


(б) выбор полей базы данных для параметры окружающей среды. Окружающая среда экспорта в таблицу;

(в) вид таблицы в Excel и стати в базе данных может быть представлена набором стический анализ распределения плотности опуше таких характеристик, как место произрастания (теп ния для сортов Балаганка и Голубка лица или открытый грунт), средние температура и количество осадков за сезон, дата посева семян и Если для работы пользователю требуется воз т. п. можность аннотировать дополнительные морфоло гические признаки или параметры окружающей среды, ему следует отправить запрос администрато ру системы с просьбой на расширение модели базы Литература данных.

[1] WheatPGE – system for analysis of relationships between genotype, phenotype end environment in 3.5 Пользовательский интерфейс wheat. – http://www.wheatdb.org/.

Пользователю предоставляется возможность [2] 1001 Genomes Project –http://1001genomes.

просматривать списки генотипов, молекулярных org/index.html.

маркеров, параметров окружающей среды и отдель- [3] Дорошков А.В., Арсенина С.И., Пшеничнико ные экземпляры растений, которые содержатся в ва Т.А., Афонников Д.А. Применение компью базе. Кроме этого пользователь имеет возможность терного анализа микроизображений листа для осуществлять поиск по растениям, которые содер- оценки характеристик опушения пшеницы Triti жатся в базе. cum aestivum L// Информационный вестник Поиск производится по следующим полям: по- ВОГиС. – Новосибирск: Изд-во СО РАН, 2009.

севной номер растения;

название генотипа расте- – Т. 13, № 1. – С. 218-226.

ния;

сорт растения;

линия;

является ли растение [4] Liying Zheng, Jingtao Zhang, Qianyu Wang:

гибридом или нет;

название родительского геноти- Mean-shift-based colour segmentation of images па;

название молекулярных маркеров, которые при- containing green vegetation// Computers and Elec своены генотипу растения;

хромосома, на которой tronics in Agriculture. – 2009. – V. 65. – P. 93-98.

локализован молекулярный маркер;

тип молеку- [5] Bossu J., Gea Ch., Jones G., Truchetet F.

лярного маркера;

положение молекулярного марке- Wavelet transform to discriminate between crop ра на хромосоме. and weed in perspective agronomic images// Com При формировании запроса допустимо исполь- puters and Electronics in Agriculture. – 2009. – зование регулярных выражений, например, если V. 65. – P. 133-143.

необходимо найти в базе все растения двух сортов [6] Rodney M. Mapping quantitative trait loci in Fora и Krasa, в запросе достаточно написать plants: uses and caveats for evolutionary biology// Fora|Krasa. Nature Reviews Genetics. – May 2001. – V. 2. – Результаты любого запроса можно экспортиро- P. 370-381.

вать в формате CSV с целью их дальнейшего анали- [7] GrainGenes – the international database for the за. При экспорте можно указать поля, необходимые wheat, barley, rye and oat genomes – http://www.

для анализа. Экспортировать можно информацию о graingenes.org.

морфологических признаках растений, молекуляр- [8] Ajjawi I., Lu Y., Savage L.J., Bell Sh.M., Last R.L.

ных маркерах и параметрах окружающей среды. Large-scale reverse genetics in arabidopsis: case Например, для анализа зависимости опушения лис- studies from the Chloroplast 2010 Project// Plant та от сорта растения пользователь должен на стра- Physiology. – 2010. – V. 152. – P. 529-540.

нице запроса указать список сортов растений [9] Exner V., Hirsch-Hoffmann M., Gruissem W., (рис. 3а), которые он хотел бы включить в анализи- Hennig L. PlantDB – a versatile database for man руемую выборку, и указать список характеристик aging plant research// Plant Methods. – 2008. – опушения (рис. 3б). В итоге пользователь получает V. 4, No 1.

таблицу данных, в которой строкам соответствуют [10] Vankadavath R.N., Hussain A.J., Bodanapu R., растения отобранных сортов, представленные в ба- Kharshiing E., Basha P.O., Gupta S., Sreelakshmi зе, а в колонках приводятся числовые характеристи- Y., Sharma R. Computer aided data acquisition tool ки опушения (рис. 3в). Такая таблица может быть for high-throughput phenotyping of plant popula далее проанализирована любой программой стати- tions// Plant Methods. – 2009. – V. 5, No 18.

стического анализа (Excel, Statistica и другие).

WheatPGE – system for analysis of the 4 Выводы relationships between phenotype, genotype В настоящее время база содержит более 250 ан- and environment in wheat нотированных растений (более 100 сортов, более 1500 изображений листьев для анализа опушения). M.A. Genaev, А.V. Doroshkov, D.A. Afonnikov Разработанная база данных позволяет устанав We developed a WheatPGE system, the web ливать и анализировать взаимосвязь между генети application for storing and processing of various mor ческими и фенотипическими признаками растений и phological characteristics, genotype of the wheat plants параметрами окружающей среды. Это обеспечивает and various environmental factors. The WheatPGE sys решение целого ряда важных биологических задач.

tem allows analyzing the relationship between genetic Например, исследование зависимости морфологи and phenotypic traits of plants, as well as environmental ческих характеристик опушения листа от сорта рас conditions.

тения, места произрастания, поиск генетических маркеров, статистически связанных с тем или иным * Работа выполнена при финансовой поддержке интегра типом опушения пшеницы и т. п.

ционных проектов СО РАН №№ 113, 26, 109 и Програм мы РАН «Происхождение и эволюция биосферы»

BioinfoWF – веб-сервисы и пакет конвейерной обработки для решения задач биоинформатики * 1 1 1, © М.А. Генаев, К.В. Гунбин, Д.А. Афонников Институт цитологии и генетики СО РАН, г. Новосибирск Новосибирский государственный университет mag@bionet.nsc.ru областях науки создаются системы конвейерной Аннотация обработки данных. К ним относятся, например, Dis Рассматривается система конвейерной об- coveryNet в молекулярной биологии [2], SEEK в работки биологических данных для реше- экологии [3], GriPhyn в физике элементарных час ния задач биоинформатики. Элементами тиц [4]. В области биоинформатики наиболее из конвейера являются вычислительные моду- вестны следующие системы конвейерной обработ ли и связи между ними. Разработаны мо- ки.

дель описания вычислительных модулей и Taverna project [5] – графическая среда для схемы конвейеров на языке XML. Система управления и запуска конвейеров, реализованная на реализована как клиент-серверное прило- языке Java. Главная идея проекта – интеграция раз жение: клиентская часть реализована в виде личных веб-сервисов и конструирование из них веб-сервиса;

серверная часть позволяет за- конвейеров. Для формального описания веб пускать отдельные элементы конвейера на сервисов и структуры конвейера был разработан высокопроизводительном кластере, что да- специальный язык XScufl (XML Simple conceptual ет возможность масштабировать расчеты. unified flow language).

На основе системы разработан ряд готовых Biopipe [6] – система, которая, напротив, предос конвейеров, в том числе конвейеры для тавляет множество готовых шаблонов для популяр анализа моделей молекулярной эволюции ных биоинформатических программ и баз данных.

генов и белков SAMEM [1]. Не поддерживает асинхронное выполнение конвей еров, предполагая только последовательную обра 1 Введение ботку данных.

В настоящей работе для решения ряда специфи В биологии накапливается огромное число дан ческих задач в области эволюционной биоинформа ных. Для их анализа методами биоинформатики тики мы разработали систему, которая позволяет часто необходима последовательная компьютерная конструировать конвейеры биоинформатической обработка в автоматическом режиме, которая может обработки данных и выполнять их. Пользователю быть реализована в виде конвейера. Например, при предлагается работать с уже готовыми схемами построении филогенетического дерева для несколь конвейеров через веб-интерфейс. Узлы в конвейере ких последовательностей белков требуется после – это вычислительные модули, которые запускаются довательное решение ряда таких задач, как:

на счёт или непосредственно на сервере, или на вы • поиск гомологов, т. е. белков, выполняю- числительном кластере с использованием Sun Grid щих схожие функции или имеющих сход- Engine.

ные последовательность и структуру;

С помощью данной системы нами был реализо • выравнивание последовательностей;

ван ряд конвейеров для анализа молекулярной эво • фильтрация получившейся выборки;

люции последовательностей ДНК и белков.

• построение филогенетического дерева.

Процесс обработки усложняется разнородно- 2 Архитектура системы стью форматов входных и выходных данных. Кроме Система BioinfoWF – клиент-серверное прило того, каждый этап обработки может быть реализо жение (рис. 1), которое решает задачу конвейерной ван разными вычислительными программами и ал обработки данных.

горитмами, в зависимости от свойств анализируе Конвейер – это набор вычислительных модулей, мых данных.

которые представляют собой программы, запускае Для решения подобного сорта задач в разных мые в консольном режиме (в среде Linux). Управ Труды 12й Всероссийской научной конференции ляющие параметры (названия входных и выходных «Электронные библиотеки: перспективные методы и файлов, параметры алгоритмов) передаются в рас технологии, электронные коллекции» – RCDL’2010, Казань, Россия, четные модули через командную строку или пере- 3. Язык описания конвейера менные окружения. В ходе выполнения задачи вы Для формального описания схемы конвейера и ходные данные одного модуля могут подаваться на вычислительных модулей, из которых он состоит, вход другому модулю.

нами был разработан язык на основе формата XML.

Описание конвейера состоит из двух файлов (рис. 2).

Первый описывает вычислительные модули, второй задаёт топологию конвейера.

Рис. 1. Основные структурные элементы системы BioinfoWF Разработанная нами система позволяет интегри ровать любые вычислительные модули, организо ванные подобным образом, при условии заданного Рис. 2. Описание любого конвейера включает опи порядка их выполнения. При этом данные могут сание вычислительных модулей, вовлеченных в находиться как на локальной машине, так и на уда конвейер и связи между этими модулями лённой. Схема интеграции (порядок выполнения процедур) описывается на языке XML. Имея гото Описание вычислительных модулей состоит из вые схемы, пользователь может запускать конвейер следующих разделов:

как консольное приложение или с использованием • Входные файлы – описывает, какие вход веб-интерфейса, который генерируется автоматиче ные файлы подаются на вход модулю;

для каждого ски. В последнем случае пользователь может управ файла указываются его идентификатор, описание, лять поведением конвейера, изменяя его схему и формат файла;

входные данные для вычислительных модулей. Для • Выходные файлы – описывает, какие файлы визуализации и редактирования входных и выход возвращает вычислительный модуль;

ных данных имеются возможности подключения • Параметры и опции – содержит описание внешних программ, реализованных, как правило, в параметров и опций для вычислительного модуля.

виде Java Applet приложений. Серверная часть, реа Для каждого параметра задаются идентификатор, лизованная на языке Perl, выполняет запуск конвей описание, тип параметра (например, строка, число ера и отлеживает статус выполнения каждого вы или бинарное значение), значение по умолчанию, числительного модуля. Также она предоставляет внешний вид поля запроса значения для параметра возможности запуска ресурсоёмких узлов конвейера на странице веб-браузера;

на вычислительном кластере и поддерживает функ • Правила генерации командной строки – цию параллельного запуска вычислительных моду программа на языке Perl, которая генерирует ко лей в случае, если это позволяет топология конвей мандную строку для запуска вычислительного мо ера.

дуля. На вход ей подаются две хеш-таблицы: первая Способ выполнения задачи (на локальной маши – со списком входных и выходных файлов, вторая – не или удаленном кластере) указывается в описании с опциями запуска исполняемых модулей. Ключами вычислительного модуля. Для передачи данных на в таблицах являются, соответственно, идентифика кластер монтируется сетевая файловая система торы файлов и опций. С использованием этих дан sshfs. При работе с кластером для запуска и отсле ных программа формирует строковую переменную живание статуса выполнения заданий менеджер $cmd, которая и будет являться командной строкой задач BioinfoWF использует программное обеспе запуска вычислительного модуля;

чение, установленное на кластере. Текущая версия • Правила поведения пользовательского BioinfoWF поддерживает такие системы управления интерфейса – опциональная секция. Это программа задачами, как Sun Grid Engine и Altair PBS Pro. Уда на JavaScript, которая обрабатывает действия лённый запуск команд на кластер реализован так же пользователя и в зависимости от этих действий с помощью протокола ssh.

динамически меняет веб-интерфейс модуля.

Рассмотрим пример описания в формате XML команды kill, которая прекращает выполнение како го-либо вычислительного процесса. Программа на 9 value="/tmp/kill.stderr" / вход принимает идентификационный номер процес са, который надо завершить. 11 option id="PID" value="2745" / 1 programs 13 /node 2 program name="Kill" exe="kill" 14 /pipeline 3 description Строки 3 – 4 определяют вычислительный мо 4 kill - terminate a process дуль, который необходимо запустить. Ключ name 5 /description 6 определяет название задачи в конвейере, pro 7 output gram=”kill” указывает на то, что надо запустить 8 file id="stdout" type="text" программу kill, которую мы описали выше. Ключ 9 name="STDOUT" 10 description="Standard output" / parent=”undef” указывает на то, что у этого узла в 11 file id="stderr" type="text" конвейере нет зависимостей. Если бы был указан 12 name="STDERR" 13 description="Standard error" / родительский процесс, узел не был бы запущен на 14 /output счет до тех пор, пока не отчитались процессы, его 16 options порождающие. Ключ status=”undef” определяет 17 option id="PID" name="PID" начальный статус узла. Статусы каждого узла ме 18 description="PID" view="text" type="int“ няются во время выполнения конвейера, каждый 19 default="" / 20 /options узел может принимать следующие статусы: undef (не определен), started (запущен на счет), ended (за 22 cmdline 23 $cmd = " $options{PID} ".

вершен), failed (завершен с ошибкой). Далее в файле 24 "1\"$files{stdout}\" ".

следует определение значений для всех вход 25 "2\"$files{stderr}\"";

26 /cmdline ных/выходных файлов, параметров и опций вычис лительного модуля. Строки 6 – 9 определяют имена 28 /program 29 /programs выходных файлов, а строка 11 – идентификацион ный номер процесса, который требуется завершить.

Вторая строчка описывает название вычисли тельного модуля и путь, где располагается испол 4. Серверная часть няемый файл модуля. В нашем случае kill – это ко манда окружения bash, поэтому указания полного Серверная часть отвечает за запуск и выполне пути не требуется. Секция output (строки 7 – 14) ние конвейера. Она реализована в виде приложения описывает выходные файлы, в этом примере описы- на языке Perl. На вход приложению подаётся описа ваются два файла с идентификаторами stdout и ние схемы конвейера и вычислительных модулей.

stderr, которые мы в дальнейшем ассоциируем со Приложение запускает конвейер, создавая файл с стандартными потоками вывода 1 и 2 соответствен- отчётом в формате xml. В отчёте указывается статус но. Аналогичным образом описывается секция выполнения каждого узла в конвейере. Серверная input, для входных файлов, в нашем примере вход- часть поддерживает параллельный запуск узлов ных файлов нет, поэтому секция отсутствует. В сек- конвейера, при этом максимальное количество по ции options описывается единственная опция, кото- токов определяется в конфигурационном файле рая будет передавать id процесса команде kill. Оп- приложения. Реализована возможность удалённого ция имеет тип int и представление text, которое бу- запуска ресурсоёмких расчетных модулей конвейе дет соответствовать input type=”text” / при гене- ра на вычислительном кластере (с использованием рации веб-интерфейса. Значение по умолчанию для систем Sun Grid Engine или Altair PBS Pro). Режим опции не задано. Секция cmdline описывает правила запуска для каждого узла (локальный или удалён генерации командной строки. На входе мы имеем ный) задаётся в схеме конвейера.

две хеш-таблицы $options и $files. Ключами в этих хеш-таблицах служат id из секций input, output и cmdline. На выходе необходимо сформировать пе ременную $cmd, которая бы содержала готовую командную строку для вычислительного модуля.

Второй документ описывает в формате XML топологию конвейера. В нём указываются порядок выполнения задач, имена входных/выходных файлов для каждого модуля и значения для каждого параметра или опции при запуске. Для нашего примера с командой kill может быть использован Рис. 3. Структурная схема процесса генерации следующий файл: веб-интерфейса 1 pipeline 5. Клиентская часть 3 node name="Kill_task" parent="undef" 4 program="Kill" status=“undef" Клиентская часть системы реализована в виде веб-приложения. Веб-интерфейс генерируется ав 6 file id="stdout" томатически на основе описаний вычислительных 7 value="/tmp/kill.stdout" / 8 file id="stderr" • старт с произвольного узла и остановка на модулей и схемы конвейера (рис. 4). Пользователю предлагается работать с уже готовыми схемами. В произвольном узле в конвейере;

текущей версии клиентской части возможна работа • отслеживание статуса выполнения каждого только с последовательными конвейерами. Однако в вычислительного модуля в конвейере (рис. 5);

ближайшем будущем планируется разработка новой • просмотр входных/выходных файлов для версии веб-интерфейса, который бы позволил кон- каждого этапа расчета в конвейере;

струировать произвольные пользовательские кон- • привязка форматов входных/выходных вейеры любой топологии. файлов к различным приложениям для их визуали Схема генерации веб-страниц клиентской ча- зации.

стью представлена на рис. 3. BioinfoWF получает на вход описание схемы конвейера и вычислительных модулей в формате XML и с использованием биб лиотеки Perl HTML::Template генерирует файл в формате html. Автоматизация достигается за счет того, что в описании каждого входного параметра указывается тип элемента HTML для его визуально го представления (выпадающее меню, радио кнопка, текстовое поле и т. п.;

рис. 4).

Рис. 5. Веб-интерфейс системы BioinfoWF позволяет отслеживать статус выполнения каждого вычислительного модуля и просматривать входные/выходные данные узлов конвейера Разработанная нами система BioinfoWF была использована для конструирования и выполнения конвейеров решения задач молекулярной эволюции генов и белков SAMEM [1]. Первый конвейер по Рис. 4. Веб-интерфейс пользователя системы зволяет последовательно выполнять следующие SAMEM, реализованной на платформе BioinfoWF задачи: (1) множественное выравнивание последо вательностей генов;

(2) построение филогенетиче Реакция интерфейса на действие пользователя ского дерева;

(3) реконструкция предковых после при его работе с HTML-страницами достигается за довательностей генов во внутренних узлах филоге счет внедрения в описание каждого модуля динами- нетического дерева;

(4) анализ режима эволюции ческих правил поведения, реализованных с помо- генов на всех ветвях дерева;



Pages:     | 1 |   ...   | 21 | 22 || 24 | 25 |   ...   | 26 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.