Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_06/term1/Pr_11/Pr_3-2.doc
Дата изменения: Tue Dec 5 12:37:16 2006
Дата индексирования: Fri Dec 21 21:40:23 2007
Кодировка: koi8-r

Практикум 3.2, он же ?12

Поиск в интернет

Знаком (*) отмечены те задания, которые не входят в обязательную часть
зачетного задания; (+) - те, которые, при удаче, могут пригодиться для
зачетного задания.

В файле Student_bacteria_virus.xls для каждого студента указана бактерия,
полный геном которой расшифрован (секвенирован)

(*) а также вирус и адрес картинки, на которой изображена структура
полного капсида, полученная с помощью рентгеноструктурного анализа (в
названии файла найдете четырехсимвольный PDB-код, по которому с помощью
get_pdb можно скачать структуру и рассмотреть в Rasmol; возможны сюрпризы)

0. Прочитайте зачетное задание Cr_3.doc. Создайте Protocol.doc в
директории Practice3.2. Из него будете переносить в отчет найденную
информацию.


1. (*) Какие сервера, кроме нашего, имеют URL, включающий слово kodomo?


Подсказывать? Ну, ладно, inurl: ...


2. (*) Найдите с помощью google определения аббревиатур CDS и ORF, если
не знаете что это такое. М.б., еще и определение слова "ген"? Не
смейтесь, с определением гена чем дальше, тем сложнее, особенно если
иметь ввиду геномы эукариот.


Пояснение. Используйте ограничитель definition:


3. С помощью Google поищите вашу бактерию на сайте европейского
института биоинформатики (EBI - european Bioinformatisc Institute,
www.ebi.ac.uk). Советую там (на сайте ebi) отыскать нужную страницу
среди Karyn's genomes - она обязательно пригодится! Karyn Duggan -
автор этого сайта.


Подсказка: ограничитель site:


4. (+) Найдите и откройте с помощью google презентацию (если нет -
статью) о вашей бактерии. Запомните (и в голове, и на диске ( )
необходимую информацию. Не забудьте сохранить источник информации -
URL и, желательно, имя автора.


Пояснения. Укажите тип файла ppt для презентации и pdf - для статьи.
Используйте "+" при задании родового имени одной буквой, например,
+E.coli. На первой странице находок внимательно прочитайте названия и
выберите б.м. подходящие для проверки содержания. Не увлекайтесь
разглядыванием презентации, если она не о том, - время дорого (. Если
не знаете как копировать картинки - спросите!


5. Найдите и сохраните фотографию вашей бактерии с помощью Google =>
Картинки.


6. Составьте запрос для поиска статей в БД PubMed
(http://www.ncbi.nlm.nih.gov/entrez/) о среде обитания бактерии
(habitat) и/или полном геноме (complete genome), вышедших в последние
годы. Сохраните сам запрос, число находок и ссылку на 1 статью,
наиболее относящуюся к теме. Прочитав резюме ("Abstract"),
постарайтесь понять о чем она. Рекомендую сначала ограничить запрос
статьями с открытым полным текстом - в полном тексте могут быть
интересные подробности, картинки и фотографии.


Плохой запрос: E.coli (находит 211019 статей ( )


Мог бы быть хорошим: e.coli AND 'complete genome' (находит 2 статьи,
но, к сожалению, не о том, что требуется)


Хороший запрос сочините сами. В учебных целях настаиваю, чтобы запрос
включал, как минимум, одно указание поля (наиболее разумно - [title]),
два оператора из трех AND, OR, NOT ( два AND не годятся, как и два
OR)! Хороший запрос должен находить не очень большое число статей,
среди которых много имеющих отношение к теме.


Пример неплохого запроса. Интересуюсь средой обитания (habitat)
червяка рифтия пачиптила. Запрос (P* riftia[title] OR pachyptila
riftia[title]) AND habitat дает 13 статей; первая - "Symbiosis of
thioautotrophic bacteria with Riftia pachyptila." - вероятно, содержит
нужные сведения.


7. Найдите информацию о геноме и протеоме бактерии, необходимую для
зачетного задания, на сайте Genome_reviews
(http://www.ebi.ac.uk/genomes/bacteria.html) . Там же найдете ссылку
на таксономию бактерии.


Пояснение. Щелчок по названию бактерии приводит на страницу
таксономии; щелчки по кодам записей - столбец "Sequence", - к
получению записи банка Embl с последовательностью генома, сейчас нам
она не нужна; нас интересует ссылка "proteom" и далее - Genome
statistic. Там найдете данные для отчета.


8. Сохраните заготовку отчета из Cr_3.doc и оформите как требуется.


(*) Для выполнения дополнительных заданий по протеому откройте в Excel
файл, скачанный вами по ftp с таблицей белков по хромосоме; если у
бактерии несколько хромосом, то можно ограничиться одной. Одна строка
таблицы соответствует одному гену. Важные для анализа столбцы:
a. Start_position - 1я позиция гена, точнее, его кодирующей части
(CDS)
b. Offset = (длина гена - 1); значит, start_position+offset =
последняя позиция CDS; внимание! в CDS включают стоп-кодон.
c. Direction - на какой цепи ДНК расположен ген: на прямий (F) -
той, по которой ведется нумерация оснований,- или на обратной
(R)

Добавьте две расчетные колонки:
d. Protein_length - длина продукта, т.е. белка закодированного в
гене, в числе аминокислотных остатков
e. Interval - длина межгенного промежутка (между CDS данного и
следующего гена) в числе пар оснований


9. (*) Сравните число генов на цепи F и на цепи R. Можно ли предполагать,
что гены предпочитают одну из них?


Пояснение. Предположим, гены "любят" обе цепи одинаково. Тогда из N
генов примерно половина окажется на цепи F. Вы найдете наблюдаемое
число NF генов на цепи F. Верно ли, что NF — N/2? А как понимать
"примерно"? Это отличие меньше чем на 10? или 100? Ясно, что надо как-
то учитывать число генов чтобы оценить различие. Наука статистика для
подобной ситуации обосновывает следующее правило. Найдем число
?=Корень(N*p*(1-p)) ; p - теоретическая вероятность для гена оказаться
на цепочке F , 1/2 в нашем случае. Если NF отличается от N/2 менее
чем на 3?, то такое различие следует считать несущественным (с
достоверностью 99%); если оказалось, что различие больше 3?, то стоит
призадуматься о различии цепочек ДНК!


10. (*) Постройте гистограмму длин белков и предложите границы того, какие
белки считать маленькими, какие - средними, какие - большими и какие -
очень большими (см. пример в файле Cr_3.doc). Никаких общих правил -
думайте сами (


Гистограмма - это диаграмма, показывающая сколько значений попадают в
каждый из указанных интервалов. Для построения гистограммы длин
белков
a. создайте столбец чисел, определяющих границы интервалов; в
нашем случает рекомендуются границы 50, 100, 150 и т.д. до 2000;
b. Меню Tools => Data Analysis => Histogram. Если в "Tools" нет
"Анализа данных", то Tools => Add-Ins => галочка напротив
Analysis ToolPack.


11. (*) Постройте гистограмму длин межгенных промежутков. Предложите
гипотезы о самых коротких межгенных промежутках; о самых длинных. Если
не все гены найдены, то где их искать? Если предположить ошибки в
определнии границ генов, то гле их искать? Укажите конкретные места с
объяснением!


12. (*) Скачайте картинку капсида вируса и найдите информацию о вирусе:
какой геном (ДНК, РНК), к какой группе принадлежит, размер генома и
число генов в нем.

===== Выдержки из текста заданий прошлого года.


Секвенирование генома - трудоемкий и дорогостоящий процесс, поэтому
приходится выбирать самые интересные и перспективные объекты.

Ваша задача -

определить, почему были выбраны данные организмы (чем они интересны с точки
зрения академической науки или практического значения);

найти фотографию каждого из указанных организмов.

Внимание! Обязательно должен быть указан источник информации, как минимум в
виде веб-адреса! А у фотографии - еще и, возможно, автор.

Фотографии сохраните еще и в виде графических файлов (*.jpg, *.gif, *.bmp)
в рабочей директории.

========


Таксономическое описание Escherichia coli K-12:
группа Протеобактерий,
класс гамма-протеобактерий,
порядок Enterobacteriales,
семейство энтеробактерий ( Enterobacteriaceae),
род Escherichia
вид coli
штамм К-12.