'

DNA vs. computer

Понравилась презентация – покажи это...





Слайд 0

DNA vs. computer Про 5’-3’ и всякую химию Про банки данных (архивные vs. курируемые) Святая троица EMBL – GenBank – DDBJ Собственно EMBL, его разделы, классы даных и поля; CDS, кодирующие участки, ссылки из Swiss-Prot.


Слайд 1

АТФ 5`- 3`-


Слайд 2

Как записывают последовательности нуклеиновых кислот ? 1. Последовательность = последовательность однобуквенных символов. Никаких дефисов и обозначений фосфодиэфирных связей. 2. Одни и те же однобуквенные символы для последовательностей РНК и ДНК (при записи РНК обычно ‘U’ ? ‘T’ ). Любая последовательность по умолчанию считается ДНК (т.е. полимером 2'-дезоксирибонуклеотидов). 3. Одни и те же символы используются для обозначения азотистых оснований, нуклеозидов и нуклеотидов Допустимы заглавные и строчные буквы, хотя рекомендованы заглавные. 4. Последовательность записывается в направлении 5'>3' Пример: 5'-CTCGAC-3' Nomenclature Committee of the International Union of Biochemistry (NC-IUB) Nomenclature for incompletely specified bases in nucleic acid sequences Recommendations 1984 Biochem. J. (1985) 229, 281-286


Слайд 3

Общепринятые однобуквенные обозначения для стандартных азотистых оснований (остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот


Слайд 4

NCBI и EBI National Center for Biotechnology Information и European Bioinformatics Institute (подразделение EMBL – European Molecular Biology Laboratory) Три базы данных – GenBank, EMBL и DDBJ (японская) – по сути, одно и то же. GenBank EMBL database DNA data bank of Japan


Слайд 5

Что надо знать про банк EMBL что это архив (за содержание записи несёт ответственность её автор) поэтому разнобой в терминологии поэтому одно и то же по многу раз поэтому много неисправленных ошибок что у последовательности из записи часто нет естественных границ что это часть триединства (EMBL, GenBank, DDBJ) ежедневный обмен данными … ну и смысл основных полей, конечно (особенно структуру поля FT!) http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html


Слайд 6

~2 500 000 последовательностей компьютерный поиск гена, трансляция и компьютерная аннотация UniRef (UniProt non-redundant Reference databases) UniParc (UniProt Archive) ?200 000 последовательностей Экспертиза Базы данных научной литературы


Слайд 7

Класс данных


Слайд 8

Таксономический раздел


Слайд 9

ID - identification (begins each entry; 1 per entry) AC - accession number (>=1 per entry) PR - project identifier (0 or 1 per entry) DT - date (2 per entry) DE - description (>=1 per entry) KW - keyword (>=1 per entry) OS - organism species (>=1 per entry) OC - organism classification (>=1 per entry) OG - organelle (0 or 1 per entry) RN - reference number (>=1 per entry) RC - reference comment (>=0 per entry) RP - reference positions (>=1 per entry) RX - reference cross-reference (>=0 per entry) RG - reference group (>=0 per entry) RA - reference author(s) (>=0 per entry) RT - reference title (>=1 per entry) RL - reference location (>=1 per entry) DR - database cross-reference (>=0 per entry) CC - comments or notes (>=0 per entry) AH - assembly header (0 or 1 per entry) AS - assembly information (0 or >=1 per entry) FH - feature table header (2 per entry) FT - feature table data (>=2 per entry) XX - spacer line (many per entry) SQ - sequence header (1 per entry) CO - contig/construct line (0 or >=1 per entry) bb - (blanks) sequence data (>=1 per entry) // - termination line (ends each entry; 1 per entry) Поле


Слайд 10

FT FT Key Location/Qualifiers=value FT CDS 1..1000 /codon=(seq:"cug",aa:Ser) /codon=(seq:"tga",aa:Trp) http://www.ebi.ac.uk/embl/WebFeat/index.html


Слайд 11

CDS и exons CDS – кодирующая последовательность, то есть ровно те нуклеотиды, что соответствуют белку (по крайней мере его основной форме). Кодирующие участки – те фрагменты ДНК, из которых составлен CDS. Exons – экзоны, то из чего будет составлена зрелая матричная РНК, они включают в себя 5` и 3` - нетранслируемые области – те части РНК, которые отвечают за регуляцию трансляции.


Слайд 12

Ссылки из записи Swiss-Prot на EMBL Каждая строка – отдельный сиквенс; первая ссылка в строке – запись в EMBL, вторая – CDS внутри этой записи (здесь идентификатор, например, AAA24039.1 – это идентификатор CDS в специальном дочернем банке данных EMBL-Coding sequences).


Слайд 13

Статистика EMBL Total nucleotides Number of entries


×

HTML:





Ссылка: