Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/>>>10 000 진핵생물;RefSeq release71)에 이르기까지,하나의 레코드를 완료하는 게놈. 본 논문은 레프섹 프로젝트의 바이러스,원핵 생물 및 진핵 생물 지점의 현재 상태를 요약하고 데이터 액세스 개선 보고서 및 컬렉션의 분류 학적 표현을 더욱 확장하기위한 세부 노력. 우리는 또한 분류 학적 검증,게놈 주석,비교 유전체학,임상 테스트를 포함하여 심판 데이터의 여러 사용을 지원하는 다양한 기능 큐 레이션 이니셔티브를 강조 표시합니다. 우리는 척추 동물,식물,그리고 다른 종에 대 한 우리의 수동 큐 레이션 과정에서 사용할 수 있는 유전자 서열 및 기타 데이터 형식을 활용 하 여 우리의 접근 방식을 요약 하 고 원핵 게놈 및 단백질 이름 관리에 대 한 새로운 방향을 설명 합니다.지난 15 년 동안 국립 생명 공학 정보 센터는 게놈,유전 및 단백질 연구에 필수적인 자원으로 봉사했습니다. 이 프로젝트는 선택된 바이러스,미생물,세포 기관 및 진핵 생물에 대한 선별되고 안정적인 주석 참조 게놈,성적표 및 단백질을 제공하여 연구자들은 젠 뱅크의 중복 데이터와 달리 가장 대표적인 서열 데이터에 초점을 맞추고 특정 유전자 서열을 명확하게 참조 할 수있게했습니다. 참고 문헌 컬렉션 명시적으로 연결 된 게놈,성적 증명서 및 출판물,유익한 명명법 및 표준화 및 확장 기능 주석을 통합 하는 단백질 시퀀스 레코드를 제공 합니다. 이 응용 프로그램은 당신의 마음에 드는 조리법을 저장,저장 및 공유 할 수 있습니다. 모든 데이터는 품질보증(품질보증)검사 대상이며,다른 분류군 또는 데이터 유형에 대해 개발된 일부 전문 품질보증 검사 대상입니다. 예를 들어,모든 바이러스 심판은 공개 출시 전에 분류 학적 검토를 거칩니다. 그들은 유전자 특정 데이터,임상 변이 및 종 간 비교 보고에 대 한 기준으로 사용할 수 있는 안정적이 고 일관 된 좌표계를 제공 하기 때문에 렉섹 가입 과학 출판물 및 유전자 데이터베이스에 널리 인용 됩니다. 정확한보고 및 재현성이 생물 의학 연구(1)의 모범 사례를위한 중요한 구성 요소이기 때문에 이러한 참조 시퀀스 표준은 점점 더 중요합니다.2018 년 10 월 15 일(토)~2018 년 10 월 15 일(일)
Prefix . | Molecule type . | Use context . | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NC_1 | DNA | Chromosomes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linkage Groups | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AC_1 | DNA | Chromosomes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linkage Groups | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NZ_2 | DNA | Chromosomes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Scaffolds | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Used predominantly for prokaryotic genomes. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NT_3 | DNA | Scaffolds | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NW_3 | DNA | Scaffolds | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NG_1 | DNA | Genomic regions. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NM_3,4 | mRNA | protein-coding transcripts | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
XM_3,5 | mRNA | protein-coding transcripts | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NP_3,4 | protein | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NC_1 | DNA | Chromosomes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linkage Groups | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AC_1 | DNA | Chromosomes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linkage Groups | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NZ_2 | DNA | Chromosomes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Scaffolds | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Used predominantly for prokaryotic genomes. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NT_3 | DNA | Scaffolds | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NW_3 | DNA | Scaffolds | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NG_1 | DNA | Genomic regions. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NM_3,4 | mRNA | protein-coding transcripts | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
XM_3,5 | mRNA | protein-coding transcripts | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NP_3,4 | protein |
Prefix . | Molecule type . | Use context . | ||||
---|---|---|---|---|---|---|
NC_1 | DNA | Chromosomes | ||||
Linkage Groups | ||||||
AC_1 | DNA | Chromosomes | ||||
Linkage Groups | ||||||
NZ_2 | DNA | Chromosomes | ||||
Scaffolds | ||||||
Used predominantly for prokaryotic genomes. | ||||||
NT_3 | DNA | Scaffolds | ||||
NW_3 | DNA | Scaffolds | ||||
NG_1 | DNA | Genomic regions. | ||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||||||
NM_3,4 | mRNA | protein-coding transcripts | ||||
XM_3,5 | mRNA | protein-coding transcripts | ||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | ||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | ||||
NP_3,4 | protein | |||||
NC_1 | DNA | Chromosomes | ||||
Linkage Groups | ||||||
AC_1 | DNA | Chromosomes | ||||
Linkage Groups | ||||||
NZ_2 | DNA | Chromosomes | ||||
Scaffolds | ||||||
Used predominantly for prokaryotic genomes. | ||||||
NT_3 | DNA | Scaffolds | ||||
NW_3 | DNA | Scaffolds | ||||
NG_1 | DNA | Genomic regions. | ||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||||||
NM_3,4 | mRNA | protein-coding transcripts | ||||
XM_3,5 | mRNA | protein-coding transcripts | ||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | ||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | ||||
NP_3,4 | protein | |||||
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . %변화. | |||||
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/(예:고세균.2018 년 10 월 1 일관련 파일). 연간 변경 비율은 참조 질문 릴리스 71(2015 년 7 월)및 참조 질문 릴리스 66(2014 년 7 월)에 대한 데이터 수를 비교한 기반으로 합니다.2018 년 10 월 15 일-2018 년 10 월 15 일%변화.
Release Directory . | Organisms . %변화. | |||||
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/(예:고세균.2018 년 10 월 1 일관련 파일). 연간 변경 비율은 참조 질문 릴리스 71(2015 년 7 월)및 참조 질문 릴리스 66(2014 년 7 월)에 대한 데이터 수를 비교한 기반으로 합니다.
는 극적인 감소의 단백질 플라스미드 기록에 따라서 숫자의 총 승인을 반영의 완성 RefSeq 세균 게놈은 다시 주석 프로젝트(http://www.ncbi.nlm.nih.gov/refseq/에 대해/prokaryotes/reannotation/)의 채택한 새로운 데이터에 대한 모델 prokaryotes 포함하여,그들의 plasmids. 이 새로운 데이터 모델에서 단일 참조 비 중복 단백질 가입은 그 게놈 단백질 코딩 영역의 번역이 동일한 단백질을 초래할 때 하나 이상의 게놈 서열 기록에 주석을 달 수 있습니다. 또한 크게 감소;모든 세균 단백질에 중복 그러나,그것은 분명 여기 데이터 집합에 포함 된 세균 게놈의 수에 상당한 증가 계속으로 인해. 이러한 변화는 또한 고 대 단백질 레코드의 수에 있는 전반적인 하락 귀착 되었다.호모 사피엔스,뮤스 머슬쿠스,라투스 노르베기쿠스,갈루스 갈루스,보스 토러스,다니오 레리오를 포함한 척추동물들의 선별된 그룹은 우리의 성적증명서 및 문헌 기반의 수동 큐레이션 노력의 주요 초점이다. 큐레이터는 일반적으로 품질 보증(품질 보증)테스트에 의해 확인 된 데이터 충돌이있는 유전자 목록에서 작업하며,그 중 일부는 이전에 설명되었습니다(12). 큐레이터 데이터 세트에서 사람 간 일관성을 보장하기 위해 각 유전자를 분석 할 때 그들은 지침의 상세한 세트를 따릅니다. 이 분석에는 심층적 인 서열 평가 및 문헌 검토가 포함되어있어 참조 성적 증명서,단백질,유사 유전자 및 참조 유전자 기록을 생성합니다. 참고 문헌 큐레이터는 성적 증명서 변형을 생성하고,서열 오류를 해결하고,부정확 한 정보를 제거하고,궤적의 생물학을 올바르게 나타내도록 레코드를 업데이트하고,개선 된 단백질 이름,유전자 생성물의 기능 요약,유전자의 기능적 특징 및/또는 관련 간행물과 같은 일부 참조 문헌 기록에 가치있는 기능 정보를 추가합니다. 본 연구결과는 2009 년 12 월 31 일(토)부터 2009 년 12 월 31 일(토)까지 진행되며,2009 년 12 월 31 일(토)까지 진행된다. 코돈(13)의 상류 회문 서열의 중심에서 발견 된 대안 인 프레임 상류 커그 개시 코돈의 사용으로 인한 더 긴 단백질 이소 형태의 존재를 밝혀냈다. 강력한 실험 데이터는이 미토콘드리아 특이 적 이소 형태가 메티오닌(14)이 아닌 류신으로 시작한다는 것을 나타냈다. 진핵 생물에 대한 심판 데이터 모델은 하나의 단백질에 명시 적으로 연결된 하나의 성적 증명서를 제공합니다. 따라서,두 개의 동일한 성적 증명서 레코드는 대체 개시 코돈에서 번역을 반영하기 위해 제공되었다; 따라서,큐 레이션 프로세스 정확 하 고 재현 가능한 게놈 주석을 용이 하 게 정확한 참조 시퀀스를 제공 하 고 관련 생물 학적 정보를 포함 하는 레코드를 제공 하는 이중 목적을 제공 합니다. 이 섹션에서는 최근 업데이트,수동 큐레이션 프로세스 개선,집중 큐레이션 프로젝트의 예에 대해 설명합니다.특히 임상 유전학 커뮤니티에서 사용하기 위해 잘 특성화 된 유전자에 대한 참조 표준으로 사용되는 인간 게놈 서열을 정의합니다. 이러한 시퀀스 엑손 및 인트론 번호 지정에 대 한 규칙을 설정 하 고 다른 변종의 좌표를 정의 하기 위한 병원 성 변종 보고에 대 한 안정적인 기초 역할을 합니다. 각 심판 유전자 기록은 유전자 특이 적 게놈 영역에 초점을 맞추고 일반적으로 심판 성적 증명서 및 도메인 전문가에 의해 선택된 단백질의 하위 집합으로 주석을 달았습니다. 이러한 선택은 엑손 기능을 결정합니다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 이러한 레코드는 일반적으로 5 킬로베이스(킬로바이트)시퀀스 초점 유전자의 업스트림 및 2 킬로바이트 시퀀스 다운스트림,잠재적인 규제 사이트 또는 유전자 기능을 넘어 확장 삭제의 표현을 지원 하기 위해 포함 됩니다. 심판진 기록은 그 경계 내에 위치한 다른 유전자에 대한 주석 정보를 포함할 수 있다. 이 문서는 기계 번역되었으므로 어휘,구문 또는 문법에서 오류가 있을 수 있습니다 이 기능은 시퀀스 데이터에 대한 추가 검토를 제공합니다. 최근 연구의 초점은 적어도 두 개의 임상 시험은 국립 보건원 유전자 검사 레지스트리에 제출 된 모든 유전자를 표현하기 위해 심판 유전자 기록의 수를 확대했다. 현재 5,596 개의 레프섹젠이 있으며,그 중 633 개의 레프섹젠이 등록되어 있다. 참고 문헌 기록은 참조 문헌 웹 사이트를 탐색하여’참조 문헌’으로 뉴클레오티드 데이터베이스를 검색하여 검색 할 수 있습니다.www.ncbi.nlm.nih.gov/refseq/rsg/),또는 ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).이 프로젝트의 주요 목표는 높은 품질과 전체 길이 성적 증명서 및 단백질 참조 서열을 나타내는 것입니다. 따라서,우리의 큐 레이션 기준은 주로 기존의 성적 증명서와 단백질 정렬 및 출판 된 증거를 기반으로합니다. 그러나 척추 동물 전사 프로젝트는 현재 짧은 읽기 시퀀싱 기술에 의해 생성 된 새로운 성적 증명서 데이터의 대부분과 함께 더욱 복잡해졌습니다. 프로모터 관련 후성 유전 학적 마크의 글로벌 패턴을 보는 게놈 차원의 연구는 또한 활성 프로모터 및/또는 활성 전사의 증거를 제공합니다. 특히 유전자 또는 변형 풍부한 기존의 성적 증명서 지원 부족 하는 경우에 우리의 수동 주석을 강화 하기 위해 이러한 새로운 데이터 형식을 통합 하는 큐 레이 션 관행을 조정 했다. 이러한 유전자-서열 및 후성 유전학 연구는 잠재적인 오 탐지 및 장거리 엑손 조합(15)에 대 한 지원의 부족을 통해 예를 들어 유전자 주석 그룹에 대 한 도전을 제시 하는 거 대 한 데이터 집합을 생성 했습니다. 참조 큐레이터 선택적으로 우리의 게놈 주석 파이프라인에 고려에 대 한 높은 품질의 데이터 집합 및 수동 주석 프로세스에 통합 하 여 거짓 반응에 대 한 완화. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 인간 유전자의 큐레이션은 일루미나 바디맵 2(바이오프로젝트:프젭 2445)와 인간 단백질 아틀라스 프로젝트(바이오프로젝트:프젭 4337)(16)의 분석 결과를 활용한다. 또한 큐레이터는 다음과 같은 프로모터 관련 히스톤 수정 마크를 사용합니다.; (18)는 활성 프로모터의 존재를 검증한다. 참고 문헌 큐레이터는 또한 폴리아 꼬리가없는 성적표의 3’완전성을 확인하기 위해 폴리아 서열 데이터를 평가합니다(19). 추가 데이터 유형,포함 필록(20),소비재,반복 마스크(21)및 유전자 발현의 캡 분석(케이지)데이터(22),때로는 추가 지원으로 사용됩니다.비코딩 구조 및 마이크로코딩 구조,전사된 유사 유전자,그리고 크게 특징화되지 않은 비코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 및 마이크로코딩 구조 이 종류의 유전자는 일반적으로 강한 단백질 코딩 잠재력이 부족한 200 신약의 길이로 정의됩니다(23). 이 레코딩은 글을 읽고 쓸줄 모르거나 구두 문화권의 사람들 특히 미전도 종족 그룹에게 복음의 메시지를 가지고 전도와 기본적인 성경 교육을 위해 설계되었습니다 현재 540,000 개가 넘는 진핵 생물 기록을 보유하고 있으며,그 중 6,700 개가 넘는 기록이 선별되어 있으며 기능적으로 특성화 된 것은 몇 백 개뿐입니다. 이 중 많은 사람들이 알츠하이머 병의 병태 생리학에서 역할을 할 수있는 바세 1 과 여러 암과 관련된 핫 에어와 같은 인간 질병에 연루되어 있습니다(24,25). 대부분의 리스크는 알 수 없는 기능을 가지고 있으며,긴 리딩 프레임이 없기 때문에 녹취록의 완전성을 확인하는 데 어려움이 있습니다. 이 문서는 기계 번역되었으므로 어휘,구문 또는 문법에서 오류가 있을 수 있습니다 이 프로그램은 모듈식 구조,유연한 구조,그리고 외부 데이터 베이스와는 독립적으로 구동할 수 있도록 설계되었습니다. 이상적으로,성적 증명서 지원은 적어도 3 개의 엑손으로 접합되어야하지만,프로모터 관련 후성 유전체학에 의해 뒷받침되는 경우 2 개의 엑손 및 무중단 성적 증명서를 나타낼 수 있습니다. 비코딩 유전자에 대한 렙섹 레코드는 검색 문자열’바이오몰 렙섹’을 사용하여 엔씨비의 뉴클레오티드 데이터베이스에서 검색하고 왼쪽 열에서 렙섹 필터를 선택할 수 있습니다.큐레이터 진핵 생물 심판 성적 증명서 레코드의 독특한 기여는 참조 시퀀스와 기능 정보를 통합한다는 것입니다. 참고 문헌 큐 레이션 직원은 참조 문헌 기록 및/또는 유전자 자원을 통해 사용할 수있는 유전자 요약,명명법,대본 변형 텍스트,유전자 및 서열 속성 및 기능적 특징을 추가합니다. 지난 1 년 동안,렙섹 직원들은 컴퓨터 도구가 생물학적 지식을 정확하게 나타낼 수 없는 특정 유전자 세트에 기능 데이터를 추가하기 위해 다음 단락에서 간략하게 설명하는 몇 가지 심층적 인 주석 프로젝트를 추진해 왔습니다. 이러한 프로젝트에는 항균 펩타이드,내인성 레트로 바이러스,복제 의존 히스톤,규제 우오프 및 항 자임의 주석이 포함됩니다.2015/05/21/)(26). 앰프는 종의 다양 한 배열에서 발견 되 고 살 균,항 바이러스,항진균 및 심지어 항 종양 활동을 포함 하 여 많은 면역 역할에 연루 된 자연스럽 게 발생 하는 펩 티 드. 하나 이상의 실험적으로 입증 된 앰프를 코딩하는 130 개 이상의 인간 유전자 목록은 공개적으로 사용 가능한 여러 앰프 데이터 세트에서 수집되었으며 출판물에서도 채굴되었습니다. 이러한 앰프의 대부분은 이전에 심판 데이터베이스에서 확인되지 않았다,앰프 데이터베이스 중 어느 것도 자신의 인코딩 유전자에 펩타이드를 연결하지. 렙섹 큐레이터는 기능 펩타이드가 주석 처리되었는지 확인하고,펩타이드의 항균 활성을 설명하는 간행물을 포함하고,인코딩 된 앰프의 항균 활성을 설명하는 간략한 요약을 추가하고,렙섹 속성 구조화 된 주석에 포함 된 새로운 렙섹 속성’단백질은 항균 활성을 갖는다’를 저장하기 위해 각 앰프의 인코딩 인간 유전자에 대한 렙섹 레코드에 수동으로 주석을 달았습니다. 큐레이터 인간의 성적 증명서 또는 단백질 앰프 기록을 모두 액세스하려면’단백질은 항균 활성을 가지고’를 사용하여 뉴클레오티드 또는 단백질 데이터베이스를 검색 할 수 있습니다. 현재,이 검색은 스플 라이스 변이체 및 단백질 이소 폼을 포함한 191 개의 렙섹 레코드를 찾을 수 있습니다.내인성 레트로 바이러스는 숙주 게놈에 외인성 레트로 바이러스의 조상 삽입에서 파생 된 게놈 유전자좌입니다. 에 대한 범위를 벗어났습니다.; 그러나,우리는 호스트 기능을 제공 하기 위해 진화 하는 경우 단일 게놈 위치에 지도 전체 길이 단백질 코딩 위치를 주석,알려진된 질병 및/또는 공식 명명 위원회에 의해 명명법을 할당 된 경우 연결 됩니다. 인간 게놈의 약 8%는 레트로 바이러스 기원(27);그러나 그들의 고대 기원으로 인해 대부분의 인간 에르 브자좌는 말도 안되는 돌연변이를 축적했으며 더 이상 단백질을 암호화 할 수 없습니다. 태반 발달에 관여하는 신시틴 단백질(28)은 이에 대한 잘 알려진 예외입니다. 신시틴-1 및 신시틴-2 단백질은 유전자에 의해 암호화된다. 지금까지 우리는 포유류의 다양한 세트에서 에르브 유전자를 나타내는 기록을 포함하는 에르브 유전자좌에 대한 67 개의 심판을 만들었습니다. 이러한 레코드에 대해’내인성 레트로 바이러스’라는 제목의 새로운 레퍼런스 속성 범주가 생성되었으며 레퍼런스 레코드에 대한 구조화 된 주석에 나타납니다. 이러한 기록은’내인성 레트로 바이러스’를 검색하여 뉴클레오티드 데이터베이스에서 검색 할 수 있습니다.많은 양의 히스톤 단백질을 생산하기 위해서는 세포 분열 중에 히스톤 무르 나스의 신속한 합성이 필요합니다. 이 과정에 중요한 것은 복제 의존 히스톤 유전자 동안 상향 조절되는 1/에스 세포주기 단계(29). 특정 렉섹 프로젝트는 인간과 마우스에서 복제 의존 히스톤 단백질 코딩 유전자의 전체 집합을 큐레이팅의 목적으로 착수 했다. 이러한 유전자는 표준 3’히스톤 하류 요소(히스톤)게놈 시퀀스에서 시퀀스 및 결과 성숙 미나 특징적으로 부족()꼬리 고 대신 줄기 루프 구조 후 곧 종료(30). 이 프로그램은 모듈식 구조,유연한 구조,그리고 외부 데이터 베이스와는 독립적으로 구동할 수 있도록 설계되었습니다. 보존 된 16 뉴클레오티드 줄기 루프 구조 시퀀스의 위치는’줄기 루프’라는 기능 주석으로 심판 기록에 표시 됩니다. 예를 들면 다음과 같습니다.: 8360). 현재까지 127 개의 인간 및 마우스 복제 의존 히스톤 레퍼런스 레코드가 큐레이팅되고 검색 문자열’복제 의존 히스톤’을 사용하여 뉴클레오티드 데이터베이스에서 이러한 레코드를 검색하는 데 사용할 수있는 레퍼런스 속성이 추가되었습니다.따라서,상기 제 1 차 단백질 코딩 개방 판독 프레임의 번역에 부정적인 영향을 미칠 수있다(31). 이 효과는 항상 포프 번역을 완전히 침묵시키는 것은 아니며 세포 유형,발달 상태 또는 세포 상태에 따라 달라질 수 있습니다. 따라서,비록 유오프 성적 증명서의 6 프레임 변환에서 예측 될 수 있습니다,이 요소의 규제 효과 실험 검증을 통해 결정 되어야 합니다. RefSeq 큐레이터 문학 검토하 찾기 성적 증명서 실험적 증거에의 규제 uORFs 및 업데이트 해당 RefSeq 성적 기록을 추가하 misc_feature 나타내는 위치의 이러한 uORFs. 이 예제는 다음과 같습니다.1244). 이러한 레코드에 대한 구조화된 주석에 새 참조 질문 속성 범주가 생성되었습니다. 주석이 달린 기능 및 속성 모두 지원 게시를 게시하여 인용합니다. 현재까지 260 개의 레코드에 이 속성이 추가되었으며,이러한 레코드는 뉴클레오티드 데이터베이스에서’규제 우오르프’를 검색하여 검색할 수 있다.르니 틴 데 카르 복실 라제 항 자임 유전자는 프로그램 된+1 리보솜 프레임 쉬프트 메커니즘이 발생하고 기존의 계산 도구로는 예측할 수없는 예입니다. 척추 동물 안티 자임 성적 증명서 및 단백질 레코드의 집합은 최근 진핵 게놈 주석 파이프라인(32)에 의해 이러한 유전자 제품의 주석을 개선 하기 위해 표준을 만드는 수동 주석 노력의 대상. 리보솜 미끄러짐을 반영하기 위해 리보솜 미끄러짐을 반영하기 위해 리보솜 미끄러짐을 반영하기 위해 분할 기능을 수동으로 주석 처리했으며,게시 된 증거가있는’리보솜 미끄러짐’속성,다양한 기타 기능 주석(예:프레임 시프트 사이트의 위치)및 유전자의 기능과 새로운 특성을 설명하는 간략한 요약을 포함합니다. 이러한 기록은 검색 쿼리를 사용하여 뉴클레오티드 또는 단백질 데이터베이스에서 검색 할 수 있습니다. 이 검색에는 현재 242 개의 레코드가 있으며,여기에는 성적 증명서 변형 및 단백질 이소 폼이 포함됩니다.무척추 동물은 현존하는 후생 동물의 대다수를 대표한다(33);그러나 비교적 적은 수의 서열 게놈으로 표현된다. 이것은 많은 종들이 말라리아에 대한 벡터 인 아노 펠레스 감비아 및 주혈 흡충증(34,35)에 대한 벡터 인 생체 팔라리아 글라 브라타와 같은 중요한 생물 의학적 중요성을 가지고 있음에도 불구하고. 다음을 포함한 다른 무척추 동물 아피스 멜리 페라,봄빅스 모리 과 크라소 스트레 아 기가 상당한 상업적 가치가 있습니다(36-38). 또한,데이터 집합에 표시되는 무척추 동물 게놈의 수와 범위를 증가시키기 위해 진핵 생물 게놈 주석 파이프 라인을 통해 주석을 제공하거나 그 게놈의 심판 사본에 제출에서 주석을 전파함으로써 노력했습니다. 두 프로세스 흐름 모두에 대해 우리는 고품질 게놈의 공개 가용성에 의존합니다.www.ncbi.nlm.nih.gov/assembly/).현재까지 46 무척추 동물 게놈은 곤충,거미류,연체 동물 및 기초 척척 동물의 대표적인 종을 포함하여 주석이 달렸습니다. 우리는 곤충과 다른 무척추 동물 게놈의 수에 상당한 확장을 예상 게놈 이니셔티브의 결과로 주석(39),1 카이트(1 케이 곤충 전사 진화,이 데이터 세트에서 나타나는 식물 종의 다양성을 계속 확대하고 있습니다. 지금까지 61 종의 식물 종이 렙섹 게놈 데이터 세트에 포함되었습니다.ftp://ftp.엔씨비넬보건원이 중 33 종은 진핵 생물 게놈 주석 파이프 라인을 통해 주석을 달았습니다. 만약 단어의 철자가 틀렸다면,아래 목록에 있는 단어 중 맞는 것 하나를 찾아 보실 수 있습니다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 표 1),자동 처리 및 수동 검토의 조합에 의해 주석 프로세스와 독립적으로 유지 되는’알려진’레코드(나노_,나노_,나노_)의 작은 하위 집합. 식물 성적 증명서 및 단백질 데이터의 수동 큐 레이션은 현재 제아 메이스와 솔라 눔 리코페르시 쿰에 제공됩니다. 현재 큐 레이션 초점 광범위 한 시퀀스 검토를 수반 하 고 성적 증명서의 현재 집합에 품질 보증 문제를 해결 하는 쪽으로 대상. 오류 해결 식별 및 키메라 성적 증명서,중복 성적 증명서 및 유전자를 제거 하 고 참조 자료 성적 증명서,게놈 시퀀스 및 직교 데이터 간의 인델과 불일치를 평가 하 여 표현 된 시퀀스의 품질을 향상에 초점을 맞추고 있습니다. 식물에 대 한 우리 큐레이터 성적 증명서 및 게놈 시퀀싱 및 어셈블리에 대 한 선택한 품종과 일치 하는 단백질 데이터 집합을 제공 하기 위해 노력 합니다. 척추 동물 데이터에 사용되는 큐 레이션 프로토콜은 식물에도 사용됩니다. 따라서,심판 성적 증명서 레코드는 다른 성적 증명서 소스 시퀀스에 기초하여 업데이트 될 수있다,또는 바람직한 품종으로부터 성적 증명서를 제공하기 위해 하나 이상의 성적 증명서 시퀀스 레코드로부터 조립 될 수있다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 초점의 두 번째 영역은 다른 식물 게놈에 주석을 달 때 사용할 수있는 큐레이터 시약을 제공하기 때문에 지원되는 알려진 단백질 코딩 성적 증명서 및 단백질의 수를 늘리는 것입니다. 마지막으로,충분한 지원 증거가있을 때 스플 라이스 변형을 나타내는 더 많은 심판을 만들고 있습니다. 이러한 노력은 크게 식물 심판 데이터 세트의 품질을 개선하고 미래의 게놈 주석의 개선에 기여할 것이다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다.
조류,곰팡이,NEMATODES 원생
NCBI 작은 진핵 게놈 파이프라인은 새로운 자동화 파이프라인의 설계에 대한 세대의 RefSeq 레코드의 결과로 직접 전파의 주석 INSDC 기록합니다. 따라서 생성 된 렉섹 레코드는 렉섹 요구 사항을 준수하기 위해 일부 형식 변경이있는 젠 뱅크 데이터의 사본입니다. 가장 주목할만한 차이 원래 INSDC 기록 및 RefSeq 레코드가 추가 RefSeq 성적증명서 제품입니다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다..’작은 진핵 생물’지정은 조류,원생 동물,곰팡이,선충류 및 일부 절지 동물과 같은 상대적으로 작은 진핵 생물 게놈(식물 및 척추 동물의 게놈과 비교)에 대한 참조 게놈을 생성하는 파이프 라인의 주요 용도를 나타냅니다. 그러나 일부 대형 식물 게놈도이 파이프 라인을 사용하여 처리됩니다. 이 파이프 라인은 염색체 및/또는 스캐 폴드와 그 구성 요소로 구성된 고품질 어셈블리를 처리합니다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 더 많은 수동 지원이 필요한 역사적 프로세스 흐름을 대체하는이 파이프 라인은 최근 공개 생산 단계에 도달했으며 이미 렉섹에서 표현 된’작은’진핵 생물 게놈의 수가 증가하고 있습니다. 파이프라인 처리량을 최적화하고 더 많은 자동화를 추가하고 큐레이터 처리 작업을 더욱 최소화하는 작업이 진행 중입니다. 장기 계획에는 시간이 지남에 따라 제출 된 이름을 제공,수정 또는 개선하기 위해 단백질 이름 관리 시스템을 구현하는 것이 포함됩니다. 작은 진핵 생물 파이프라인에 대 한 범위에 있는 게놈의 많은 분류학 다양성과 드 노 보 주석 파이프라인을 훈련 하는 데 필요한 성적 증명서 데이터의 제한 된 가용성으로 인해(큰)진핵 생물 게놈 주석 파이프라인에 의해 현재 처리할 수 없습니다.곰팡이 형태는 복잡한 다세포 구조에서 매우 단순한 단일 세포에 이르기까지 매우 다양합니다. 단일 종에 의해 다양한 형태 학적 구조와 포자 유형이 생성 될 수 있습니다. 반대로,많은 종들이 유사한 형태학(변형)을 생성하지만 실제로는 유 전적으로 매우 멀리 떨어져 있습니다. 최근까지 단일 종은 성적 또는 무성 모프를 기반으로 하나 이상의 이항 이름으로 유효하게 설명 될 수 있습니다. 많은 경우에,단 하나의 모프 설명 및 주어진 종에 대해 기록 된,밀접하게 관련된 종은 설명 및 기록 여러 모프를 가질 수 있지만. 따라서,시퀀스 비교 곰 팡이 지역 사회에서 종,그들은 복잡 한 라이프 사이클을 통해 진행 하 고 비밀 종 식별 추적 구별 적용 되었습니다. 분류학 재평가의 동적 과정의 일환으로 많은 곰 팡이 종 수정 하지 항상 최신 겐 뱅크 시퀀스 데이터.유전자 기반 식별을 위한 보다 신뢰할 수 있는 리소스가 되려면 유형 표본(종에 대한 참조 역할을 함)에서 파생된 참조 서열을 정확하고 최신 종 이름으로 표시해야 합니다. 균류 심판 표적으로 한 로시 데이타베이스는 이 귀중한 자원을 제공한다. 이것은 수년 동안 계통 발생 마커로 사용되어 왔으며 최근에 진균의 공식 바코드 서열로 승인 된 핵 리보솜 시스트론의 내부 전사 스페이서(그)영역에 특별히 초점을 맞춘 바이오 프로젝트입니다(41). 이 데이터베이스는 인덱스 펑오럼,마이코뱅크,유닛뿐만 아니라 대규모 분류학 전문가 그룹과의 협업으로 시작되었습니다. 서열은 유효한 설명의 유형 표본에서 주로 선택되었으며,현재 올바른 종 이름은 대부분의 허용 된 곰팡이 주문(8)을 나타내는 목적으로 서열과 관련이 있습니다. 이 큐 레이션 노력의 결과는 다양한 출판물(42-46)에서 사용 및 인용되었으며 의학적으로 중요한 종과 같은 참조 서열의 하위 집합을 검증하기위한 추가 노력을 도왔습니다(47).인간의 병원균에 대한 관심과 유전자 시퀀싱 기술의 발전과 함께,서열 원핵 게놈의 수는 빠르게 지난 10 년 동안 증가했다. 일부 세균 균주는 종종 현재 유전자형 접근 방식을 사용 하 여 구별 하지만 사소한 유전 차이 전체 게놈 시퀀싱,전송 경로 특성화,항생제 저항성을 식별 하 고 발생을 측량에 대 한 유용한 기준으로 감지할 수 있습니다. 식품 매개 병원 체 또는 감염 발생을 조사 하기 위해 많은 수의 거의 동일한 세균 게놈 염기 서열 되었습니다 하 고 최근 몇 년 동안에서 주석,수많은 동일한 단백질,각각 고유 가입 번호 데 결과. 2013 년에 새로운 단백질 데이터 모델 및 가입 접두사를 도입했습니다. 이 변경 참조 원핵 단백질에 중복 감소 하 고 동일 하 게 하나 이상의 게놈에서 발견 된 단백질의 식별을 촉진. 또한 원핵 단백질 이름을 관리하기위한 향상된 전략을 허용했습니다. 이러한 비 중복 레코드는 특정 박테리아 게놈과 독립적이며 여러 균주 또는 종에 주석을 달 수있는 고유 한 원핵 단백질 서열을 나타냅니다.www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).이 프로그램은 자바 바이트코드 프로그램의 갯수를 카운트하고,스크립트의 메인 형식을 합계냅니다,그리고 확인되지 않은 실행 텍스트 파일을 찾습니다.. 이 심판 원핵 생물 데이터 집합에서 구조 및 기능 주석에 축적 된 불일치 귀착되 었 다. 지난 2 년 동안 원핵 생물 게놈 주석 파이프 라인의 여러 측면을 개선하여 용량을 늘리고 주석 규칙을 더욱 표준화했습니다. 우리의 파이프 라인은 유전자 호출 알고리즘 인 유전자 마크+(49,50)를 정렬 기반 유전자 검출 접근 방식과 결합하여 완전한 게놈 및 초안 게놈에 주석을 달 수 있습니다. 이 파이프라인은 현재 단백질 코딩 유전자,구조적 유전자(5,16,23),작은 비코딩 유전자 및 작은 비코딩 유전자를 예측하고 있다.2015 년,우리는 게놈 주석을 조화 하 고 새로운 단백질 데이터 모델으로의 전환을 완료 하기 위해 심판 원핵 생물 게놈에 대 한 포괄적인 주석 업데이트를 발표 했다. 새로운 원핵 단백질 이름 데이터베이스,이름 사양 및 증거 기반 전략이 개발되었으며 현재 배포 중입니다. 지금까지,3 백만개의 단백질 기록 이상 접근의 처음 논증에 있는 이름을 새롭게 했다. 새로운 원핵 데이터 모델 이름 관리 단백질 이름 단백질 시퀀스 레코드;수행으로 중요 한 이점을 제공 합니다.참고 문헌 원핵 생물 게놈은 선별 된 속성과 어셈블리 및 주석 품질 측정을 기반으로 참조 게놈 및 대표 게놈과 같은 몇 가지 새로운 범주로 구성됩니다(www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/)(51). 참조 게놈은 수동으로 높은 품질의 주석과 구조 및 기능 주석에 대한 실험 지원의 최고 수준의’황금 표준’완전한 게놈을 선택합니다. 현재 122 개의 참조 게놈의 작은 데이터 세트는 공동 작업 그룹과 직원들에 의해 수동으로 주석을 달 수 있습니다. 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 대표 게놈 계산 계산 하 고 다양 한 종을 대표 하기 위해 선택 됩니다. 대표 게놈에서 사용할 수 있습니다:www.ncbi.nlm.nih.gov/genome/browse/representative 그러나 생물 과학과 같은 다른 분야에 대한 어플리케이션도 있습니다.. 폭발 홈 페이지에서 액세스 사용자 정의’미생물’폭발 페이지,모든 심판 원핵 생물 게놈,참조 및 대표 게놈 하위 집합에 대해 검색하거나 특정 분류군에 대한 검색을 제한하는 옵션을 제공합니다. 원핵 생물 게놈의 하위 집합은 다음과 같이 주석 처리되어 있습니다. 고세균의 경우,이것은 가장 완전한 게놈을 위해 제공됩니다. 박테리아의 경우,이 참조 게놈 적어도 10 게놈 제출이 종에 대한 대표 게놈을 위해 제공됩니다.원핵 생물 표적자좌에서,16 초 리보솜 리보솜 서열은 새로운 종에 대한 설명을위한 표준 분자 마커가되었다. 이러한 마커 시퀀스가 널리 사용되고 있지만 시퀀스 데이터 및 관련 메타 데이터의 품질은 상당히 다양합니다. 이러한 마커에 대한 높은 품질의 데이터에 대한 액세스의 중요성을 인식,엔씨씨는 큐레이팅 된 데이터의 최신 소스를 제공하기 위해 자사의 대상 지역 정보 센터 프로젝트를 확장했다. 대상된 위치 프로젝트는 현재 거의 18 000 16 리보솜 리보솜 참조 시퀀스는 95%이상 유형 균주에서 유지 합니다. 유형 균주는 종의 예시로 간주되며 유형 변형 데이터가 올바른 메타 데이터로 주석을 달고 오염이 없어야합니다.과학 표준. 홍보 열리 연구 문화
et al. 전체 게놈은 현대 조류의 생명 나무의 초기 가지를 해결 분석 2014등. 컨센서스 코딩 서열 데이터베이스의 현재 현황 및 새로운 특징 2014 핵산 2014 42 프루이트 2014 465 프루이트 2014 2018 년 11 월 1 일(토)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)~2018 년 12 월 15 일(일)2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 10 월 25 일,2007 년 2018 년 11 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 2018 년 11 월 1 일(토)~2018 년 12 월 1 일(일)2018 년 10 월 15 일(토)~2018 년 10 월 15 일(일)