UniProt

De Wikipedia, la enciclopedia libre
Saltar a: navegación , búsqueda
UniProt
UPlogo1.png
Contenido
Descripción UniProt es la Uni versal de los recursos ein Prot, un repositorio central de la proteína de los datos creados mediante la combinación de Swiss-Prot, TrEMBL PIR-PSD y bases de datos .
Los tipos de datos capturados Proteínas anotación
Organismo (s) Todos
Contacto
Centro de investigaciones EMBL-EBI , Reino Unido, SIB , Suiza, PIR , EE.UU..
Cita primaria La evolución actual y futura de recursos en la proteína universal [1]
Acceso
Formato de datos Archivo personalizado plana, FASTA , GFF , RDF , XML .
Sitio web uniprot.org
URL de descarga uniprot.org / descarga y para la descarga de conjuntos completos de datos ftp.uniprot.org
Web Service URL Sí - Java API ver información aquí y REST ver información aquí
Instrumentos
Web Búsqueda avanzada, BLAST , Clustal W, a granel de recuperación / descarga, de asignación de ID
Misc.
Licencia Creative Commons Reconocimiento-Sin obras derivadas
De versiones
Datos de frecuencia de liberación 4 semanas
Curación política Sí - manuales y automáticas. Normas para la anotación automática generada por los curadores de la base de datos y algoritmos computacionales.
Entidades bookmarkable Sí - las dos entradas de proteínas individuales y allanamientos

UniProt está basado en las secuencias de proteínas , muchas de las cuales se derivan de los proyectos de secuenciación del genoma . Contiene una gran cantidad de información acerca de la función biológica de las proteínas derivadas de la literatura de investigación.

Contenido

[ editar ] El Consorcio UniProt

El Consorcio UniProt comprende el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB), y el de Recursos de Información de proteínas (PIR). EBI, que se encuentra en el Wellcome Trust Genoma Campus en Hinxton, Reino Unido, aloja un recurso de gran cantidad de bases de datos bioinformáticas y servicios. SIB, con sede en Ginebra, Suiza, mantiene la ExPASy (sistema experto de análisis de proteínas) de los servidores que son un recurso central para las herramientas de proteómica y bases de datos. PIR, organizado por la Fundación Nacional de Investigación Biomédica (NBRF) en el Georgetown University Medical Center en Washington, DC, EE.UU., es el heredero de la base de datos de proteínas más antigua secuencia, Margaret Dayhoff 's Atlas de secuencia de proteínas y estructura, publicado por primera vez en 1965. [2] En 2002, el EBI, la SIB, y PIR se unieron en el consorcio UniProt. [3]

[ editar ] Las raíces de las bases de datos UniProt

Cada miembro del consorcio está muy involucrado en el mantenimiento de la base de datos de proteínas y anotación. Hasta hace poco, el EBI y la SIB en conjunto produjeron las bases de datos Swiss-Prot y TrEMBL, mientras PIR produce la base de datos de secuencias de proteínas (PIR-PSD). [4] [5] [6] Estas bases de datos convivido con diferentes secuencias de proteínas de cobertura y las prioridades de anotación.

Swiss-Prot fue creado en 1986 por Amos Bairoch durante su tesis doctoral y desarrollado por el Instituto Suizo de Bioinformática y el Instituto Europeo de Bioinformática . [7] [8] Swiss-Prot dirigido a proporcionar secuencias fiables proteína asociada con un alto nivel de anotación ( tales como la descripción de la función de una proteína, su dominio de la estructura, modificaciones post-traduccionales , variantes, etc), un nivel mínimo de redundancia y un alto nivel de integración con otras bases de datos. Reconociendo que los datos de la secuencia se están generando a un ritmo superior a la capacidad de Swiss-Prot para mantener el ritmo, TrEMBL (Traducido EMBL Biblioteca de secuencias de nucleótidos de datos) fue creado para proporcionar anotaciones automatizadas para las proteínas no en Swiss-Prot. Mientras tanto, mantiene las bases de datos PIR PIR-PSD y afines, incluyendo iProClass , una base de datos de secuencias de proteínas y de las familias curada.

Los miembros del consorcio en común sus recursos y superposición de competencias, y puso en marcha UniProt en diciembre de 2003. [9]

[ editar ] Organización de las bases de datos UniProt

UniProt dispone de cuatro bases de datos centrales:

[ editar ] UniProtKB

UniProt Knowledgebase (UniProtKB) es una base de datos de proteínas, comisariada por los expertos, que consta de dos secciones. UniProtKB / Swiss-Prot (que contiene revisados, las entradas de forma manual anotado) y UniProtKB / TrEMBL (que contiene sin revisar, de forma automática las entradas de anotaciones). [10] En la versión 2010_09 de 10 de agosto de 2010, UniProtKB / Swiss-Prot contenía 519.348 entradas, y UniProtKB / TrEMBL contenida 11.636.205 entradas. [11] [12]

[ editar ] UniProtKB / Swiss-Prot

UniProtKB / Swiss-Prot es una de alta calidad, de forma manual anotado, no redundante base de datos de secuencias de proteínas. Combina la información extraída de la literatura científica y biocurator a evaluar el análisis computacional. El objetivo de UniProtKB / Swiss-Prot es proporcionar toda la información pertinente conocida de una proteína en particular. La anotación se revisarán periódicamente para mantenerse al día con los actuales conocimientos científicos. La anotación manual de una entrada implica un análisis detallado de la secuencia de la proteína y de la literatura científica. [13]

Secuencias de los mismos genes y la misma especie se han fusionado en la entrada misma base de datos. Las diferencias entre las secuencias se identifican, y su causa documentada (por ejemplo splicing alternativo , la variación natural , incorrecta iniciación sitios, incorrecta exón límites, el marco de lectura , los conflictos no identificados). Una gama de herramientas de análisis de la secuencia se utiliza en la anotación de entradas UniProtKB / Swiss-Prot. Ordenador de forma manual las predicciones son evaluados, y los resultados pertinentes para su inclusión en la entrada. Estas predicciones incluyen modificaciones post-traduccionales, dominios transmembrana y topología , péptidos señal , la identificación de dominio, y la familia de proteínas de clasificación. [13] [14]

Publicaciones relevantes se identificaron mediante búsquedas en bases de datos como PubMed . El texto completo de cada documento se lee, y la información se extrae y se agrega a la entrada. Anotación que surgen de la literatura científica incluye, pero no limitado a: [9] [13] [14]

Entradas anotadas someterse a control de calidad antes de su inclusión en UniProtKB / Swiss-Prot. Cuando se disponga de nuevos datos, las entradas se actualizan.

[ editar ] UniProtKB / TrEMBL

UniProtKB / TrEMBL contiene registros de alta calidad computacionalmente analizados, que se enriquecen con la anotación automática. Fue introducido en respuesta a un aumento de flujo de datos resultante de proyectos del genoma, como el proceso de anotación de tiempo y mano de obra consume manual de UniProtKB / Swiss-Prot no puede ser ampliado para incluir a todas las secuencias de proteínas disponibles. [9] Las traducciones de las secuencias de codificación anotada en la base de datos de secuencia de nucleótidos EMBL-Bank/GenBank/DDBJ se procesan automáticamente y entró en UniProtKB / TrEMBL. UniProtKB / TrEMBL también contiene secuencias de AP , y de predicción de genes, incluyendo Ensembl , RefSeq y CCDS . [15]

[ editar ] UniParc

UniProt Archivo (UniParc) es una base de datos completa y no redundantes, que contiene todas las secuencias de proteínas de las principales bases de datos, la secuencia de la proteína a disposición del público. [16] Las proteínas pueden existir en varias bases de datos de fuentes diferentes, y en múltiples copias en la misma base de datos . Con el fin de evitar la redundancia, UniParc tiendas cada secuencia sólo una vez. Secuencias idénticas se fusionan, independientemente de si son de la misma especie o diferente. Cada secuencia se le asigna un identificador único y estable (UPI), por lo que es posible identificar la misma proteína a partir de bases de datos de diferentes fuentes. UniParc sólo contiene secuencias de proteínas, sin anotación. Base de datos de referencias cruzadas en las entradas de UniParc permiten obtener más información acerca de la proteína a ser recuperados de las bases de datos de origen. Cuando las secuencias en el cambio de fuente de bases de datos, estos cambios son seguidos por UniParc y la historia de todos los cambios en el archivo.

[ editar ] bases de datos de origen

Actualmente UniParc contiene secuencias de proteínas de las bases de datos a disposición del público:

[ editar ] UniRef

Los Clusters UniProt Referencia (UniRef) constan de tres bases de datos de los conjuntos agrupados de secuencias de proteínas de UniProtKB y registros seleccionados UniParc. [17] La base de datos UniRef100 combina secuencias idénticas y los fragmentos de la secuencia (de cualquier organismo ) en una entrada UniRef sola. La secuencia de una proteína representante, el número de acceso de todas las entradas combinadas y enlaces a los registros correspondientes y UniProtKB UniParc se muestran. UniRef100 secuencias se agrupan utilizando el CD-HIT algoritmo para construir UniRef90 y UniRef50. [17] [18] Cada grupo está compuesto por secuencias que tienen al menos un 90% o 50% de identidad de secuencia, respectivamente, a la secuencia más larga. Secuencias de la agrupación reduce significativamente el tamaño de la base de datos, lo que permite búsquedas más rápidas secuencias.

[ editar ] Unimes

La metagenómica UniProt y secuencias del Medio Ambiente (Unimes) base de datos es un repositorio desarrollado específicamente para la metagenómica y la información ambiental . [19] Las proteínas de predecir a partir de esta base de datos se combinan con la clasificación automática por InterPro para mejorar la información original con un nuevo análisis.

UniProtKB contiene secuencias de proteínas de las especies conocidas, los datos derivados de estudios de metagenómica es de medio ambiente (es decir, inculto) muestras y, como tal, la especie no puede ser conocido / identificados. Unimes fue desarrollado para estos datos. Los datos de Unimes no está incluido en UniProtKB o UniRef, pero se incluye en UniParc. [19] Unimes incluye los datos de la expedición de muestreo global Océano (SMO). [20]

Unimes está disponible en el sitio FTP UniProt

[ editar ] La financiación de UniProt

UniProt es financiado por donaciones de la Nacional Human Genome Research Institute , el National Institutes of Health (NIH), la Comisión Europea , el Gobierno Federal a través de la Oficina Federal de Educación y Ciencia, Instituto Nacional del Cáncer caBIG , y el Departamento de Defensa. [ 10]

[ editar ] Referencias

  1. ^ "La evolución actual y futura en el recurso de proteínas Universal" . Nucleic Acids Research 39 (número de bases de datos): D214-9. . Enero 2011 DOI : 10.1093/nar/gkq1020 . PMC 3013648 . PMID 21051339 . http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=21051339 .  
  2. ^ Dayhoff, Margaret O. (1965). Atlas de secuencia de la proteína y la estructura. Silver Spring, MD: Instituto Nacional de Investigación Biomédica de la Fundación.  
  3. ^ http://www.genome.gov/page.cfm?pageID=10005283
  4. ^ O'Donovan C, Martín MJ, Gattiker A, E Gasteiger, Bairoch A, Apweiler R (septiembre de 2002). "Proteínas de alta calidad de los recursos del conocimiento: SWISS-PROT y TrEMBL" Breve.. Bioinformática tres (3):. 275-84 PMID 12230036 .  
  5. ^ CH Wu, Yeh LS, Huang H, et al. (enero de 2003). "La proteína de Recursos de Información" Nucleic Acids Res. 31 (1):.. 345-7. PMC 165487 . PMID 12520019 .  
  6. ^ B Boeckmann, Bairoch A, Apweiler R, et al. (enero de 2003). "El SWISS-PROT base de conocimiento de las proteínas y su TrEMBL suplemento en 2003" Nucleic Acids Res. 31 (1):.. 365-70. PMC 165542 . PMID 12520024 .  
  7. ^ Amos Bairoch (2000). "Serendipity en la bioinformática, las tribulaciones de un bioinformático suizo a través de tiempos muy emocionantes!" Bioinformática 16 (1):. 48-64. DOI : 10.1093/bioinformatics/16.1.48 . PMID 10812477 . http:/ / bioinformatics.oupjournals.org/cgi/reprint/16/1/48 .  
  8. ^ Séverine Altairac, " Naissance d'une banque de données:. Entrevista du profesor Amos Bairoch ". Protéines à la Une , agosto de 2006. ISSN 1660-9824.
  9. ^ un b c Apweiler R, Bairoch A, CH Wu (febrero de 2004). "Bases de datos de secuencias de proteínas" Curr Opin Chem Biol 8 (1):.. 76-80 DOI : 10.1016/j.cbpa.2003.12.004 . PMID 15036160 .  
  10. ^ un b "el recurso de proteínas Universal (UniProt) en 2010" Nucleic Acids Res. 38 (número de bases de datos):.. D142-8. . Enero 2010 DOI : 10.1093/nar/gkp846 . PMC 2808944 . PMID 19843607 .  
  11. ^ UniProtKB / SwissProt liberación de las estadísticas
  12. ^ UniProtKB / TrEMBL publican estadísticas
  13. ^ un b c Anotación de UniProtKB
  14. ^ un b Apweiler R, Bairoch A, CH Wu, et al. (enero de 2004). "UniProt: la Declaración Universal de proteína base de conocimientos" Nucleic Acids Res. 32 (número de bases de datos):... D115-9 DOI : 10.1093/nar/gkh131 . PMC 308865 . PMID 14681372 .  
  15. ^ ¿De dónde provienen las secuencias UniProtKB
  16. ^ Leinonen R, Diez FG, Binns D, W Fleischmann, López R, R Apweiler (noviembre de 2004). . "UniProt archivo" Bioinformática 20 (17): 3236-7. DOI : 10.1093/bioinformatics/bth191 . PMID 15044231 .  
  17. ^ un b Suzek BE, Huang H, P McGarvey, Mazumder R, CH Wu (mayo de 2007). "UniRef: grupos UniProt integral y no redundantes de referencia" Bioinformática 23 (10):. 1282-8. DOI : 10.1093/bioinformatics/btm098 . PMID 17379688 .  
  18. ^ W Li, Jaroszewski L, Godzik A (marzo de 2001). "La agrupación de secuencias altamente homólogas a reducir el tamaño de las bases de datos de proteínas grandes" Bioinformática 17 (3):.. 282-3 PMID 11294794 .  
  19. ^ un b "El recurso de la proteína universal (UniProt)" Nucleic Acids Res. 36 (número de bases de datos):.. D190-5. . Enero 2008 DOI : 10.1093/nar/gkm895 . PMC 2238893 . PMID 18045787 .  
  20. ^ Yooseph S, G Sutton, Rusch DB, et al. (marzo de 2007). "The Sorcerer II Global Ocean muestreo expedición: ampliar el universo de las familias de proteínas" PLoS Biol 5 (3):... E16 DOI : 10.1371/journal.pbio.0050016 . PMC 1821046 . PMID 17355171 .  

[ editar ] Enlaces externos

Herramientas personales
Espacios de nombres
Variantes
Puntos de vista
Acciones
Navegación
Interacción
Caja de herramientas
Imprimir / exportar
Idiomas

mk.gd - Translate any webpage in real-time - This webpage has been translated in order to make it available in another language, view original page

View this page in: Afrikaans, Albanian, Arabic, Belarusian, Bulgarian, Catalan, Chinese (Simp), Chinese (Trad), Croatian, Czech, Danish, Dutch, English, Estonian, Filipino, Finnish, French, Galician, German, Greek, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Irish, Italian, Japanese, Korean, Latvian, Lithuanian, Macedonian, Malay, Maltese, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Thai, Turkish, Ukrainian, Vietnamese, Welsh, Yiddish

Content and any subsequent copyright is upheld by the third-party - contact@mk.gd