Recherche de gènes et régions codantes





télécharger 480.38 Kb.
titreRecherche de gènes et régions codantes
page5/15
date de publication13.02.2018
taille480.38 Kb.
typeRecherche
d.20-bal.com > droit > Recherche
1   2   3   4   5   6   7   8   9   ...   15

La base de motifs protéiques BLOCK



La base BLOCK est également basée sur un système qui détecte et assemble les régions conservées de protéines apparentées. La détection consiste en des alignements multiples à partir desquels des blocs de séquences sont engendrés. Un bloc est la superposition de segments protéiques très similaires sans insertion-délétion. L'ensemble de tous ces blocs forme la base. C'est ainsi que Henikoff et Henikoff (1991) ont défini 1764 blocs à partir des 437 groupes de protéines recensés durant l'établissement de PROSITE. Les motifs représentés par la base BLOCK sont généralement plus courts que ceux donnés par la base PROSITE mais les différences fondamentales entre ces bases résident dans la représentation des données. Les motifs de PROSITE sont définis sous forme de chaînes de caractères prenant en compte des insertions et des ambiguïtés sur les acides aminés conservés alors que les motifs de la base BLOCK sont représentés par des suites d'acides aminés donnés sous forme d'alignements multiples.

L'utilisation de ces bases de motifs est devenue un outil essentiel dans l'analyse des séquences pour tenter de déterminer la fonction de protéines inconnues ou savoir à quelle famille appartient une séquence non encore caractérisée. En général, les bases comme TFD ou IMD sont employées sur les séquences promotrices des gènes tandis que celles comme PROSITE ou BLOCKS sont utilisées sur des protéines inconnues ou bien des séquences protéiques traduites à partir de cDNA ou de séquences génomiques. Pour détecter une fonctionnalité sur une séquence, il suffit d'exécuter un programme qui s'appliquera à repérer la présence de certains motifs recensés dans ces bases et ainsi à prédire l'appartenance de la séquence testée à un groupe de séquences ayant une signature commune. Nous verrons dans le chapitre II (cf. les programmes de recherche de motifs) les avantages de chacune des définitions de motifs (motif consensus, matrice ou alignement multiple) ainsi que les différents algorithmes que l'on peut appliquer en fonction de ces définitions.

La diffusion et l'utilisation des banques de données


La diffusion


La plupart des bases de données sont mises à jour par la production de versions actualisées. Le rythme est de trois à six versions par an pour les bases de données les plus couramment utilisées (actuellement, quatre versions par an pour L'EMBL et six pour GenBank) et de seulement une version par an ou tous les deux ans pour la plupart des autres. Pendant longtemps, la principale distribution fut l'envoi postal de bandes magnétiques aux personnes ayant souscrit un abonnement. Progressivement le CD-ROM a remplacé ce support de stockage et a permis une plus grande diffusion des données. Depuis le début des années 90, avec l'installation massive des réseaux informatiques à hauts débits qui permettent d'atteindre une machine située à plusieurs milliers de kilomètres de son terminal, beaucoup de laboratoires rapatrient les bases de données via ces réseaux à partir de serveurs publics. Ces réseaux informatiques rapides et les services qui en découlent permettent une large diffusion des bases. Ainsi beaucoup de serveurs mettent gratuitement à disposition de nombreuses bases, dont les grandes banques de séquences généralistes comme l'EMBL avec une mise à jour quotidienne des données, mais également un grand nombre d'autres bases dont la diffusion était auparavant plus restreinte. De ce fait, il résulte une banalisation de l'accès à l'information. Il n'est même plus nécessaire d'avoir localement les bases de données ou de se connecter par des procédures complexes à un centre serveur privilégié pour pouvoir exploiter aisément le contenu de ces bases. C'est ainsi que l'on estime maintenant le nombre total d'utilisateurs de la banque EMBL à plus de 50 000.
L'interrogation

Pour que les bases de données soient plus facilement exploitables, et que les utilisateurs puissent extraire les sous-ensembles de séquences qui les intéressent, deux types de logiciels leur sont généralement offerts soit localement, soit sur les nombreux serveurs publics. Les premiers logiciels sont des systèmes d'interrogation dédiés qui sont programmés exclusivement pour la manipulation de séquences biologiques. Par contre, les deuxièmes sont des programmes établis à l'aide de systèmes de gestion de bases de données (SGBD) qui utilisent un langage de requête standard et un format de stockage des données indépendant de la nature de l'information contenue dans les bases.

Les systèmes dédiés

Il existe plusieurs systèmes dédiés dont la plupart permettent des interrogations multicritères simples. On en trouvera une liste assez complète dans une publication de Ginsburg (1987). Ils sont généralement adaptés aux principales bases de données (EMBL, GenBank etc...). On peut citer parmi eux le programme Stringsearch du logiciel GCG (Devereux et al., 1984) qui permet une interrogation à deux critères. D'autres permettent des interrogations plus complexes comme les logiciels ACNUC (Gouy et al., 1985) ou SRS (Etzold et Argos, 1993). Ces deux logiciels méritent que l'on s'y attarde un peu plus car le premier est l'un des plus performants pour l'interrogation des bases de biomolécules et le deuxième illustre assez bien l'orientation des nouveaux logiciels développés dans le domaine durant les dernières années.
Le logiciel ACNUC


Développé à Lyon chez le Professeur Grantham, il a été un des premiers logiciels qui puisse répondre en peu de temps à des questions sophistiquées telles que : "je recherche dans l'EMBL les séquences codants pour des protéines de levure ou de souris qui ne soient pas mitochondriales et ayant une longueur supérieure à 500 paires de bases". Ceci a été réalisé grâce à la construction de fichiers index représentant des critères de sélection (mot-clé, auteurs, espèces, revues, type de molécule...) et une organisation des fichiers permettant d'effectuer des liens entre critères ainsi qu'un langage de requête basé sur les opérations logiques ET, OU et NON. On peut regrouper en quatre catégories les commandes possibles qui servent à la manipulation du logiciel :

  1. sélection : Ces commandes permettent de constituer des listes de séquences qui correspondent à des sous-ensembles de la banque. Il est possible d'utiliser différents critères selon une syntaxe logique où les critères utilisés doivent être nommés explicitement (Exemple: SP pour species, KE pour keyword, AU pour author, M pour molécule...)

  2. définition : Ces commandes permettent de définir avec plus de précision les critères de sélection autorisés. On peut ainsi visualiser tout ou partie de l'arbre des espèces ou des mot-clés qui sont utilisés dans la base que l'on consulte.

  3. information : Ces commandes permettent l'édition de toute ou partie de l'information liée aux séquences sélectionnées.

  4. gestion : Ces commandes permettent de faire des modifications, des extractions, ou des suppressions dans les listes de séquences déjà sélectionnées.

Ce logiciel, très répandu en France, est l'un des plus performants pour l'interrogation malgré le nombre croissant de séquences dans les banques de données. Il est principalement utilisé pour les grandes banques généralistes (EMBL, GenBank, PIR-NBRF) même si certaines bases thématiques l'utilisent comme HOVERGEN, banque de données sur les gènes homologues de vertébrés (Duret et al., 1994) ou NRsub, base non redondante sur le génome de Bacillus subtilis (Perriere et al., 1994). Le logiciel intègre une interface graphique sous X Window ainsi qu'une interface WWW disponible sur le pole bioinformatique lyonnais (Université Lyon1).
Le logiciel SRS (Sequence Retrieval system)


C'est un système d'interrogation basé sur l'indexation des champs contenus dans les différents formats que proposent les banques de données. Il est construit à l'aide de deux types de programmes distincts qui sont en étroite interaction. Les premiers, classiques, écrits en langage de programmation standard, servent entre autre à exploiter les données indexées. Les deuxièmes utilisent un langage de programmation propre ODD (Object Design and Definition) qui permet de reconnaître le format des banques utilisées et de rendre celui-ci indépendant de l'exploitation des données. Ainsi le principal avantage de ce système est la possibilité de pouvoir indexer en même temps une grande quantité de banques sans se soucier de l'organisation de celles-ci et donc de pouvoir manipuler avec le même langage de requête les principales bases de séquences généralistes et beaucoup de bases spécialisées. Le langage de requête est similaire à celui d'ACNUC, c'est-à-dire que l'on peut utiliser plusieurs critères de sélection avec les opérateurs logiques ET, OU et NON. Ce système permet néanmoins une moins grande puissance d'interrogation qu'ACNUC sur une base particulière mais a l'avantage de pouvoir faire des interrogations sur plusieurs bases à la fois ou de pouvoir utiliser les références croisées entre celles-ci. Par exemple, on peut rechercher dans l'EMBL les séquences issues d'une interrogation de SwissProt. Ce logiciel dispose d'une interface WWW que la plupart des serveurs impliqués dans la diffusion et la consultation de données biologiques mettent à la disposition des utilisateurs.

Pour en savoir plus sur les SGBD
1   2   3   4   5   6   7   8   9   ...   15

similaire:

Recherche de gènes et régions codantes iconRecherche année 2009/2010 Titre du stage
«Flux des (trans-)gènes et impact sur la biodiversité» ‘gmbioImpact’ (2007-2010)

Recherche de gènes et régions codantes icon«Titre de l’étude»
«indiquer la nature des prélèvements (sang, urine, moelle,adn, etc)» et notamment le fait qu’il s’agit d’étudier «les modifications...

Recherche de gènes et régions codantes iconLe transfert aux régions des biens immobiliers de l’Afpa appartenant...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconLa Recherche Scientifique
...

Recherche de gènes et régions codantes iconRecherche à visée médicale: L'article 23 de l'actuel projet de loi,...
«autorisation implicite» et «favoriser les besoins de l'industrie de la procréation»

Recherche de gènes et régions codantes iconLa loi n° 2015-29 du 16 janvier 2015 relative à la délimitation des...

Recherche de gènes et régions codantes iconDecentralisation de l’action sociale et protection de l’enfance
«relative aux droits et libertés des communes, des départements et des régions»






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com