Recherche de gènes et régions codantes





télécharger 480.38 Kb.
titreRecherche de gènes et régions codantes
page3/15
date de publication13.02.2018
taille480.38 Kb.
typeRecherche
d.20-bal.com > droit > Recherche
1   2   3   4   5   6   7   8   9   ...   15

L'approche par modélisation



Depuis des années, les bioinformaticiens se sont familiarisés progressivement avec des concepts aussi divers que le recuit simulé, les chaînes de Markov, et les statistiques bayésiennes, en l'absence d'un concept unificateur. Ce n'est que récemment qu'un cadre théorique général, plus clair et plus rigoureux, l'approche " par modélisation" ("model-driven approach" a commencé d'apparaître. Cette nouvelle reformulation est progressivement appliquée à la solutions des problèmes fondamentaux de la bioinformatique (alignement des séquences, prédiction de structure, phylogénie moléculaire, détection de gènes, etc.). Selon cette approche par modélisation, les objets (ex. : séquences, structures, motifs, etc., ...) ne sont plus étudiés (alignés, classés, etc.) par comparaison directe (deux à deux ou multiple), mais à travers la construction d'un modèle qui tente, dans une première étape, d'en capturer les propriétés communes. La relation entre les objets d'étude (et/ou leur reconnaissance) est alors exprimée en référence à ce modèle optimal commun. Cette approche est résumée par le schéma suivant :



Ce schéma est naturellement lié au contexte bayésien. En effet, le modèle optimal est le plus souvent choisi comme le plus vraisemblable (le plus probable) face à l'ensemble des données disponibles (D) , c'est-à-dire comme le modèle M maximisant la probabilité conditionnelle : P(M|D). En général, cette probabilité ne peut être estimée qu'à travers l'utilisation du théorème de Bayes, c'est-à-dire en utilisant la relation de proportionnalité  :



La forme (mathématique ou informatique) du modèle M est alors choisie de façon à permettre un calcul commode de la probabilité P(D|M) (la probabilité que les données observées aient été engendrées par le modèle M). De son côté, la probabilité a priori du modèle M est soit remplacée par une constante, soit estimée à partir d'hypothèses réalistes préalables. Pour l'analyse de données essentiellement linéaires (comme les séquences), les modèles probabilistes fondés sur les chaînes de Markov (simples ou cachées) se sont révélés particulièrement fructueux. Mais d'autres catégories de modèles (hypothèses évolutives, structures 3-D, etc.) sont possibles, et seront explorés dans les années à venir.

On comprend aussi que les méthodes itératives et perturbatives jouent un rôle important dans ce type d'approche. En effet, le modèle optimal sera souvent choisi au terme de la convergence d'un cycle impliquant la mise en relation des objets entre eux (étape finale) dans l'estimation de la qualité des modèles intermédiaires. Les algorithmes impliqués à ce niveau sont du type " Expectation-Maximization ". Des techniques avancées de recherche de minimum dans des espaces de grande dimensionnalité, empruntées à des domaines scientifiques variés (par exemple : " recuit simulé ", Monte-Carlo/Metropolis, etc.) sont également nécessaires à l'étape de convergence vers les paramètres du modèle optimal. De leur côté, des algorithmes traditionnels " d'alignement " de la bioinformatique (Needleman & Wunsch, Viterbi) continuent de jouer leur rôle dans l'étape de mise en relation (alignement) de chaque objet avec le modèle intermédiaire ou optimal.

L'analyse des séquences basée sur la génération de modèles, intègre donc l'usage de concepts traditionnels de la bioinformatique, tout en les généralisant, et en leur assurant une base théorique plus rigoureuse. Le contexte probabiliste de cette nouvelle approche permet aussi d'associer les solutions proposées à une estimation de leur signification statistique.

L'approche " par modélisation " , plus élégante, plus générale et plus rigoureuse, permet également d'espérer des progrès spectaculaires, comme l'illustre le schéma suivant:



Dans ce cas d'école, deux séquences S1 et S2 (sans la moindre position identique) sont mises en relation l'une avec l'autre par l'intermédiaire d'un " modèle " M commun (par exemple une séquence ancestrale) avec lequel elles ont séparément conservé 50% d'identité. Des relations extrêmement ténues entre des séquences (des structures, ou d'autres objets d'étude) peuvent donc être mises en évidence d'une manière fiable, pour autant qu'un modèle commun puisse leur être associé. De telles idées commencent à être mises en pratique dans le contexte des méthodes d'alignement multiple, de découverte de motifs [28-31], et de classification (par exemple à l'aide de modèles structuraux sous-jacents) pour les protéines comme pour les ARNs Les mêmes principes sont aussi mis en œuvre dans le domaine de l'identification des gènes, du " threading " (mise en correspondance d'une séquence et d'un repliement), et de la phylogénie moléculaire.

Résultats obtenus récemment dans les deux domaines suivants : la localisation des gènes, et la mise en évidence de motifs fonctionnels et/ou structuraux.

- Exemple 1 : Interprétation des génomes bactériens

L'identification des régions codantes d'un génome est traditionnellement vue comme un problème de recherche de " signaux " de séquences, tel que la présence d'un codon initiateur, suivie d'une phase de lecture suffisamment longue (et donc de l'absence de codons STOP). Ces signaux peuvent être d'une nature plus complexe, comme certaines périodicités dans la séquence ou un biais dans l'usage des codons. La mise en évidence de ces signaux est à la base des méthodes traditionnelles [3] d'analyse des génomes.

- Exemple 2 : l'analyse des motifs à travers leur variabilité

L'arsenal expérimental de la " génomique fonctionnelle " est encore limité et coûteux (knock-out, transgénèse) et les méthodes d'analyse de séquences occupent une place centrale pour l'identification de la fonction des gènes, aussi bien en recherche fondamentale que pour trouver les gènes " candidats " à une application industrielle.

La " prédiction " (en fait une classification) fonctionnelle s'effectue essentiellement par la détection d'une similarité entre une séquence nouvellement déterminée et celle d'un gène (ou de son produit) dont la fonction est connue. A un niveau plus avancé, l'alignement multiple de plusieurs séquences dotées de la même fonction est utilisé pour définir un motif consensus (ensemble de positions conservées) qui peut alors servir de " signature " fonctionnelle : toute nouvelle séquence dans laquelle ce motif est détecté est alors réputée correspondre à une fonction similaire. D'une façon analogue, il est possible de définir des motifs " structuraux ", caractéristiques d'un certain type de repliement tridimensionnel.

La définition de " signatures " permet d'étendre la classification des séquences en familles ou super-familles de fonctions identiques ou similaires, jusqu'à des cas où les similarités directes entre certaines séquences ne sont plus détectables.

De nombreuses formes mathématiques différentes (matrices de position-score, profils, séquences consensus, expressions régulières, chaînes de Markov) ont été proposées pour ces signatures qui sont en fait des descripteurs (modèles) optimaux de différentes familles de séquences.

Selon les méthodes courantes, un descripteur optimal d'une famille de séquence est élaboré à partir des positions les plus conservées d'un multi-alignement. Lorsque les séquences dont on dispose (ou dont on connaît la fonction) appartiennent à des organismes proches (par exemple des vertébrés), une description construite autour des positions conservées n'a qu'une faible valeur heuristique, car ces acides aminés n'ont qu'une très faible probabilité de se retrouver inchangés dans les gènes homologues d'invertébrés, de plantes, ou de micro-organismes.

Or, l'application la plus importante de l'étude de ces " signatures " est la mise en évidence d'homologues distants, soit dans des systèmes-modèles pratiques (ex. : la levure), soit dans des organismes pathogènes (ex. : bactéries, virus).

Cette nouvelle approche des signatures de séquences permet l'exploration d'une zone de faible similarité (" twilight zone ") auparavant inaccessible, mais néanmoins réelle. La puissance prédictive de ce type d'analyse est très fortement augmenté s'il peut être combiné à la connaissance de la structure 3-D d'une protéine, jusqu'à conduire à une prédiction fonctionnelle précise [26]. Une fraction importante des gènes, pour l'instant classés comme " orphelins " ou " inconnus ", pourraient donc à terme rejoindre le giron d'une famille de protéines déjà décrites.

Les banques et bases de séquences biologiques

Sommaire

Introduction

Historique

Les banques généralistes

Les banques spécialisées

La diffusion et l'utilisation des banques de données

Conclusion
 Introduction

Il existe un grand nombre de bases de données d'intérêt biologique. Nous nous limiterons ici à une présentation des principales banques de données publiques, basées sur la structure primaire des séquences, qui sont largement utilisées dans l'analyse informatique des séquences. Nous distinguerons deux types de banques, celles qui correspondent à une collecte des données la plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations et celles qui correspondent à des données plus homogènes établies autour d'une thématique et qui offrent une valeur ajoutée à partir d'une technique particulière ou d'un intérêt suscité par un groupe d'individus. En biologie, il est fréquent d'appeler les premières "banques de données" et les secondes "bases de données", mais cette distinction n'est pas universelle en dehors du domaine biologique. Aussi, pour éviter toute confusion sémantique nous parlerons ici de banques de données ou bases de données généralistes (pour les premières) et spécialisées (pour les secondes).
Historique

C'est au début des années 80 que les premières banques de séquences sont apparues sous l'initiative de quelques équipes comme celle du Professeur Grantham à Lyon (Gautier et al., 1981). Très rapidement avec les évolutions techniques du séquençage, la collecte et la gestion des données ont nécessité une organisation plus conséquente. Ainsi, plusieurs organismes ont pris en charge la production de telles bases de données. En Europe, financée par l'EMBO (European Moleculary Biology Organisation), une équipe s'est constituée pour développer une banque de séquences nucléiques (EMBL data library) et en assurer la diffusion (Hamm et Cameron, 1986). Cette équipe travaille au sein du Laboratoire Européen de Biologie Moléculaire qui est longtemps resté à Heidelberg et qui se trouve actuellement près de Cambridge au sein de l'EBI (European Bioinformatics Institute). Du coté américain, soutenue par le NIH (National Institute of Health) une banque nucléique nommée GenBank a été créée à Los Alamos (Bilofsky et al., 1986). Cette base de données était distribuée par la société IntelliGenetics et est difusée maintenant par le NCBI (National Center for Biotechnology Information). La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la DDBJ (Dna Data Bank) du Japon pour donner naissance finalement en 1990 à un format unique dans la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques (The DDBJ/EMBL/GenBank feature table : Definitions, 1999).

Parallèlement, pour les protéines, deux banques principales ont été créées. La première, sous l'influence du National Biomedical Research Foundation (NBRF) à Washington, produit maintenant une association de données issues du MIPS (Martinsried Institute for Protein Sequences), de la base Japonnaise JIPID (Japan International Protein Information Database) et des données propres de la NBRF. Elle se nomme la Protein Identification Ressource (PIR-NBRF) (George et al., 1986). La deuxième, Swissprot a été constituée à l'Université de Genève à partir de 1986 et regroupe entre autres des séquences annotées de la PIR-NBRF ainsi que des séquences codantes traduites de l'EMBL (Bairoch et Boeckmann, 1993 et 1994).

Devant la croissance quasi exponentielle des données (Fig2) et l'hétérogénéité des séquences contenues dans les principales bases de séquences généralistes, d'autres bases spécialisées sont apparues. Elles se sont constituées autour de thématiques biologiques ou tout simplement en vue de réunir les séquences d'une même espèce et d'en enrichir les annotations pour diminuer, ou lever les ambiguïtés laissées par les grandes banques publiques. A titre d'exemple on peut citer la base sur les séquences nucléiques d'Eschérichia coli ECD (Kröger et al., 1991), la base NRL3D des séquences protéiques dont la structure a été déterminée ou bien encore des bases de motifs nucléiques ou proteiques telles que TFD (Ghosh, 1993) ou PROSITE (Bairoch et Bucher, 1994). Le recensement et la description de toutes ces bases publiques généralistes et spécialisées liées à la structure primaire des séquences mais aussi liées à d'autres caractéristiques biologiques peuvent être consultées dans différentes revues (Bishop et al., 1987 ; Keil, 1990 ; Damerval et Dessen, 1992), et plus récemment dans des numéros spéciaux de la revue Nucleic Acids Research consacrés aux bases de données (1993, 1994 et 1996). Il existe également des bases de données spécifiques qui donnent des listes actualisées des différentes banques d'intérêt biologique comme LIMB (Listing of Molecular Biology Databases) (Keen et al, 1992) ou DBCAT.

 Fig 2



Les banques généralistes

Généralités

Les grandes banques de séquences généralistes telles que Genbank ou l'EMBL sont des projets internationaux et constituent des leaders dans le domaine. Elles sont maintenant devenues indispensables à la communauté scientifique car elles regroupent des données et des résultats essentiels dont certains ne sont plus reproduits dans la littérature scientifique. Leur principale mission est de rendre publiques les séquences qui ont été déterminées, ainsi un des premiers intérêts de ces banques est la masse de séquences qu'elles contiennent. On y trouve également une bibliographie et une expertise biologique directement liées aux séquences traitées. Pour que l'utilisateur puisse s'y repérer, toutes ces informations sont mises à la disposition de la collectivité scientifique selon une organisation en rubriques. Pour plus de détail sur cette organisation  voire le chapitre formats liés aux banques
La qualité des données

Il faut avoir conscience que l'information contenue dans ces bases présente un certain nombre de lacunes. Une des principales est le manque de vérifications des données soumises ou saisies surtout pour les séquences anciennes. Les auteurs des séquences ont parfois du mal à restituer les connaissances qu'ils détiennent à propos de leurs données ou bien n'ont pas fait un certain nombre de vérifications de base sur leurs séquences. Il arrive par exemple, que l'on retrouve des segments de vecteurs de clonage dans certaines séquences ou des incohérences dans les caractéristiques biologiques (parties codantes, définition des espèces ou des mots clés...) ou bien encore des informations biologiques incomplètes, voire erronées. De ce point de vue l'établissement d'un thesaurus précis pour les mots clés faciliterait la vérification comme cela a été permis avec la définition d'arbres des espèces utilisés par plusieurs banques de données. Les organismes responsables de la maintenance de ces banques ont pris conscience de ces problèmes et maintenant de nombreuses vérifications sont faites systématiquement dès la soumission de la séquence. Ceci n'élimine pas la totalité des imprécisions comme par exemple l'existence de doublons car il s'agit là de séquences extrêmement similaires qui correspondent à des entrées différentes dans la banque et dont il est souvent difficile de savoir s'il s'agit de polymorphisme, de gènes dupliqués ou tout simplement d'erreurs établies lors de la détermination des séquences. Il existe d'ailleurs des boites aux lettres électroniques (e- mail) pour informer les gestionnaires des banques d'éventuelles erreurs ou rectifications que chacun pourrait déceler ou proposer. Un autre problème important est le retard de l'insertion d'une nouvelle séquence dans une banque, lié souvent au volume des séquences à traiter qui engendre des priorités ou des choix. Ainsi, il peut y avoir une dizaine de mois de décalage entre la détermination expérimentale d'une séquence et l'introduction de celle-ci dans une banque.
Malgré cela, il faut souligner l'énorme richesse que représentent ces banques de données, en particulier dans le cadre de l'analyse des séquences. Tout d'abord, le fait que la majorité des séquences connues soit réunie en un seul ensemble est un élément fondamental pour la recherche de similitudes avec une nouvelle séquence. D'autre part, la grande diversité d'organismes qui y est représentée permet d'aborder des analyses de type évolutif. Par exemple, on peut extraire les séquences d'un même gène issu de plusieurs espèces. Un autre intérêt de ces bases réside dans l'information qui accompagne les séquences (annotations, expertise, bibliographie), même si celles-ci sont souvent de qualité inégale. Ces dernières peuvent parfois constituer les rares annotations disponibles sur certaines séquences. Enfin la présence de références à d'autres bases permet d'avoir accès à d'autres informations non répertoriées. Ainsi on peut connaître l'entrée dans une base protéique de la protéine qui correspond au gène que l'on a repéré dans une base nucléique. La banque SWISSPROT particulièrement riche en références croisées avec d'autres banques et en annotations (par exemple, la notion de "prouvé ou pas expérimentalement" a été récemment introduite dans la table des caractéristiques biologiques) est un exemple de la qualité des données que l'on peut retrouver dans les différentes banques de séquences généralistes de ces dernières années.
Les banques spécialisées

Généralités

Pour des besoins spécifiques liés à l'activité d'un groupe de personnes, ou encore par compilations bibliographiques, de nombreuses bases de données spécifiques ont été créées au sein des laboratoires. Certaines ont continué d'être développées, d'autres n'ont pas été mises à jour et ont disparu car elles correspondaient à un besoin ponctuel. D'autres enfin sont inconnues ou mal connues et attendent qu'on les exploite davantage. Toutes ces bases de données spécialisées sont d'intérêt très divers et la masse des données qu'elles représentent peut varier considérablement d'une base à une autre. Elles ont pour but de recenser des familles de séquences autour de caractéristiques biologiques précises comme les signaux de régulation, les promoteurs de gènes, les signatures peptidiques ou les gènes identiques issus d'espèces différentes. Elle peuvent aussi regrouper des classes spécifiques de séquences comme les vecteurs de clonage, les enzymes de restriction, ou toutes les séquences d'un même génome. En fait très souvent ces bases correspondent à des améliorations ou à des regroupements par rapport aux données issues des bases généralistes. Pour illustrer ce type de banque, nous parlerons ici de bases spécialisées liées aux motifs qui sont particulièrement utilisées dans l'analyse des séquences.
Les bases de motifs

On sait que certains segments d'ADN ou de protéines sont déterminants dans l'analyse des séquences car ils correspondent à des sites précis d'activité biologique comme par exemple les éléments de régulation des gènes ou les signatures peptidiques. C'est pourquoi des bases spécialisées se sont naturellement constituées autour de ces séquences.

Les bases de motifs nucléiques

La plupart de ces bases consiste à recenser dans des catalogues les séquences des différents motifs pour lesquels une activité biologique a été identifiée. Certains motifs sont simples et non ambigus comme ceux que l'on trouve dans la base Rebase (Roberts et Macelis, 1994) qui donne une liste actualisée des sites de coupure des enzymes de restriction. D'autres correspondent à des activités biologiques plus complexes et engendrent donc des séquences moins précises comme par exemple les sites d'épissage ou les signaux de transcription. Pour ces derniers types de motifs, des compilations ont été établies pour donner des listes annotées de motifs qui peuvent être communs à plusieurs séquences. Par exemple, la revue Gnomic (Trifonov et Brendel, 1986) a permis ainsi de recenser un grand nombre de signatures nucléiques. Maintenant, ce genre de compilation réunit essentiellement les informations liées à la transcription. Ainsi aujourd'hui, il existe principalement deux bases de motifs nucléiques qui sont régulièrement actualisées et qui correspondent à un travail de synthèse bibliographique : il s'agit des bases de facteurs de transcription TFD (Ghosh, 1993), et TRANSFAC (Knüppel et al., 1994). Malgré tout, certaines redondances existent dans ces bases et certains facteurs peuvent être donnés sous des formes différentes. De plus, une autre approche s'est constituée pour représenter des sites nucléiques spécifiques impliqués dans des processus biologiques. Celle-ci permet de définir les sites, non plus sous forme de chaînes de caractères avec d'éventuelles ambiguïtés à certaines positions, mais sous forme de matrices reflétant une probabilité d'apparition de chaque base à chaque position du site (c.f. la définition des motifs dans les programmes de recherche de motifs). Ces développements ont donc conduit à la constitution de bases de matrices représentant des sites spécifiques. Pour illustrer ces deux types de représentation de l'information, nous présentons ici une des bases de facteurs de transcription les plus utilisées TFD (Ghosh, 1993), ainsi que la base IMD (Chen et al., 1995) qui regroupe un grand nombre de matrices caractéristiques d'éléments de transcription.


Pour en savoir plus sur la banque TFD
1   2   3   4   5   6   7   8   9   ...   15

similaire:

Recherche de gènes et régions codantes iconRecherche année 2009/2010 Titre du stage
«Flux des (trans-)gènes et impact sur la biodiversité» ‘gmbioImpact’ (2007-2010)

Recherche de gènes et régions codantes icon«Titre de l’étude»
«indiquer la nature des prélèvements (sang, urine, moelle,adn, etc)» et notamment le fait qu’il s’agit d’étudier «les modifications...

Recherche de gènes et régions codantes iconLe transfert aux régions des biens immobiliers de l’Afpa appartenant...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconLa Recherche Scientifique
...

Recherche de gènes et régions codantes iconRecherche à visée médicale: L'article 23 de l'actuel projet de loi,...
«autorisation implicite» et «favoriser les besoins de l'industrie de la procréation»

Recherche de gènes et régions codantes iconLa loi n° 2015-29 du 16 janvier 2015 relative à la délimitation des...

Recherche de gènes et régions codantes iconDecentralisation de l’action sociale et protection de l’enfance
«relative aux droits et libertés des communes, des départements et des régions»






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com