Recherche de gènes et régions codantes





télécharger 480.38 Kb.
titreRecherche de gènes et régions codantes
page9/15
date de publication13.02.2018
taille480.38 Kb.
typeRecherche
d.20-bal.com > droit > Recherche
1   ...   5   6   7   8   9   10   11   12   ...   15


Conclusion

Toutes ces méthodes montrent finalement que le problème de la signification mathématique des similitudes que l'on peut observer entre séquences biologiques est un élément important mais complexe, qui n'est pas encore clairement résolu mathématiquement. Il est vrai que cette signification dépend de nombreux critères eux même complexes comme par exemple l'algorithme utilisé et son paramétrage ou le système de score employé. C'est pourquoi, il faut prendre toutes ces évaluations statistiques avec prudence, car de toute évidence, la signification statistique ne reflète pas forcément la signification biologique et inversement. Une des raisons principale est sans doute que les comparaisons se font essentiellement au niveau des séquences primaires. Or, on sait par exemple, qu'il existe des protéines dont la structure tridimensionnelle se superpose très bien et dont les séquences primaires n'ont pas de ressemblances significatives (Creighton, 1984). On peut donc penser que la détermination croissante de la structure 3D des molécules va permettre d'apporter d'avantage de connaissances qui pourront être incorporées dans les études de comparaison de séquences. Finalement, pour le moment il n'existe pas vraiment d'outils mathématiques fiables car on ne possède pas encore de modèle qui exprime réellement l'ensemble des paramètres à considérer dans les ressemblances biologiques des séquences. Quand les séquences sont très éloignées ou très apparentées, il est possible d'obtenir une conclusion avec les outils mathématiques mis à notre disposition. Par contre, il subsiste souvent une zone d'ombre pour laquelle seule la connaissance et la pratique courante des outils informatiques, en corrélation avec les connaissances biologiques, peuvent permettre de déceler une situation intéressante.
Généralités sur les paramètres des logiciels de comparaison de séquences

La pondération des substitutions

Séquences d'ADN

On considère 2 coûts :

coût d'un "match"
valeur positive

coût d'un "mismatch"
valeur négative
Séquences protéiques : les matrices

Si un système basé uniquement sur l'identité donne une sensibilité satisfaisante pour les acides nucléiques, celui-ci devient moins approprié pour les séquences protéiques. Si l'on considère qu'un acide aminé peut être substitué à un autre en fonction de certaines propriétés sans que la structure ou la fonctionnalité d'une protéine soit grandement altérée, on peut classer les acides aminés en familles et obtenir ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux. Les matrices de scores qui en découlent permettront d'augmenter la fiabilité des recherches de similitudes protéiques. Une des premières matrices à utiliser ce principe a été celle déduite de la dégénérescence du code génétique (Fitch, 1966). Les scores élémentaires ont été alors déterminés en fonction du nombre commun de nucléotides présents dans les codons des acides aminés, ce qui revient à considérer le minimum de changements nécessaires en bases pour convertir un acide aminé en un autre. Depuis de nombreuses matrices ont été créées et l'on peut classer celles-ci en deux catégories. La première est celle qui regroupe plutôt les matrices issues d'études montrant le caractère de substitution des acides aminées au cours de l'évolution et la deuxième est basée plus particulièrement sur les caractéristiques physico-chimiques des acides aminés. Nous présenterons ici les matrices les plus couramment utilisées sans donner de liste exhaustive de toutes celles qui ont été déterminées.
Les matrices protéiques liées à l'évolution

Les matrices de type PAM, la matrice de mutation de Dayhoff

Elles sont sans aucun doute celles qui ont été les plus utilisées dans les programmes de comparaison de séquences protéiques. Elles représentent les échanges possibles ou acceptables d'un acide aminé par un autre lors de l'évolution des protéines (Dayhoff et al., 1978). Elles ont été déduites de l'étude de 71 familles de protéines (de l'ordre de 1300 séquences) très semblables (moins de 15% de différence) que l'on pouvait facilement aligner. De ces alignements, une matrice de probabilité a été calculée où chaque élément de la matrice donne la probabilité qu'un acide aminé A soit remplacé par un acide aminé B durant une étape d'évolution. Cette matrice de probabilité de mutation correspond en fait à une substitution acceptée pour 100 sites durant un temps d'évolution particulier, c'est à dire une substitution qui ne détruise pas l'activité de la protéine. On parle ainsi d'une 1PAM (Percent Accepted Mutations) matrice. Si l'on multiplie la matrice par elle-même un certain nombre de fois, on obtient une matrice XPAM qui donne des probabilités de substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de similitudes PAM-X que l'on appelle matrice de mutation de Dayhoff. Cette transformation est effectuée en considérant les fréquences relatives de mutation des acides aminés et en prenant le logarithme de chaque élément de la matrice. Des études de simulation ont montré que la PAM-250 semble optimale pour distinguer des protéines apparentées de celles possèdant des similarités dues au hasard (Schwartz et Dayhoff, 1979). C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de Dayhoff.

Cette matrice est basée sur un échantillon assez large et représente assez bien les probabilités de substitution d'un acide aminé en un autre suivant que cette mutation engendre ou pas des changements dans la structure ou la fonctionnalité des protéines. Néanmoins, elle présente un certain nombre d'inconvénients. Principalement, elle considère que les points de mutation, c'est-à-dire les positions d'échange des acides aminés sont équiprobables au sein d'une même protéine (George et al., 1990). Or, on sait que ceci n'est pas vrai et qu'une protéine peut présenter plusieurs niveaux de variabilité. De plus, l'ensemble des protéines utilisé en 1978 n'est pas entièrement représentatif des différentes classes de protéines connues. Ainsi l'échantillon de 1978 était composé essentiellement de petites molécules solubles très différentes des protéines membranaires ou virales que l'on peut étudier aujourd'hui. Ce constat a conduit à une réactualisation de la matrice (Jones et al., 1992) en considérant 16 130 séquences issues de la version 15 de Swissprot, ce qui correspond à 2 621 familles de protéines. Cette étude a permis de prendre davantage en compte les substitutions qui étaient mal représentées en 1978.
Les matrices de type BLOSUM (BLOcks SUbstitution Matrix)

Une approche différente a été réalisée pour mettre en évidence le caractère de substitution des acides aminés. Alors que les matrices de type PAM dérivent d'alignements globaux (cf. la recherche d'alignements optimaux) de protéines très semblables, ici le degré de substitution des acides aminés a été mesuré en observant des blocs d'acides aminés issus de protéines plus éloignées. Chaque bloc est obtenu par l'alignement multiple sans insertion-délétion de courtes régions très conservées (cf. la base BLOCK). Ces blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d'identité minimum au sein de leur bloc. On en déduit des fréquences de substitution pour chaque paire d'acides aminés et l'on calcule ensuite une matrice logarithmique de probabilité dénommée BLOSUM (BLOcks SUbstitution Matrix). A chaque pourcentage d'identité correspond une matrice particulière. Ainsi la matrice BLOSUM60 est obtenue en utilisant un seuil d'identité de 60%. Henikoff et Henikoff, (1992) ont réalisé un tel traitement à partir d'une base contenant plus de 2000 blocs.
Les matrices protéiques liées aux caractéristiques physico-chimiques

Les matrices liées à l'évolution regroupent assez clairement les propriétés chimiques et structurales des acides aminés. Néanmoins, dans certains cas elles ne suffisent pas toujours pour révéler au mieux certaines caractéristiques physico-chimiques communes à deux protéines. C'est pourquoi des matrices basées essentiellement sur ces propriétés ont été déterminées. Les plus courantes sont celles basées sur le caractère hydrophile ou hydrophobe des protéines et sur leur structure secondaire ou tertiaire. On peut citer parmi celles-ci, la matrice d'hydrophobicité basée sur des mesures d'énergie libre de transfert de l'eau à l'éthanol des acides aminés (Levitt, 1976) ou la matrice de structure secondaire basée sur la propension d'un acide aminé à être dans une conformation donnée (Levin et al., 1986). Plus récemment l'augmentation du nombre de structures tridimensionnelles déterminées, a permis d'établir des matrices basées sur la comparaison de ces structures. Ces matrices peuvent être utilisées pour comparer des protéines relativement éloignées. Parmi celles- ci, nous pouvons citer la matrice établie par Risler et al. (1988) obtenue par la superposition des structures 3-D de 32 protéines réunies en 11 groupes de séquences très voisines et la matrice de Johnson et Overington (1993) développée à partir de l'étude de 235 structures protéiques regroupées en 65 familles de protéines pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences.
Le choix d'une matrice protéique

Il existe maintenant de nombreuses matrices et il est souvent difficile de savoir laquelle doit être utilisée dans les différents programmes de comparaison de séquences protéiques, car de toute évidence, la sensibilité des méthodes dépend aussi de la qualité des matrices. Les premières études comparatives sur l'utilisation de différentes matrices (pour exemple, Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient déjà qu'il n'existe pas de matrice idéale. Ces études mettaient en évidence, par exemple, que la matrice PAM250 de Dayhoff donne un poids trop important à l'identité et n'est pas bien adaptée à la comparaison de protéines très distantes car elle ne renferme pas suffisamment d'informations structurales. C'est pourquoi, l'utilisation de matrices différentes selon le type de similarité recherché a commencé à être suggérée (Collins et al., 1988). Ainsi, dans une étude sur les matrices de type PAM, Altschul (1991) conseille pour les méthodes d'alignements locaux (cf. la recherche d'alignements optimaux, les alignements globaux et locaux), la matrice PAM40 pour retrouver des alignements courts avec des protéines très semblables et les matrices PAM120 et PAM250 pour des alignements plus longs et de plus faible ressemblance. Il préconise également l'utilisation de la PAM120 lorsque l'on ne connaît pas a priori le degré de ressemblance de deux séquences comme c'est le cas par exemple dans les programmes de recherche de similitudes avec les banques de données.

Des études plus récentes indiquent que les matrices mises au point ces dernières années sont généralement plus performantes que celle établies par Dayhoff en 1978, en particulier parce qu'elles sont construites à partir d'un nombre beaucoup plus important de données. Ainsi Henikoff et Henikoff (1993) ont évalué plusieurs matrices en utilisant le programme BLAST de recherche de similitude sans insertion- délétion. Leur étude a établit que les matrices dérivées directement des comparaisons de séquences ou des comparaisons de structure sont supérieures à celles qui sont extrapolées du modèle d'évolution de Dayhoff. En particulier ils concluent que la matrice BLOSUM 62 permet d'obtenir les meilleurs résultats. Néanmoins, Pearson (1995), dans une étude comparative de différentes méthodes de recherche avec les bases de données a pu montrer l'importance de l'algorithme et de son paramètrage dans l'utilisation des matrices de substitution. Ainsi, les matrices de type PAM déterminées à partir de données récentes comme celles de Jones et al. (1992) peuvent donner des résultats comparables à ceux obtenus avec les meilleures matrices de type BLOSUM (62 ou 50 par exemple).

Récemment, Vogt et al, (1995) ont testé également un grand nombre de matrices de substitution d'acides aminés pour tenter de les évaluer en fonction des méthodes de comparaison de séquences protéiques et des systèmes de pénalité d'insertion-délétion utilisés. S'il apparaît une relative similarité dans les résultats pour les fortes ressemblances entre séquences, les conclusions de cette étude montrent que l'ensemble des matrices donne de meilleurs résultats avec les alignements globaux et que leurs performances peuvent varier très significativement selon le système de pénalité d'insertion-délétion que l'on choisit (cf. la recherche d'alignements optimaux, le traitement des insertions et des délétions). Cette étude révèle également, à l'issue de différentes combinaisons de matrices, d'algorithmes et de pénalité, que la matrice établie par Gonnet et al. (1992) est celle qui donne les meilleurs résultats. Cette dernière a été construite à partir d'une base de données protéique de 8 344 353 acides aminés ou chaque séquence a été comparée à l'ensemble des séquences de la banque. Tous les alignements significatifs recensés servent ensuite à générer une matrice avec une distance PAM de 250. Dans cette étude, Vogt et ses collaborateurs retrouvent également dans les cinq matrices les plus performantes, les BLOSUM 50 et 62 ainsi que la matrice de structure tertiaire de Johnson et Overington (1993) et une matrice de Benner et al. (1994) qui en fait est de nature très similaire à celle de Gonnet.

La synthèse de toutes ses études montre que l'évaluation des matrices est très liée aux méthodes d'expertise utilisées et que leur usage est fortement corrélé aux types d'algorithme et de paramètrage utilisés. En conclusion, il apparaît tout de même que les matrices plutôt basées sur les comparaisons de séquences (comme celle de Gonnet et al., 1992 ; ou les BLOSUM, Henikoff et Henikoff, 1992) ou sur des structures tridimensionnelles (Johnson et Overington, 1993) semblent donner plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff, même réactualisé (Jones et al.,1992).

Pondération des gaps

L’opération d’insertion/délétion présente un coût qu’il faut pouvoir pondérer au plus proche de la réalité biologique. Différents systèmes de pondération ont été proposés :

Pénalité fixe par gap : P=k

Pénalité variable en fonction de la longueur du gap : P= x+yL

P : le coût global du gap de longueur L

x : la pénalité fixe d’insertion indépendante de la longueur

y : la pénalité d’extension pour un élément (souvent x=10y).

Avec ce système, une longue insertion est légèrement plus pénalisante qu’une courte, ce qui revient en fait à minimiser l’introduction même d’une insertion. Autrement dit, on facilitera souvent dans un alignement le fait d'avoir peu d'insertions, éventuellement longues, plutôt que d'avoir beaucoup d'insertions d'un seul élément. Ceci est tout à fait en concordance avec les événements biologiques observés car il peut se produire par exemple une seule délétion de plusieurs bases plutôt que plusieurs pertes indépendantes d'une seule base.

Il existe d’autres systèmes de pondération plus complexes en cours de recherche mais dans les principaux logiciels disponibles actuellement vous trouverez ce système de pondération longueur dépendant.

Dans certains cas, le poids des pénalités peut être établi en fonction des endroits où elles se trouvent pour améliorer la sensibilité de la recherche. Par exemple, on peut définir des choix de pénalités à l'intérieur de régions protéiques ayant potentiellement une qualité physique ou chimique particulière. Argos et Vingron (1990) ont développé de telles méthodes pour des structures comme les feuillets béta ou l'hydrophobicité. Enfin, dans tous les cas, la recherche d'alignements optimaux est basée sur le fait que les séquences doivent contenir un grand nombre d'éléments identiques ou équivalents.

 

Le logiciel FASTA

L'algorithme est basé sur l'identification rapide des zones d'identité entre la séquence recherchée et les séquences de la banque. Cette reconnaissance est primordiale car elle permet de considérer uniquement les séquences présentant une région de forte similitude avec la séquence recherchée. On peut ensuite, à partir de la meilleure zone de ressemblance, appliquer localement à ces séquences un algorithme d'alignement optimal. Le logiciel regroupe en fait deux programmes de recherche avec les banques de données. Le premier est le programme FASTA qui possède une version nucléique et protéique et le deuxième est le programme TFASTA qui recherche une séquence protéique avec les séquences d'une base nucléique traduite dans les 6 phases.

Les différentes étapes de l'algorithme

Pour chaque séquence de la banque, l'algorithme se déroule en quatre étapes sélectives distinctes qui permettent de cibler rapidement et précisément les régions intéressantes pour l'alignement optimal.

- La première étape consiste à repérer les régions les plus denses en identités partagées par les deux séquences. La codification numérique des séquences est ici utilisée (voire ktup) avec une longueur des segments codés noté ktup. Cette étape confère à l'algorithme l'essentiel de sa rapidité.

- Dans une deuxième étape, on recalcule à l'aide d'une matrice de scores élémentaires un score pour les dix meilleurs régions d'identité trouvées dans l'étape précédente en considérant éventuellement des associations non exactes entre certains éléments des séquences. Pour les protéines, on utilisera ici une matrice de substitution (voire matrices de substitution). Cette deuxième étape correspond donc à une recherche de similitudes sans insertion-délétion uniquement sur les régions de haute identité. Les scores obtenus correspondent à des régions initiales de premier ordre et l'on qualifie de score init1 celui qui représente la région de plus fort score parmi les dix analysées.

  • La troisième étape essaie de joindre les régions définies à l'étape précédente, bien entendu s'il en existe au moins deux et si chacune de celles-ci possède un score supérieur à un score seuil prédéfini. Ce seuil correspond en fait à un score moyen attendu pour des séquences non apparentées. On réunira ces régions initiales à chaque fois que la somme de leur scores diminuée d'une pénalité de jonction est supérieure ou égale au score init1. Ce score s'il existe est appelé initn et correspond à une région initiale de deuxième ordre.

    - La quatrième étape consiste à effectuer l'alignement optimal de la séquence recherchée avec la séquence de la banque en considérant uniquement les parties des séquences délimitées par la meilleure région initiale de score initn (qui est égale à init1 s'il n'y a pas eu de jonction à l'étape 3). On obtient alors un score optimal dénommé opt. Cet alignement est effectué uniquement pour un nombre limité de séquences fixé par l'utilisateur. Ce sont les séquences qui correspondent aux plus hauts scores initiaux initn.



Ces quatre étapes de l'algorithme sont résumées ci-dessous :

Les principaux paramètres

Tous les programmes sont paramétrables. Ces paramètres sont d’autant plus importants qu’ils permettent d’agir sur la vitesse de calcul, la qualité et la présentation des résultats. Ils sont le reflet d’une certaine modélisation du vivant et leur connaissance est indispensable pour l’interprétation des résultats.

Les valeurs par défaut

Ce sont les valeurs utilisées dans le logiciel su aucune modification explicite n’est demandée.

Taille des mots

o ADN : ktup = 6

o Protéine : ktup = 2

Coûts de substitution

o ADN : +5 / -4

o Protéine : matrice Blosum50

Coûts des gaps

o ADN : -16 / -4

o Protéine : -12 / -2

Influence de la modification des paramètres sur les résultats

o ktup faible ==> bonne sensibilité et temps de calcul long

  • ktup élevé ==> rapide mais peu sensible


Les qualités de l'algorithme

L'algorithme possède une bonne sensibilité du fait qu'il prend en compte les insertions-délétions. Ceci est fait en minimisant les explorations entre les deux séquences puisqu'on ne considère que les séquences potentiellement intéressantes pour effectuer l'étape de programmation dynamique, en ciblant de plus, les régions où l'on doit effectuer la recherche d'alignement. L'étape ultime d'alignement optimal est réalisée uniquement sur la meilleure région de haute similitude même si d'autres régions possèdent un score suffisant pour l'effectuer. Cela permet d'éviter en partie le bruit de fond dû à des motifs non significatifs et intrinsèques à la séquence recherchée mais a l'inconvénient de ne pas pouvoir considérer de grandes insertions durant l'alignement des séquences. Cette lacune est maintenant évitée dans la dernière version du logiciel (Octobre 1995) pour l'alignement des séquences protéiques. En effet celle-ci considère la totalité des séquences pour effectuer l'algorithme d'alignement local de Smith et Waterman (1981) plutôt que d'effectuer l'alignement global de Needleman et Wunsch (1970) uniquement sur des portions de séquences protéiques. L'édition des résultats est maintenant triée en fonction des scores opt contrairement aux premières versions qui considéraient les scores initiaux (initn), ce qui rendait parfois difficile la détection d'un alignement dont le score optimal est bon mais dont le score initial initn est médiocre. Enfin Pearson (1990) explique que lorsque le score opt est plus faible que le score initn, alors la similitude est souvent inintéressante.
L'estimation statistique est faite à partir des scores obtenus avec l'ensemble des séquences de la banque. Une estimation statistique est donnée en traçant l'histogramme des meilleures scores obtenus pour chaque séquence de la banque avec le calcul de la moyenne et de l'écart type liés à cette distribution. Cette estimation utilise la théorie selon laquelle les similarités locales d'une séquence comparée avec une banque de données suit une distribution de valeurs extrêmes (voir par exemple Altschul et al.,1994).

Cependant, le logiciel fournit également des programmes d'estimation statistique basés sur une méthode de Monte Carlo (cf. l'évaluation des résultats) pour estimer la validité d'un score opt particulier entre une séquence de la banque et la séquence recherchée. Il s'agit des programmes PRDF et PRSS qui considèrent une distribution de valeurs extrêmes pour les scores aléatoires et qui sont directement inspirés du programme PRDF2 (Pearson, 1990) qui regroupe les séquences en courts segments pour effectuer les simulations. Le programme PRDF produit des simulations selon l'algorithme de Needleman et Wunsch appliqué localement pour l'étape d'alignement optimal alors que le programme PRSS utilise l'algorithme complet de Smith et Waterman entre deux séquences protéiques.
Exemple de fichier résultat


1   ...   5   6   7   8   9   10   11   12   ...   15

similaire:

Recherche de gènes et régions codantes iconRecherche année 2009/2010 Titre du stage
«Flux des (trans-)gènes et impact sur la biodiversité» ‘gmbioImpact’ (2007-2010)

Recherche de gènes et régions codantes icon«Titre de l’étude»
«indiquer la nature des prélèvements (sang, urine, moelle,adn, etc)» et notamment le fait qu’il s’agit d’étudier «les modifications...

Recherche de gènes et régions codantes iconLe transfert aux régions des biens immobiliers de l’Afpa appartenant...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconLa Recherche Scientifique
...

Recherche de gènes et régions codantes iconRecherche à visée médicale: L'article 23 de l'actuel projet de loi,...
«autorisation implicite» et «favoriser les besoins de l'industrie de la procréation»

Recherche de gènes et régions codantes iconLa loi n° 2015-29 du 16 janvier 2015 relative à la délimitation des...

Recherche de gènes et régions codantes iconDecentralisation de l’action sociale et protection de l’enfance
«relative aux droits et libertés des communes, des départements et des régions»






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com