Recherche de gènes et régions codantes





télécharger 480.38 Kb.
titreRecherche de gènes et régions codantes
page8/15
date de publication13.02.2018
taille480.38 Kb.
typeRecherche
d.20-bal.com > droit > Recherche
1   ...   4   5   6   7   8   9   10   11   ...   15
Sélectivité

Capacité à ne détecter que la réalité biologique et rien de plus
--> problème des faux-positifs

 
Sensibilité

Capacité à détecter tout ce qui est intéressant sur le plan biologique
--> problème des faux-négatifs

Les heuristiques ou le codage numérique

Une des méthodes les plus répandues est celle initialement proposée par Dumas et Ninio (1982). Elle permet la transformation d'une séquence en suite d'entiers à partir de la description classique faite en chaîne de caractères. Pour cela, on décompose une séquence en autant de segments de longueur fixe se chevauchant et l'on attribue un code à chacun de ces segments. Le code est un entier déterminé en fonction de l'alphabet utilisé dans la description des séquences et de la longueur du segment codé. On appelle cette méthode, la codification numérique des séquences et l'on parle de "mot" ou de "motif" pour les segments codés, la longueur des mots codés étant référencée comme uplet (triplet, quadruplet..) ou "k-tuple" en anglais.


La comparaison matricielle des deux séquences sous forme de chaîne d'entiers permet de localiser ensuite sur les séquences tous les endroits possédant des segments communs de longueur prédéfinie par le codage. Pour cela il suffit de repérer les positions des séquences où les codes sont identiques. Cette approche diminue considérablement les temps de recherche de similitude et localise rapidement les zones identiques entre deux séquences. La rapidité de la méthode est proportionnelle à la longueur du mot codé, mais bien évidemment, plus cette longueur est grande, plus le résultat est grossier. Par exemple, une codification numérique des séquences nucléiques avec des segments de longueur 5 peut ignorer des segments identiques de longueur 4. La principale utilité de ce principe est donc d'effectuer rapidement une comparaison, au détriment possible d'une certaine sensibilité.

Exemple pour une séquence d’ADN

Mots de 4 caractères
SEQ TEST A C G T C G T T C G A T T A (N=14)

. . . .

1 ACGT ----------

2 CGTC ----------

3 GTCG ----------

4 TCGT ---------

5 CGTT ----------

6 GTTC ----------

7 TTCG ----------

8 TCGA ---------

9 CGAT ---------

10 GATT ---------

11 ATTA ----------

SEQ BANQUE T C G A C G C G G A T (M=11)

Le mot TCGA est commun aux deux séquences

Mots de 5 caractères
SEQ TEST A C G T C G T T C G A T T A (N=14)

. . . .
1 ACGTC -------------

2 CGTCG -------------

3 GTCGT -------------

4 TCGTT ------------

5 CGTTC -------------

6 GTTCG -------------

7 TTCGA -------------

8 TCGAT ------------

9 CGATT ------------

10 GATTA ------------

SEQ BANQUE T C G A C G C G G A T (M=11)
On ne retrouve plus le motif commun entre les 2 séquences ce qui montre bien que plus la taille du mot est importante, plus la probabilité de trouver un motif commun entre les deux séquences est faible.

L’estimation statistique des résultats

Introduction

En bioinformatique, lorsque l'on effectue des comparaisons entre séquences biologiques, cela revient essentiellement à des comparaisons de chaînes de caractères. Bien sûr, on peut donner aux caractères une composante biologique réelle à travers les matrices de scores élémentaires mais il est souvent utile d'essayer de déterminer si ce que l'on observe a une signification biologique ou est simplement du au hasard. Pour cela, on peut effectuer des statistiques simples qui permettent d'estimer la signification des résultats.

Les méthodes pratiques ou empiriques

Pour certaines comparaisons, la ressemblance est tellement forte, que la relation biologique entre les séquences est évidente. Néanmoins, très souvent, pour d'autres situations moins faciles, des méthodes empiriques peuvent être utilisées. Une des premières qui a été considérée est le pourcentage d'identité. Il faut cependant être méfiant avec ce critère car il doit obligatoirement être relié à la longueur de la similitude considérée et sa signification est différente selon que l'on étudie des séquences nucléiques ou protéiques. En effet des séquences protéiques de 100 résidus ou plus, possédant au moins 25% d'identité entre elles ont certainement un ancêtre commun (Doolittle, 1990) alors que deux séquences nucléiques d'au moins 100 bases et identiques à 50% n'ont pas forcément de relation biologique. Ceci est du essentiellement au fait que la fréquence génomique d'une base est relativement élevée (environ 25%). On peut également douter d'un alignement s'il nécessite plus d'une insertion en moyenne pour 20 acides aminés, ou si de faibles changements (environ 10%) dans l'établissement des pénalités d'insertion-délétion modifient sensiblement cet alignement (Sates et Boguski, 1991). Souvent les programmes n'incluent pas de tests statistiques et il appartient alors à l'utilisateur d'en établir un lui-même s'il désire estimer mathématiquement la signification de ses résultats.

Les méthodes d'analyse de Monte Carlo

Ce genre d'analyse est le plus couramment utilisé. Il consiste à prendre l'une ou les deux séquences issues de la comparaison et d'engendrer des séquences aléatoires en permutant ou en tirant au hasard l'ordre des caractères dans les séquences. La composition en bases ou en acides aminés est ainsi conservée. Les comparaisons sont ensuite réalisées avec ces séquences aléatoires pour obtenir une distribution des scores. Le score dit "authentique", qui correspond à la comparaison des deux séquences natives, est alors comparé à cette distribution. On peut par exemple avec l'aide d'un histogramme apprécier son détachement éventuel par rapport aux scores aléatoires.



Une application directe de cette approche consiste à calculer un deuxième score qui rend compte de l'éloignement par rapport à la distribution aléatoire. Un tel score, que l'on nomme score Z, est déterminé de la manière suivante (Dayhoff, 1978 ; Doolitlle, 1981) :

Z = (s - m) / e (6)

s est le score authentique, m est la moyenne des scores aléatoires, et e l'écart type des scores aléatoires. Le calcul d'un tel score Z suppose que la distribution des scores aléatoires suit une loi normale centrée réduite. Or on sait que cela est rarement exact (Waterman, 1989 ; Karlin et Altschul, 1990). On observe plutôt une loi de distribution de valeurs extrêmes avec la présence d'une queue de distribution pour les scores les plus élevés (Altschul et al., 1994). De ce fait, pour avoir une bonne confiance dans la signification du score, il faut prendre une valeur de Z élevée. C'est pourquoi lorsque l'on exprime le score Z en nombre d'écart-types pour estimer la comparaison, on utilise généralement plus de 2 écart-types (2e) qui est la valeur couramment admise pour une loi normale. On considèrera donc ici qu'a partir de 3e, la comparaison peut être significative, mais peu probable, qu'à partir de 6e, elle est significative et qu'au delà de 10e, elle est certaine.

Ces méthodes présentent donc certains inconvénients. Le plus important est que l'hypothèse de normalité de la distribution des scores aléatoires n'est pas souvent vérifiée, ce qui implique que l'estimation de la signification du score peut être approximative. De plus, les modèles utilisés pour simuler des séquences ne sont pas toujours les mieux adaptés car ils ne prennent généralement pas en compte la taille des mots ou des syllabes qui constituent des unités fondamentales dans l'organisation des séquences (pour plus d'informations voir les études sur la linguistique des séquences comme celle de Kalogeropoulos, 1993). La non considération de ces éléments introduisent donc un biais dans les simulations. Enfin ces méthodes peuvent être parfois coûteuses en temps de calcul car elles nécessitent au minimum 100 scores par séquence pour une distribution suffisante des scores aléatoires.

Pour en savoir plus
Les autres méthodes

La plupart des autres méthodes utilisées et récemment développées ont été implémentées pour la comparaison avec les bases de données. Ainsi, le score d'une comparaison peut être confrontée avec la distribution des scores obtenus lors de la recherche avec une base de données (Pearson, 1990 ; Gribskov et al., 1990). Là encore, cette distribution peut être approximativement normale et donc la fiabilité de l'étude peut être contestée. Cependant, la méthode a l'avantage d'intégrer dans l'analyse la composition biaisée de la banque de données ainsi que les faibles ressemblances qui sont dues à des propriétés intrinsèques aux séquences. Par exemple, des motifs protéiques hydrophobes ou hydrophiles peuvent être communs à plusieurs familles de séquences et ne pas refléter une grande spécificité entre deux séquences. On peut établir également soi même la distribution des scores en traçant le logarithme du nombre d'occurrences d'un score (où classe de scores) en fonction des scores obtenus lors de la comparaison avec une banque de données. C'est ce que préconisent Collins et Coulson (1990) en utilisant une méthode des moindres carrés pour distinguer les scores significatifs de ceux distribués au hasard. L'avantage d'une telle méthode est qu'elle linéarise les scores obtenus par chance et permet une visualisation rapide des scores significatifs. Une autre méthode utilisée pour les comparaisons avec les bases de données est celle développée par Karlin et Altschul (1990) qui considère la probabilité de trouver le plus haut score parmi toutes les paires de segments possibles entre deux séquences. Une paire de segments est une zone contiguë de résidus entre deux séquences. De ce fait, seules les ressemblances sans insertion-délétion sont considérées. Ce type d'approche n'est donc pas utilisable par les programmes d'alignement. Néanmoins cette méthode a l'avantage d'appliquer une rigueur statistique pour classer les ressemblances par leur probabilité d'apparition et non par leur score.

Il existe de nombreuses méthodes pour évaluer les comparaisons entre séquences. Certaines sont simples comme celle de Doolittle (1986) qui attribue des scores privilégiés aux acides aminés conservés lors de la comparaison. La somme de ces scores est ensuite confrontée à une courbe de référence qui donne un score significatif en fonction de la longueur des séquences. D'autres font appel à des outils mathématiques beaucoup plus complexes sans pour autant donner des résultats plus convaincants.
1   ...   4   5   6   7   8   9   10   11   ...   15

similaire:

Recherche de gènes et régions codantes iconRecherche année 2009/2010 Titre du stage
«Flux des (trans-)gènes et impact sur la biodiversité» ‘gmbioImpact’ (2007-2010)

Recherche de gènes et régions codantes icon«Titre de l’étude»
«indiquer la nature des prélèvements (sang, urine, moelle,adn, etc)» et notamment le fait qu’il s’agit d’étudier «les modifications...

Recherche de gènes et régions codantes iconLe transfert aux régions des biens immobiliers de l’Afpa appartenant...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconLa Recherche Scientifique
...

Recherche de gènes et régions codantes iconRecherche à visée médicale: L'article 23 de l'actuel projet de loi,...
«autorisation implicite» et «favoriser les besoins de l'industrie de la procréation»

Recherche de gènes et régions codantes iconLa loi n° 2015-29 du 16 janvier 2015 relative à la délimitation des...

Recherche de gènes et régions codantes iconDecentralisation de l’action sociale et protection de l’enfance
«relative aux droits et libertés des communes, des départements et des régions»






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com