Recherche de gènes et régions codantes





télécharger 480.38 Kb.
titreRecherche de gènes et régions codantes
page2/15
date de publication13.02.2018
taille480.38 Kb.
typeRecherche
d.20-bal.com > droit > Recherche
1   2   3   4   5   6   7   8   9   ...   15




Les différentes facettes de la bioinformatique

Pour l'analyse des données expérimentales que représentent les séquences biologiques, cet apport informatique concerne principalement quatre aspects :

Compilation et organisation des données

Cet aspect concerne essentiellement la création de bases de données. Certaines ont pour vocation de réunir le plus d'informations possible sans expertise particulière de l'information déposée alors que d'autres sont spécialisées dans un domaine considéré avec l'intervention d'experts. Ces dernières bases sont généralement construites autour de thèmes précis comme l'ensemble des séquences d'une même espèce ou les facteurs de transcription. Incontestablement, toutes ces banques de données constituent une source de connaissance d'une grande richesse que l'on peut exploiter dans le développement de méthodes d'analyse ou de prédiction.

Traitements systématiques des séquences

L’objectif principal est de repérer ou de caractériser une fonctionnalité ou un élément biologique intéressant. Ces programmes représentent les traitements couramment utilisés dans l'analyse des séquences comme l'identification de phases codantes sur une molécule d'ADN ou la recherche de similitudes d'une séquence avec l'ensemble des séquences d'une base de données.

Elaboration de stratégies

Le but est d’apporter des connaissances biologiques supplémentaires que l'on pourra ensuite intégrer dans des traitements standard. On peut donner comme exemples la mise au point de nouvelles matrices de substitution des acides aminés, la détermination de l'angle de courbure d'un segment d'ADN en fonction de sa séquence primaire, ou encore la détermination de critères spécifiques dans la définition de séquences régulatrices.

Evaluation des différentes approches dans le but de les valider.

Très souvent, tous ces aspects se confondent ou sont étroitement imbriqués pour donner naissance à un ensemble d'outils, d'études ou de méthodes qui convergent vers un but commun que l'on appelle l'analyse informatique des séquences.

Il est maintenant facile et courant d'effectuer certaines opérations plus ou moins complexes à l'aide de logiciels plutôt que manuellement. Pourtant, ces pratiques ne sont pas toujours systématiques car il est souvent difficile pour certains utilisateurs de savoir quel programme utiliser en fonction d'une situation biologique déterminée ou d'exploiter les résultats fournis par une méthode. C'est pourquoi ce cours contient la présentation d'un certain nombre d'outils ou de méthodes couramment utilisés et reconnus dans l'analyse informatique des séquences. Cependant, cette présentation ne constitue en aucun cas un exposé exhaustif de tout ce qui existe.

L’information contenue dans les séquences biologiques

Sommaire

Nature des données biologiques à traiter et de l’information contenue à l’intérieur

Représentation de l’information contenue dans les données de type séquences

Nature des données biologiques à traiter et de l’information contenue à l’intérieur

Les avancées en biologie moléculaire et en informatique appliquée à la comparaison des séquences, associées à une puissance de calcul accrue ont révolutionné l'importance des séquences (primaires) de biomolécules en biologie. Elles sont devenues des dénominateurs communs à l'interprétation de phénomènes biologiques complexes. La plupart des programmes utilisés en biologie manipulent ces séquences biologiques et en extrait des informations interprétables en termes biologiques. La séquence en nucléotides de l'ADN correspond de manière universelle au niveau le plus fin de l'information génétique et sa connaissance conduit en particulier à la localisation des gènes, à la déduction de séquences en acides aminés des protéines codées par ces gènes, à la contribution à l'analyse moléculaire de leurs expressions et régulations, ainsi qu'à la mise en évidence de mutations ou modifications à l'origine des maladies. Les informations à traiter sont donc de nature variée (régions similaires entre plusieurs séquences, prédictions concernant les propriétés structurales des molécules, inférences phylogénétiques, etc.).
Représentation de l’information contenue dans les données de type séquences

Les séquences nucléiques sont généralement représentées par des chaînes de caractères sur l’alphabet à 4 lettres ATGC. Un cinquième caractère (N) est défini pour tenir compte des erreurs de séquençage.

Pour les protéines, elles sont représentées par des chaînes de caractères sur l’alphabet composé par les 20 acides aminés. Comme pour les acides nucléiques, un caractère supplémentaire est ajouté à l’alphabet pour prendre en compte les ambiguïtés dans les données. Le choix d’un modèle pour représenter les séquences biologiques n’est pas trivial et constitue une voie de recherche à part entière. Il est en effet difficile de définir en informatique les objets que manipulent les biologistes. D’une manière générale, il ne faut jamais oublier qu’un modèle ne reflète qu’une partie de la réalité biologique et que de nombreuses questions restent posées. Par exemple, comment générer automatiquement une séquence biologiquement plausible ? Une des approches développée actuellement se base sur les modèles de Markov cachés (HMM) qui permettent de représenter de façon statistique l’information contenue dans les séquences biologiques. D’une manière plus générale on voit apparaître depuis quelques années une approche par modélisation. Selon cette approche par modélisation, les objets (ex. : séquences, structures, motifs, etc., ...) ne sont plus étudiés (alignés, classés, etc.) par comparaison directe (deux à deux ou multiple), mais à travers la construction d'un modèle qui tente, dans une première étape, d'en capturer les propriétés communes.

Pour en savoir plus sur la modélisation
1   2   3   4   5   6   7   8   9   ...   15

similaire:

Recherche de gènes et régions codantes iconRecherche année 2009/2010 Titre du stage
«Flux des (trans-)gènes et impact sur la biodiversité» ‘gmbioImpact’ (2007-2010)

Recherche de gènes et régions codantes icon«Titre de l’étude»
«indiquer la nature des prélèvements (sang, urine, moelle,adn, etc)» et notamment le fait qu’il s’agit d’étudier «les modifications...

Recherche de gènes et régions codantes iconLe transfert aux régions des biens immobiliers de l’Afpa appartenant...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconLa Recherche Scientifique
...

Recherche de gènes et régions codantes iconRecherche à visée médicale: L'article 23 de l'actuel projet de loi,...
«autorisation implicite» et «favoriser les besoins de l'industrie de la procréation»

Recherche de gènes et régions codantes iconLa loi n° 2015-29 du 16 janvier 2015 relative à la délimitation des...

Recherche de gènes et régions codantes iconDecentralisation de l’action sociale et protection de l’enfance
«relative aux droits et libertés des communes, des départements et des régions»






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com