Recherche de gènes et régions codantes





télécharger 480.38 Kb.
titreRecherche de gènes et régions codantes
page6/15
date de publication13.02.2018
taille480.38 Kb.
typeRecherche
d.20-bal.com > droit > Recherche
1   2   3   4   5   6   7   8   9   ...   15

Les Systèmes de Gestion de Bases de Données (SGBD)


L'information structurée d'une base de données, qu'elle soit biologique ou pas, peut être exploitée par un SGBD pour gérer ou retrouver rapidement les données. La construction de la base passe par une définition des données qui est indépendante des programmes d'exploitation de ces données. Durant la définition, qui se fait sous forme de tables, on peut établir des liens qui vont déterminer une organisation logique des données qui sera ensuite exploitée à l'interrogation. Il existe plusieurs types de SGBD, le modèle dit Relationnel étant maintenant le plus utilisé à travers des systèmes comme Oracle, Sybase ou 4ème Dimension. Le langage de requête qu'ils utilisent est standard et permet d'exploiter la définition des données que l'on a faite. Pour plus d'informations sur les SGBDs, on peut consulter des ouvrages comme celui de Carrez (1990).

Un des avantages de ces systèmes est leur mise en œuvre rapide car ils possèdent un certain nombre d'outils et de fonctionnalités de base qui facilitent certaines étapes de programmation comme la présentation des résultats ou les opérations d'ajout, de suppression, de recherche ou de tri d'information. Ils permettent également une évolution facile de la base par ajout de nouvelles entités et de nouveaux liens sans modification de la structure initiale. Cependant, indépendamment de leur coût financier, ils prennent souvent une part trop importante des ressources des machines sur lesquelles ils sont installés, limitant ainsi le nombre d'utilisateurs simultanés ou nécessitant l'exclusivité d'une machine. Dans le domaine de la biologie, ils sont généralement utilisés pour l'interrogation de bases qui ont un nombre limité d'entrées car les temps de réponse peuvent devenir importants lors d'interrogations qui nécessitent le croisement de plusieurs listes volumineuses, comme par exemple, la recherche de l'intersection entre toutes les séquences humaines et toutes les séquences codants pour des protéines dans une base comme l'EMBL. Par contre, ils sont souvent utilisés dans la construction des bases, notamment par les organismes qui gèrent les grandes bases de séquences.
 

Conclusion

Le nombre de données dans le domaine de la biologie ne cesse d'augmenter en particulier avec le séquençage des génomes de différents organismes mais l'on assiste également à une grande diversification des informations produites (séquences primaires, structures moléculaires, cartographie, collection de souches ou de clones...). Toutes ces données sont regroupées dans des banques de données très variées dans leur volume et leur nature. On ne peut maintenant imaginer leur consultation sans l'apport de l'informatique. Cet apport est devenu considérable durant les dernières années, en particulier avec l'extension des réseaux à haut débits. Il permet aux scientifiques d'utiliser de nouveaux outils allant de la simple interrogation textuelle à la présentation graphique des données en passant par l'utilisation du multifenêtrage ou de documents sonores ou vidéo. Il est donc évident que l'organisation et l'interrogation des données vont en être profondément changées. Cette transformation est déjà apparente dans le développement de certains logiciels qui proposent de plus en plus d'interactions entre les bases de données, ceci en exploitant davantage les liens qui existent entre elles. Le logiciel SRS, qui est installé sur de nombreux serveurs WWW, est un exemple de cette évolution en proposant une consultation multibase avec la même interface graphique.

Un des modèles de l'intégration des données qui montre ce que seront les outils de demain est le système de base de données ACEDB qui a été développé au cours du projet génome de Caenorhabditis elegans par Richard Durbin et Jean Thierry-Mieg en 1992. Dans ce système, les données sont stockées comme objets appartenant à des classes. Ces objets (gènes, allèles, clones, cartes génétiques, cartes physiques, séquences, publications...) sont mémorisés sous formes d'arbres permettant une organisation hiérarchisée et des représentations différentes de ces objets. De plus, on trouve dans ce système une grande efficacité et une grande flexibilité dans la manipulation, la visualisation et l'interrogation des informations stockées. En fait, ce qui caractérise essentiellement la tendance actuelle, c'est l'intégration de plus en plus grande des données, liée à une souplesse accrue de l'utilisation. Ceci permet à l'utilisateur d'exploiter en peu de temps et avec peu de connaissances techniques des données intégrées et d'avoir une vision synthétique de son objet de recherche. Par exemple, à partir du nom d'un gène, on peut avoir accès à la séquence primaire de la partie codante et à la protéine qui en découle, à sa localisation physique et génétique, à la bibliographie associée etc. Ainsi, on s'éloigne de l'époque où il fallait que l'utilisateur connaisse suffisamment bien les bases de données et les logiciels associés pour en extraire toute l'information existante.

La manipulation des données

Sommaire

Fonctions générales d'édition et de transfert

Les formats

Les outils de conversion de formats

Fonctions générales d'édition et de transfert


Edition de séquences


Les séquences peuvent se manipuler sur micro avec un éditeur spécialisé ou éventuellement avec un traitement de texte.

Quelques exemples d’éditeurs spécialisés :

Editeur Macintosh DNA Aid+ ou DNA Strider.

Exportation depuis Word :

Mettre en police non proportionnelle (Courier 10 par exemple) (sur une largeur de 15 à 17 cm) ce qui permet d'avoir le même nombre de caractères par ligne.

Sauvegarde sous, avec format d'enregistrement : Texte avec rupture de ligne

Transfert entre un micro et un serveur

Utilisation de FTP :

Avec un programme du type Fetch2.1 (sur un Mac connecté au réseau RENATER), il est très aisé de faire des transferts de fichiers, non seulement textes, mais aussi binaires (images, exécutables...). Pour les PC, vous trouverez l’équivalent avec par exemple le programme WS_ftp Pro.

Utilisation du couper/coller entre une fenêtre locale d'un traitement de texte (ou une fenêtre WWW) et une fenêtre Telnet (session interactive avec un serveur UNIX).Cette situation se présente si vous utilisez par exemple le serveur UNIX lovelace proposé par Infobiogen (http://www.infobiogen.fr). Pour connaître quelques commandes de base UNIX:

Liste de fichiers sur un répertoire
lovelace$ pwd

Exemple de resultats

/env/infobiogen/home/u/staff/dupond

lovelace$ ls –l

Exemple de résultat

total 6314

drwx------ 2 dupond ibg 512 Feb 1 12:57 Mail

drwxr-xr-x 2 dupond ibg 512 Sep 20 17:00 News

-rw-r--r-- 1 dupond ibg 9698 Nov 30 11:47 Quickmap

-rw-r--r-- 1 dupond ibg 185 Nov 23 13:32 XGrail

drwxr-xr-x 2 dupond ibg 1024 Nov 19 1994 adresse
Changement de répertoire
lovelace$ cd seq
lovelace$ ls -l xm*

Exemple de résultat

-rw-r--r-- 1 dupond ibg 2034 Aug 25 16:10 xmrs

-rw-r--r-- 1 dupond ibg 637 Aug 25 16:10 xmrs.repeats

-rw-r--r-- 1 dupond ibg 2038 Sep 16 14:53 xmrsbsb
Visualisation d'un fichier texte
lovelace$ more xmrs

Exemple de résultat

TCGACTTTGTAGAGTTTCGGACGAAGGTCCGCAGAATATTCGCAGTATTAAATAAGTGTT

CATTAATGCGGCAAAAACTAATACACCGCATCAATGTAACATCTCTGCGGTGTATGAAGA

ATAACCAGAATGGTTAATAGGCGTTAGACCGCGCGGAAGGAAATCTCGCCTGGAATGACT

TCACCCTGCCAGTAGAGCTGAGCTGCAACGCGGTCAGCCAGCTGGCGGTAGATAGCGGTA

AATTCGCTCTCCGGACGGCTGATAACCGTTGGCGTACCTTTATCGAGATCCTCACGTAAG

GTGATGCGCAGCAGTTCGGCGCTACATTGCTCTTTTAACTCTTCGAACGCGCTATGCCAG

ACAAACGGCATAACCAGTTCCACATGCAACGTGTCGTCCATCCAGGCGACATGGTGCAAC

GCTTTCAGCGTGGTGAGGTTATGCTTCAGGGTTGGGTGCTGAAAATTGGCCAGTGTCCCG

GCGACCATTGCGCGCAAGGCTTCTGGTGATTTGGCCTGGGATTGTTCGTTCATCCCGACT

CCTTTTTTGTATAGATAAACCATCAGCTGATAGTTTACCTGAAGAATATAGAGAAGTACT

--More--(65%)

q
Effacement d'un fichier

lovelace$ rm xmrs

Les formats

 

Définition d’un format

Les séquences sont stockées en général sous forme de fichiers texte qui peuvent être soit des fichiers personnels (présents dans un espace personnel), soit des fichiers publics (séquences des banques) accessibles par des programmes interfaces (tels que SRS, GCG, Acnuc). Le format correspond à l'ensemble des règles (contraintes) de présentation auxquelles sont soumises la ou les séquences dans un fichier donné. Ainsi, le format permet donc :

-une mise en forme automatisée,

-le stockage homogène de l'information,

-le traitement informatique ultérieur de l'information. Pour lire et traiter les séquences, les logiciels d'analyse autorisent un ou plusieurs formats des données.
Les formats liés aux logiciels

Format Staden

Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour-à-la-ligne (80 caractères max/ligne). Ce format n'autorise qu'une séquence par fichier.

EXEMPLE SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKLMPSPVKVLAEEKGLPVFQPVSLRPQENQQLVAELQADVMVVVAYGLILPKAVLEMPRLGCINVHGSLLPRWRGAAPIQRSLWAGDAETGVTIMQMDVGLDTGDMLYKLSCPITAEDTSGTLYDKLAELGPQGLITTLKQLADGTAKPEVQDETLVTYAEKLSKEEARIDWSLSAAQLERCIRAFNPWPMSWLEIEGQPVKVWKASVIDTATNAAPGTILEANKQGIQVATGDGILNLLSLQPAGKKAMSAQDLLNSRREWFVPGNRLV

Format Stanford / IG

La 1ère ligne est une ligne de commentaires précédée par le caractère ";".
La 2e contient l'identificateur (nom de la séquence) dans les 10 ères colonnes
Les lignes suivantes contiennent la séquence (80 caractères max/ligne) terminée par le caractère "1" (pour une séquence linéaire) et "2" (si la séquence est circulaire).

LINE 1 :; Describe the sequence any way you want

LINE 2 :ECTRNAGLY2

LINE 3 :ACGCACGTAC ACGTACGTAC A C G T C C G T ACG TAC GTA CGT

LINE 4 : GCTTA GG G C T A1

EXEMPLE

; Dro5s-T.Seq Length: 120 April 6, 1989 21:22 Check: 9487 ..

dro5stseq

GCCAACGACCAUACCACGCUGAAUACAUCGGUUCUCGUCCGAUCACCGAAAUUAAGCAGCGUCGCGGGCGGUUAGUACUUAGAUGGGGGACCGCUUGGGAACACCGCGUGUUGUUGGCCU1

Format Fasta

Dans ce cas, la séquence (donnée sous forme de lignes de 80 caractères maximum) est précédée d'une ligne de titre (nom, définition ...) qui doit commencée par le caractère ">". Cela permet de mettre plusieurs séquences dans un même fichier.
EXEMPLE

>em|U03177|FL03177 Feline leukemia virus clone FeLV-69TTU3-16.

AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTGTGAGGCCAAGAACAGTTAAACCCCGGATATAGCTGAACAGCAGAAGTTTCGCCAGCAGTCTCCAGGCTCCCCA

>entête de la séquence 2

séquence 2

......

Format GCG

Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Ckecksum) calculée sur celle-ci. Le format GCG n'autorise qu'une seule séquence par fichier.

Le fichier est constitué de deux parties :

o avant les ".." : commentaires

o ligne signal avec identificateur et "Check #### .."

o après les ".." : séquence

EXEMPLE

pir:ccho (1-104)

pir:ccho Length: 104 (today) Check: 8847 ..

1 GDVEKGKKIF VQKCAQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGFTYTD

51 ANKNKGITWK EETLMEYLEN PKKYIPGTKM IFAGIKKKTE REDLIAYLKK

101 ATNE

Autres formats

Format Fitch

La 1ère ligne contient le nom de la séquence.


Les lignes suivantes contiennent la séquence, découpée en 20 blocs (par ligne) de 3 caractères, séparés par un espace.


EX :

pir:ccho (1-104) , 104 bases, 7DA79498 checksum.

GDV EKG KKI FVQ KCA QCH TVE KGG KHK TGP NLH GLF GRK TGQ APG FTY TDA NKN KGI TWK EET LME YLE NPK KYI PGT KMI FAG IKK KTE RED LIA YLK KAT NE

Format DNAStrider

Trois lignes de commentaires précédées du caractère ";". Les lignes suivantes contiennent la séquence. La dernière ligne doit contenir les caractères "//".
EX :

; ### from DNA Strider ;-)

; DNA sequence pir:ccho (1-104) , 104 bases, 7DA79498 checksum.

;

GDVEKGKKIFVQKCAQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGFTYTDANKNKGITWKEETLMEYLENPKKYIPGTKMIFAGIKKKTEREDLIAYLKKATNE

//

Les formats liés aux banques 

Format EMBL


Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champ) suivi de 3 blancs eux même suivis d’informations.

ID Identificateur ou mnémonique (nom de l'entrée)
XX Ligne vide séparatrice.
AC Numéro d'accession
DT Dates d'incorporation dans la base et de la dernière mise à jour.
DE Description de la séquence
KW Mot(s)-clé(s) (par ordre alphabétique).
OS Organisme d'où provient la séquence.
OC Classification taxonomique de l'organisme
OG Localisation sub-cellulaire des séquences non nucléaires (chloroplaste, cinétoplaste, mitochondrie, plasmide...)
RN Références bibliographiques de l'entrée.
RC Commentaires sur la référence
RX Région pour laquelle la référence bibliographique est associée.
RP Références associées aux différentes régions de la séquence.
RA Auteurs des articles
RT Titre de l'article
RL Références du journal
DR liaisons avec d'autres bases de données
FH En-tête du champ FT
FT Caractéristiques de la séquence (features).
SQ Séquence (60 nucléotides par ligne dans le sens 5'--->3').
CC Commentaires
// Fin de l'entrée .

Format de base :
La 1ère ligne contient ID, 3 espaces puis l'identificateur (9 caractères-chiffres max).
La 2e ligne contient AC, 3 espaces puis le numéro d'accession (6 caractères-chiffres max).
La 3e ligne contient DE, 3 espaces puis le descriptif (6 caractères-chiffres max).
La 4e ligne contient SQ, 3 espaces suivis de la taille de la séquence. Les ligne suivantes contiennent la séquence, découpée en 6 blocs (par ligne) de 10 caractères, séparés par un espace.
Chaque entrée se termine par "//".

LINE 1 :ID ID_name

LINE 2 :AC Accession number

LINE 3 :DE Describe the sequence any way you want

LINE 4 :SQ Length BP

LINE 5 : ACGTACGTAC GTACGTACGT ACGTACGTAC GTACGTA...

LINE 6 : ACGT...

LINE 7 ://

EX : EMBL:HSU94344 [par SRS]

Format GenBank

Les 12 premières colonnes contiennent le nom du champ et dans chaque champs on trouve des informations.

LOCUS
DEFINITION
ACCESSION
NID
KEYWORDS
SEGMENT
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
MEDLINE
COMMENT
FEATURES
BASE COUNT
ORIGIN
//
Format de base
:
Le fichier doit contenir l'en-tête "GENETIC SEQUENCE DATA BANK" et, pour chaque entrée, présenter les lignes 10 à 16.

LINE 1 : GENETIC SEQUENCE DATA BANK

LINE 2 :

LINE 3 :

LINE 4 :

LINE 5 :

LINE 6 :

LINE 7 :

LINE 8 :

LINE 9 :

LINE 10 :LOCUS L_Name Length BP

LINE 11 :DEFINITION Describe the sequence any way you want

LINE 12 :ACCESSION Accession Number

LINE 13 :ORIGIN

LINE 14 : 1 acgtacgtac gtacgtacgt acgtacgtac gtacgtacgt a...

LINE 15 : 61 acgt...

LINE 16 ://

EX : Genbank:HUMALBAF1 [par SRS]


1   2   3   4   5   6   7   8   9   ...   15

similaire:

Recherche de gènes et régions codantes iconRecherche année 2009/2010 Titre du stage
«Flux des (trans-)gènes et impact sur la biodiversité» ‘gmbioImpact’ (2007-2010)

Recherche de gènes et régions codantes icon«Titre de l’étude»
«indiquer la nature des prélèvements (sang, urine, moelle,adn, etc)» et notamment le fait qu’il s’agit d’étudier «les modifications...

Recherche de gènes et régions codantes iconLe transfert aux régions des biens immobiliers de l’Afpa appartenant...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconRecherche L’alphabet français semble mieux convenir à la fonction...

Recherche de gènes et régions codantes iconLa Recherche Scientifique
...

Recherche de gènes et régions codantes iconRecherche à visée médicale: L'article 23 de l'actuel projet de loi,...
«autorisation implicite» et «favoriser les besoins de l'industrie de la procréation»

Recherche de gènes et régions codantes iconLa loi n° 2015-29 du 16 janvier 2015 relative à la délimitation des...

Recherche de gènes et régions codantes iconDecentralisation de l’action sociale et protection de l’enfance
«relative aux droits et libertés des communes, des départements et des régions»






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com