-A +A

imprimer la page

PLATEFORME BIOINFORMATIQUE

Mots-clés : tumeur, puces à ADN, profils moléculaires, classification, analyse statistique, bases de données, phénotypage cellulaire, séquençage à haut débit

Directeur : Emmanuel Barillot

Directeur-adjoint : Philippe Hupé

La plate-forme Bioinformatique assure une double mission. D'une part, nous intégrons les données produites par les plates-formes biotechnologiques de l'Institut Curie : plates-formes de puces génomiques, transcriptomiques, ou protéomiques ; plate-forme protéomique de spectrométrie de masse ; plate-forme de grand séquençage ; plate-forme de phénotypage cellulaire ; pour ce faire, elle développe et gère les bases de données, outils et interfaces nécessaires à l'intégration de ces données. D'autre part, nous apportons un support collaboratif dans l'analyse bioinformatique et biostatistique des données des projets de nos collègues biologistes ou cliniciens.

La plate-forme Bioinformatique de l'Institut Curie est localisée sur le campus de Paris, dans le bâtiment de Biologie du Développement et Cancer. Nos travaux s'appuient sur une infrastructure informatique conséquente, gérée par l'équipe Système de l'Institut Curie (Jean-Gabriel Dick et Camille Barette). Elle comprend un système de stockage SAN de 50 Teraoctets, des serveurs Sun opteron octoprocesseurs (2 à base de dualcores avec 32 Go de mémoire, et 2 à base de quadcores avec 256 Go de mémoire), et des stations de travail biprocesseurs quadcore avec 16 Go de mémoire, soit une puissance de calcul de 400 processeurs logiques.


Fig.1Fig.1 Fig. 2Fig. 2

 

 

 

BioIT : développement et maintenance des bases de données (Philippe La Rosa)

Les multiples approches moléculaires à haut débit génèrent des flux d'information sans précédent qu'il est nécessaire de structurer et dont il faut donner une vue unifiée au travers d'une plate-forme bioinformatique d'intégration. C'est la mission de l'axe BioIT, en charge du développement, de la maintenance, de l'administration, de la gestion et de l'évolution des bases de données, chaînes de traitement et interfaces qui constituent la plate-forme.
L'intégration concerne aussi bien les données cliniques et biologiques produites à l'Institut, que les masses de données connexes disponibles publiquement au sein de la communauté scientifique.

Nos outils de navigation et de visualisation permettent une appréhension globale de l'information collectée et facilite la formulation d'hypothèses de travail, étape cruciale pour passer du stade de la collecte de données à celui de l'enrichissement de la connaissance. Elle s'appuie sur des solutions logicielles disponibles dans la communauté scientifique ou sur des outils développés par le groupe BioIT quand cela est nécessaire.

Nous développons également des chaînes automatiques de traitement de données. Le caractère systématique de cette approche facilite la traçabilité, garantit une bonne  homogénéité des résultats et offre la possibilité de refaire les analyses rapidement.  L'axe BioIT est en charge du développement de ces chaînes de traitement.

Biostatistique et analyse de données (Philippe Hupé)

Ce second axe de travail consiste à apporter notre expertise bioinformatique et biostatistique dans le cadre de collaborations avec nos collègues biologistes et cliniciens de l'Institut ou d'autres horizons. En effet, l'analyse des données à haut débit doit s'appuyer à la fois sur la maîtrise d'outils et concepts pointus de statistique et de bioinformatique ; et sur une compréhension fine des questions biologiques et cliniques à résoudre.

L'analyse est menée à la demande de nos collaborateurs, en  étroite interaction avec eux, et doit commencer à la définition du plan expérimental. Une fois les données produites, la première étape concerne le contrôle-qualité et l'extraction du signal biologique, souvent appelée normalisation. À ce stade la définition de modèles correctifs ad hoc peut s'avérer nécessaire et l'exploitabilité de l'expérience est établie. S'ensuit une phase d'analyse exploratoire, sans hypothèse a priori, où l'on recherche le message principal porté par l'expérience, par exemple les voies biologiques concernées. Cette étape peut déboucher sur la formulation d'hypothèses, l'identification de biais expérimentaux, ou la définition de nouvelles expériences. Après la phase exploratoire s'engage l'analyse visant à répondre à la question clinique ou biologique posée, par exemple la comparaison de deux types tumoraux ou la construction de méthodes capables de prédire l'apparition de métastases.

Phénoinformatique (Alexandre Hamburger)

De nombreuses technologies (micro-arrays, double-hybride, MS-MS...), désormais standardisées, ont permis la génération d'une grande quantité d'informations relatives aux composants de la cellule (gènes, protéines, ARN...) et de leurs interactions. Plus récemment, des avancées majeures en analyse d'image et en robotique nous ont donné l'opportunité d'observer la cellule en tant qu'entité globale, présentant un « phénotype », plutôt que comme une collection d'éléments individuels.

La phéno-informatique s'attache à l'acquisition, la manipulation et l'analyse de telles données : le comportement d'une cellule ou d'une population de cellules est quantifié en fonction de son type (lignée cellulaire), de perturbations diverses, et du contexte expérimental.

Les données ainsi produites peuvent dès lors être utilisées comme une source additionnelle d'information, venant enrichir et compléter des modèles préexistants, ou comme une source autonome, qui nous permettrait d'améliorer significativement notre compréhension du comportement cellulaire. De nombreuses applications peuvent être envisagées, tant dans le cadre du développement de la connaissance biologique que dans une optique thérapeutique.

Dans tous les cas, un nouveau type de données, radicalement différent des standards, implique la mise en place d'analyses adaptées, à mêmes d'en tirer les bénéfices maximaux et de gérer intelligemment sa complexité inhérente.

Analyse des données de grand séquençage (Emmanuel Barillot)

Les nouvelles technologies de séquençage (454, Solexa, SOLiD) offrent la possibilité de séquencer l'ADN à un débit sans précédent, atteignant plus de 10 Gigabases par semaine. L'institut Curie a  récemment acquis un séquenceur SOLiD, désormais utilisé pour des études portant sur le séquençage de génomes complets, de mutations géniques, de transcrits (ARNm et petits ARN), ou sur la cartographie de réarrangements génomiques, de sites de liaison de protéines à l'ADN, de modifications des histones ... Cette technologie produit par expérience plus de 100 millions de séquences de 35 à 50 bases. Elle nécessite des outils nouveaux pour la gestion de gros volumes de données et des stratégies et méthodologies d'analyse adaptées. Au sein de cet axe de travail, nous collaborons avec l'équipe de la plate-forme SOLiD et ses utilisateurs biologistes pour définir les projets, imaginer les solutions bioinformatiques et biostatistiques, et mener à bien les analyses de données.