Intégration des connaissances biologiques dans le clustering des données d’expression génétique.
- Superviseur :
Khadidja Henni
- Domaine(s) :
- Intelligence artificielle
- Science des données
But:
Développement d’une métrique de distance et son intégration dans un algorithme de clustering pour améliorer la performance de ce dernier.
Intérêt :
Les performances des algorithmes de clustering sont affectées par la fonction de distance (Kernel) utilisée, et l’utilisation des connaissances du domaine peut améliorer la qualité du clustering.
Description :
Afin de tirer profit des ontologies qui annotent les gènes, leurs fonctions biologiques et leur comportement, nous proposons d’incorporer les connaissances préalables sur les gènes dans une nouvelle métrique de distance (kernel) afin d’améliorer les performances des algorithmes de clustering. Il s’agit de développer une nouvelle méthode qui fusionne le comportement des gènes dans l’expérience traitée et les connaissances sur leurs historiques d’interaction et leurs fonctions, ces connaissances sont stockées dans des ontologies, telles que GeneOntologie (GO). Cette nouvelle métrique de distance sera utilisée dans des algorithmes de clustering, tel que: k-means, ClusterMPP, pour identifier les regroupements des gènes. La méthode proposée sera appliquée sur des données d’expression génétique réelles venant des banques de données biologiques.
Les compétences requises pour réaliser ce projet :
Compétences générales
- Une familiarité avec les ontologies.
- Maîtrise de l’anglais
Compétences spécifiques
- Bonne maîtrise du langage de programmation python/R.
Compétences professionnelles
- Capacité à se documenter
- Habilité à communiquer à l’oral et à l’écrit
Références bibliographiques :
- Yan, X., Liang, A., Gomez, J. et al. A novel pathway-based distance score enhances assessment of disease heterogeneity in gene expression. BMC Bioinformatics 18, 309 (2017). https://doi.org/10.1186/s12859-017-1727-4.
- Desheng Huang, Wei Pan, Incorporating biological knowledge into distance-based clustering analysis of microarray gene expression data, Bioinformatics, Volume 22, Issue 10, 15 May 2006, Pages 1259–1268, https://doi.org/10.1093/bioinformatics/btl065