Découvrir TranscriptFormer : L'Atlas Cellulaire Génératif Multi-Espèces Révolutionnaire
Vous cherchez à comprendre la diversité cellulaire à travers les espèces et à effectuer des expériences in silico? Découvrez TranscriptFormer, un modèle génératif de pointe qui modélise les transcriptomes de cellules individuelles à travers diverses espèces. Explorez son architecture unique, ses capacités et comment l'utiliser pour vos recherches.
TranscriptFormer : Qu'est-ce Que C'est et Pourquoi C'est Important ?
TranscriptFormer est une famille de modèles fondamentaux génératifs, conçue pour représenter un atlas cellulaire génératif couvrant 1,53 milliard d'années d'évolution à travers 12 espèces différentes. Il aide les chercheurs à classification de type cellulaire à l'échelle des espèces et à comprendre les relations gène-gène.
Ce modèle offre des représentations contextuelles riches des transcriptomes de cellules individuelles, en modélisant conjointement les gènes et les transcrits. Son architecture innovante s'appuie sur une méthodologie d'auto-régression générative avec une architecture de type "transformer", comprenant un couplage novateur entre les têtes de gènes et de transcrits, une attention auto-multi-tête sensible à l'expression, un masquage causal et une probabilité de comptage pour capturer la variabilité au niveau des transcrits.
Quelles Sont les Versions de TranscriptFormer Disponibles ?
TranscriptFormer se décline en trois versions distinctes :
- TF-Metazoa : Entraîné sur 112 millions de cellules couvrant douze espèces, incluant six vertébrés, quatre invertébrés, un champignon (levure) et un protiste (parasite du paludisme).
- TF-Exemplar : Entraîné sur 110 millions de cellules issues de l'humain et de quatre organismes modèles : la souris, le poisson zèbre, la mouche drosophile et C. elegans.
- TF-Sapiens : Entraîné sur 57 millions de cellules exclusivement humaines.
Chaque version est adaptée à des besoins spécifiques, permettant aux chercheurs de choisir le modèle le plus pertinent pour leur domaine d'étude. Le choix du bon modèle TranscriptFormer est essentiel pour obtenir des résultats précis.
Comment Installer TranscriptFormer ?
L'installation de TranscriptFormer est simple et directe. Voici les étapes :
- Cloner le dépôt :
git clone https://github.com/czi-ai/transcriptformer.git
- Créer un environnement virtuel :
uv venv --python=3.11
- Activer l'environnement virtuel :
source .venv/bin/activate
- Installer le paquet :
uv pip install -e .
ouuv pip install transcriptformer
Assurez-vous d'avoir Python >= 3.11 installé avant de commencer.
Télécharger les Poids du Modèle TranscriptFormer : Un Guide Rapide
Les poids du modèle et les artefacts sont accessibles via AWS S3. Utilisez le script download_artifacts.py
pour un téléchargement facile. Voici quelques exemples :
- Télécharger TF-Sapiens:
python download_artifacts.py tf-sapiens
- Télécharger tous les modèles:
python download_artifacts.py all
- Télécharger uniquement les embeddings:
python download_artifacts.py all-embeddings
Vous pouvez également spécifier un répertoire de checkpoint personnalisé avec l'option --checkpoint-dir
. Ceci vous permet de mieux organiser vos fichiers TranscriptFormer.
Comment Utiliser TranscriptFormer pour L'Inférence ?
Le script inference.py
offre une interface conviviale pour exécuter l'inférence avec TranscriptFormer. Voici un exemple d'utilisation de base :
N'oubliez pas de spécifier le chemin vers le checkpoint du modèle et les fichiers de données d'entrée. Pour les espèces hors distribution, fournissez le fichier d'embedding pré-entraîné. Assurez-vous également que vos données d'entrée sont au format H5AD avec les identifiants de gènes Ensembl.
Pourquoi Choisir TranscriptFormer pour Vos Recherches sur Le Transcriptome ?
TranscriptFormer offre des capacités uniques pour l'intégration et l'interrogation de la diversité cellulaire à travers les espèces. Sa capacité à réaliser une identification d'état pathologique dans les cellules humaines et à prédire les facteurs de transcription spécifiques au type de cellule en fait un outil précieux pour la recherche fondamentale et translationnelle.