Accélérez l'Apprentissage de Vos LLM : Tuning de Préférences Ultra-Rapide avec Flash Preference

Vous voulez optimiser l'apprentissage par préférences de vos grands modèles de langage (LLM) sans vous ruiner en ressources ? Découvrez Flash Preference, une solution simple et puissante pour accélérer le processus de Direct Preference Optimization (DPO) et autres méthodes similaires, comme Reward Modeling (RM) ou Group Relative Policy Optimization (GRPO).

Bénéfice N°1 : Tuning de Préférences 10x Plus Rapide

Flash Preference utilise une technique intelligente de partage de préfixes, permettant de réduire considérablement le temps de calcul nécessaire pour ajuster les préférences de votre LLM. Imaginez les gains de temps et d'énergie que vous pourriez réaliser ! Plus besoin d'attendre des heures pour voir les résultats de vos ajustements.

Bénéfice N°2 : Réduction Drastique de l'Empreinte Mémoire

L'un des principaux avantages de Flash Preference est son optimisation de la mémoire. En partageant les préfixes communs dans les séquences d'entrée, la quantité de mémoire nécessaire pour entraîner votre LLM est considérablement réduite. Cela signifie :

Des modèles plus gros peuvent être entraînés sur le même matériel.
Un coût réduit de votre infrastructure cloud.

Bénéfice N°3 : Intégration Facile en Une Seule Ligne de Code

Pas besoin de refactoriser tout votre code ! Flash Preference s'intègre facilement à votre workflow existant. L’implémentation se fait en enveloppant simplement les passes avant et arrière du modèle dans un contexte shared_prefix. Voici à quoi ça ressemble :

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from flash_pref import shared_prefix

model_id = "Qwen/Qwen2.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, padding_side="right")
model = AutoModelForCausalLM.from_pretrained(
    model_id, attn_implementation="flash_attention_2", use_cache=False, torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "What is the next 10 numbers of this sequence: " + ", ".join(str(x) for x in range(500))
chosen_response = ", ".join(str(x) for x in range(500, 500 + 10))
rejected_response = ", ".join(str(x) for x in range(500, 500 + 10, 2))
conversations = [
    [{"role": "user", "content": prompt}, {"role": "assistant", "content": chosen_response}],
    [{"role": "user", "content": prompt}, {"role": "assistant", "content": rejected_response}],
]
inputs = tokenizer.apply_chat_template(
    conversations, tokenize=True, padding=True, return_tensors="pt", return_dict=True
).to("cuda")
# ===== MAGIC HERE =====
with shared_prefix(model, input_ids=inputs.input_ids, attention_mask=inputs.attention_mask):
    output = model(**inputs)
    output.logits.backward(torch.randn_like(output.logits))

Comment Démarrer avec Flash Preference ?

L'installation est un jeu d'enfant :

pip install flash-preference

Ou, pour la dernière version GitHub :

pip install git+https://github.com/li-plus/flash-preference.git@main

Conclusion : Optimisation, Simplicité et Performance

Flash Preference offre une solution efficace pour accélérer et optimiser votre processus d'apprentissage par préférences LLM. En réduisant les coûts de calcul et en simplifiant l'intégration, Flash Preference est un atout précieux pour tout projet d’entraînement de LLM. Alors, pourquoi ne pas l'essayer et constater par vous-même les avantages ? Optimisez dès aujourd'hui votre Direct Preference Optimization (DPO) avec Flash Preference et repoussez les limites de vos modèles de langage. Grâce à cette librairie, vous boosterez l'efficacité de votre entraînement. Par ailleurs, améliorer les performance de l'apprentissage par préférence est essentiel pour gagner du temps et de l'argent.

Accélérez l'Apprentissage de Vos LLM : Tuning de Préférences Ultra-Rapide avec Flash Preference