Kimi-Audio : Créez l'avenir de l'audio avec l'IA Open Source

Vous rêvez de l'IA audio de demain ? Découvrez Kimi-Audio, un modèle de fondation audio open source qui redéfinit les normes en matière de compréhension, de génération et de conversation audio. Exploitez sa puissance pour vos projets !

Kimi-Audio Logo

Comprendre Kimi-Audio en un clin d'œil

Kimi-Audio est bien plus qu'un simple modèle audio. C'est une plateforme complète pour une multitude de tâches.

Des capacités universelles : Reconnaissance vocale, réponse aux questions audio, légende audio, reconnaissance des émotions et bien plus encore.
Performances de pointe : Dépasse les résultats existants sur de nombreux benchmarks audio.
Entraînement à grande échelle : Pré-entraîné sur plus de 13 millions d'heures de données audio et textuelles.
Architecture innovante : Combine des entrées audio hybrides et un LLM (Large Language Model) avec des têtes parallèles.
Inférence efficace : Détonateur "chunk-wise streaming" pour une génération audio à faible latence.
Open Source : Code, modèles et outils d'évaluation mis à disposition pour la communauté.

Découvrez l'architecture révolutionnaire de Kimi-Audio

L'architecture de Kimi-Audio est conçue pour une performance optimale. Elle se compose de trois éléments principaux :

Audio Tokenizer : Convertit l'audio en tokens sémantiques discrets et en caractéristiques acoustiques continues.
Audio LLM : Un modèle de transformer basé sur un LLM de texte pré-entraîné, mais adapté au traitement de l'audio.
Audio Detokenizer : Reconvertit les tokens audio en formes d'onde haute fidélité.

Architecture Kimi-Audio

Démarrez rapidement avec Kimi-Audio et la reconnaissance vocale

Lancez-vous immédiatement avec ce guide rapide. Créez de la transcription audio et du contenu conversationnel en quelques lignes de code.

import soundfile as sf
from kimia_infer.api.kimia import KimiAudio

# 1. Charger le Modèle
model_path = "moonshotai/Kimi-Audio-7B-Instruct"
model = KimiAudio(model_path=model_path, load_detokenizer=True)

# 2. Définir les Paramètres d'Échantillonnage
sampling_params = {
    "audio_temperature": 0.8,
    "audio_top_k": 10,
    "text_temperature": 0.0,
    "text_top_k": 5,
    "audio_repetition_penalty": 1.0,
    "audio_repetition_window_size": 64,
    "text_repetition_penalty": 1.0,
    "text_repetition_window_size": 16,
}

# 3. Exemple 1: Audio-vers-Texte (ASR)
messages_asr = [
    {"role": "user", "message_type": "text", "content": "Veuillez transcrire l'audio suivant:"},
    {"role": "user", "message_type": "audio", "content": "test_audios/asr_example.wav"}
]

_, text_output = model.generate(messages_asr, **sampling_params, output_type="text")
print(">>> ASR Output Text: ", text_output)

Évaluation : Kimi-Audio surpasse les autres

Observez les performances exceptionnelles de Kimi-Audio sur différents benchmarks. Kimi-Audio excelle en reconnaissance vocale automatique (ASR), compréhension audio, conversation audio-texte et plus encore.

Radar Chart

Son évaluation et comparaison d'autres modèles est rendue plus accessible par le Kimi-Audio-Evalkit.

Kimi-Audio-Evalkit : Standardisez vos évaluations

L'évaluation des modèles de fondation audio peut être complexe. C'est pourquoi Kimi-Audio propose un kit d'évaluation open source. Il intègre Kimi-Audio et d'autres LLM audio. Il standardise le calcul des métriques et fournit une plateforme unifiée pour les comparaisons.

Testez les capacités conversationnelles avec Kimi-Audio-Generation-Testset

Explorez les interactions audio-texte avancées. Le Kimi-Audio-Generation-Testset est conçu pour évaluer les capacités conversationnelles des modèles de dialogue audio. Il se compose d'échantillons audio qui vise à tester la capacité du modèle à générer des réponses audio appropriées.

Licence et Remerciements

Kimi-Audio est basé sur Qwen 2.5-7B et est distribué sous licence Apache 2.0 et MIT. Nous remercions vivement les projets open source tels que Whisper, Transformers, BigVGAN et GLM-4-Voice pour leurs contributions.

Citation

Si vous utilisez Kimi-Audio dans vos travaux de recherche ou vos applications, veuillez citer notre rapport technique.

Contactez-nous

Pour toute question, problème ou proposition de collaboration, n'hésitez pas à nous contacter via GitHub. Nous sommes impatients de voir comment vous utiliserez Kimi-Audio pour repousser les limites de l'IA audio !

Comprendre Kimi-Audio en un clin d'œil

Kimi-Audio est bien plus qu'un simple modèle audio. C'est une plateforme complète pour une multitude de tâches.

Des capacités universelles : Reconnaissance vocale, réponse aux questions audio, légende audio, reconnaissance des émotions et bien plus encore.

Performances de pointe : Dépasse les résultats existants sur de nombreux benchmarks audio.

Entraînement à grande échelle : Pré-entraîné sur plus de 13 millions d'heures de données audio et textuelles.

Architecture innovante : Combine des entrées audio hybrides et un LLM (Large Language Model) avec des têtes parallèles.

Inférence efficace : Détonateur "chunk-wise streaming" pour une génération audio à faible latence.

Open Source : Code, modèles et outils d'évaluation mis à disposition pour la communauté.

Découvrez l'architecture révolutionnaire de Kimi-Audio

L'architecture de Kimi-Audio est conçue pour une performance optimale. Elle se compose de trois éléments principaux :

Audio Tokenizer : Convertit l'audio en tokens sémantiques discrets et en caractéristiques acoustiques continues.

Audio LLM : Un modèle de transformer basé sur un LLM de texte pré-entraîné, mais adapté au traitement de l'audio.

Audio Detokenizer : Reconvertit les tokens audio en formes d'onde haute fidélité.

Démarrez rapidement avec Kimi-Audio et la reconnaissance vocale

Lancez-vous immédiatement avec ce guide rapide. Créez de la transcription audio et du contenu conversationnel en quelques lignes de code.

Évaluation : Kimi-Audio surpasse les autres

Son évaluation et comparaison d'autres modèles est rendue plus accessible par le Kimi-Audio-Evalkit.

Kimi-Audio : Créez l'avenir de l'audio avec l'IA Open Source

Comprendre Kimi-Audio en un clin d'œil

Découvrez l'architecture révolutionnaire de Kimi-Audio

Démarrez rapidement avec Kimi-Audio et la reconnaissance vocale

Évaluation : Kimi-Audio surpasse les autres

Kimi-Audio-Evalkit : Standardisez vos évaluations

Testez les capacités conversationnelles avec Kimi-Audio-Generation-Testset

Licence et Remerciements

Citation

Contactez-nous

Kimi-Audio : Créez l'avenir de l'audio avec l'IA Open Source

Comprendre Kimi-Audio en un clin d'œil

Découvrez l'architecture révolutionnaire de Kimi-Audio

Démarrez rapidement avec Kimi-Audio et la reconnaissance vocale

Évaluation : Kimi-Audio surpasse les autres

Kimi-Audio-Evalkit : Standardisez vos évaluations

Testez les capacités conversationnelles avec Kimi-Audio-Generation-Testset

Licence et Remerciements

Citation

Contactez-nous

Articles liés