Créer votre propre assistant vocal intelligent avec ChatGPT en Python

Dans le monde de la programmation, les assistants virtuels sont de plus en plus populaires.

Ces programmes peuvent effectuer une variété de tâches, de la réponse à des questions simples à l'automatisation de tâches complexes.

L'un des assistants virtuels les plus célèbres est Jarvis, l'assistant personnel de Tony Stark dans l'univers cinématographique Marvel.

Dans ce projet, nous avons créé notre propre assistant virtuel en utilisant Python.

L'objectif est de développer un assistant intelligent qui peut comprendre les commandes vocales de l'utilisateur, exécuter des tâches informatiques spécifiques et répondre à des questions.

Dans cet article, nous allons passer en revue les différentes parties de notre projet, depuis la reconnaissance vocale jusqu'à la synthèse de la parole.

Nous expliquerons également comment nous avons utilisé l'API OpenAI pour la compréhension du langage naturel et comment nous avons utilisé des bibliothèques telles que Pygame et SpeechRecognition pour la synthèse vocale.

Suivez ce guide pour en savoir plus sur notre projet d'assistant virtuel en Python et comment vous pouvez construire votre propre assistant virtuel!

Table des matières

Créer un assistant vocal en Python

L'assistant vocal est une application qui permet aux utilisateurs d'interagir avec un système informatique en utilisant leur voix.

Avec l'essor de la reconnaissance vocale et de l'apprentissage automatique, les assistants vocaux sont devenus très populaires ces dernières années.

Dans ce projet, nous allons créer un assistant vocal en utilisant Python, qui comprendra la reconnaissance vocale, le traitement du langage naturel et la synthèse vocale.

Objectifs

L'objectif de ce projet est de créer un assistant vocal qui peut exécuter des tâches pour un utilisateur.

Par exemple, l'assistant vocal peut aider un développeur à effectuer des tâches de développement, telles que l'exécution de tests unitaires, la compilation de code et la génération de documentation. Ou bien, il peut aider un utilisateur à utiliser des outils informatiques tels que des logiciels de traitement de texte, des navigateurs Web, etc.

Notre assistant vocal sera capable de comprendre des commandes vocales, d'interpréter le langage naturel de l'utilisateur et de fournir des réponses en utilisant la synthèse vocale.

Pour ce faire, nous allons utiliser plusieurs bibliothèques Python, notamment SpeechRecognition, OpenAI et gTTS.

Fonctionnalités

Notre assistant vocal aura les fonctionnalités suivantes :

Reconnaissance vocale : l'assistant sera capable de transcrire les commandes vocales de l'utilisateur en texte. Nous utiliserons la bibliothèque SpeechRecognition pour cela.
Traitement du langage naturel : l'assistant sera capable de comprendre les commandes vocales de l'utilisateur en utilisant l'API OpenAI. L'API OpenAI est une interface de traitement du langage naturel qui permet aux développeurs de construire des applications d'IA qui peuvent comprendre le langage humain.
Synthèse vocale : l'assistant sera capable de générer une réponse audio à partir du texte en utilisant la bibliothèque gTTS. La bibliothèque pygame mixer sera utilisée pour lire la réponse audio générée.

Composants du projet

Le projet est composé de trois composants principaux : la reconnaissance vocale, le traitement du langage naturel et la synthèse de la parole.

La reconnaissance vocale utilise la bibliothèque SpeechRecognition pour capturer et transcrire les commandes vocales de l'utilisateur.

Le traitement du langage naturel utilise l'API OpenAI pour comprendre l'intention de l'utilisateur et générer une réponse appropriée.

Enfin, la synthèse de la parole utilise la bibliothèque gTTS et Pygame mixer pour générer et lire une réponse audio.

Chacun de ces composants est essentiel pour créer un assistant vocal interactif qui peut comprendre les commandes vocales de l'utilisateur, interpréter leur intention et fournir une réponse appropriée en utilisant la synthèse vocale.

Le fonctionnement de l'assistant

L'assistant se base sur la reconnaissance vocale, le traitement automatique du langage naturel et la synthèse vocale pour comprendre les commandes de l'utilisateur, exécuter des tâches et donner des réponses audio.

Le fichier `voice_recognition.py` contient les fonctions qui gèrent la reconnaissance vocale.

Il utilise la bibliothèque `SpeechRecognition` pour capturer les commandes vocales et les transcrire en texte. La transcription est ensuite envoyée au module de traitement du langage naturel.


# voice_recognition.py
import speech_recognition as sr
from init import recognizer, speak

def listen_for_command():
    with sr.Microphone() as source:
        print("Ecoute...")
        recognizer.adjust_for_ambient_noise(source)
        audio = recognizer.listen(source, timeout=5) # Ajoutez une limite de temps de 5 secondes
    return audio

def transcribe_audio(audio):
    try:
        prompt = recognizer.recognize_google(audio, language="fr-FR")
        print("Tu as dit: " + prompt)
    except sr.UnknownValueError:
        print("Je n'ai pas compris")
        prompt = None
    except sr.RequestError as e:
        print("Erreur de service; {0}".format(e))
        prompt = None

    if prompt is None:
        return None

    # # Synthétisez la réponse
    # speak("Tu as dit " + prompt)

    return prompt

Le fichier `chatgpt.py` contient les fonctions qui gèrent le traitement automatique du langage naturel.

Il utilise l'API d'OpenAI pour comprendre les commandes de l'utilisateur et générer des réponses en langage naturel.

Les réponses générées sont ensuite envoyées au module de synthèse vocale.


# chatgpt.py

import openai
# from init import openai
from config import OPENAI_API_KEY
openai.api_key = OPENAI_API_KEY

def send_request_to_gpt(prompt, context=None):
    if context:
        prompt = context + prompt

    try:
        response = openai.Completion.create(
            engine="text-davinci-003",
            prompt=prompt,
            max_tokens=2048,
            n=1,
            stop=None,
            temperature=0.5,
        )
        return response["choices"][0]["text"]
    except openai.error.RateLimitError as e:
        print("Error: Rate limit exceeded. Please check your plan and billing details.")
        return "Je suis désolé, je ne peux pas répondre pour le moment. Veuillez réessayer plus tard."
    except Exception as e:
        print("Error: ", e)
        return "Je suis désolé, une erreur est survenue. Veuillez réessayer plus tard."

Le fichier `init.py` et `voice_synthesis.py` contient les fonctions qui gèrent la synthèse vocale.

Il utilise la bibliothèque `gTTS` pour générer des fichiers audio à partir du texte et la bibliothèque `pygame` pour lire ces fichiers audio.


# init.py

import speech_recognition as sr
from gtts import gTTS
from pygame import mixer

def speak(text):
    mixer.init()
    tts = gTTS(text=text, lang='fr')
    tts.save("speech.mp3")
    sound = mixer.Sound("speech.mp3")
    sound.play()

# Initialiser le recognizer
recognizer = sr.Recognizer()


# voice_synthesis.py

from init import speak

def speak_text(text):
    print(text)
    speak(text)

Le fichier `main.py` est le point d'entrée de l'assistant. Il utilise les fonctions des différents modules pour écouter les commandes vocales de l'utilisateur, les transcrire, les envoyer à l'API d'OpenAI pour traitement, générer une réponse en langage naturel à partir des résultats et lire la réponse audio.


# main.py

from voice_recognition import listen_for_command, transcribe_audio
from chatgpt import send_request_to_gpt
from voice_synthesis import speak_text
from time import sleep
from pygame import mixer

if __name__ == "__main__":
    mixer.init()

    while True:
        # Écouter la commande vocale
        audio = listen_for_command()

        # Transcrire la commande vocale
        prompt = transcribe_audio(audio)

        if prompt is None:
            continue

        if prompt.lower() == "exit":
            break

        # Envoyer une requête à l'API de GPT
        response_text = send_request_to_gpt(prompt)

        # Parler la réponse
        speak_text(response_text)

        while mixer.get_busy():
            sleep(0.1)
    mixer.quit()

Le fonctionnement de l'assistant est basé sur une boucle continue qui attend les commandes vocales de l'utilisateur, traite ces commandes et génère des réponses.

L'assistant peut ainsi être utilisé pour exécuter une grande variété de tâches, allant de la recherche sur internet à la gestion de tâches informatiques spécifiques.

Utilisation de l'API OpenAI

La deuxième partie de notre projet consiste à utiliser l'API OpenAI pour comprendre l'intention de l'utilisateur et générer une réponse appropriée.

OpenAI est une plate-forme d'IA qui propose des API pour effectuer des tâches telles que la génération de texte, la compréhension de texte, la création de modèles de langage et bien plus encore.

Nous avons choisi d'utiliser leur API de complétion de texte pour générer des réponses à nos commandes vocales.

Pour utiliser l'API OpenAI, nous devons d'abord nous inscrire sur leur site Web et obtenir une clé API.

Ensuite, nous pouvons utiliser la bibliothèque openai de Python pour communiquer avec l'API.

Notre fonction `send_request_to_gpt(prompt)` dans le fichier `chatgpt.py` est responsable d'envoyer une requête à l'API et de retourner la réponse.

Le modèle de langage que nous utilisons est `text-davinci-003`.

Ce modèle est entraîné à comprendre le langage naturel et à générer des réponses cohérentes et de haute qualité.

Synthèse vocale

La dernière partie de notre projet consiste à synthétiser une réponse vocale pour l'utilisateur à l'aide de la bibliothèque gTTS et pygame.

Nous utilisons la bibliothèque gTTS pour générer un fichier audio à partir de notre réponse textuelle, puis la bibliothèque pygame pour jouer ce fichier audio à travers les haut-parleurs de l'utilisateur.

Notre fonction `speak_text(text)` dans le fichier `voice_synthesis.py` est responsable de générer et de jouer la réponse audio.

Tout d'abord, nous utilisons gTTS pour générer un fichier audio à partir de notre texte, puis nous utilisons pygame pour le lire.

Nous avons ajouté une petite boucle à la fin pour attendre que la réponse audio soit terminée avant de terminer la fonction et de revenir à l'écoute des commandes vocales.

Conclusion

Dans cet article, nous avons présenté notre projet d'assistant vocal basé sur Python.

Nous avons expliqué comment nous avons utilisé la reconnaissance vocale, l'API OpenAI et la synthèse vocale pour créer un assistant vocal qui peut comprendre les commandes vocales et répondre de manière appropriée.

Bien que notre projet soit encore en développement, il a le potentiel d'être un outil précieux pour les développeurs et les utilisateurs d'ordinateurs qui cherchent à améliorer leur productivité et leur efficacité.

Nous espérons que vous avez trouvé cet article intéressant et instructif, et n'hésitez pas à consulter notre guide GitLab pour plus d'informations sur le projet.

https://gitlab.com/greg198584/neo

Abonnez-vous

Abonner vous, pour recevoir les nouvelles publications et obtenir ma formation programmation pour débutant 100% gratuite.

LIENS

CATÉGORIES

ME SUIVRE

À PROPOS

Je m'appelle Gregory Lafitte, ancien étudiant de l'école 42, et aujourd’hui ingénieur informatique.

Je partage mes connaissances et mon expérience dans les métiers du numérique.