Numeriblog IA IA : les scripts peuvent maintenant voir et parler ?

IA : les scripts peuvent maintenant voir et parler ?

Avec les dernières percées technologiques d’OpenAI, le paysage de la programmation est en train de vivre une révolution. La sortie de nouveaux modèles tels que Whisper, le modèle de Text to Speech, DALL-E 3, et […]

personnes ont consulté cet article

3 minutes

Rédigé par Théo Reumont - il y a 1 an et modifié le 10/11/2023 à 16:42

Ce que vous allez découvrir

  • Améliorations IA
  • Nouveautés IA
  • Exemple de multimodalité 👀👂🗣️
  • Notre utilisation de l’IA dans les produits
  • Conclusion

IA : les scripts peuvent maintenant voir et parler ?

Avec les dernières percées technologiques d’OpenAI, le paysage de la programmation est en train de vivre une révolution. La sortie de nouveaux modèles tels que Whisper, le modèle de Text to Speech, DALL-E 3, et l’API de vision ouvre des horizons inexplorés pour l’automatisation et l’innovation.

L’introduction à la multimodalité pour les développeurs a été annoncée ce lundi 06 novembre 2023 à la DevDay d’OpenAI qui est leur première itération de cette keynote pour les développeurs.

Conference Open AI du 6 novembre 2023 à San Francisco

Voyons un peu tout ce qui a été annoncé en commençant d’abord par un focus sur les améliorations.

Améliorations IA

Une meilleure compréhension de ChatGPT 🧠

Auparavant, nous pouvions déjà intégrer des outils tels que ChatGPT dans nos applications, mais désormais, cela est bien plus simple, avec de drastiques améliorations de performances, une meilleure intelligence et tout ça pour de moindres coûts.

En effet, les modifications en interne des modèles et l’introduction du modèle GPT 4.5 Turbo a permis bien de belles choses.

Logo ChatGPT 4.5

Le saviez-vous ? Il est déjà possible de faire exécuter du code à l’IA, ce qui permet beaucoup de choses intéressantes qui laissent un éventail de possibilités infinies !

Un exemple concret a été dévoilé lors de la conférence d’OpenAI. Lors de cette démonstration, une personne demandait sur un site Internet de voyages dix choses à faire à Paris, avec une carte interactive sur la droite, et qui ensuite, après avoir donné la réponse à l’utilisateur, place les marqueurs de son plein gré sur la carte interactive pour permettre à l’utilisateur d’y voir plus clair, le tout en laissant simplement la possibilité à l’IA d’exécuter certaines parties du code !

C’est de loin l’option des IA permettant le plus de customisation, ce qui est adaptable à n’importe quel de vos scripts en interne !

Whisper pour Entendre 👂

Whisper, le système de reconnaissance vocale d’OpenAI, déploie une nouvelle version plus performante, qui permet aux développeurs de retranscrire avec précision des enregistrements audio dans diverses langues et dialectes.

Grâce à Google Apps Script, il est désormais possible d’intégrer cette technologie directement dans des scripts tels que la transcription d’une vidéo ou d’un audio présent sur le Drive !

Nouveautés IA

Modèle de Text to Speech 🗣️

Le modèle de synthèse vocale (Text To Speech en anglais) transforme les possibilités du développeur en permettant de convertir du texte en paroles naturelles. Imaginez une IA qui lit les notes de chaque Slides pour vous permettre une immersion prenante, avec une voix qui semble presque humaine. Cette technologie ouvre la voie à des applications plus interactives et accessibles !

Image de référence

DALL-E 3 pour la Génération d’Images 🖼️

DALL-E 3 est un modèle de génération d’image qui peut créer des visuels étonnants à partir de descriptions textuelles simples. Les développeurs peuvent l’utiliser pour générer des images personnalisées pour des présentations, des sites Web ou même pour des éléments graphiques au sein d’applications. L’intégration avec Google Apps Script peut simplifier la création de contenu visuel, réduisant le temps et les coûts associés à la conception graphique.

Logo Dall-E 3 Open AI

Outil de Vision 👀

Enfin, l’API de vision par OpenAI est un outil puissant pour l’analyse d’images et de vidéos. Elle peut être utilisée pour détecter des objets, des visages, ou même pour analyser des sentiments. Les développeurs peuvent l’intégrer à leurs applications pour automatiser des tâches complexes qui nécessitaient auparavant un traitement manuel intensif.

C’est je penses l’API la plus folle jamais donnée à des développeurs car les champs du possibles sont infinis, l’IA arrive à discerner les petits détails, les blagues dans une image, à générer du code à partir d’une maquette, etc.

Exemple de multimodalité 👀👂🗣️

Le mix de ces outils peut donner un résultat assez impressionnant, comme l’exemple de certaines personnes qui ont réussi, quelques jours après l’annonce de ces nouveautés, à faire commenter une vidéo via l’IA.

Le programme prend une image de la vidéo toutes les vingtaines d’images, décortique ce qu’il a vu, et via le modèle de synthèse vocale, commente la vidéo.

Et ceci toutes les vingtaines d’images, ce qui permet à toujours avoir une voix qui commente la vidéo en cours.

Notre utilisation de l’IA dans les produits

Chez Numericoach, nous avons déjà créé notre propre outil IA autour des technologies d’OpenAI pour qu’il connaisse les informations à propos de notre entreprise et qu’il puisse aider pour les demandes de tous les jours, avec un accès aux documents administratifs de l’entreprise pour avoir une réponse plus précise. 🤖

Conclusion

Les programmes peuvent donc maintenant voir, écouter, parler et générer des images.

Les possibilités sont décuplées, je suis curieux de voir ce que l’avenir nous réserve au niveau des développements.

Il est important d’ailleurs de souligner que, selon les assurances d’OpenAI, les données que nous transmettons via le code ne sont pas utilisées pour l’entraînement de leurs modèles d’intelligence artificielle.

Avec une bonne partie des sens apportés aux applications, imaginez si dans quelques années les programmes avaient accès à l’odeur, je ne vous conseillerais pas de parler à ChatGPT avec l’haleine du matin …

Articles similaires

  • Articles connexes
  • Plus de l'auteur

Rédacteur

Photo de profil de l'auteur
Théo Reumont

Développeur fullstack, je crée des applications avec Google Cloud et intègre l’IA pour repousser les limites de l’innovation. Passionné par les technologies modernes, j’explore sans cesse de nouvelles solutions pour des applications à la pointe.

S’abonner
Notification pour
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires