IA : les scripts peuvent maintenant voir et parler ?

Avec les dernières percées technologiques d’OpenAI, le paysage de la programmation est en train de vivre une révolution. La sortie de nouveaux modèles tels que Whisper, le modèle de Text to Speech, DALL-E 3, et […]

Laisser une évaluation

4 891
personnes ont consulté cet article

3 minutes

Rédigé par Théo Reumont - il y a 2 ans et modifié le 10/11/2023 à 16:42

Ce que vous allez découvrir

Améliorations IA
Nouveautés IA
Exemple de multimodalité 👀👂🗣️
Notre utilisation de l’IA dans les produits
Conclusion

IA : les scripts peuvent maintenant voir et parler ?

L’introduction à la multimodalité pour les développeurs a été annoncée ce lundi 06 novembre 2023 à la DevDay d’OpenAI qui est leur première itération de cette keynote pour les développeurs.

Conference Open AI du 6 novembre 2023 à San Francisco

Voyons un peu tout ce qui a été annoncé en commençant d’abord par un focus sur les améliorations.

Améliorations IA

Une meilleure compréhension de ChatGPT 🧠

Auparavant, nous pouvions déjà intégrer des outils tels que ChatGPT dans nos applications, mais désormais, cela est bien plus simple, avec de drastiques améliorations de performances, une meilleure intelligence et tout ça pour de moindres coûts.

En effet, les modifications en interne des modèles et l’introduction du modèle GPT 4.5 Turbo a permis bien de belles choses.

Le saviez-vous ? Il est déjà possible de faire exécuter du code à l’IA, ce qui permet beaucoup de choses intéressantes qui laissent un éventail de possibilités infinies !

Un exemple concret a été dévoilé lors de la conférence d’OpenAI. Lors de cette démonstration, une personne demandait sur un site Internet de voyages dix choses à faire à Paris, avec une carte interactive sur la droite, et qui ensuite, après avoir donné la réponse à l’utilisateur, place les marqueurs de son plein gré sur la carte interactive pour permettre à l’utilisateur d’y voir plus clair, le tout en laissant simplement la possibilité à l’IA d’exécuter certaines parties du code !

C’est de loin l’option des IA permettant le plus de customisation, ce qui est adaptable à n’importe quel de vos scripts en interne !

Whisper pour Entendre 👂

Whisper, le système de reconnaissance vocale d’OpenAI, déploie une nouvelle version plus performante, qui permet aux développeurs de retranscrire avec précision des enregistrements audio dans diverses langues et dialectes.

Grâce à Google Apps Script, il est désormais possible d’intégrer cette technologie directement dans des scripts tels que la transcription d’une vidéo ou d’un audio présent sur le Drive !

Nouveautés IA

Modèle de Text to Speech 🗣️

Le modèle de synthèse vocale (Text To Speech en anglais) transforme les possibilités du développeur en permettant de convertir du texte en paroles naturelles. Imaginez une IA qui lit les notes de chaque Slides pour vous permettre une immersion prenante, avec une voix qui semble presque humaine. Cette technologie ouvre la voie à des applications plus interactives et accessibles !

DALL-E 3 pour la Génération d’Images 🖼️

DALL-E 3 est un modèle de génération d’image qui peut créer des visuels étonnants à partir de descriptions textuelles simples. Les développeurs peuvent l’utiliser pour générer des images personnalisées pour des présentations, des sites Web ou même pour des éléments graphiques au sein d’applications. L’intégration avec Google Apps Script peut simplifier la création de contenu visuel, réduisant le temps et les coûts associés à la conception graphique.

Outil de Vision 👀

Enfin, l’API de vision par OpenAI est un outil puissant pour l’analyse d’images et de vidéos. Elle peut être utilisée pour détecter des objets, des visages, ou même pour analyser des sentiments. Les développeurs peuvent l’intégrer à leurs applications pour automatiser des tâches complexes qui nécessitaient auparavant un traitement manuel intensif.

C’est je penses l’API la plus folle jamais donnée à des développeurs car les champs du possibles sont infinis, l’IA arrive à discerner les petits détails, les blagues dans une image, à générer du code à partir d’une maquette, etc.

Exemple de multimodalité 👀👂🗣️

Le mix de ces outils peut donner un résultat assez impressionnant, comme l’exemple de certaines personnes qui ont réussi, quelques jours après l’annonce de ces nouveautés, à faire commenter une vidéo via l’IA.

Le programme prend une image de la vidéo toutes les vingtaines d’images, décortique ce qu’il a vu, et via le modèle de synthèse vocale, commente la vidéo.

Et ceci toutes les vingtaines d’images, ce qui permet à toujours avoir une voix qui commente la vidéo en cours.

Notre utilisation de l’IA dans les produits

Chez Numericoach, nous avons déjà créé notre propre outil IA autour des technologies d’OpenAI pour qu’il connaisse les informations à propos de notre entreprise et qu’il puisse aider pour les demandes de tous les jours, avec un accès aux documents administratifs de l’entreprise pour avoir une réponse plus précise. 🤖

Conclusion

Les programmes peuvent donc maintenant voir, écouter, parler et générer des images.

Les possibilités sont décuplées, je suis curieux de voir ce que l’avenir nous réserve au niveau des développements.

Il est important d’ailleurs de souligner que, selon les assurances d’OpenAI, les données que nous transmettons via le code ne sont pas utilisées pour l’entraînement de leurs modèles d’intelligence artificielle.

Avec une bonne partie des sens apportés aux applications, imaginez si dans quelques années les programmes avaient accès à l’odeur, je ne vous conseillerais pas de parler à ChatGPT avec l’haleine du matin …

Articles similaires

Articles connexes
Plus de l'auteur

News

Google Bard devient Gemini

Google marque un nouveau tournant décisif en matière d'intelligence artificielle avec le lancement de Gemini, successeur ambitieux de Bard. Cette évolution n'est pas qu'un simple changement de nom. En effet, ...

1 min

Thierry Vanoffe 2 ans

News

Démarrez une conversation avec Gemini dans le panneau latéral de Google Drive à propos de fichiers spécifiques

Depuis le déploiement de Gemini dans le panneau latéral de Google Drive, les utilisateurs peuvent résumer un ou plusieurs documents, obtenir des informations rapides tout en visualisant des PDF, créer des fichiers et ...

1 min

Thierry Vanoffe 4 mois

News

Utilisez NotebookLM pour générer des aperçus audio dans plus de 50 langues

Depuis que NotebookLM a été proposé aux clients de Google Workspace, et plus récemment à Google Workspace for Education, beaucoup ont utilisé la fonctionnalité Aperçus audio. NotebookLM révolutionne l'apprentissage mobile avec ...

1 min

Thierry Vanoffe 4 mois

AppSheet : run a data action (Automation)

Dans les étapes de processus d’automatisations (Automation → Process), il est possible de faire des tas de choses comme nous l’avons vu dans les articles précédents, comme lancer une tâche ...

1(1)

1 min

Théo Reumont 3 ans

Créer une extension Google Workspace grâce à ChatGPT

ChatGPT est un puissant allié lorsqu’il s’agit de nous aider pour des tâches du quotidien ou lorsqu’il faut nous aider sur des sujets que nous ne connaissons pas. Nous allons ...

4 min

Théo Reumont 2 ans

L’utilisation de TypeScript dans Google Apps Script

Nous utilisons énormément Google Apps Script lors de différents projets, qu’il s’agisse de projets en interne ou même de projets clients et pour accomplir cela proprement, il faut avoir un ...

3 min

Théo Reumont 2 ans

Rédacteur

Théo Reumont

Développeur fullstack, je crée des applications avec Google Cloud et intègre l’IA pour repousser les limites de l’innovation. Passionné par les technologies modernes, j’explore sans cesse de nouvelles solutions pour des applications à la pointe.

S’abonner

0 Commentaires

Le plus ancien

Le plus récent Le plus populaire

Commentaires en ligne

Afficher tous les commentaires