4 points par denimcoder 2025-12-02 | 3 commentaires | Partager sur WhatsApp

Bonjour.
Je suis un développeur qui espère que la technologie IA deviendra un outil chaleureux apportant des changements positifs dans le quotidien des gens.

Convaincu que l’accumulation de petits souvenirs et de réflexions quotidiennes peut transformer la vie,
j’ai développé « Haru Ongi », une application de journal de gratitude que tout le monde peut utiliser facilement et régulièrement.

Il existe déjà de nombreuses excellentes applications de journal IA sur le marché, mais j’ai eu le sentiment qu’il y avait des limites au simple fait d’être réconforté uniquement par du texte.

J’avais besoin d’une « voix » qui donne l’impression qu’un véritable ami parle à vos côtés.

Pour cela, j’ai utilisé le dernier modèle Gemini afin de mettre en place un retour audio naturel.

[Présentation du service]

Haru Ongi est une application dans laquelle, lorsque vous écrivez un journal de gratitude, le personnage IA que vous avez choisi vous envoie immédiatement une réponse vocale empreinte d’empathie et d’encouragement.

[Fonctionnalités principales]

  1. Réponse vocale d’un ami IA :
    Dès que le journal est rédigé, son contenu est analysé et un retour vocal est généré.

  2. 3 amis IA aux personnalités distinctes :

    • L’amie lumineuse et chaleureuse « Seona » : quand vous avez besoin d’énergie positive

    • Le mentor calme et bienveillant « Hyunjun » : quand vous avez besoin de conseils pour progresser

    • Toujours de votre côté, la réconfortante « grand-mère Sunja » : quand vous avez besoin de chaleur, de réconfort et d’empathie

  3. Confidentialité des données :

    • Le contenu des journaux rédigés par les utilisateurs est conservé en toute sécurité avec un chiffrement AES256.

[Stack technique & expérience de développement]

  • AI Model: Google Gemini 2.5 Flash Native Audio Preview

    • Par rapport à une approche consistant à générer du texte puis à y ajouter du TTS, le modèle Native Audio était bien plus naturel en matière d’intonation et de respiration (Pause).
    • Il a été particulièrement efficace pour reproduire la manière de parler chaleureuse et posée du personnage de « Sunja (grand-mère) ».
    • En ajustant les prompts, j’ai pu obtenir la voix souhaitée pour chaque personnage en réglant sa persona, la vitesse de parole, la respiration, le ton et l’expression émotionnelle.
    • J’ai également étudié l’API GPT Realtime d’OpenAI, mais en tenant compte de la rentabilité ($20.00 per 1M tokens), j’ai finalement tout intégré avec Gemini.
  • Cost Optimization:

    • Comme le coût des tokens de sortie audio est bien plus élevé que celui du texte ($12.00 per 1M tokens), un processus d’optimisation a été nécessaire pour contrôler la longueur des réponses via le prompt système.
  • UI Workflow: Figma Dev Mode a permis d’améliorer l’efficacité du développement.

    • En fournissant également à l’IA les maquettes de design et les informations sur les assets de Figma comme contexte (Context), l’implémentation de l’UI est devenue beaucoup plus fluide.
  • Backend: Supabase (DB, Auth), Railway (Fastify), Cloudflare R2 (File Storage)

  • Frontend: React Native (Expo), TypeScript

  • Dev Tools: Claude Code (Main), Cursor (Sub)

[Conclusion]
Si aujourd’hui vous vous sentez fatigué émotionnellement, n’hésitez pas à venir essayer.
Actuellement, l’application est disponible uniquement sur Android.
Merci.

3 commentaires

 
denimcoder 2025-12-21

Également disponible sur l’App Store !

https://smplu.link/F8JwF

 
mssmss 2025-12-02

J’ai créé un service similaire pour mon usage personnel, alors ça me donne envie de vous soutenir ! J’espère que ce sera un excellent produit. Je devrais essayer de le redévelopper en passant à Native Audio.

 
denimcoder 2025-12-03

Merci pour vos encouragements haha. Les voix du modèle Native Audio sont assez naturelles, donc je pense que vous aurez une bonne expérience si vous l’essayez.