Tenía un gran problema con la transcripción de audio, Gemini lo resolvió y ChatGPT no
Y todo empezó con la aplicación Notas del iPhone
Ya sabes lo que dicen: "¡No es una competencia!". Bueno, no dejes que te mientan; todo es una competencia, especialmente cuando se trata de IA. Rara vez pasa un día sin que pruebe las capacidades de IA de varios chatbots, y casi siempre me sorprenden los resultados. Algunas plataformas son realmente mejores que otras, al menos para algunas tareas.
Este viaje comenzó con Notas en mi iPhone 17 Pro Max. Por lo general, me gusta grabar entrevistas en un teléfono inteligente Android como el Google Pixel 10 Pro Fold, donde la fantástica aplicación Recorder captura de manera experta cada expresión y, en la transcripción, hace un trabajo hábil al separar y etiquetar a cada interlocutor.
Sin embargo, llegué a esta entrevista solo con mi iPhone. Sé que dentro de Notas, una aplicación que utilizo obsesivamente en mi iPhone y mi computadora de escritorio (tengo casi 2500 notas), hay funciones de grabación de audio ocultas bajo el icono de adjuntar (un clip).
Notas hace un buen trabajo grabando audio, y encontré mi grabación de 20 minutos perfectamente capturada en una nota. Se incluía lo que parecía ser una transcripción útil. Un rápido escaneo confirmó su precisión, pero había un gran problema: no etiquetaba a los interlocutores; todo se mezclaba en un largo soliloquio. Esto dificultaría el escaneo y la selección de las citas de mi entrevistado entre mis propias preguntas y observaciones.
Me resigné a volver a escuchar la grabación, durante lo cual añadí mis propias etiquetas... hasta que se me ocurrió otra idea: ¿y si Gemini pudiera ayudar?
Gemini 3 Pro se pone los guantes
En los últimos meses, me han impresionado las capacidades de Google Gemini, especialmente los últimos modelos 3 Pro, y cómo parece manejar casi cualquier solicitud con aplomo.
Ahora que tenía la idea, tenía que averiguar cómo hacer que Gemini escuchara la grabación. Reproducir el audio en los altavoces de mi iPhone y pedirle a Gemini que lo escuchara no era una opción, porque me preocupaba la calidad con la que, por ejemplo, los micrófonos de mi computadora de escritorio podrían captar el sonido que salía de los altavoces del iPhone. Además, estaba en la oficina y no quería que la gente escuchara la conversación privada (hasta que publicara la historia).
Regístrese para recibir noticias de última hora, reseñas, opiniones, ofertas de alta tecnología y más.
En primer lugar, descubrí que se podía descargar el archivo de audio desde Notas. En la reproducción, debajo de los tres puntos, hay un botón Compartir que me permite enviar el archivo de audio por Airdrop a mi MacBook Pro de 14 pulgadas. Se descarga como un archivo MPEG-4 (M4A).
De vuelta en Gemini 3 Pro, seleccioné el signo «+» en el campo de solicitud, elegí el archivo de audio M4A y añadí esta breve indicación: "Escucha esto, transcríbelo y asegúrate de identificar a los diferentes interlocutores".
No hubo idas y venidas. Germini 3 Pro rápidamente comenzó a generar la transcripción completa con los interlocutores identificados como "Entrevistador" y el nombre y cargo de mi entrevistado. Cabe señalar aquí que esto es lo único en lo que Gemini 3 Pro se equivocó por completo de forma inexplicable. Aunque mi entrevistado deletreó su nombre al final de la conversación, Gemini eligió otro diferente. Sin embargo, aparte de eso, Gemini identificó perfectamente cuándo hablaba yo o mi entrevistado. Y la precisión fue realmente impresionante.
En aras de la exhaustividad, le pedí a Gemini 3 Pro que corrigiera la identificación de mi entrevistado y me incluyera como «entrevistador». Una vez corregido, utilicé con satisfacción la transcripción para ayudar a desarrollar mi historia completa.
En esta esquina, ChatGPT
Naturalmente, sentí curiosidad por saber si ChatGPT 5.1 (con una cuenta Plus) podría realizar la misma tarea.
En la ventana de ChatGPT, seleccioné el archivo de audio e introduje exactamente la misma orden. ChatGPT me respondió: "Por supuesto que puedo transcribir audio, pero no puedo acceder ni reproducir el archivo .m4a directamente desde la ubicación que has indicado".
Lo que siguió fue un extenso intercambio en el que ChatGPT me sugirió diferentes formas de cargar el archivo, incluyendo transformarlo en un archivo zip. Hiciera lo que hiciera, ChatGPT mostraba el archivo de audio en la ventana de solicitud, pero no podía escucharlo.
En esta pequeña competición, parece que Gemini 3 Pro es el vencedor, convirtiendo un problema frustrante en una victoria fácil. Cuanto menos se diga sobre lo inútil que es la transcripción de Notas de Apple, mejor.
Sigue a TechRadar en Google News y añádenos como fuente preferida para recibir nuestras noticias, reseñas y opiniones de expertos en tus feeds. ¡Asegúrate de hacer clic en el botón "Seguir"!
Y, por supuesto, también puedes seguir a TechRadar en TikTok para recibir noticias, reseñas y unboxings en formato de vídeo, así como actualizaciones periódicas a través de WhatsApp.

A 38-year industry veteran and award-winning journalist, Lance has covered technology since PCs were the size of suitcases and “on line” meant “waiting.” He’s a former Lifewire Editor-in-Chief, Mashable Editor-in-Chief, and, before that, Editor in Chief of PCMag.com and Senior Vice President of Content for Ziff Davis, Inc. He also wrote a popular, weekly tech column for Medium called The Upgrade.
Lance Ulanoff makes frequent appearances on national, international, and local news programs including Live with Kelly and Mark, the Today Show, Good Morning America, CNBC, CNN, and the BBC.
- Antonio QuijanoEditor