Ya sabes lo que dicen: "¡No es una competencia!". Bueno, no dejes que te mientan; todo es una competencia, especialmente cuando se trata de IA. Rara vez pasa un día sin que pruebe las capacidades de IA de varios chatbots, y casi siempre me sorprenden los resultados. Algunas plataformas son realmente mejores que otras, al menos para algunas tareas.

Este viaje comenzó con Notas en mi iPhone 17 Pro Max. Por lo general, me gusta grabar entrevistas en un teléfono inteligente Android como el Google Pixel 10 Pro Fold, donde la fantástica aplicación Recorder captura de manera experta cada expresión y, en la transcripción, hace un trabajo hábil al separar y etiquetar a cada interlocutor.

Sin embargo, llegué a esta entrevista solo con mi iPhone. Sé que dentro de Notas, una aplicación que utilizo obsesivamente en mi iPhone y mi computadora de escritorio (tengo casi 2500 notas), hay funciones de grabación de audio ocultas bajo el icono de adjuntar (un clip).

Notas hace un buen trabajo grabando audio, y encontré mi grabación de 20 minutos perfectamente capturada en una nota. Se incluía lo que parecía ser una transcripción útil. Un rápido escaneo confirmó su precisión, pero había un gran problema: no etiquetaba a los interlocutores; todo se mezclaba en un largo soliloquio. Esto dificultaría el escaneo y la selección de las citas de mi entrevistado entre mis propias preguntas y observaciones.

Me resigné a volver a escuchar la grabación, durante lo cual añadí mis propias etiquetas... hasta que se me ocurrió otra idea: ¿y si Gemini pudiera ayudar?

Gemini 3 Pro se pone los guantes

En los últimos meses, me han impresionado las capacidades de Google Gemini, especialmente los últimos modelos 3 Pro, y cómo parece manejar casi cualquier solicitud con aplomo.

Ahora que tenía la idea, tenía que averiguar cómo hacer que Gemini escuchara la grabación. Reproducir el audio en los altavoces de mi iPhone y pedirle a Gemini que lo escuchara no era una opción, porque me preocupaba la calidad con la que, por ejemplo, los micrófonos de mi computadora de escritorio podrían captar el sonido que salía de los altavoces del iPhone. Además, estaba en la oficina y no quería que la gente escuchara la conversación privada (hasta que publicara la historia).

En primer lugar, descubrí que se podía descargar el archivo de audio desde Notas. En la reproducción, debajo de los tres puntos, hay un botón Compartir que me permite enviar el archivo de audio por Airdrop a mi MacBook Pro de 14 pulgadas. Se descarga como un archivo MPEG-4 (M4A).

De vuelta en Gemini 3 Pro, seleccioné el signo «+» en el campo de solicitud, elegí el archivo de audio M4A y añadí esta breve indicación: "Escucha esto, transcríbelo y asegúrate de identificar a los diferentes interlocutores".

No hubo idas y venidas. Germini 3 Pro rápidamente comenzó a generar la transcripción completa con los interlocutores identificados como "Entrevistador" y el nombre y cargo de mi entrevistado. Cabe señalar aquí que esto es lo único en lo que Gemini 3 Pro se equivocó por completo de forma inexplicable. Aunque mi entrevistado deletreó su nombre al final de la conversación, Gemini eligió otro diferente. Sin embargo, aparte de eso, Gemini identificó perfectamente cuándo hablaba yo o mi entrevistado. Y la precisión fue realmente impresionante.

En aras de la exhaustividad, le pedí a Gemini 3 Pro que corrigiera la identificación de mi entrevistado y me incluyera como «entrevistador». Una vez corregido, utilicé con satisfacción la transcripción para ayudar a desarrollar mi historia completa.

En esta esquina, ChatGPT

Naturalmente, sentí curiosidad por saber si ChatGPT 5.1 (con una cuenta Plus) podría realizar la misma tarea.

En la ventana de ChatGPT, seleccioné el archivo de audio e introduje exactamente la misma orden. ChatGPT me respondió: "Por supuesto que puedo transcribir audio, pero no puedo acceder ni reproducir el archivo .m4a directamente desde la ubicación que has indicado".

Lo que siguió fue un extenso intercambio en el que ChatGPT me sugirió diferentes formas de cargar el archivo, incluyendo transformarlo en un archivo zip. Hiciera lo que hiciera, ChatGPT mostraba el archivo de audio en la ventana de solicitud, pero no podía escucharlo.

En esta pequeña competición, parece que Gemini 3 Pro es el vencedor, convirtiendo un problema frustrante en una victoria fácil. Cuanto menos se diga sobre lo inútil que es la transcripción de Notas de Apple, mejor.

