La nueva IA podrá hacer videollamadas falsas indistinguibles de la realidad
Los 'deepfakes' alcanzaron en 2025 un realismo indistinguible de la realidad para el público general. Con un crecimiento del 900% anual, la nueva amenaza es la síntesis en tiempo real
(Imagen generada por IA por Siwei Lyu utilizando Google Gemini 3)
A lo largo de 2025, los deepfakes mejoraron de manera espectacular. Los rostros, voces y actuaciones de cuerpo completo generados por IA que imitan a personas reales aumentaron en calidad mucho más allá de lo que incluso numerosos expertos esperaban que ocurriese hace apenas unos años. También se utilizaron cada vez más para engañar a la gente.
En muchos escenarios cotidianos —especialmente en videollamadas de baja resolución y contenidos compartidos en plataformas de redes sociales— su realismo es ahora lo suficientemente elevado como para engañar de manera fiable a espectadores no expertos. En términos prácticos, los medios sintéticos se han vuelto indistinguibles de las grabaciones auténticas para las personas corrientes y, en algunos casos, incluso para las instituciones.
Y este aumento no se limita a la calidad. El volumen de deepfakes ha crecido de forma explosiva: la empresa de ciberseguridad DeepStrike estima un incremento de aproximadamente 500.000 deepfakesen internet en 2023 a unos 8 millones en 2025, con un crecimiento anual cercano al 900%.
Soy informático e investigo los ultrafalsos y otros medios sintéticos. Desde mi perspectiva, veo que la situación probablemente empeorará en 2026, cuando los deepfakes se conviertan en intérpretes sintéticos capaces de reaccionar ante las personas en tiempo real.
Mejoras espectaculares
Varios cambios técnicos son los responsables de esta escalada tan drástica. En primer lugar, el realismo de vídeo dio un salto significativo gracias a los modelos de generación de vídeo diseñados específicamente para mantener la coherencia temporal. Estos modelos producen vídeos con movimiento coherente, identidades consistentes de las personas representadas y contenido que tiene sentido de un fotograma al siguiente. Los modelos separan la información relacionada con la representación de la identidad de una persona de la información sobre el movimiento, de modo que el mismo movimiento puede proyectarse sobre identidades diferentes, o la misma identidad puede tener múltiples tipos de movimientos.
Estos modelos producen rostros estables y coherentes sin el parpadeo, la deformación o las distorsiones estructurales alrededor de los ojos y la mandíbula que antes servían como prueba forense fiable de los deepfakes.
En segundo lugar, la clonación de voz ha cruzado lo que yo llamaría el umbral de indistinguibilidad. Ahora bastan unos pocos segundos de audio para generar un clon convincente, con entonación natural, ritmo, énfasis, emoción, pausas y ruido de respiración. Esta capacidad ya está alimentando el fraude a gran escala. Algunos grandes comercios minoristas informan de recibirmás de 1.000 llamadas fraudulentas generadas por IA al día. Los indicios que antes delataban las voces sintéticas han desaparecido en gran medida.
En tercer lugar, las herramientas para el consumidor han reducido la barrera técnica casi a cero. Las actualizaciones de Sora 2 de OpenAI y Veo 3 de Google, junto con una oleada de empresas emergentes, significan que cualquiera puede describir una idea, dejar que un modelo de lenguaje extenso como ChatGPT de OpenAI o Gemini de Google redacte un guion y generar medios audiovisuales pulidos en minutos. Los agentes de IA pueden automatizar todo el proceso. La capacidad de generar deepfakescoherentes e impulsados por una narrativa a gran escala se ha democratizado de facto.
Esta combinación de cantidad creciente y personajes casi indistinguibles de los humanos reales crea serios problemas para detectar deepfakes, especialmente en un entorno mediático donde la atención de las personas está fragmentada y el contenido se mueve más rápido de lo que puede verificarse. Ya ha habido daños en el mundo real —desde desinformación hasta acoso dirigido y estafas financieras— facilitados por deepfakes que se propagan antes de que la gente tenga la oportunidad de darse cuenta de lo que está sucediendo.
El futuro está en tiempo real
De cara al futuro, la trayectoria para el próximo año es clara: los deepfakes avanzan hacia la síntesis en tiempo real que puede producir vídeos que se asemejan estrechamente a los matices de la apariencia de un ser humano, lo que facilita que eludan los sistemas de detección. La frontera se está desplazando del realismo visual estático a la coherencia temporal y conductual: modelos que generan contenido en directo o casi en directo en lugar de fragmentos pregrabados.
El modelado de identidad está desembocando en sistemas unificados que capturan no solo el aspecto de una persona, sino cómo se mueve, suena y habla en diferentes contextos. El resultado va más allá de "esto se parece a la persona X" para llegar a "esto se comporta como la persona X a lo largo del tiempo". Espero que participantes de videollamadas sean sintetizados en tiempo real; actores interactivos impulsados por IA cuyos rostros, voces y gestos se adapten instantáneamente a una instrucción; y estafadores desplegando avatares reactivos en lugar de vídeos fijos.
A medida que estas capacidades maduren, la brecha perceptiva entre los medios humanos sintéticos y auténticos seguirá reduciéndose. La línea de defensa se alejará del juicio humano y dependerá de protecciones a nivel de infraestructura. Estas incluyen procedencia segura, como medios firmados criptográficamente, y herramientas de contenido de IA que utilicen las especificaciones de la Coalición para la Procedencia y Autenticidad del Contenido. También dependerá de herramientas forenses multimodales como el Deepfake-o-Meter de mi laboratorio.
Examinar los píxeles con más atención ya no será suficiente.
A lo largo de 2025, los deepfakes mejoraron de manera espectacular. Los rostros, voces y actuaciones de cuerpo completo generados por IA que imitan a personas reales aumentaron en calidad mucho más allá de lo que incluso numerosos expertos esperaban que ocurriese hace apenas unos años. También se utilizaron cada vez más para engañar a la gente.