Ponen a prueba a SearchGPT y Grok y el resultado dice que (todavía) no te puedes fiar de ellos
Un estudio ha encontrado graves deficiencias en la veracidad de la información aportada por ocho motores de búsqueda impulsados por IA. Algunos, con un porcentaje de error 'grosero'
:format(jpg)/f.elconfidencial.com%2Foriginal%2F6ad%2Fa0e%2Ff2b%2F6ada0ef2bad4e2c4f257b2f2feeb75fb.jpg)
- Retan a ChatGPT y DeepSeek a jugar al ajedrez y lo que pasa cuestiona si podemos confiar en ellas
- El gran misterio detrás de los fallos de ChatGPT y el resto de inteligencias artificiales
Las herramientas de búsqueda con inteligencia artificial prometen revolucionar el acceso a la información, pero un reciente estudio del Tow Center for Digital Journalism ha revelado que todavía sufren graves deficiencias. La investigación ha analizado ocho motores de búsqueda impulsados por IA y ha detectado errores en más del 60% de sus respuestas, con Grok 3 como el modelo con peores resultados.
El informe, publicado por la Columbia Journalism Review, ha evaluado la capacidad de buscadores como ChatGPT Search, Perplexity y Grok 3 para identificar titulares, fuentes originales y enlaces válidos a noticias. Los resultados han evidenciado que estas herramientas no solo cometen errores de manera frecuente, sino que los presentan con gran seguridad, generando confusión.
Errores sistemáticos y citas incorrectas
Los datos reflejan que Grok 3 falló en el 94% de las consultas, mientras que ChatGPT Search tuvo un índice de error del 67%. En el caso de Perplexity, aunque la tasa de fallos fue menor (37%), los errores siguieron siendo significativos. Un problema recurrente en todos los modelos ha sido la generación de enlaces ficticios o la redirección a versiones sindicadas de los artículos en lugar de los sitios originales.
AI Search Has A Citation Problem https://t.co/7JJ5LhJGXe via @cjr
— PRSA (@PR_STV) March 14, 2025
Aunque las versiones premium de estos modelos prometen una mayor precisión, la investigación ha revelado que esto no es necesariamente cierto. Perplexity Pro y la suscripción avanzada de Grok 3, con un coste de 20 y 40 euros al mes respectivamente, han mostrado tasas de error incluso mayores que sus versiones gratuitas. Esto se debe a que, al ofrecer respuestas más profundas, generan con mayor frecuencia información incorrecta para suplir la falta de datos.
Pagar no garantiza mayor precisión
Otro de los hallazgos preocupantes del estudio ha sido la posible violación de las normas de exclusión de rastreo por parte de algunos buscadores de inteligencia artificial. Según apuntan los investigadores en ArsTechnica, Perplexity pudo acceder y citar artículos de National Geographic, a pesar de que este medio bloquea explícitamente el rastreo automatizado.
:format(jpg)/f.elconfidencial.com%2Foriginal%2F988%2F76c%2Fa33%2F98876ca330c6ec35c790db12fa08db26.jpg)
Para los editores de noticias, este fenómeno representa un desafío. Mark Howard, director de operaciones de Time, ha expresado su preocupación sobre la falta de control respecto al uso del contenido en estos sistemas. A pesar de ello, ha reconocido el potencial de mejora de la tecnología y ha señalado que "si alguien cree que estos productos gratuitos son completamente fiables, debería adoptar una postura más crítica".
Tanto OpenAI como Microsoft han respondido al estudio asegurando que trabajan para mejorar la precisión de sus modelos y garantizar una atribución clara de las fuentes. Sin embargo, los datos actuales confirman que los motores de búsqueda con inteligencia artificial aún no pueden sustituir a los buscadores tradicionales, especialmente cuando se trata de información periodística.
- Retan a ChatGPT y DeepSeek a jugar al ajedrez y lo que pasa cuestiona si podemos confiar en ellas
- El gran misterio detrás de los fallos de ChatGPT y el resto de inteligencias artificiales
Las herramientas de búsqueda con inteligencia artificial prometen revolucionar el acceso a la información, pero un reciente estudio del Tow Center for Digital Journalism ha revelado que todavía sufren graves deficiencias. La investigación ha analizado ocho motores de búsqueda impulsados por IA y ha detectado errores en más del 60% de sus respuestas, con Grok 3 como el modelo con peores resultados.