Oladokun, Bolaji David, Rexwhite Tega Enakrire, Adefila Kolawole Emmanuel, Yusuf Ayodeji Ajani, y Adebowale Jeremy Adetayo. “Hallucination in Scientific Writing: Exploring Evidence from ChatGPT Versions 3.5 and 4o in Responses to Selected Questions in Librarianship.” Journal of the Association for Information Science and Technology, publicado en línea el 20 de abril de 2025. https://doi.org/10.1080/19322909.2025.2482093
El uso acelerado de la inteligencia artificial (IA) en la redacción académica, especialmente con herramientas como ChatGPT, ha generado preocupaciones importantes sobre la veracidad y la precisión de los contenidos generados por estas tecnologías. En particular, un fenómeno llamado “alucinación” —que se refiere a la invención o fabricación de información, en este caso, citas bibliográficas falsas o inexistentes— representa un riesgo significativo para la calidad y la confiabilidad de los trabajos científicos.
Este estudio se centra en analizar cómo se manifiesta esta alucinación en dos versiones de ChatGPT, la 3.5 y la 4o, cuando se les plantea preguntas relacionadas con la bibliotecología y ciencias de la información. Para ello, los autores diseñaron un experimento en el que ChatGPT generó contenido científico con citas, las cuales fueron posteriormente verificadas de forma sistemática a través de Google Scholar y los sitios web oficiales de las editoriales.
Los resultados fueron preocupantes: ambas versiones de ChatGPT presentaron un alto porcentaje de citas falsas o no existentes. En concreto, la versión 3.5 fabricó un 42,9% de citas inexistentes, mientras que la versión 4o aumentó este porcentaje hasta el 51,8%. Aunque hubo una ligera mejora en la precisión de las citas reales, con tasas de acierto del 3,92% en la versión 3.5 y del 6,35% en la versión 4o, estas cifras son muy bajas y evidencian limitaciones graves en ambos modelos.
Las diferencias entre las versiones también fueron notables en el tipo de errores cometidos: ChatGPT 3.5 tendía a inventar fuentes completamente ficticias, mientras que ChatGPT 4o generaba errores más sutiles, como citar artículos reales pero atribuyéndolos a revistas incorrectas o mezclando detalles bibliográficos. Esto implica que, aunque la versión más avanzada pueda parecer más sofisticada, los riesgos de información errónea persisten y pueden pasar desapercibidos con mayor facilidad.
Finalmente, el estudio concluye que no existe una diferencia estadísticamente significativa en la precisión entre las dos versiones evaluadas, lo que subraya la importancia de no confiar ciegamente en las citas generadas por IA en la redacción científica. Los autores llaman a una verificación rigurosa y crítica de todo contenido bibliográfico producido por inteligencia artificial, con el fin de preservar la integridad y la credibilidad de la investigación académica.
No hay comentarios:
Publicar un comentario