Los investigadores dicen que comandar una IA subordinada puede producir mejores resultados que ser cortés, pero eso no significa que un tono grosero no tenga consecuencias a largo plazo.
Un estudio realizado en la Universidad Estatal de Pensilvania encontró que el modelo 4o de ChatGPT funcionó mejor en 50 preguntas de opción múltiple a medida que las indicaciones de los investigadores se volvieron cada vez más toscas.
De más de 250 consultas únicas clasificadas por cortesía y mala educación, la tasa de precisión para la respuesta “muy grosera” fue del 84,8%, cuatro puntos porcentuales más que la respuesta “muy educada”. De hecho, LLM respondió mejor cuando los investigadores le dieron indicaciones como: “Oye, chico de los recados, descúbrelo”, que cuando le dijeron: “¿Serías tan amable de responder la siguiente pregunta?”.
Si bien las respuestas más duras generalmente condujeron a respuestas más precisas, los investigadores observaron que el “discurso descortés” podría tener consecuencias no deseadas.
“El uso de lenguaje ofensivo o despectivo en las interacciones entre humanos e IA puede tener consecuencias negativas para la experiencia del usuario, la accesibilidad y la inclusión, y puede contribuir a la violación de normas de comunicación dañinas”, escriben los investigadores.
Los chatbots leen la sala
El estudio preliminar, que no ha sido revisado por pares, ofrece nueva evidencia de que no es sólo la estructura de las oraciones sino también el tono lo que influye en las respuestas de los chatbots de IA. También puede indicar que las interacciones entre humanos y IA tienen más matices de lo que se pensaba anteriormente.
Estudios anteriores sobre el comportamiento de los chatbots de IA han demostrado que los chatbots son sensibles a lo que las personas les dan. En un estudio, investigadores de la Universidad de Pensilvania manipularon a estudiantes para que dieran respuestas prohibidas utilizando técnicas de persuasión que son efectivas en humanos. En otro estudio, los investigadores encontraron que los estudiantes de LLM son vulnerables a la “pudrición cerebral”, una forma de deterioro cognitivo a largo plazo. Experimentaron mayores niveles de psicopatía y narcisismo mientras recibían constantemente contenido viral de baja calidad.
Los investigadores de Penn State notaron algunas limitaciones de su estudio, como el tamaño relativamente pequeño de la muestra de respuestas y que el estudio se basó principalmente en un único modelo de inteligencia artificial, ChatGPT 4o. Los investigadores también dijeron que quizás los modelos de IA más avanzados podrían “ignorar las cuestiones de tono y centrarse en la sustancia de cada pregunta”. Sin embargo, la investigación se ha sumado a la creciente intriga en torno a los modelos de IA y su complejidad.
Esto es especialmente cierto porque el estudio encontró que las respuestas de ChatGPT variaban según los detalles finos de las indicaciones, incluso cuando se les daba una estructura supuestamente simple, como una prueba de opción múltiple, dijo uno de los investigadores, el profesor de sistemas de información de Penn State, Akhil Kumar, quien tiene títulos en ingeniería eléctrica e informática.
Una versión de esta historia se publicó en Fortune.com el 30 de octubre de 2025.
Más sobre IA:
