Recientemente, probé el nuevo modelo 3.5 Sonnet de Claude, que es el modelo de IA más potente de Anthropic hasta el momento y que, según la empresa, puede superar a rivales como ChatGPT de OpenAI. Se trata de una afirmación audaz, que Anthropic respalda con algunos puntos de referencia bastante impresionantes.
El nuevo modelo también posee capacidades de visión, lo que le permite proporcionarle imágenes y documentos y extraer información de ellos. Y puede comprender mejor las emociones como el humor y a la vez ser mucho más rápido. Todos estos elementos hacen de Claude 3.5 un gran competidor del nuevo ChatGPT con GPT-40, que también es un modelo de IA multimodal.
Al igual que Sonnet, ChatGPT-40 puede utilizar entradas basadas en visión además de las basadas en texto para proporcionar respuestas. Es igualmente bueno en la resolución de problemas y posee capacidades de conversación similares. Dado que ambos nuevos modelos son tan similares entre sí en términos de capacidad y rendimiento, la pregunta que está en la mente de todos es: ¿cuál de los dos es mejor? Para responder a eso, decidí comparar ambos modelos en detalle.
Extraer información de documentos
Las herramientas de inteligencia artificial se utilizan a menudo para extraer información de documentos como archivos PDF y luego resumirla; por lo tanto, decidí comprobar primero cuál de los dos modelos podría hacer esto de manera más eficaz. Para ello, preparé un documento en PDF sobre cuadrados para techos que había escrito hace algún tiempo y lo subí a ChatGPT y Claude.
Luego les di la instrucción: summarize this document and provide me with the most important points discussed in it.
Esto es lo que descubrí. El nuevo modelo de Claude era mucho más rápido que ChatGPT y comenzó a generar su respuesta inmediatamente después de que envié mi solicitud. También siguió la instrucción más de cerca, enumerando los puntos importantes en una lista numerada. Si tienes poco tiempo y solo quieres echar un vistazo a lo que contiene un documento, esto es lo que necesitas.
Sin embargo, a pesar de ser más lento que Claude, preferí la respuesta de ChatGPT en este caso. No solo enumeraba los puntos más importantes del documento, sino que también los dividía en diferentes secciones, como Definición e Importancia, Cálculo, etc.
Si necesita encontrar información específica sobre un aspecto determinado del tema tratado en un documento, la forma de hacerlo de ChatGPT parece ser más útil. No es necesario que revise todos los puntos y puede simplemente consultar la sección necesaria. La información se proporciona de una manera que es más fácil de leer y digerir.
Prueba de capacidades de visión
Dado que una de las características más destacadas de Claude 3.5 y ChatGPT-40 es su capacidad de utilizar entradas visuales y proporcionar información en función de ellas, decidí probarlo a continuación pidiéndoles que siguieran instrucciones escritas a mano después de transcribirlas. Pedí a los modelos de IA que escribieran un poema breve similar a «La hormiga y el grillo» de Esopo.
Si bien no lo especifiqué por escrito, quería que el resultado estuviera inspirado en el poema pero con personajes diferentes. Claude primero me pidió que confirmara mi solicitud escrita a mano y luego procedió con ella. El resultado fue bastante bueno, muy parecido al poema original, pero con los mismos personajes. El chatbot de IA también me preguntó si quería un enfoque diferente o alguna modificación al poema después de que terminó de escribirlo.
ChatGPT no me pidió que confirmara mi pedido, sino que inmediatamente procedió a completarlo. El poema que escribió también fue muy impresionante, y reemplazó la hormiga y el grillo de la creación original por una abeja y una mariposa, algo que Claude no hizo. También encontré que la versión de ChatGPT era más poética.
En la transcripción, hay una ligera diferencia en los resultados, pero ambos pueden descifrar y comprender muy bien textos escritos a mano e impresos, incluso si las imágenes no son muy claras. Estas potentes capacidades de visión también significan que puede utilizar estas herramientas para extraer información de gráficos y diagramas, lo que las hace adecuadas para tareas matemáticas.
Descripción de imágenes: Como ambos modelos también pueden extraer información de las imágenes, tuve que probarlo también. Le di a Claude y a ChatGPT una imagen de una isla tropical y les pedí que la describieran. Como puedes ver, Claude proporciona una descripción vívida de la imagen, describiendo cada elemento en primer plano y en segundo plano con mucha claridad, incluso aquellos que yo mismo no noté.
La elección de frases y palabras de Claude para describir la imagen también fue más impactante y le hizo justicia. Hace un buen trabajo al describir los colores, la iluminación y transmitir la sensación general de serenidad y tranquilidad que genera la imagen.
Los resultados fueron más complicados en el caso de ChatGPT, que puede describir imágenes, aunque no tan bien como el de Claude. El modelo de OpenAI tiende a cometer errores, añadiendo elementos que no están presentes, lo que demuestra que aún puede alucinar. Además, originalmente, intentaba describir la imagen basándose en su título en lugar de en lo que mostraba, y finalmente lo logró después de varios intentos.
Aun así, la descripción que obtuve no se comparaba con la respuesta de Claude. Esto fue bastante sorprendente, ya que las capacidades de visión de GPT-40 fueron uno de los aspectos más destacados que OpenAI mostró en el lanzamiento.
Generación y edición de contenidos
A continuación, intenté ver qué modelo se desempeñaba mejor en la generación de contenido. Para tener una idea clara de cómo funcionan, decidí generar contenido que requiere hechos y datos reales, así como contenido ficticio que dependería de la creatividad del modelo de IA.
Primero, le pedí a Claude y a ChatGPT que me proporcionaran un artículo detallado sobre diferentes máscaras de Android, ya que es algo que muchas personas quieren conocer, pero es un tema muy subjetivo, ya que cada individuo tiene su propia máscara favorita. Utilicé la indicación Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Dado el tiempo que pasamos con nuestros teléfonos inteligentes, quería averiguar qué tan precisos eran los modelos y cuánta información podían proporcionar sobre cada máscara.
Como de costumbre, Claude fue más rápido en proporcionar una respuesta. Proporcionó una descripción general que explica qué son las máscaras de Android, lo cual es bueno, pero luego simplemente procedió a enumerar las diferentes máscaras con las características que ofrecen en una lista con viñetas. Tenga en cuenta que el modelo proporcionó este resultado a pesar de que mencioné específicamente un «artículo detallado» en mi mensaje.
En cambio, ChatGPT creó un título más impactante para el artículo e incluyó una breve introducción. A continuación, explicó cada skin en su propia sección, dividiendo cada una en una descripción general, características principales, ventajas y desventajas.
Esto no solo proporciona información más completa, sino que también te permite saber exactamente cómo se comparan las diferentes máscaras entre sí. Finalmente, el artículo finaliza con una conclusión adecuada. Si bien la cantidad de máscaras que mencionó ChatGPT fue menor que las enumeradas por Claude, aquí la calidad importa más que la cantidad.
Si bien ChatGPT funcionó mejor que Claude en este caso, este último también puede generar buen contenido, como descubrí en mis pruebas anteriores. Puede depender del tema o de la forma en que expreses tu mensaje. Es por eso que les di a ambos modelos otro mensaje, esta vez usando el mensaje. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
También me brindó la oportunidad de ver qué tan bien los modelos entienden y pueden transmitir el humor.
Esta vez, los resultados fueron muy parecidos, y ambos modelos crearon historias realmente hilarantes. Ambas historias tenían elementos comunes, como la ironía y la comedia física. En la ficción, la preferencia personal es un factor poderoso y, en general, me pareció que el trabajo de Claude era ligeramente mejor, especialmente por la forma en que jugaba con las palabras para generar humor.
Pero como mencioné antes, la historia de ChatGPT también fue divertida de leer y fue un poco más larga que la de Claude. Su final también fue más agradable. Por lo tanto, tanto Claude como ChatGPT pudieron generar un buen contenido ficticio al mismo tiempo que incluían elementos humorísticos según mi indicación.
Edición de contenido: generar contenido es solo una parte del proceso. Para descubrir realmente lo que puede hacer un modelo de IA en lo que respecta al contenido, también es necesario probar sus capacidades de edición de contenido, que es lo que procedí a hacer. Para este propósito, proporcioné un texto sobre comercio social a Claude y ChatGPT y les di la instrucción:Can you expand this article while also proofreading and improving it?
Para mejorar el artículo, Claude comenzó con una introducción, luego escribió sobre la evolución del comercio social y, por último, continuó con otras secciones, ampliando cada una según le pareció conveniente. El modelo también utilizó listas numeradas y viñetas donde lo consideró necesario para mejorar la legibilidad.
La respuesta de ChatGPT fue similar a las anteriores, en las que dividía el contenido en varias secciones con diferentes subtítulos. No utilizaba ninguna lista, sino que mantenía la información en forma de párrafos. En cuanto a los cambios y mejoras, noté que Claude hizo cambios más drásticos en el artículo que ChatGPT, pero el resultado final también fue mucho mejor. En definitiva, encontré que las capacidades de edición de Sonnet eran más potentes y se adaptaban mucho mejor a mi flujo de trabajo.
Capacidad de codificación
Ninguna comparación de modelos de IA está completa sin incluir sus habilidades de codificación. Si bien Claude se desarrolló especialmente para ayudar a los programadores a escribir mejor código de manera rápida y sencilla, el nuevo ChatGPT con tecnología GPT-40 tampoco es algo que se deba despreciar cuando se trata de codificación.
Para probar su capacidad de generación de código, les pedí a Claude y a ChatGPT que, Generate code for a simple game that can help beginners learn programming.
si bien ambos escribieron el código en Python, Claude completó la generación del código más rápido, como se esperaba. Mostró el código completo en el lado derecho de la pantalla mientras explicaba elementos como Funciones y Variables en el lado izquierdo.
Lo que más me gustó de la respuesta de Claude es que también incluía un botón que te permite ir al código al instante, para que puedas consultarlo fácilmente. Además, el chatbot me informó de los requisitos necesarios para ejecutar el código, junto con las instrucciones. En cuanto al código en sí, fue bastante fácil de entender y también funcionó perfectamente bien cuando lo probé.
En cuanto a la respuesta de ChatGPT, también fue capaz de generar un código simple pero funcional, como lo había solicitado. Debajo del código, el chatbot proporcionó los pasos necesarios para ejecutar el juego, así como los conceptos que cubre el código, lo que facilita la comprensión para los principiantes. En general, los resultados fueron bastante similares para ambos modelos en este caso, aunque Claude explicó más elementos y tenía una opción mediante la cual se le podía pedir que explicara cualquier parte del código en detalle.
Habilidades matemáticas
Por último, les di a Claude y a ChatGPT una pregunta de matemáticas para que la resolvieran, para ver qué tan bien lo hacían y cuál era más rápido. La pregunta involucraba ecuaciones algebraicas, pero no era particularmente desafiante. Ambos modelos comenzaron explicando qué hacer en el primer paso, aunque su enfoque era diferente. Claude procedió a expandir la ecuación y finalmente me dijo que para resolver el problema por completo era necesario usar una calculadora gráfica o un sistema de álgebra computacional.
Dicho esto, sí que se indicaba el número de posibles soluciones al problema. En cambio, ChatGPT resolvió el problema en su totalidad y me dio todas las posibles soluciones. Esto indica que, en lo que respecta a las capacidades matemáticas, ChatGPT-4o está por delante de Sonnet.
Veredicto final – Claude Sonnet 3.5 o ChatGPT-4o: ¿Quién ganó?
Elegir entre Claude 3.5 y ChatGPT-4o no es fácil, pero en definitiva, solo uno puede ser el ganador y, para mí, ese tiene que ser el nuevo modelo Sonnet. No solo es significativamente más rápido que ChatGPT, sino que también proporciona respuestas más precisas. Me gustó especialmente lo bien que podía describir imágenes y realizar acciones relacionadas con ellas.
Claude tampoco alucinó ni una sola vez durante el tiempo que lo usé, lo que es otro punto a su favor, y sus respuestas en general se aproximaron más a mis instrucciones. Aunque no funcionó como esperaba en una ocasión en la que quería contenido detallado, usarlo para obtener la información que quería fue en general más fácil y requirió menos esfuerzo.
Al probar Claude 3.5 Sonnet y ChatGPT-40, descubrí que ambos son modelos de IA excepcionalmente buenos y que tienen un rendimiento muy similar. Si bien Sonnet realiza mejor algunas tareas, ChatGPT ofrece mejores resultados en otras. Debe comprender que determinar cuál es mejor dependerá de su caso de uso individual.
Además, ambos modelos gratuitos tienen limitaciones en cuanto a lo que pueden hacer. Por lo tanto, si quieres usar cualquiera de los dos modelos de IA de forma habitual, te recomiendo que adquieras una suscripción paga para obtener los mejores resultados.
Deja una respuesta