¿GPT-4 nos acercará a una verdadera revolución de la IA?

Han pasado casi tres años desde que se presentó GPT-3, en mayo de 2020. Desde entonces, el modelo de generación de texto de IA ha despertado mucho interés por su capacidad para crear texto que se ve y suena como si hubiera sido escrito por un humano. Ahora parece que la próxima iteración del software, GPT-4, está a la vuelta de la esquina, con una fecha de lanzamiento estimada para principios de 2023.

A pesar de la naturaleza muy esperada de esta noticia de IA, los detalles exactos sobre GPT-4 han sido bastante incompletos. OpenAI, la empresa detrás de GPT-4, no ha revelado públicamente mucha información sobre el nuevo modelo, como sus características o sus habilidades. Sin embargo, los avances recientes en el campo de la IA, particularmente en lo que respecta al procesamiento del lenguaje natural (NLP), pueden ofrecer algunas pistas sobre lo que podemos esperar de GPT-4.

¿Qué es GPT?

Antes de entrar en detalles, es útil establecer primero una línea de base sobre qué es GPT. GPT significa Transformador preentrenado generativo y se refiere a un modelo de red neuronal de aprendizaje profundo que se entrena con datos disponibles en Internet para crear grandes volúmenes de texto generado por máquina. GPT-3 es la tercera generación de esta tecnología y es uno de los modelos de generación de texto de IA más avanzados disponibles en la actualidad.

Piense en GPT-3 como si funcionara un poco como los asistentes de voz, como Siri o Alexa, solo que a una escala mucho mayor. En lugar de pedirle a Alexa que reproduzca su canción favorita o que Siri escriba su texto, puede pedirle a GPT-3 que escriba un libro electrónico completo en solo unos minutos o que genere 100 ideas para publicaciones en redes sociales en menos de un minuto. Todo lo que el usuario debe hacer es proporcionar un aviso, como “Escríbame un artículo de 500 palabras sobre la importancia de la creatividad”. Siempre que el mensaje sea claro y específico, GPT-3 puede escribir casi cualquier cosa que le pidas.

Desde su lanzamiento al público en general, GPT-3 ha encontrado muchas aplicaciones comerciales. Las empresas lo utilizan para resumir textos, traducir idiomas, generar códigos y automatizar a gran escala casi cualquier tarea de escritura.

Dicho esto, si bien GPT-3 es, sin duda, muy impresionante en su capacidad para crear texto humano muy legible, está lejos de ser perfecto. Los problemas tienden a surgir cuando se le pide que escriba piezas más largas, especialmente cuando se trata de temas complejos que requieren conocimiento. Por ejemplo, un mensaje para generar un código de computadora para un sitio web puede devolver un código correcto pero subóptimo, por lo que un codificador humano todavía tiene que ingresar y realizar mejoras. Es un problema similar con los documentos de texto grandes: cuanto mayor sea el volumen de texto, más probable es que surjan errores, a veces divertidos, que necesitan ser corregidos por un escritor humano.

En pocas palabras, GPT-3 no es un reemplazo completo para los escritores o codificadores humanos, y no debe considerarse como tal. En cambio, GPT-3 debe verse como un asistente de redacción, uno que puede ahorrar mucho tiempo a las personas cuando necesitan generar ideas para publicaciones de blog o esquemas aproximados para textos publicitarios o comunicados de prensa.

¿Más parámetros = mejor?

Una cosa que hay que entender sobre los modelos de IA es cómo usan los parámetros para hacer predicciones. Los parámetros de un modelo de IA definen el proceso de aprendizaje y proporcionan una estructura para el resultado. La cantidad de parámetros en un modelo de IA generalmente se ha utilizado como una medida de rendimiento. Cuantos más parámetros, más poderoso, suave y predecible es el modelo, al menos de acuerdo con el hipótesis de escala.

Por ejemplo, cuando se lanzó GPT-1 en 2018, tenía 117 millones de parámetros. GPT-2, lanzado un año después, tenía 1.200 millones de parámetros, mientras que GPT-3 elevó el número aún más a 175.000 millones de parámetros. Según una entrevista de agosto de 2021 con cableado, Andrew Feldman, fundador y CEO de Cerebras, empresa asociada con OpenAI, mencionó que GPT-4 tendría alrededor de 100 billones de parámetros. Esto haría que GPT-4 sea 100 veces más potente que GPT-3, un salto cuántico en el tamaño de los parámetros que, comprensiblemente, ha entusiasmado a mucha gente.

Sin embargo, a pesar de la noble afirmación de Feldman, hay buenas razones para pensar que GPT-4 de hecho no tendrá 100 billones de parámetros. Cuanto mayor sea el número de parámetros, más costoso se vuelve un modelo para entrenar y ajustar debido a la gran cantidad de potencia computacional requerida.

Además, hay más factores que solo la cantidad de parámetros que determinan la efectividad de un modelo. Tomar como ejemplo Megatron-Turing NLG, un modelo de generación de texto construido por Nvidia y Microsoft, que tiene más de 500 mil millones de parámetros. A pesar de su tamaño, MT-NLG no se acerca a GPT-3 en términos de rendimiento. En resumen, más grande no significa necesariamente mejor.

Lo más probable es que GPT-4 tenga más parámetros que GPT-3, pero queda por ver si ese número será un orden de magnitud mayor. En cambio, existen otras posibilidades interesantes que OpenAI probablemente esté buscando, como un modelo más ágil que se centre en mejoras cualitativas en el diseño y la alineación algorítmica. El impacto exacto de tales mejoras es difícil de predecir, pero lo que se sabe es que un modelo disperso puede reducir los costos de cómputo a través de lo que se llama cómputo condicional, es decir, no todos los parámetros en el modelo de IA se activarán todo el tiempo, lo cual es similar a cómo funcionan las neuronas en el cerebro humano.

Entonces, ¿qué podrá hacer GPT-4?

Hasta que OpenAI publique una nueva declaración o incluso publique GPT-4, nos queda especular sobre cómo se diferenciará de GPT-3. Independientemente, podemos hacer algunas predicciones.

Aunque el futuro del desarrollo de aprendizaje profundo de IA es multimodal, es probable que GPT-4 siga siendo solo texto. Como humanos, vivimos en un mundo multisensorial que está lleno de diferentes entradas de audio, visuales y textuales. Por lo tanto, es inevitable que el desarrollo de IA eventualmente produzca un modelo multimodal que pueda incorporar una variedad de insumos.

Sin embargo, un buen modelo multimodal es significativamente más difícil de diseñar que un modelo de solo texto. La tecnología simplemente aún no está allí y, según lo que sabemos sobre los límites en el tamaño de los parámetros, es probable que OpenAI se esté enfocando en expandir y mejorar un modelo de solo texto.

También es probable que GPT-4 dependa menos de indicaciones precisas. Uno de los inconvenientes de GPT-3 es que las indicaciones de texto deben escribirse cuidadosamente para obtener el resultado que desea. Cuando las indicaciones no se escriben cuidadosamente, puede terminar con resultados falsos, tóxicos o incluso que reflejen puntos de vista extremistas. Esto es parte de lo que se conoce como el “problema de alineación” y se refiere a los desafíos en la creación de un modelo de IA que comprenda completamente las intenciones del usuario. En otras palabras, el modelo de IA no está alineado con los objetivos o intenciones del usuario. Dado que los modelos de IA se entrenan con conjuntos de datos de texto de Internet, es muy fácil que los sesgos, las falsedades y los prejuicios humanos lleguen a los resultados de texto.

Dicho esto, hay buenas razones para creer que los desarrolladores están progresando en el problema de la alineación. Este optimismo proviene de algunos avances en el desarrollo de InstructGPT, una versión más avanzada de GPT-3 que se entrena con la retroalimentación humana para seguir las instrucciones y las intenciones del usuario más de cerca. Los jueces humanos encontraron que InstructGPT dependía mucho menos que GPT-3 de buenas indicaciones.

Sin embargo, cabe señalar que estas pruebas solo se realizaron con empleados de OpenAI, un grupo bastante homogéneo que puede no diferir mucho en género, religión o puntos de vista políticos. Es probable que sea una apuesta segura que GPT-4 se someta a un entrenamiento más diverso que mejorará la alineación para diferentes grupos, aunque queda por ver hasta qué punto.

¿GPT-4 reemplazará a los humanos?

A pesar de la promesa de GPT-4, es poco probable que reemplace por completo la necesidad de escritores y programadores humanos. Todavía queda mucho trabajo por hacer en todo, desde la optimización de parámetros hasta la multimodalidad y la alineación. Es posible que pasen muchos años antes de que veamos un generador de texto que pueda lograr una comprensión verdaderamente humana de las complejidades y matices de la experiencia de la vida real.

Aun así, todavía hay buenas razones para estar entusiasmado con la llegada de GPT-4. La optimización de parámetros, en lugar del mero crecimiento de parámetros, probablemente conducirá a un modelo de IA que tiene mucho más poder de cómputo que su predecesor. Y la alineación mejorada probablemente hará que GPT-4 sea mucho más fácil de usar.

Además, todavía estamos solo al comienzo del desarrollo y la adopción de herramientas de IA. Constantemente se encuentran más casos de uso para la tecnología, y a medida que las personas ganan más confianza y comodidad con el uso de IA en el lugar de trabajo, es casi seguro que veremos una adopción generalizada de herramientas de IA en casi todos los sectores comerciales en los próximos años.

Deja un comentario