Estamos aclarando cómo se configura el comportamiento de ChatGPT y nuestros planes para mejorar ese comportamiento, lo que permite una mayor personalización del usuario y más aportes públicos en nuestra toma de decisiones en estas áreas.
La misión de OpenAI es garantizar que la Inteligencia General Artificial (AGI) beneficie a toda la humanidad. Así que estamos pensando mucho en el comportamiento de los sistemas de IA que estamos construyendo antes de AGI y cómo se determina ese comportamiento.
Desde nuestro lanzamiento de ChatGPT, los usuarios han compartido resultados que encuentran políticamente sesgados, ofensivos o objetables. En la mayoría de los casos, creemos que las inquietudes planteadas son válidas y revelan limitaciones reales en nuestros sistemas que queremos abordar. También hemos visto algunos conceptos erróneos sobre cómo nuestros sistemas y políticas funcionan juntos para dar forma a los resultados que obtenemos de ChatGPT.
Resumimos a continuación.
- Cómo se moldea el comportamiento de ChatGPT;
- Cómo planeamos mejorar el comportamiento predeterminado de ChatGPT;
- Nuestra intención es permitir una mayor personalización del sistema; y:
- Nuestros esfuerzos para obtener más aportes del público en nuestra toma de decisiones.
¿Dónde estamos hoy?
A diferencia del software convencional, nuestros modelos son redes neuronales masivas. Su comportamiento se aprende de una amplia gama de datos que no están programados explícitamente. Si bien no es una analogía perfecta, este proceso es más parecido a entrenar a un perro que a la programación convencional. La fase inicial de “entrenamiento” es la primera, donde el modelo aprende a predecir la siguiente palabra en una oración, informado por la exposición a múltiples textos (y perspectivas amplias) en Internet. A esto le sigue una segunda fase en la que “afinamos” nuestros modelos para reducir el comportamiento del sistema.
A la fecha, este proceso está incompleto. A veces, el proceso de personalización no coincide con nuestro objetivo (producir una herramienta segura y útil) y la intención del usuario (obtener un resultado útil en respuesta a la entrada). Mejorar nuestros métodos para alinear los sistemas de IA con los valores humanos es una prioridad para nuestra empresa, especialmente a medida que los sistemas de IA se vuelven más capaces.
Un proceso de dos pasos: entrenamiento inicial y perfeccionamiento
Los dos pasos principales involucrados en la construcción de ChatGPT funcionan de la siguiente manera:
- Primero nosotros “entrenamiento previoLos modelos, lo que les permite predecir lo que sucederá a continuación en una gran base de datos que contiene partes de Internet. Pueden aprender a completar la oración “en lugar de girar a la izquierda, giró ___”. Al aprender de miles de millones de oraciones, nuestros modelos aprenden gramática, muchos datos sobre el mundo y algunas habilidades de razonamiento. También aprenden algunos de los sesgos que están presentes en esos miles de millones de oraciones.
- Entonces nosotros”sintonia FINA“Estos modelos se basan en un conjunto de datos más limitado que construimos cuidadosamente con revisores humanos que siguen las pautas que brindamos. Debido a que no podemos predecir todos los inicios de sesión posibles que los usuarios futuros pueden colocar en nuestro sistema, no escribimos instrucciones detalladas para cada inicio de sesión que encuentra ChatGPT. En cambio, describimos varias categorías en las pautas que nuestros revisores usan para considerar y evaluar los posibles resultados del modelo para una variedad de entradas de ejemplo. Luego, a medida que se usan, los modelos generalizan la retroalimentación de estos revisores para responder a una amplia gama de aportes específicos proporcionados por ese usuario.
El papel de los revisores y la política de OpenAI en el desarrollo del sistema
En algunos casos, podemos brindar orientación a nuestros revisores con respecto a ciertos tipos de resultados (como “no completar solicitudes de contenido ilegal”). En otros casos, la orientación que compartimos con los revisores es más sensata (p. ej., “evite tomar una posición sobre temas controvertidos”). Es importante destacar que nuestra colaboración con los revisores no es única, es una relación continua en la que aprendemos mucho de sus experiencias.
Una gran parte del proceso regulatorio consiste en mantener un sólido ciclo de retroalimentación con nuestros revisores, que incluye reuniones semanales para abordar cualquier pregunta que puedan tener o brindar aclaraciones sobre nuestra guía. Este proceso iterativo de retroalimentación es la forma en que entrenamos el modelo para que mejore cada vez más con el tiempo.
Abordar el sesgo
Muchos están justificadamente preocupados por el sesgo en el diseño y el impacto de los sistemas de inteligencia artificial. Estamos comprometidos a abordar este problema con decisión y a ser transparentes tanto sobre nuestras intenciones como sobre nuestro progreso. Con ese fin, compartimos algunas de nuestras pautas que tratan temas políticos y controvertidos. Nuestras pautas son claras en cuanto a que los revisores no deben favorecer a ningún grupo político. Los sesgos que aún pueden surgir del proceso descrito anteriormente son errores, no características.
Si bien siempre habrá diferencias, esperamos que esta publicación de blog y compartir estas instrucciones brinden más información sobre cómo vemos este aspecto importante de una tecnología tan fundamental. Creemos que las empresas de tecnología deben ser responsables de desarrollar políticas que resistan el escrutinio.
Siempre estamos trabajando para mejorar la claridad de estas pautas y, según lo que hemos aprendido desde el lanzamiento de ChatGPT hasta el momento, también proporcionaremos instrucciones más claras a los revisores sobre posibles dificultades y desafíos relacionados con el sesgo. personajes y temas controvertidos. Además, como parte de las iniciativas de transparencia en curso, trabajamos para compartir información demográfica sobre nuestros revisores de una manera que no viole las reglas y regulaciones de privacidad, ya que esta es una fuente adicional de posible sesgo en los resultados del sistema.
Actualmente estamos explorando cómo hacer que el proceso de ajuste sea más comprensible y controlable, y aprovechando los avances externos, como las recompensas basadas en reglas y la IA constitucional.
¿A dónde vamos? Los componentes básicos de los sistemas futuros
De acuerdo con nuestra misión, nos comprometemos a garantizar que el acceso, los beneficios y el impacto de AI y AGI sean generalizados. Creemos que se necesitan al menos tres componentes básicos para lograr estos objetivos en el contexto del comportamiento del sistema de IA.
1. Mejorar el comportamiento predeterminado. Queremos que tantos usuarios como sea posible encuentren nuestros sistemas de IA útiles para ellos “listos para usar” y que sientan que nuestra tecnología comprende y respeta sus valores.
Con ese fin, estamos invirtiendo en investigación e ingeniería para reducir los sesgos tanto manifiestos como sutiles en la forma en que ChatGPT responde a diferentes entradas. En algunos casos, ChatGPT actualmente descarta resultados que no debería y, en algunos casos, no descarta cuando debería. Creemos que la mejora es posible en ambos aspectos.
Además, tenemos margen de mejora en otras dimensiones del comportamiento del sistema, como la forma en que el sistema “hace las cosas”. Los comentarios de los usuarios son invaluables para realizar estas mejoras.
2. Establece tus valores de IA dentro de amplios límites. Creemos que la IA debe ser una herramienta útil para personas individuales y, por lo tanto, ser personalizable por cada usuario dentro de los límites establecidos por la sociedad. Por lo tanto, estamos desarrollando una actualización de ChatGPT que permitirá a los usuarios personalizar fácilmente su comportamiento.
Esto significaría permitir resultados del sistema con los que otras personas (incluidos nosotros) podrían estar totalmente en desacuerdo. Será difícil establecer el equilibrio correcto aquí. llevar la personalización al extremo correrá el riesgo de usos maliciosos de nuestra tecnología e IA aduladoras que reforzarán sin pensar las creencias existentes de las personas.
Por lo tanto, siempre habrá algunos límites en el comportamiento del sistema. El desafío es definir cuáles son esos límites. Si tratamos de tomar todas estas decisiones por nuestra cuenta, o si tratamos de desarrollar un sistema de inteligencia artificial único y monolítico, fallaremos en nuestra obligación constitucional de “evitar la concentración indebida de poder”.
3. Aporte público dentro de los límites predeterminados y estrictos. Una forma de evitar la concentración innecesaria de poder es dar a las personas que usan o se ven afectadas por sistemas como ChatGPT la capacidad de influir en las reglas de esos sistemas.
Creemos que muchas decisiones sobre nuestros límites predeterminados y estrictos deben tomarse de manera colectiva y, si bien la implementación práctica es un desafío, nuestro objetivo es incluir tantas perspectivas como sea posible. Como punto de partida, buscamos aportes externos sobre nuestra tecnología en forma de equipo rojo. Recientemente, también comenzamos a solicitar la opinión pública sobre la IA en la educación (particularmente en los contextos críticos en los que se aplica nuestra tecnología).
Estamos en las primeras etapas de la prueba piloto para solicitar comentarios públicos sobre temas como el comportamiento del sistema, los mecanismos de divulgación (como la marca de agua) y nuestra política de implementación más amplia. También estamos explorando asociaciones con organizaciones externas para realizar auditorías de terceros de nuestros esfuerzos de seguridad y políticas.
Conclusión
La combinación de los tres bloques de construcción anteriores da la siguiente imagen de hacia dónde nos dirigimos.
A veces cometeremos errores. Cuando lo hagamos, aprenderemos de ellos e iteraremos en nuestros modelos y sistemas.
Agradecemos la vigilancia de la comunidad de usuarios de ChatGPT, así como del público en general, para responsabilizarnos y estamos emocionados de compartir más sobre nuestro trabajo en las tres áreas anteriores en los próximos meses.
Si está interesado en realizar una investigación para ayudar a lograr esta visión, que incluye, entre otros, equidad y representatividad, equidad e investigación sociotécnica para comprender el impacto de la IA en la sociedad, solicite acceso subsidiado a nuestra API: Acceso para investigadores a través de Programa:
También estamos contratando para trabajos en investigación, alineación, ingeniería y más.