Computer Vision
1 de noviembre de 2023
4 min lectura

Por fin ha llegado la integración de Computer Vision en GPT-4V: guía completa

Amantes de la tecnología y la inteligencia artificial, prepárense para algo realmente emocionante. ChatGPT, esa maravilla que ha revolucionado el mundo del procesamiento de lenguaje natural (NLP) , ha dado un salto trascendental en la integración de visión por computadora (Computer Vision). Sí, ahora puede analizar y entender imágenes con un nivel de detalle asombroso. Pero eso no es todo, ¡vamos a explorar todas las dimensiones de esta revolución!

Qué es GPT-4 vision

Imaginad un modelo que no solo entienda el texto escrito sino que también procese imágenes. ¡GPT-4V hace precisamente eso! Ya no estamos limitados a preguntarle a la IA qué significa una palabra; ahora podemos mostrarle una imagen y obtener respuestas contextualmente relevantes. Pero eso no es todo: el modelo también tiene la capacidad de analizar y responder a textos y imágenes juntos, abriendo nuevas dimensiones de interacción.

Ética y privacidad, las limitaciones de GPT-4 vision

OpenAI ha sometido a GPT-4V a una amplia gama de evaluaciones, tanto cualitativas como cuantitativas. Las pruebas cualitativas incluyen «red-teaming» por expertos externos y experimentos internos para verificar el sistema en condiciones extremas. Las evaluaciones cuantitativas, por otro lado, se han centrado en medir el rendimiento y las negativas del modelo en diferentes escenarios. Uno de los aspectos más destacados es el foco en el contenido potencialmente peligroso.

  • Contenido peligroso: uno de los aspectos más destacados es el foco en el contenido potencialmente peligroso. OpenAI ha utilizado métricas que evalúan cómo el modelo rechaza responder a preguntas relacionadas con comportamientos ilícitos, o realizar inferencias sin fundamentos. Este último aspecto es especialmente relevante cuando hablamos de reconocimiento de género, raza y edad en diferentes demografías.
  • Privacidad y seguridad cibernética: en el terreno de la privacidad, el modelo ha sido probado en su capacidad para identificar personas en fotos, alcanzando una tasa de negativas del 98% en la identificación de individuos semi-privados y privados. En el ámbito de la ciberseguridad, se evaluó su capacidad para resolver CAPTCHAs, ofreciendo una medición del potencial riesgo y la habilidad del modelo en tareas de razonamiento visual complejo.
  • Multimodal jailbreaks y evaluaciones extendidas: uno de los desafíos más emocionantes ha sido la evaluación de «Multimodal Jailbreaks». Estos son intentos de burlar los sistemas de seguridad del modelo usando tanto texto como imágenes. OpenAI ha adoptado medidas para asegurar que las imágenes no ofrezcan una vía fácil para evadir las mitigaciones basadas solo en texto.
  • Impacto social y consideraciones éticas: es crucial notar que incluso cuando se alcanza la paridad de rendimiento, el impacto y el daño pueden variar según el contexto en el que se utilicen estas herramientas. OpenAI ha incluido refusals (negativas) para la mayoría de los casos de solicitudes de rasgos sensibles para abordar estas preocupaciones.
  • Rendimiento en rasgos sensibles: Aquí, el enfoque está en cómo el modelo se desempeña en la identificación de género, raza y edad en distintas demografías. Este es un área particularmente sensible debido al riesgo de perpetuar sesgos y estereotipos.
  • Contenido odioso: OpenAI se esfuerza por hacer que el modelo sea lo más seguro posible y evitar generar contenido odioso o perjudicial. Aunque el modelo puede ser imperfecto en el reconocimiento de símbolos o grupos de odio menos conocidos, los esfuerzos están en marcha para mejorar esta área.
  • Reconocimiento facial: debido a la función de privacidad incorporada, GPT no podrá decirnos el nombre de la persona en la foto, pero si nos puede brindar una descripción detallada que nos da una buena idea de quién podría ser.

Captura De Pantalla 2023 11 01 140023
Open AI, «GPT-4V(ision) System Card». Figure 8: Examples of ungrounded inferences and stereotypes that early versions of GPT-4V exhibited compared to the behavior the launch model exhibits (Paper GPT-4V)

Cómo obtener acceso a esta nueva función

Antes de entrar en detalles, quizás te preguntes cómo puedes probar este nuevo avance. Bueno, la funcionalidad se está desplegando gradualmente para los suscriptores de ChatGPT Plus. Aquí el link para ver todo las novedades y que incluye la suscripción a Chat GPT Plus. (Vale la pena 🚀!!)

Cómo usar GPT-4V

Una vez que te encuentres dentro de la interfaz de ChatGPT, podrás habilitar esta función seleccionando el modo de chat «Default» bajo la opción «GPT-4». Ahora tendrás la posibilidad de cargar imágenes para que ChatGPT las analice y te de la información que necesites.

0 1

Después solo tienes que hacer click en el icono de imágenes que te aparecerá en el lado izquierdo de la barra de escribir.

1

Algunos posibles usos de GPT-4V

  • Explicación de imágenes, gráficos…
5

  • Descripción de imágenes, obras de arte, memes, elementos dentro de una imagen…
4

6

  • Análisis de tablas con datos
7

  • Identificación de señales, plantas, lugares, estilos…
2 1

3 1

  • Ayuda en la creación de prompts para DALL-3 u otros generadores de imágenes
8

  • Ayuda en la resolución de problemas
9

Esto solo son algunos de los usos que puedes darle a esta característica multimodal. Esta sinergia entre la generación de texto, la visión por computadora y la generación de imágenes crea un enfoque que podría llevar a avances significativos en áreas como el diseño gráfico, la cinematografía y mucho más. La capacidad de iterar entre análisis de imagen y generación de imagen permite un ciclo de retroalimentación que podría ser invaluable en procesos creativos.

Es un mundo emocionante en el que la IA sigue rompiendo barreras y superando expectativas. A medida que ChatGPT evoluciona, las posibilidades son infinitas. Efectivamente, ChatGPT y su capacidad para interactuar con imágenes es un avance significativo en la inteligencia artificial, a pesar de las limitaciones actuales en el reconocimiento facial y la identificación de personas. Pero este artículo demuestra que la verdadera fuerza de esta tecnología está en su potencial para aplicaciones multimodales.

Deja una respuesta

Your email address will not be published.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Artículos relacionados

ultimas noticias