Incluso Grok ai puede ‘ver’ ahora

Hay muchas tendencias en la IA generativa en este momento. Hay modelos de razonamiento como Openi’s O3, que “piensan” en cada paso de un problema antes de que responda. También hay características de “investigación profunda” que pueden compilar información de toda la web para generar informes para usted.
Pero quizás la tendencia que es más “futurista” de todo es el modo de voz. Este es el futuro de 2013 Her Promised: un chatbot con el que puedes hablar como cualquier otra persona. El chatbot no dice nada diferente a lo que lo haría si estuvieras charlando por mensaje de texto; Sin embargo, responde con una voz “realista” y “natural”, lo que podría crear la ilusión de que estás hablando con una persona, no un robot.
Nunca he encontrado que la característica sea particularmente atractiva, incluso de grandes nombres como ChatGPT. La tecnología es impresionante, claro, pero todavía es dolorosamente obvio para mi oído que estoy hablando con un bot. Las compañías de IA no han podido sacudir estas peculiaridades de identificación, pero eso no ha impedido que las personas formen “relaciones” con chatbots, incluso enamorarse de ellas.
Lo que es más impresionante para mí es el componente de “visión” de la función. Algunos chatbots no solo pueden responderle, sino que pueden acceder a su cámara para ver lo que está viendo e incorporar esa información en sus respuestas. Tanto Chatgpt como Gemini ofrecen estas características, y ahora, también lo hace.
Grok puede ver
Grok es el último chatbot para ganar esta habilidad en su modo de voz. El desarrollador de XAI, Ebby Amir, anunció la función, denominada “Grok Vision”, el martes X, señalando que Grok Vision admite audio multilingüe y búsqueda en tiempo real. Sin embargo, esas últimas características son exclusivas para los suscriptores de Supergrok.
Este tweet no está disponible actualmente. Puede estar cargando o ha sido eliminado.
La función ya está en vivo de mi parte. Puede acceder a él tocando la opción de modo de voz existente. Si aún no ha usado esta función, deberá otorgar permiso de Grok para acceder al micrófono de su dispositivo. Después de esto, podrá comenzar a chatear de inmediato.
¿Qué piensas hasta ahora?
Sin embargo, para acceder a la visión, deberá tocar el icono de la cámara en la esquina inferior izquierda. Aquí, permita que Grok acceda a su cámara. Una vez que el feed está en vivo, puede comenzar a preguntarle a Grok sobre lo que ve.
No estoy muy interesado en enviar mi feed de video en vivo directamente a Xai, así que mantuve mi teléfono directamente sobre la mesa, por lo que la alimentación de video era completamente negra. Grok, para su crédito, intentó seriamente ayudarme a solucionar el problema, sugiriendo que podría haber algo mal con la cámara, o que mi entorno estaba demasiado oscuro. Cuando le informé que realmente había llevado mi teléfono al espacio exterior conmigo, “se rió”, y concluye que tenía que ser el problema: “ja, espacio exterior, ¿eh? Esa alimentación negra tiene sentido ahora, no hay luz allí, y la cámara probablemente no está diseñada para ese entorno. Puede necesitar un dispositivo de grado espacial para obtener una alimentación adecuada”.
Esta es la segunda gran caída de características para Grok este mes. La semana pasada, Xai lanzó una función de memoria para el bot, que le permite acceder a conversaciones pasadas para respuestas más relevantes.