Encuentre aquí su software

Busca simples


Busca Avançada

Red Hat expande IA generativa con Inference Server para toda la nube híbrida

Publicado por Redacción Portal ERP Colombia em 21/05/2025 em Noticias Tech

Compartir:

Red Hat AI Inference Server optimiza el uso de IA generativa, mejorando experiencias de usuario y ofreciendo libertad para elegir aceleradores, modelos y entornos de TI en la nube híbrida.

Joe Fernandes, vice president and general manager, AI Business Unit, Red Hat. Foto: Red Hat. Portal ERP Colombia.

Red Hat, presentó Red Hat AI Inference Server, que constituye un gran avance hacia la democratización de la IA generativa (gen AI) en la nube híbrida. Este servidor de inferencia para la empresa es una nueva oferta dentro de Red Hat AI, que nace a partir del potente proyecto comunitario vLLM y está optimizado por la integración de las tecnologías Neural Magic de Red Hat.

Esto hace posible ejecutar cualquier modelo de IA generativa en cualquier acelerador de IA, en cualquier entorno de nube, más rápido, con mayor eficiencia del acelerador y a bajo costo y ayudar a cumplir con la visión de la compañía. Ya sea que se la implemente de forma autónoma o como componente integrado de Red Hat Enterprise Linux AI (RHEL AI) y Red Hat OpenShift AI, esta plataforma permite a las organizaciones implementar y escalar la IA generativa en modo de producción con mayor confianza.

“Red Hat AI Inference Server está diseñado para satisfacer la demanda de inferencia de alto rendimiento y capacidad de respuesta a gran escala, al mismo tiempo que mantiene una demanda de recursos baja, proporciona una capa de inferencia común compatible con cualquier modelo y se ejecuta en cualquier acelerador en cualquier entorno”. aseguró Joe Fernandes, vice president and general manager, AI Business Unit, Red Hat.

Te puede interesar: ¿Cuál es el impacto de la Computación Cuántica como ventaja competitiva?

La inferencia es el motor de ejecución crítico de la IA, en el que los modelos preentrenados traducen los datos en un impacto tangible. Es el punto clave de la interacción con el usuario, que exige respuestas rápidas y precisas. A medida que los modelos de IA generativa se vuelven cada vez más complejos y las implementaciones de producción aumentan, la inferencia puede convertirse en un importante cuello de botella que acapara recursos de hardware y amenaza con reducir la capacidad de respuesta e inflar los costos operativos. Para liberar el verdadero potencial de la IA a gran escala, los servidores de inferencia potentes ya no son un lujo, sino una necesidad, dado que sortean las complejidades subyacentes con mayor facilidad.

La organización hace frente a estos desafíos en forma directa con Red Hat AI Inference Server, una solución de inferencia abierta diseñada para lograr un alto rendimiento y equipada con herramientas líderes en compresión y optimización de modelos. Esta innovación facilita que las organizaciones aprovechen al máximo el poder transformador de la IA generativa al ofrecer experiencias de usuario significativamente más eficaces y una libertad inigualable para elegir aceleradores de IA, modelos y entornos de TI.

Red Hat AI Inference Server se basa en el proyecto vLLM, líder del sector, iniciado por UC Berkeley a mediados de 2023. Este proyecto comunitario ofrece una inferencia de IA generativa de alto rendimiento, admite contextos de entrada de gran tamaño, aceleración de modelos de múltiples GPU y compatibilidad con el procesamiento continuo por lotes, entre muchas otras características.

El amplio soporte de vLLM para modelos open source, sumado a la integración de Día 0 de los modelos de vanguardia líderes, como DeepSeek, Gemma, Llama, Llama Nemotron, Mistal y Phi, entre otros, así como modelos de razonamiento de nivel empresarial y de código abierto como Llama Nemotron, lo posiciona como un estándar de facto para la innovación futura en inferencia de IA. Los principales proveedores de modelos de vanguardia están adoptando los vLLM cada vez más, consolidando así la función clave que desempeñan en el futuro de la IA generativa.

Red Hat AI Inference Server proporciona a los usuarios una distribución de vLLM compatible y segura, además de:

  • Herramientas de compresión de LLM inteligentes, que reducen considerablemente el tamaño de los modelos de IA, tanto los de base como los ajustados, lo cual minimiza el consumo de recursos informáticos y preserva y mejora potencialmente la precisión del modelo.
  • Repositorio optimizado de modelos, alojado en Hugging Face, dentro de la organización de Red Hat AI, que ofrece acceso instantáneo a una colección validada y optimizada de modelos de IA líderes listos para la implementación de inferencia, lo que ayuda a duplicar o cuadruplicar la aceleración de la eficiencia sin comprometer la precisión del modelo.
  • Soporte empresarial de Red Hat y décadas de experiencia en llevar proyectos comunitarios a entornos de producción.
  • Soporte de terceros, para una mayor flexibilidad de implementación, lo que permite implementar Red Hat AI Inference Server en plataformas que no sean Red Hat Linux y Kubernetes de conformidad con la Política de soporte de componentes de terceros de Red Hat.

El futuro de la IA debe definirse por oportunidades ilimitadas, sin silos de infraestructura que la restrinjan. Red Hat visualiza un horizonte en el que las empresas puedan implementar cualquier modelo, en cualquier acelerador y en cualquier nube, al mismo tiempo que ofrecen una experiencia de usuario excepcional y más uniforme sin costos exorbitantes. Para aprovechar al máximo el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal, un estándar para lograr una innovación en IA más fluida y de alto rendimiento, tanto hoy como en el futuro.

Publicado por Redacción Portal ERP Colombia em 21/05/2025 em Noticias Tech

Para hacer tu experiencia más agradable, utilizamos cookies para almacenar datos sobre cómo usas Portal ERP. Consulta nuestros 'Términos de Uso y Política de Privacidad' para saber más. Al hacer clic en 'Aceptar', eres consciente de la optimización del sitio mediante el uso de cookies.