Introducción
Ante el crecimiento exponencial del análisis empresarial de Big Data, datos en tiempo real para redes sociales y aplicaciones móviles, la necesidad de memorias de mayor velocidad y más memoria nunca ha sido tan grande. A lo largo de los últimos años las compañías pertenecientes al ecosistema de las memorias han trabajado estrechamente para seguir avanzando en el desarrollo de memorias de sistema destinados a aplicaciones empresariales. Este artículo tiene como objetivo señalar los avances que ha experimentado la industria con la tecnología de memoria más reciente DDR4 y más concretamente con DDR4 LRDIMM.
La tecnología DDR4 LRDIMM (load reduced memory module) utiliza una técnica de buffer de datos distribuido con el fin de alcanzar las eficiencias de ancho de banda de memoria necesarios para los mayores niveles de capacidad y velocidad de los próximos sistemas de servidores empresariales basados en DDR4. Esta técnica se diferencia frente a la solución de datos sin buffer utilizada con DDR4 RDIMM (registered memory modules). Los LRDIMM, en general, han seguido evolucionando y aumentando su valor para los usuarios de sistemas. En la Figura 1, sistemas empresariales DDR3 Gen1 como E5-2600 alcanzan una velocidad inferior a la óptima de LRDIMM para todas las capacidades debido a razones que se describirán en este artículo. E5-2600 v2 logró un importante avance al mejorar el valor de LRDIMM para los usuarios finales y darle la vuelta al problema de la inversión de velocidad que existía en E5-2600. Se espera que DDR4 LRDIMM convierta las prestaciones del subsistema de memoria en un nuevo paradigma. DDR4 LRDIMM no solo logra las mayores capacidades, sino también un abanico mucho más amplio de aplicaciones que necesitan el mayor ancho de banda y las mayores capacidades.
El ecosistema en su conjunto ha logrado asegurar que el incremento de velocidad de LRDIMM se traduzca en la correspondiente mejora del ancho de banda de la memoria LRDIMM en gigabytes por segundo (GB/s). La velocidad es análoga a qué estrella del atletismo puede esprintar más rápido en cortos períodos de tiempo; el ancho de banda de memoria es análogo a quién cruza la línea de meta en primera posición. Éste es un resumen de los avances de DDR4 conseguidos por varios participantes en el ecosistema con el fin de mejorar el ancho de banda utilizable en GB/s:
• Arquitectura mejorada de LRDIMM para una mayor integridad de señal en las señales de datos
• Menor latencia del componente gracias a componentes del buffer de datos distribuido
• Mejor inteligencia y control posterior al buffer por el controlador de memoria
¿Cómo se hace?
Para comprender cómo logra DDR4 este enorme avance de la tecnología LRDIMM se puede comprobar su gran diferencia respecto a DDR3. Los LRDIMM con DDR3 y DDR4 reducen en ambos casos el número de cargas de datos para mejorar la integridad de señal en el bus de datos del módulo de memoria desde un máximo de 4 cargas de datos hasta 1 carga de datos; sin embargo, DDR4 añade algunas funciones para reducir la latencia total y mejorar la integridad de señal, obteniendo así velocidades comparables a DDR4 RDIMM. Esto hace que DDR4 LRDIMM iguale o supere el ancho de banda de DDR4 RDIMM para todas las velocidades y capacidades de memoria.
Diseño de LRDIMM: buffers centralizados frente a buffers distribuidos
Un LRDIMM con DDR3 tiene un buffer de memoria situado en el centro del módulo, tal como ilustra la Figura 2. De forma parecida a un RDIMM, el buffer de memoria (MB3518) almacena y retransmite las señales de instrucciones, dirección y reloj a las DRAM. Además, el LRDIMM también almacena el bus de datos de E/S de la DRAM. Al almacenar los datos de E/S, hasta cuatro cargas de DRAM en el bus posterior se ven reducidos a una carga en el bus anterior.
El menor número de cargas mejora la integridad de señal hacia el controlador de memoria; no obstante, mientras que las pistas del bus de datos de E/S de DDR3 RDIMM llega directamente desde el conector del borde a las cargas de E/S de la DRAM, las pistas de DDR3 LRDIMM están conectadas al buffer de memoria situado en el centro, aumentando así las longitudes de las pistas en hasta 70mm tanto en el buffer de memoria anterior como posterior (Figura 3). Estas mayores longitudes de la pista suponen un problema añadida para la integridad y la latencia de la señal de la ruta de los datos de alta velocidad de DDR3 al introducir conexiones más largas en el bus del canal de memoria. Lo cual se traduce en unas máximas velocidades máximas más bajas de E/S si se comparan con DDR3 RDIMM.
Tal como muestra a continuación la Figura 4, la tecnología DDR4 LRDIMM se deshace de las mayores longitudes de la pista introducidas por los buffers de memoria de DDR3 al dividir la función del buffer de datos y distribuir nueve dispositivos de buffer de datos entre el conector del borde y nueve columna de las DRAM DDR4. Las pistas de 70mm que se encuentran en DDR3 LRDIMM han desaparecido y se han visto sustituidas por pistas de 8mm en el bus anterior y posterior cuya longitud es igual a la de un DDR4 RDIMM. Además de unas longitudes de la pista comparables a DDR4 RDIMM, el retardo de propagación a través de los buffers de datos de DDR4 es alrededor de un 33% más rápido que en el buffer de memoria de DDR3 , lo cual reduce aún más la latencia. La menor longitud de la pista de DDR4 LRDIMM y su técnica de buffer más rápido hacen que la latencia total y el tiempo de lectura/escritura sean comparables a DDR4 RDIMM. Como muestra la Figura 5, estas mejores características de la línea de transmisión permiten alcanzar velocidades de transmisión de los datos más elevadas con DDR4 que DDR3 al conseguir una apertura más nítida del ojo de la señal de datos.
Optimización de la latencia del componente
El buffer de memoria centralizado de DDR3 también añade 2,5ns de retardo a través del buffer y tiene una ruta añadida de 70mm entre el bus posterior y el buffer de memoria y la E/S de la DRAM, lo cual introduce aún más latencia a DDR3 LRDIMM si se compara con la solución de RDIMM. Más latencia a través del buffer de memoria central para DDR3 provoca una disminución del ancho de banda efectivo (Figura 6).
Controladores de LRDIMM con clasificación de rango
Desde la introducción de los primeros DDR3 LRDIMM, los controladores de memoria han seguido añadiendo inteligencia para mejorar la utilización de las capacidades de mayor profundidad de memoria de LRDIMM. En tiempos más recientes los avances en una función denominada “multiplicación de rango” han contribuido a reducir la latencia y a mejorar el ancho de banda.
La multiplicación se diseñó para evitar el problema que representa tener un número limitado de dos bits de selección por LRDIMM a elegir entre 1 a 5 opciones; las opciones 1-4 sirven para seleccionar 1 entre 4 DRAM (en un rango de cuatro, “4R” DIMM) para recuperar un grupo de datos y la opción 5 es para no acceder a ninguna de las 4 DRAM. La opción 5 se podría utilizar, por ejemplo, si se recuperan los datos desde el 2º o 3º LRDIMM en el mismo canal de memoria.
Como en el ejemplo mostrado en la Figura 8 para plataformas de servidores Gen1 DDR3 , el controlador principal (host) en gran parte no realizaba “clasificación de rango” cuando funciona en un modo de multiplicación de rango. Esto provocaba que el host siempre tuviera que asumir que conmutaba a una DRAM diferente para la siguiente lectura y, por tanto, tener en cuenta el tiempo para deshabilitar una DRAM y habilitar la otra DRAM en el mismo bus de datos.
En la práctica, esto significaba que estos controladores no eran capaces de ofrecer la respuesta más rápida al realizar transacciones de lectura recíprocas al mismo rango lógico. Esto dio como resultado una penalización de hasta el 25% sobre el ancho de banda de datos para las lecturas. Si se compara con una solución RDIMM en sistemas muy densos de 24 ranuras que funcionan a la misma velocidad, LRDIMM solo proporcionaba un 70% del ancho de banda de memoria. En plataformas de servidores Gen2 DDR3 , los controladores aplican una clasificación de rangos físicos tras el buffer de datos. Están en condiciones de obtener datos de la memoria con mucha mayor eficiencia debido a que las lecturas y escrituras recíprocas a la misma DRAM pueden trabajar a máxima velocidad. También superan otras limitaciones para mejorar la velocidad. Por tanto, las plataformas de servidores Gen2 DDR3 lograron aumentar la velocidad respecto a las plataformas de servidores Gen1 DDR3, pero lo que es más importante es que cerrando la brecha del ancho de banda con una solución RDIMM correspondiente.
La única penalización pendiente para las plataformas DDR3 se debía a las latencias del componente y de la longitud de la pista tal como se ha indicado antes. En DDR4, la arquitectura de buffer distribuido reduce la latencia a través de cada uno de los buffers de datos distribuidos de tamaño mucho menor. Además permite que el controlador de memoria sea capaz de ocultar la latencia mucho menor de su microarquitectura.
Resumen
Los avances introducidos en el ecosistema de DDR4 LRDIMM han dado continuidad a la tendencia de mejora significativa del ancho de banda de memoria, así como de la velocidad del canal.
El objetivo es incrementar la utilidad de LRDIMM respecto a RDIMM en una amplia variedad de aplicaciones, tanto si requieren una elevada capacidad o un gran ancho de banda, o ambos. La Figura 8 resume a continuación los resultados de estos avances en sucesivas generaciones de plataformas de servidores empresariales, a partir de los experimentos reales llevados a cabo en el laboratorio de validación de IDT. Se pueden obtener 3DPC a 1866 utilizando LRDIMM, pero solo 3DPC a 1600 si se utilizan RDIMM. A partir de estos avances, esperamos que algunos fabricantes de servidores que siempre han configurado sus plataformas de servidores en función de la velocidad también consideren LRDIMM de 16GB como alternativa con un coste reducido a la opción LRDIMM de 32GB de mayor capacidad. En esencia, DDR4 LRDIMM no trata únicamente sobre capacidad, sino también sobre ancho de banda.