Sobre arquitecturas de almacenamiento. ¿Dónde almacenar archivos grandes? Construye un servidor doméstico


Que es sistemas de almacenamiento   datos (SHD) y para qué sirve? ¿Cuál es la diferencia entre iSCSI y FiberChannel? ¿Por qué esta frase solo en los últimos años se hizo conocida por un amplio círculo de especialistas en TI y por qué los problemas de los sistemas de almacenamiento de datos son mentes cada vez más preocupantes?

Creo que muchas personas notaron las tendencias de desarrollo en el mundo de la informática que nos rodea: la transición de un modelo de desarrollo extenso a uno intensivo. El aumento de los procesadores de megahercios ya no da un resultado visible, y el desarrollo de unidades no se mantiene al día con la cantidad de información. Si en el caso de los procesadores, todo está más o menos claro: es suficiente ensamblar sistemas multiprocesador y / o usar varios núcleos en un procesador, en caso de problemas de almacenamiento y procesamiento de información, no es tan fácil deshacerse de los problemas. La panacea actual para la epidemia de información es el almacenamiento. El nombre significa Red de área de almacenamiento o Sistema de almacenamiento. En cualquier caso, es especial.

Principales problemas resueltos por el almacenamiento

Entonces, ¿qué tareas está diseñado para resolver el sistema de almacenamiento? Considere los problemas típicos asociados con el creciente volumen de información en cualquier organización. Supongamos que se trata de al menos unas pocas docenas de computadoras y varias oficinas separadas geográficamente.

1. Descentralización de la información.   - si antes todos los datos podían almacenarse literalmente en un disco duro, ahora cualquier sistema funcional requiere un almacenamiento separado, por ejemplo, servidores correo electronico, DBMS, dominio, etc. La situación es complicada en el caso de oficinas distribuidas (sucursales).

2. Crecimiento de información similar a una avalancha   - A menudo, la cantidad de discos duros que puede instalar en un servidor en particular no puede cubrir la capacidad que necesita el sistema. Como resultado:
La incapacidad de proteger completamente los datos almacenados es, de hecho, porque es bastante difícil incluso hacer una copia de seguridad de los datos que no solo están en diferentes servidores, sino que también están dispersos geográficamente.
Velocidad de procesamiento de información insuficiente: los canales de comunicación entre sitios remotos aún dejan mucho que desear, pero incluso con un canal suficientemente "grueso" no siempre es posible utilizar completamente las redes existentes, por ejemplo, IP, para el trabajo.
Dificultad copia de seguridad - si los datos se leen y escriben en pequeños bloques, entonces puede ser poco realista hacer un archivo completo de la información desde un servidor remoto a través de los canales existentes; es necesario transferir la cantidad total de datos. El archivo local a menudo no es práctico por razones financieras: necesita sistemas de respaldo (unidades de cinta, por ejemplo), software especial (que puede costar mucho dinero) y personal capacitado y calificado.

3. Es difícil o imposible predecir el volumen requerido espacio en disco   al implementar un sistema informático. Como resultado:
Existen problemas de expansión de las capacidades de disco: es bastante difícil obtener capacidades de terabytes en el servidor, especialmente si el sistema ya se está ejecutando en discos de pequeña capacidad existentes; como mínimo, se requiere un apagado del sistema e inversiones financieras ineficientes.
Utilización ineficiente de los recursos: a veces no puede adivinar en qué servidor crecerán los datos más rápido. Una cantidad críticamente pequeña de espacio en disco puede estar libre en el servidor de correo electrónico, mientras que otra unidad usará solo el 20% del volumen de un subsistema de disco costoso (por ejemplo, SCSI).

4. Baja confidencialidad de los datos distribuidos.   - es imposible controlar y restringir el acceso de acuerdo con la política de seguridad de la empresa. Esto se aplica tanto al acceso a los datos en los canales existentes para esta (red de área local) como al acceso físico a los medios; por ejemplo, el robo de discos duros y su destrucción no están excluidos (para complicar el negocio de la organización). Las acciones no calificadas de los usuarios y el personal de mantenimiento pueden ser aún más perjudiciales. Cuando una empresa en cada oficina se ve obligada a resolver pequeños problemas de seguridad local, esto no da el resultado deseado.

5. La complejidad de gestionar flujos de información distribuida   - cualquier acción que tenga como objetivo cambiar los datos en cada rama que contiene parte de los datos distribuidos crea ciertos problemas, que van desde la complejidad de sincronizar varias bases de datos, versiones de archivos de desarrollador hasta la duplicación innecesaria de información.

6. Bajo efecto económico de la introducción de soluciones "clásicas"   - con el crecimiento de la red de información, grandes cantidades de datos y una estructura de la empresa cada vez más distribuida, las inversiones financieras no son tan efectivas y a menudo no pueden resolver los problemas que surgen.

7. Los altos costos de los recursos utilizados para mantener la eficiencia de todo el sistema de información empresarial, desde la necesidad de mantener un gran personal de personal calificado hasta numerosas soluciones costosas de hardware que están diseñadas para resolver el problema de los volúmenes y las velocidades de acceso a la información, junto con un almacenamiento confiable y protección contra fallas.

A la luz de los problemas anteriores, que tarde o temprano superan total o parcialmente a cualquier empresa en desarrollo dinámico, intentaremos describir los sistemas de almacenamiento, como deberían ser. Considere esquemas de conexión típicos y tipos de sistemas de almacenamiento.

Megabytes / transacciones?

Si antes había discos duros dentro de la computadora (servidor), ahora se están llenando y no son muy confiables allí. La solución más simple (desarrollada hace mucho tiempo y utilizada en todas partes) es la tecnología RAID.

images \\ RAID \\ 01.jpg

Al organizar RAID en cualquier sistema de almacenamiento, además de proteger la información, obtenemos varias ventajas innegables, una de las cuales es la velocidad de acceso a la información.

Desde el punto de vista del usuario o software, la velocidad está determinada no solo por la capacidad del sistema (MB / s), sino también por el número de transacciones, es decir, el número de operaciones de E / S por unidad de tiempo (IOPS). Lógicamente, la mayor cantidad de discos y las técnicas de mejora del rendimiento que proporciona el controlador RAID (por ejemplo, el almacenamiento en caché) contribuyen a IOPS.

Si el rendimiento general es más importante para ver la transmisión de video u organizar un servidor de archivos, para el DBMS y cualquier aplicación OLTP (procesamiento de transacciones en línea), es el número de transacciones que el sistema es capaz de procesar lo que es crítico. Y con esta opción, los discos duros modernos no son tan optimistas como con volúmenes crecientes y, en parte, velocidades. Todos estos problemas están diseñados para resolver el sistema de almacenamiento en sí.

Niveles de protección

Debe comprender que la base de todos los sistemas de almacenamiento es la práctica de proteger la información basada en la tecnología RAID; sin esto, cualquier sistema de almacenamiento técnicamente avanzado será inútil, porque los discos duros en este sistema son el componente más poco confiable. Organizar discos en RAID es el "enlace inferior", el primer escalón de protección de la información y una mayor velocidad de procesamiento.

Sin embargo, además de los esquemas RAID, existe una protección de datos de nivel inferior implementada "sobre" las tecnologías y soluciones integradas en el disco duro por su fabricante. Por ejemplo, uno de los principales fabricantes de almacenamiento, EMC, tiene una metodología para el análisis adicional de integridad de datos a nivel del sector de unidades.

Habiendo tratado con RAID, pasemos a la estructura de los propios sistemas de almacenamiento. En primer lugar, los sistemas de almacenamiento se dividen según el tipo de interfaz de conexión de host (servidor) utilizada. Las interfaces de conexión externas son principalmente SCSI o FibreChannel, así como el estándar iSCSI bastante joven. Además, no descarte las pequeñas tiendas inteligentes que incluso se pueden conectar a través de USB o FireWire. No consideraremos interfaces más raras (a veces simplemente sin éxito de una forma u otra), como IBM SSA o interfaces diseñadas para mainframes, por ejemplo, FICON / ESCON. Almacenamiento NAS independiente, conectado a la red Ethernet. La palabra "interfaz" básicamente significa un conector externo, pero no olvide que el conector no determina el protocolo de comunicación de los dos dispositivos. Nos detendremos en estas características un poco más abajo.

images \\ RAID \\ 02.gif

Significa interfaz de sistema de computadora pequeña (lea "tell"), una interfaz paralela semidúplex. En los sistemas de almacenamiento modernos, con mayor frecuencia se representa mediante un conector SCSI:

images \\ RAID \\ 03.gif

images \\ RAID \\ 04.gif

Y un grupo de protocolos SCSI, y más específicamente: Interfaz paralela SCSI-3. La diferencia entre SCSI y el IDE familiar es que hay más dispositivos por canal, longitudes de cable más largas, velocidades de transferencia de datos más rápidas, así como características "exclusivas" como señalización diferencial de alto voltaje, búsqueda de comandos y algunas otras. No abordaremos este problema.
Si hablamos de los principales fabricantes de componentes SCSI, como adaptadores SCSI, controladores RAID con interfaz SCSI, cualquier especialista recordará inmediatamente dos nombres: Adaptec y LSI Logic. Creo que esto es suficiente, no ha habido revoluciones en este mercado durante mucho tiempo y probablemente no se espera.

Interfaz de fibra-canal

Interfaz serie full duplex. Muy a menudo, en los equipos modernos está representado por conectores ópticos externos como LC o SC (LC - de tamaño más pequeño):

images \\ RAID \\ 05.jpg

images \\ RAID \\ 06.jpg

... y los protocolos FibreChannel (FCP). Existen varios esquemas de conmutación de dispositivos FibreChannel:

Punto a punto   - conexión directa punto a punto de dispositivos entre sí:

images \\ RAID \\ 07.gif

Punto de cruce cambiado - conectar dispositivos al conmutador FibreChannel (similar a la implementación de la red Ethernet en los conmutadores):

images \\ RAID \\ 08.gif

Bucle arbitrado   - FC-AL, bucle con acceso de arbitraje: todos los dispositivos están conectados entre sí en un anillo, el circuito recuerda un poco al Token Ring. También se puede usar un conmutador, luego la topología física se implementará de acuerdo con el esquema "estrella", y el lógico, de acuerdo con el esquema de "bucle" (o "anillo"):

images \\ RAID \\ 09.gif

La conexión de acuerdo con el esquema FibreChannel Switched es el esquema más común, en términos de FibreChannel dicha conexión se llama Fabric - en ruso hay un papel de calco - "fábrica". Cabe señalar que los interruptores FibreChannel son dispositivos bastante avanzados, en términos de complejidad de llenado, están cerca de los interruptores IP de nivel 3. Si los interruptores están interconectados, operan en una sola fábrica, con un conjunto de configuraciones que son válidas para toda la fábrica a la vez. Cambiar algunas opciones en uno de los conmutadores puede conducir a un cambio de fábrica completa, sin mencionar la configuración de autorización de acceso, por ejemplo. Por otro lado, hay esquemas SAN que involucran varias fábricas dentro de una sola SAN. Por lo tanto, una fábrica solo puede llamarse un grupo de conmutadores interconectados: dos o más dispositivos no conectados introducidos en la SAN para aumentar la tolerancia a fallas de dos o más fábricas diferentes.

Los componentes que permiten combinar hosts y sistemas de almacenamiento en una sola red se conocen comúnmente como "conectividad". La conectividad es, por supuesto, cables de conexión dúplex (generalmente con una interfaz LC), conmutadores (conmutadores) y adaptadores FibreChannel (HBA, adaptadores de base de host), es decir, esas tarjetas de expansión que, cuando se instalan en los hosts, le permiten conectar el host a la red SAN. Los HBA generalmente se implementan como tarjetas PCI-X o PCI-Express.

images \\ RAID \\ 10.jpg

No confunda fibra y fibra: el medio de propagación de la señal puede ser diferente. FiberChannel puede funcionar en "cobre". Por ejemplo, todos los discos duros FibreChannel tienen contactos metálicos, y la conmutación habitual de dispositivos a través de "cobre" no es infrecuente, simplemente cambian gradualmente a canales ópticos como la tecnología más prometedora y el reemplazo funcional de "cobre".

Interfaz ISCSI

Usualmente representado por un conector externo RJ-45 para conectarse a una red Ethernet y el protocolo en sí iSCSI (Interfaz de sistema de computadora pequeña de Internet). Según la definición de SNIA: "iSCSI es un protocolo que se basa en TCP / IP y está diseñado para establecer la interoperabilidad y administrar sistemas de almacenamiento, servidores y clientes". Detengámonos en esta interfaz con más detalle, aunque solo sea porque cada usuario puede usar iSCSI incluso en una red "doméstica" normal.

Debe saber que iSCSI define al menos el protocolo de transporte para SCSI, que se ejecuta sobre TCP, y la tecnología para encapsular comandos SCSI en una red basada en IP. En pocas palabras, iSCSI es un protocolo que permite el acceso en bloque a los datos mediante comandos SCSI enviados a través de una red con una pila TCP / IP. iSCSI apareció como un reemplazo para FibreChannel y en los sistemas de almacenamiento modernos tiene varias ventajas sobre él: la capacidad de combinar dispositivos a largas distancias (usando redes IP existentes), la capacidad de proporcionar un nivel específico de QoS (Calidad de servicio, calidad de servicio), conectividad de menor costo. Sin embargo, el principal problema de usar iSCSI como reemplazo de FibreChannel son los largos retrasos que se producen en la red debido a las peculiaridades de la implementación de la pila TCP / IP, que niega una de las ventajas importantes de usar sistemas de almacenamiento: velocidad de acceso a la información y baja latencia. Este es un serio inconveniente.

Una pequeña observación sobre los hosts: pueden usar tanto tarjetas de red normales (luego el procesamiento de la pila iSCSI y la encapsulación de comandos se realizarán mediante software) como tarjetas especializadas que soportan tecnologías similares a TOE (TCP / IP Offload Engines). Esta tecnología proporciona procesamiento de hardware de la parte correspondiente de la pila de protocolos iSCSI. Método de software   más barato, pero carga más el procesador central del servidor y, en teoría, puede generar más demoras que un procesador de hardware. Con la velocidad actual de las redes Ethernet a 1 Gbit / s, se puede suponer que iSCSI funcionará exactamente el doble de lento que el FibreChannel a una velocidad de 2 Gbit, pero en el uso real la diferencia será aún más notable.

Además de los ya discutidos, mencionamos brevemente un par de protocolos que son más raros y están diseñados para proporcionar servicios adicionales a las redes de área de almacenamiento (SAN) existentes:

FCIP (Fibre Channel sobre IP) - Un protocolo de túnel construido en TCP / IP y diseñado para conectar SAN dispersas geográficamente a través de un entorno IP estándar. Por ejemplo, puede combinar dos SAN en una a través de Internet. Esto se logra mediante el uso de una puerta de enlace FCIP que es transparente para todos los dispositivos en la SAN.
iFCP (Protocolo de canal de fibra de Internet)   - Un protocolo que le permite combinar dispositivos con interfaces FC a través de redes IP. Una diferencia importante de FCIP es que es posible combinar dispositivos FC a través de una red IP, lo que permite que un par diferente de conexiones tenga un nivel diferente de QoS, lo cual no es posible cuando se hace un túnel a través de FCIP.

Examinamos brevemente las interfaces físicas, protocolos y tipos de conmutación para sistemas de almacenamiento, sin detenernos en la lista de todos posibles opciones. Ahora intentemos imaginar qué parámetros caracterizan los sistemas de almacenamiento de datos.

Principales parámetros de hardware de almacenamiento

Algunos de ellos se enumeraron anteriormente: estos son el tipo de interfaces y tipos de conexión externa accionamientos internos (discos duros) El siguiente parámetro, que tiene sentido considerar después de los dos anteriores al elegir un sistema de almacenamiento en disco, es su confiabilidad. La fiabilidad puede evaluarse no por el tiempo de funcionamiento banal entre la falla de cualquier componente individual (el hecho de que este tiempo es aproximadamente igual para todos los fabricantes), sino por la arquitectura interna. Un sistema de almacenamiento "normal" a menudo "externamente" es un estante de disco (para montar en un gabinete de 19 pulgadas) con discos duros, interfaces externas para conectar hosts, varias fuentes de alimentación. En el interior, generalmente se instala todo lo que proporciona el sistema de almacenamiento: unidades de procesador, controladores de disco, puertos de entrada / salida, memoria caché, etc. Por lo general, el bastidor se administra desde la línea de comandos o mediante la interfaz web, la configuración inicial a menudo requiere una conexión en serie. El usuario puede "dividir" los discos del sistema en grupos y combinarlos en RAID (de varios niveles), el espacio en disco resultante se divide en una o más unidades lógicas (LUN), a las que los hosts (servidores) tienen acceso y "los ven" como discos duros locales. El administrador del sistema configura la cantidad de grupos RAID, LUN, la lógica de la memoria caché, la disponibilidad de LUN para servidores específicos y todo lo demás. Por lo general, los sistemas de almacenamiento están diseñados para conectarse a ellos, no uno, sino varios (hasta cientos, en teoría) servidores; por lo tanto, dicho sistema debe tener un alto rendimiento, un sistema de control y monitoreo flexible y herramientas de protección de datos bien pensadas. La protección de datos se proporciona de muchas maneras, la más fácil de las cuales ya conoce: la combinación de discos en RAID. Sin embargo, los datos también deben ser accesibles constantemente; después de todo, detener un sistema de almacenamiento de datos central para la empresa puede causar pérdidas significativas. Mientras más sistemas almacenen datos en el sistema de almacenamiento, se debe proporcionar un acceso más confiable al sistema, porque en caso de accidente, el sistema de almacenamiento deja de funcionar inmediatamente en todos los servidores que almacenan datos allí. La alta disponibilidad del bastidor está garantizada por la duplicación interna completa de todos los componentes del sistema: rutas de acceso al bastidor (puertos FibreChannel), módulos de procesador, memoria caché, fuentes de alimentación, etc. Trataremos de explicar el principio de 100% de redundancia (duplicación) con la siguiente figura:

images \\ RAID \\ 11.gif

1. El controlador (módulo procesador) del sistema de almacenamiento, que incluye:
* Procesador central (o procesadores): generalmente en el sistema se ejecuta un software especial que actúa como el "sistema operativo";
* interfaces para cambiar con discos duros: en nuestro caso, se trata de placas que proporcionan conexión de discos FibreChannel de acuerdo con el esquema de bucle de acceso de arbitraje (FC-AL);
* memoria caché;
* Controladores de puerto externo FibreChannel
2. La interfaz externa de FC; Como vemos, hay 2 de ellos para cada módulo de procesador;
3. Discos duros: la capacidad se amplía con estantes de disco adicionales;
4. La memoria caché en dicho esquema generalmente se refleja para no perder los datos almacenados allí cuando falla algún módulo.

Con respecto al hardware, los bastidores de disco pueden tener diferentes interfaces para conectar hosts, diferentes interfaces de discos duros, diferentes esquemas de conexión para estantes adicionales, que sirven para aumentar el número de discos en el sistema, así como otros "parámetros de hierro" puramente.

Software de almacenamiento

Naturalmente, la potencia del hardware de los sistemas de almacenamiento debe gestionarse de alguna manera, y los sistemas de almacenamiento en sí mismos simplemente están obligados a proporcionar un nivel de servicio y funcionalidad que no está disponible en los esquemas convencionales de servidor-cliente. Si observa la figura "Diagrama estructural de un sistema de almacenamiento de datos", queda claro que cuando el servidor está conectado directamente al bastidor de dos maneras, deben estar conectados a los puertos FC de varios módulos de procesador para que el servidor continúe funcionando si todo el módulo del procesador falla de inmediato. Naturalmente, para usar múltiples rutas, el hardware y el software deben proporcionar soporte para esta funcionalidad en todos los niveles involucrados en la transferencia de datos. Por supuesto, la copia de seguridad completa sin herramientas de monitoreo y advertencia no tiene sentido; por lo tanto, todos los sistemas de almacenamiento serios tienen tales capacidades. Por ejemplo, la notificación de cualquier evento crítico puede ocurrir por varios medios: una alerta por correo electrónico, una llamada de módem automática al centro de soporte técnico, un mensaje a un buscapersonas (ahora más relevante que SMS), mecanismos SNMP y más.

Bueno, y como ya mencionamos, hay controles poderosos para toda esta magnificencia. Por lo general, esta es una interfaz basada en web, una consola, la capacidad de escribir scripts e integrar el control en paquetes de software externos. Acerca de los mecanismos que proporcionan almacenamiento de alto rendimiento, solo mencionamos brevemente: arquitectura sin bloqueo con varios buses internos y mucho discos duros, potentes procesadores centrales, sistema de control especializado (SO), una gran cantidad de memoria caché, muchas interfaces de E / S externas.

Los servicios proporcionados por los sistemas de almacenamiento generalmente están determinados por el software que se ejecuta en el bastidor del disco. Casi siempre, estos son paquetes de software complejos comprados bajo licencias separadas que no están incluidos en el costo del almacenamiento en sí. Mencionaremos de inmediato el software familiar para múltiples rutas: simplemente funciona en hosts, no en el rack en sí.

La siguiente solución más popular es el software para crear copias instantáneas y completas de datos. Diferentes fabricantes tienen diferentes nombres para sus productos de software y mecanismos para crear estas copias. Para resumir, podemos manipular las palabras instantánea y clonar. Se crea un clon utilizando el bastidor de disco dentro del bastidor en sí; esta es una copia interna completa de los datos. El alcance de la aplicación es bastante amplio: desde la copia de seguridad hasta la creación de una "versión de prueba" de los datos de origen, por ejemplo, para actualizaciones riesgosas en las que no hay confianza y que no es seguro usar en los datos actuales. Cualquiera que haya seguido de cerca todos los encantos de almacenamiento que analizamos aquí preguntará: ¿por qué necesita una copia de seguridad de datos dentro del bastidor si tiene una confiabilidad tan alta? La respuesta a esta pregunta en la superficie es que nadie es inmune a los errores humanos. Los datos se almacenan de manera confiable, pero si el operador mismo hizo algo mal, por ejemplo, eliminó la tabla deseada en la base de datos, ningún truco de hardware podría salvarlo. La clonación de datos generalmente se realiza a nivel de LUN. El mecanismo de instantánea proporciona una funcionalidad más interesante. Hasta cierto punto, obtenemos todos los encantos de una copia interna completa de los datos (clon), sin ocupar el 100% de la cantidad de datos copiados dentro del bastidor, porque ese volumen no siempre está disponible para nosotros. De hecho, una instantánea es una instantánea instantánea de datos que no requiere tiempo ni recursos de almacenamiento del procesador.

Por supuesto, uno no puede dejar de mencionar el software de replicación de datos, que a menudo se llama duplicación. Este es un mecanismo para la replicación síncrona o asíncrona (duplicación) de información de un sistema de almacenamiento a uno o más sistemas de almacenamiento remoto. La replicación es posible a través de varios canales; por ejemplo, los racks con interfaces FibreChannel se pueden replicar a otro sistema de almacenamiento de forma asincrónica, a través de Internet y a largas distancias. Esta solución proporciona almacenamiento confiable de información y protección contra desastres.

Además de todo lo anterior, hay una gran cantidad de otros mecanismos de software para la manipulación de datos ...

DAS y NAS y SAN

Después de familiarizarse con los sistemas de almacenamiento de datos, los principios de su construcción, las capacidades que proporcionan y los protocolos de funcionamiento, es hora de intentar combinar los conocimientos adquiridos en un esquema de trabajo. Intentemos considerar los tipos de sistemas de almacenamiento y la topología de su conexión a una única infraestructura de trabajo.

Dispositivos DAS (almacenamiento adjunto directo)   - sistemas de almacenamiento que se conectan directamente al servidor. Esto incluye los sistemas SCSI más simples conectados al controlador SCSI / RAID del servidor y los dispositivos FibreChannel conectados directamente al servidor, aunque están diseñados para SAN. En este caso, la topología DAS es una SAN (red de área de almacenamiento) degenerada:

images \\ RAID \\ 12.gif

En este esquema, uno de los servidores tiene acceso a los datos almacenados en el sistema de almacenamiento. Los clientes acceden a los datos accediendo a este servidor a través de la red. Es decir, el servidor tiene acceso bloqueado a los datos en el sistema de almacenamiento, y los clientes ya usan el acceso a archivos; este concepto es muy importante para comprender. Las desventajas de dicha topología son obvias:
* Baja confiabilidad: en caso de problemas de red o fallas del servidor, los datos se vuelven inaccesibles para todos a la vez.
* Alta latencia debido al procesamiento de todas las solicitudes por un servidor y el transporte utilizado (con mayor frecuencia - IP).
* Alta carga de red, que a menudo define límites de escalabilidad al agregar clientes.
* Mala capacidad de administración: toda la capacidad está disponible para un servidor, lo que reduce la flexibilidad de la distribución de datos.
* Baja utilización de recursos: es difícil predecir los volúmenes de datos requeridos, algunos dispositivos DAS en una organización pueden tener un exceso de capacidad (discos), otros pueden no tener suficiente; la redistribución a menudo es imposible o lleva mucho tiempo.

Dispositivos NAS (almacenamiento conectado a la red) - dispositivos de almacenamiento conectados directamente a la red. A diferencia de otros sistemas, NAS proporciona acceso a archivos a datos y nada más. Los dispositivos NAS son una combinación del sistema de almacenamiento y el servidor al que está conectado. En su forma más simple, un servidor de red regular que proporciona recursos de archivos es un dispositivo NAS:

images \\ RAID \\ 13.gif

Todas las desventajas de tal esquema son similares a la topología DAS, con algunas excepciones. De los inconvenientes que se han agregado, notamos un costo aumentado, y a menudo significativamente, sin embargo, el costo es proporcional a la funcionalidad, y aquí ya a menudo hay "algo por lo que pagar". Los dispositivos NAS pueden ser las "cajas" más simples con un puerto ethernet y dos discos duros en RAID1, lo que permite el acceso a los archivos utilizando solo un protocolo CIFS (Common Internet File System) a grandes sistemas en los que se pueden instalar cientos de discos duros y acceso a archivos proporcionado por una docena de servidores especializados dentro del sistema NAS. La cantidad de puertos Ethernet externos puede alcanzar muchas decenas, y la capacidad de los datos almacenados es de varios cientos de terabytes (por ejemplo, EMC Celerra CNS). La confiabilidad y el rendimiento de dichos modelos pueden omitir muchos dispositivos de rango medio SAN. Curiosamente, los dispositivos NAS pueden ser parte de una red SAN y no tienen sus propias unidades, sino que solo proporcionan acceso a los datos almacenados en dispositivos de almacenamiento en bloque. En este caso, el NAS asume la función de un poderoso servidor especializado, y el SAN asume el dispositivo de almacenamiento, es decir, obtenemos la topología DAS, compuesta de componentes NAS y SAN.

Los dispositivos NAS son muy buenos en un entorno heterogéneo donde necesita un acceso rápido a los archivos de datos para muchos clientes al mismo tiempo. También proporciona excelente confiabilidad de almacenamiento y flexibilidad de administración del sistema junto con facilidad de mantenimiento. No nos detendremos en la confiabilidad: este aspecto del almacenamiento se discutió anteriormente. En cuanto a un entorno heterogéneo, el acceso a los archivos dentro de un único sistema NAS se puede obtener a través de TCP / IP, CIFS, NFS, FTP, TFTP y otros, incluida la capacidad de trabajar como un objetivo NAS iSCSI, lo que garantiza el funcionamiento con varios sistemas operativos, instalado en hosts. En cuanto a la facilidad de mantenimiento y la flexibilidad de administración, estas capacidades son proporcionadas por un sistema operativo especializado, que es difícil de deshabilitar y no necesita mantenimiento, así como la facilidad de delimitar los permisos de archivos. Por ejemplo, es posible trabajar en el entorno de Windows Active Directory con soporte para la funcionalidad requerida: puede ser LDAP, Autenticación Kerberos, DNS dinámico, ACL, cuotas (cuotas), Objetos de política de grupo e historial de SID. Dado que se proporciona acceso a los archivos y sus nombres pueden contener símbolos de varios idiomas, muchos NAS brindan soporte para codificaciones Unicode UTF-8. La elección del NAS debe abordarse incluso con más cuidado que los dispositivos DAS, ya que dicho equipo puede no admitir los servicios que necesita, por ejemplo, Sistemas de cifrado de archivos (EFS) de Microsoft e IPSec. Por cierto, uno puede notar que los NAS están mucho menos extendidos que los dispositivos SAN, pero el porcentaje de tales sistemas sigue creciendo constantemente, aunque lentamente, principalmente debido al desplazamiento del DAS.

Dispositivos para conectarse SAN (red de área de almacenamiento)   - dispositivos para conectarse a una red de almacenamiento de datos. Una red de área de almacenamiento (SAN) no debe confundirse con una red de área local; estas son redes diferentes. La mayoría de las veces, la SAN se basa en la pila de protocolos FibreChannel y, en el caso más simple, consiste en sistemas de almacenamiento, conmutadores y servidores conectados por canales ópticos de comunicación. En la figura, vemos una infraestructura altamente confiable en la que los servidores están conectados simultáneamente a la red local (izquierda) y a la red de almacenamiento (derecha):

images \\ RAID \\ 14.gif

Después de una discusión bastante detallada de los dispositivos y sus principios de funcionamiento, será bastante fácil para nosotros comprender la topología SAN. En la figura, vemos un único sistema de almacenamiento para toda la infraestructura, al que están conectados dos servidores. Los servidores tienen rutas de acceso redundantes: cada uno tiene dos HBA (o un puerto dual, lo que reduce la tolerancia a fallas). El dispositivo de almacenamiento tiene 4 puertos por los cuales está conectado a 2 conmutadores. Suponiendo que hay dos módulos de procesador redundantes en el interior, es fácil adivinar que el mejor esquema de conexión es cuando cada conmutador está conectado al primer y al segundo módulo de procesador. Dicho esquema proporciona acceso a cualquier dato ubicado en el sistema de almacenamiento en caso de falla de cualquier módulo de procesador, conmutador o ruta de acceso. Ya hemos estudiado la confiabilidad de los sistemas de almacenamiento, dos conmutadores y dos fábricas aumentan aún más la disponibilidad de la topología, por lo que si una de las unidades de conmutación falla repentinamente debido a una falla o un error del administrador, la segunda funcionará normalmente, porque estos dos dispositivos no están interconectados.

La conexión del servidor que se muestra se denomina conexión de alta disponibilidad, aunque se puede instalar un número aún mayor de HBA en el servidor si es necesario. Físicamente, cada servidor tiene solo dos conexiones en la SAN, pero lógicamente, el sistema de almacenamiento es accesible a través de cuatro rutas: cada HBA proporciona acceso a dos puntos de conexión en el sistema de almacenamiento, por separado para cada módulo de procesador (esta característica proporciona una doble conexión del conmutador al sistema de almacenamiento). En este diagrama, el dispositivo menos confiable es el servidor. Dos conmutadores proporcionan una confiabilidad del orden del 99,99%, pero el servidor puede fallar por varias razones. Si se requiere una operación altamente confiable de todo el sistema, los servidores se combinan en un clúster, el diagrama anterior no requiere ninguna adición de hardware para organizar dicho trabajo y se considera el esquema de referencia de la organización SAN. El caso más simple son los servidores conectados de una sola manera a través de un conmutador al sistema de almacenamiento. Sin embargo, el sistema de almacenamiento con dos módulos de procesador debe estar conectado al conmutador con al menos un canal para cada módulo; los puertos restantes se pueden usar para la conexión directa de servidores al sistema de almacenamiento, lo que a veces es necesario. Y no olvide que la SAN se puede construir no solo sobre la base de FibreChannel, sino también sobre la base del protocolo iSCSI; al mismo tiempo, puede usar solo dispositivos Ethernet estándar para la conmutación, lo que reduce el costo del sistema, pero tiene una serie de desventajas adicionales (especificadas en la sección sobre iSCSI ) También es interesante la capacidad de cargar servidores desde el sistema de almacenamiento; ni siquiera es necesario tener discos duros internos en el servidor. Por lo tanto, la tarea de almacenar cualquier dato finalmente se elimina de los servidores. En teoría, un servidor especializado se puede convertir en una trituradora de números ordinaria sin unidades, cuyos bloques definidores son procesadores centrales, memoria e interfaces para interactuar con el mundo exterior, como los puertos Ethernet y FibreChannel. Algunos de estos dispositivos son servidores blade modernos.

Me gustaría señalar que los dispositivos que se pueden conectar a la SAN no se limitan solo a los sistemas de almacenamiento en disco: pueden ser bibliotecas de discos, bibliotecas de cintas (unidades de cinta), dispositivos para almacenar datos en discos ópticos (CD / DVD, etc.) y muchos otros.
De los inconvenientes de SAN, observamos solo el alto costo de sus componentes, pero las ventajas son innegables:
* Alta confiabilidad de acceso a datos ubicados en sistemas de almacenamiento externo. Independencia de la topología SAN de los sistemas y servidores de almacenamiento usados.
* Almacenamiento centralizado de datos (confiabilidad, seguridad).
* Gestión centralizada conveniente de conmutación y datos.
* Transfiera tráfico de E / S intensivo a una red separada, descargando LAN.
* Alta velocidad y baja latencia.
* Escalabilidad y flexibilidad estructura lógica   San
* Geográficamente, los tamaños de SAN, a diferencia de los DAS clásicos, son prácticamente ilimitados.
* Capacidad para distribuir rápidamente recursos entre servidores.
* Capacidad para construir soluciones de clúster tolerantes a fallas sin costo adicional basado en la SAN existente.
* Esquema de copia de seguridad simple: todos los datos están en un solo lugar.
* La presencia de características y servicios adicionales (instantáneas, replicación remota).
* SAN de alta seguridad.

En conclusión
Creo que hemos cubierto adecuadamente la gama principal de problemas relacionados con los sistemas de almacenamiento modernos. Esperemos que tales dispositivos se desarrollen funcionalmente aún más rápidamente, y la cantidad de mecanismos de administración de datos solo crecerá.

En conclusión, podemos decir que las soluciones NAS y SAN actualmente están experimentando un verdadero auge. El número de fabricantes y la variedad de soluciones están aumentando, y la educación técnica de los consumidores está creciendo. Podemos suponer con seguridad que en el futuro cercano en casi todos los entornos informáticos, aparecerá uno u otro sistema de almacenamiento de datos.

Cualquier dato aparece ante nosotros en forma de información. El significado del trabajo de cualquier dispositivo informático es el procesamiento de la información. En recientemente   sus volúmenes de crecimiento a veces dan miedo, por lo que los sistemas de almacenamiento y el software especializado serán sin duda los productos de TI más buscados en los próximos años.

Que es esto
Red de almacenamiento de datoso Storage Area Network es un sistema que consta de los dispositivos de almacenamiento reales (disco o RAID), matrices, bibliotecas de cintas y otras cosas, el medio de transmisión de datos y los servidores conectados a él. Por lo general, es utilizado por compañías lo suficientemente grandes con una infraestructura de TI bien desarrollada para el almacenamiento confiable de datos y el acceso de alta velocidad a ellos.
  Simplificado, el almacenamiento es un sistema que le permite distribuir servidores confiables unidades rápidas   capacitancia variable con diferentes dispositivos   almacenamiento de datos

Un poco de teoría
  El servidor se puede conectar al almacén de datos de varias maneras.
El primero y más simple es DAS, almacenamiento conectado directo (conexión directa), colocamos unidades en el servidor o una matriz en el adaptador del servidor, y obtenemos muchos gigabytes de espacio en disco con relativamente acceso rápido, y cuando se utiliza una matriz RAID: fiabilidad suficiente, aunque las lanzas sobre el tema de la fiabilidad han existido durante mucho tiempo.
  Sin embargo, este uso del espacio en disco no es óptimo: en un servidor se agota el lugar, en el otro todavía hay mucho. La solución a este problema es NAS, almacenamiento conectado a la red (almacenamiento conectado a la red). Sin embargo, con todas las ventajas de esta solución (flexibilidad y administración centralizada), existe un inconveniente importante: la velocidad de acceso, la red de 10 gigabits aún no está implementada en todas las organizaciones. Y nos estamos acercando a una red de almacenamiento.

La principal diferencia entre una SAN y un NAS (además del orden de las letras en abreviaturas) es cómo se ven los recursos conectados en el servidor. Si los recursos NAS están conectados a los protocolos NFS o SMB, en la SAN obtenemos una conexión al disco, con la que podemos trabajar a nivel de operaciones de bloque de E / S, que es mucho más rápido que una conexión de red (más un controlador de matriz con una memoria caché grande agrega velocidad a muchas operaciones).

Usando SAN, combinamos las ventajas de DAS - velocidad y simplicidad, y NAS - flexibilidad y capacidad de control. Además, tenemos la capacidad de escalar los sistemas de almacenamiento hasta que haya suficiente dinero, al mismo tiempo que matamos a varias aves más de un tiro, que no son visibles de inmediato:

  * eliminar restricciones en el rango de conexión de dispositivos SCSI, que generalmente se limitan a un cable de 12 metros,
   * reducir el tiempo de respaldo,
   * podemos arrancar desde SAN,
   * en caso de rechazo del NAS, descargamos una red,
   * obtenemos una alta velocidad de entrada-salida debido a la optimización en el lado del sistema de almacenamiento,
   * tiene la oportunidad de conectar varios servidores a un recurso, luego nos da las siguientes dos aves de un tiro:
   o aprovechar al máximo las capacidades de VMWare, por ejemplo VMotion (migración de máquinas virtuales entre máquinas físicas) y otras similares,
   o podemos construir clústeres de conmutación por error y organizar redes distribuidas geográficamente.

Que da
  Además de desarrollar el presupuesto para optimizar el sistema de almacenamiento, obtenemos, además de lo que escribí anteriormente:

  * aumento de la productividad, equilibrio de carga y alta disponibilidad de sistemas de almacenamiento debido a varias formas de acceder a los arreglos;
   * ahorro en discos al optimizar la ubicación de la información;
* recuperación acelerada de fallas: puede crear recursos temporales, implementar una copia de seguridad en ellos y conectar servidores a ellos, y restaurar la información usted mismo sin prisa, o transferir recursos a otros servidores y lidiar con calma con hierro muerto;
   * Tiempo de copia de seguridad reducido: gracias a la alta velocidad de transferencia, puede realizar copias de seguridad en la biblioteca de cintas más rápido, o incluso tomar una instantánea (instantánea) del sistema de archivos y archivarla de manera segura;
   * espacio en disco bajo demanda, cuando lo necesitamos, siempre puede agregar un par de estantes al sistema de almacenamiento.
   * reducir el costo de almacenar un megabyte de información; por supuesto, hay un cierto umbral a partir del cual estos sistemas son rentables.
   * Un lugar confiable para almacenar datos críticos de misión y negocios (sin los cuales la organización no puede existir y funcionar normalmente).
   * Quiero mencionar VMWare por separado: todos los chips, como la migración de máquinas virtuales de un servidor a otro y otras ventajas, solo están disponibles en la SAN.

¿En que consiste?
  Como escribí anteriormente, SHD consta de dispositivos de almacenamiento, medios de transmisión y servidores conectados. Consideremos en orden:

Sistemas de almacenamiento de datos   generalmente consiste en discos duros   y controladores, en un sistema que se respeta a sí mismo, generalmente solo 2 - 2 controladores, 2 rutas a cada unidad, 2 interfaces, 2 fuentes de alimentación, 2 administradores. Entre los fabricantes de sistemas más respetados, debe mencionarse a HP, IBM, EMC e Hitachi. Aquí citaré a un representante de EMC en el seminario: “HP fabrica excelentes impresoras. ¡Bueno, déjala hacerlos! Sospecho que a HP también le encanta EMC. Sin embargo, la competencia entre fabricantes es grave, como en otros lugares. Las consecuencias de la competencia a veces son precios razonables por megabyte del sistema de almacenamiento y problemas con la compatibilidad y el soporte de los estándares de la competencia, especialmente para equipos viejos.

Medio de transferencia de datos. Por lo general, las SAN se basan en la óptica, que actualmente ofrece una velocidad de 4, a veces 8 gigabits por canal. Al construir, antes se usaban centros especializados, ahora hay más conmutadores, principalmente de Qlogic, Brocade, McData y Cisco (nunca he visto los dos últimos en los sitios). Los cables se usan tradicionalmente para redes ópticas: monomodo y multimodo, monomodo más largo.
En el interior, se utiliza FCP: Protocolo de canal de fibra, un protocolo de transporte. Por lo general, el SCSI clásico se ejecuta dentro de él, y FCP proporciona direccionamiento y entrega. Hay una opción para conectarse a través de una red regular e iSCSI, pero generalmente usa (y carga mucho) una red local y no dedicada para la transferencia de datos, y requiere adaptadores con soporte iSCSI, bueno, la velocidad es más lenta que en la óptica.

También hay una topología de palabras inteligente, que se encuentra en todos los libros de texto en SAN. Hay varias topologías, la opción más simple es punto a punto, conectamos 2 sistemas. Esto no es DAS, pero un caballo esférico en vacío es la versión más simple de SAN. Luego viene el circuito controlado (FC-AL), funciona según el principio de "transmisión": el transmisor de cada dispositivo está conectado al receptor del siguiente, los dispositivos están cerrados en un anillo. Las cadenas largas tienden a inicializarse durante mucho tiempo.

Bueno, la opción final es una tela conmutada (Fabric), se crea usando interruptores. La estructura de las conexiones se construye dependiendo del número de puertos conectados, como en la construcción de una red local. El principio básico de construcción es que todas las rutas y conexiones están duplicadas. Esto significa que hay al menos 2 rutas diferentes a cada dispositivo en la red. Aquí, también se usa la palabra topología, en el sentido de organizar un diagrama de conexión del dispositivo y conectar interruptores. En este caso, por regla general, los conmutadores se configuran para que los servidores no vean nada más que los recursos destinados a ellos. Esto se logra mediante la creación de redes virtuales y se llama zonificación, la analogía más cercana es VLAN. A cada dispositivo en la red se le asigna una dirección MAC analógica en la red Ethernet, se llama WWN - World Wide Name. Se asigna a cada interfaz y cada recurso (LUN) de los sistemas de almacenamiento. Las matrices y los conmutadores pueden distinguir entre el acceso WWN para los servidores.

Servidor   Conéctese al almacenamiento a través de HBA - Adaptadores de bus host. Por analogía con las tarjetas de red, hay adaptadores de uno, dos y cuatro puertos. Los mejores criadores de perros recomiendan instalar 2 adaptadores por servidor, esto permite tanto el equilibrio de carga como la confiabilidad.

Y luego los recursos se recortan en los sistemas de almacenamiento, son los LUN para cada servidor y se deja un lugar en la reserva, todo se enciende, los instaladores del sistema prescriben la topología, detectan fallas en la configuración de los interruptores y el acceso, todo comienza y todos viven felices para siempre *.
Específicamente, no toco los diferentes tipos de puertos en la red óptica, quien lo necesite, ya lo sabe o lee, quién no lo necesita, solo martillea su cabeza. Pero, como de costumbre, si el tipo de puerto está configurado incorrectamente, nada funcionará.

Por experiencia.
  Por lo general, al crear una SAN, se ordenan matrices con varios tipos de discos: FC para aplicaciones de alta velocidad y SATA o SAS para aplicaciones no muy rápidas. De este modo, se obtienen 2 grupos de discos con un costo de megabytes diferente: caro y rápido, y lento y tristemente barato. Por lo general, todas las bases de datos y otras aplicaciones con E / S activas y rápidas se bloquean en la rápida, mientras que los recursos de archivos y todo lo demás se cuelgan en la lenta.

Si se crea una SAN desde cero, tiene sentido construirla sobre la base de las soluciones de un fabricante. El hecho es que, a pesar del cumplimiento declarado de las normas, existen rastrillos submarinos del problema de compatibilidad del equipo, y no el hecho de que parte del equipo funcionará entre sí sin bailar con una pandereta y consultar con los fabricantes. Por lo general, para abordar estos problemas, es más fácil llamar a un integrador y darle dinero que comunicarse con los fabricantes que cambian las flechas.

Si la SAN se crea sobre la base de la infraestructura existente, todo puede ser complicado, especialmente si hay matrices SCSI antiguas y un antiguo zoológico tecnológico de diferentes fabricantes. En este caso, tiene sentido pedir ayuda a la terrible bestia de un integrador que resolverá problemas de compatibilidad y construirá una tercera villa en las Islas Canarias.

A menudo, al crear sistemas de almacenamiento, las empresas no solicitan asistencia del fabricante para el sistema. Esto generalmente se justifica si la empresa cuenta con un personal de administradores competentes competentes (que ya me han llamado una tetera 100 veces) y una cantidad justa de capital, lo que permite comprar piezas de repuesto en las cantidades requeridas. Sin embargo, los integradores atraen a los administradores competentes (yo mismo lo vi), pero no asignan dinero para la compra, y después de las fallas, un circo comienza con los gritos de "¡Déjenme despedir a todos!" En lugar de llamar al soporte y al ingeniero que llega con una pieza de repuesto.

El soporte generalmente se reduce a reemplazar discos y controladores muertos, y a agregar repisas de discos y nuevos servidores al sistema. Suceden muchos problemas después de una prevención repentina del sistema por parte de especialistas locales, especialmente después de un apagado completo y desmontaje-montaje del sistema (y esto sucede).

Sobre VMWare Hasta donde yo sé (los especialistas en virtualización me corrigen), solo VMWare e Hyper-V tienen una funcionalidad que le permite transferir máquinas virtuales entre servidores físicos sobre la marcha. Y para su implementación, se requiere que todos los servidores entre los que se mueve la máquina virtual estén conectados al mismo disco.

Sobre los racimos. De manera similar al caso de VMWare, los sistemas que conozco sobre la construcción de clústeres de conmutación por error (Sun Cluster, Veritas Cluster Server) que sé que requieren almacenamiento conectado a todos los sistemas.

Mientras escribían un artículo, me preguntaron, ¿en qué RAID suelen combinar las unidades?
  En mi práctica, generalmente hicieron RAID 1 + 0 en cada estante de disco con discos FC, dejando 1 disco de repuesto (repuesto dinámico) y cortaron LUN de esta pieza para tareas, o hicieron RAID5 desde discos lentos, dejando nuevamente 1 disco para reemplazo Pero aquí la pregunta es compleja, y generalmente la forma de organizar discos en una matriz se selecciona para cada situación y se justifica. El mismo EMC, por ejemplo, va más allá, y tienen ajuste adicional   matriz para aplicaciones que trabajan con él (por ejemplo, bajo OLTP, OLAP). No profundicé tanto con los otros proveedores, pero supongo que todos tienen un ajuste fino.

  * antes de la primera falla importante, después de lo cual el soporte generalmente se adquiere del fabricante o proveedor del sistema.
  Como no hay comentarios en el sandbox, lo publicaré en mi blog personal.

Etiquetas: Agregar etiquetas

Si los servidores son dispositivos universales que funcionan en la mayoría de los casos
   - una función del servidor de aplicaciones (cuando se ejecuta en el servidor programas especiales, y hay cálculos intensivos)
   - una función del servidor de archivos (es decir, un lugar determinado para el almacenamiento centralizado de archivos de datos)

luego SHD (Data Storage Systems): dispositivos especialmente diseñados para realizar funciones de servidor como el almacenamiento de datos.

La necesidad de comprar almacenamiento
   generalmente surge en empresas suficientemente maduras, es decir aquellos que piensan en cómo
   - almacenar y administrar información, el activo más valioso de la compañía
   - Garantizar la continuidad del negocio y la protección contra la pérdida de datos.
   - aumentar la adaptabilidad de la infraestructura de TI

Almacenamiento y virtualización
   La competencia obliga a las PYME a trabajar de manera más eficiente, sin tiempo de inactividad y con alta eficiencia. El cambio de modelos de producción, planes tarifarios, tipos de servicios está sucediendo cada vez más a menudo. Todo el negocio de las empresas modernas está "vinculado" a tecnología de la información. Las necesidades comerciales cambian rápidamente y afectan instantáneamente a TI: los requisitos de confiabilidad y adaptabilidad de la infraestructura de TI están creciendo. La virtualización proporciona estas capacidades, pero requiere sistemas de almacenamiento de bajo costo y fáciles de mantener.

Clasificación de almacenamiento por tipo de conexión

Das. Las primeras matrices de discos conectadas a los servidores a través de SCSI. Al mismo tiempo, un servidor podría funcionar con una sola matriz de discos. Esta es una conexión de almacenamiento directo (DAS - Almacenamiento conectado directo).

NAS. Para una organización más flexible de la estructura del centro de datos, para que cada usuario pueda usar cualquier sistema de almacenamiento, es necesario conectar el sistema de almacenamiento a la red local. Esto es NAS - Almacenamiento conectado a la red). Pero el intercambio de datos entre el servidor y el sistema de almacenamiento es muchas veces más intenso que entre el cliente y el servidor, por lo que en esta versión hubo dificultades objetivas asociadas con el ancho de banda de la red Ethernet. Y desde el punto de vista de la seguridad, no es del todo correcto mostrar los sistemas de almacenamiento en una red compartida.

San. Pero puede crear su propia red de alta velocidad separada entre servidores y almacenamiento. Dicha red se llamaba SAN (red de área de almacenamiento). El rendimiento está asegurado por el hecho de que el medio de transmisión física allí es óptico. Los adaptadores especiales (HBA) y los conmutadores ópticos FC proporcionan transmisión de datos a velocidades de 4 y 8 Gbit / s. La fiabilidad de dicha red se mejoró mediante la redundancia (duplicación) de canales (adaptadores, conmutadores). La principal desventaja es el alto precio.

iSCSI. Con la llegada de las tecnologías Ethernet de bajo costo de 1 Gbit / sy 10 Gbit / s, la óptica con una velocidad de transmisión de 4 Gbit / s no parece tan atractiva, especialmente teniendo en cuenta el precio. Por lo tanto, el protocolo iSCSI (Internet Small Computer System Interface) se usa cada vez más como un entorno SAN. Una SAN iSCSI se puede construir sobre cualquier base física lo suficientemente rápida que admita IP.

Clasificación de sistemas de almacenamiento por aplicación:

   la clase    la descripcion
   personal

La mayoría de las veces son de 3.5 "o 2.5" o 1.8 "normales disco durocolocado en un estuche especial y equipado con USB y / o FireWire 1394 y / o Ethernet, y / o interfaces eSATA.
   Por lo tanto, tenemos un dispositivo portátil que puede conectarse a una computadora / servidor y realizar funciones almacenamiento externo. A veces, para mayor comodidad, se agregan al dispositivo acceso inalámbrico, impresora y puertos USB.

   pequeño grupo de trabajo

Por lo general, este es un dispositivo estacionario o portátil, en el que puede instalar varios discos duros SATA (con mayor frecuencia de 2 a 5), \u200b\u200bcon o sin intercambio en caliente, que tengan una interfaz Ethernet. Los discos se pueden organizar en matrices RAID de varios niveles para lograr una alta fiabilidad de almacenamiento y velocidad de acceso. El sistema de almacenamiento tiene un sistema operativo especializado, generalmente basado en Linux, y le permite diferenciar el nivel de acceso por nombre de usuario y contraseña, organizar cuotas de espacio en disco, etc.
   Dichos sistemas de almacenamiento son adecuados para grupos de trabajo pequeños, como la sustitución de servidores de archivos.

grupo de trabajo

   El dispositivo generalmente está montado en un bastidor de 19 "(montaje en bastidor) en el que puede instalar unidades HotSwap intercambiables en caliente SATA o SAS de 12-24. Tiene una interfaz externa Ethernet o iSCSI. Las unidades están organizadas en matrices RAID para lograr una alta fiabilidad del almacenamiento y velocidad de acceso El almacenamiento viene con un software especializado que le permite diferenciar los niveles de acceso, organizar cuotas para el espacio en disco, organizar copias de seguridad (información de copia de seguridad), etc.
   Dichos sistemas de almacenamiento son adecuados para empresas medianas y grandes, y se utilizan junto con uno o más servidores.
   empresa
   Un dispositivo estacionario o un dispositivo montado en un bastidor de 19 "(montaje en bastidor) en el que puede instalar hasta cientos de discos duros.
   Además de la clase anterior, los sistemas de almacenamiento pueden tener la capacidad de construir, actualizar y reemplazar componentes sin detener el sistema de monitoreo. El software puede admitir instantáneas y otras funciones avanzadas.
   Estos sistemas de almacenamiento son adecuados para grandes empresas y brindan mayor confiabilidad, velocidad y protección de datos críticos.

empresa de alta gama

Además de la clase anterior, el almacenamiento puede admitir miles de discos duros.
   Dichos sistemas de almacenamiento ocupan varios gabinetes de 19 ", el peso total alcanza varias toneladas.
   Los sistemas de almacenamiento están diseñados para una operación continua con el más alto grado de confiabilidad, almacenando datos estratégicamente importantes a nivel estatal / corporativo.

Antecedentes

Los primeros servidores combinaron todas las funciones (como las computadoras) en un paquete, tanto la informática (servidor de aplicaciones) como el almacenamiento de datos (servidor de archivos). Pero a medida que la demanda de aplicaciones en potencia informática aumenta, por un lado, y la cantidad de datos procesados, por otro lado, se ha vuelto simplemente inconveniente colocar todo en un paquete. Resultó ser más efectivo sacar matrices de discos en casos separados. Pero aquí surgió la cuestión de conectar la matriz de discos al servidor. Las primeras matrices de discos conectadas a los servidores a través de SCSI. Pero en este caso, un servidor podría funcionar con una sola matriz de discos. La gente quería una organización más flexible de la estructura del centro de datos, para que cualquier servidor pudiera usar cualquier sistema de almacenamiento. Conectar todos los dispositivos directamente a la red local y organizar el intercambio de datos a través de Ethernet es, por supuesto, una solución simple y universal. Pero el intercambio de datos entre servidores y almacenamiento es muchas veces más intenso que entre clientes y servidores, por lo tanto, en esta versión (NAS - ver más abajo) hubo dificultades objetivas asociadas con el ancho de banda de la red Ethernet. Hubo una idea para crear su propia red de alta velocidad separada entre servidores y almacenamiento. Dicha red se llamaba SAN (ver más abajo). Es similar a Ethernet, solo el medio de transmisión física allí es óptico. También hay adaptadores (HBA) que se instalan en servidores y conmutadores (ópticos). Estándares para la velocidad de transmisión de datos para la óptica: 4 Gbit / s. Con la llegada de las tecnologías Ethernet de 1 Gbit / sy 10 Gbit / s, así como del protocolo iSCSI, Ethernet se utiliza cada vez más como un entorno SAN.

Entonces, número 1: "Sistemas de almacenamiento de datos".

Sistemas de almacenamiento de datos.

En inglés se llaman en una palabra: almacenamiento, lo cual es muy conveniente. Pero esta palabra se traduce bastante torpemente al ruso: "repositorio". A menudo, en la jerga de "IT Schnicks", usan la palabra "almacenar" en la transcripción rusa, o la palabra "custodio", pero esto ya es bastante malo. Por lo tanto, utilizaremos el término "sistemas de almacenamiento", abreviado como SHD, o simplemente "sistemas de almacenamiento".

Los dispositivos de almacenamiento incluyen cualquier dispositivo para registrar datos: los llamados. "Unidades flash", discos compactos (CD, DVD, ZIP), unidades de cinta (Cinta), discos duros (Disco duro, también se les llama "Winchesters" a la antigua usanza, ya que sus primeros modelos se parecían a un clip con cartuchos con el mismo rifle del siglo XIX), etc. Los discos duros se usan no solo dentro de las computadoras, sino también como dispositivos USB externos para registrar información, e incluso Por ejemplo, uno de los primeros iPods fue un pequeño disco duro de 1.8 pulgadas con salida de auriculares y una pantalla incorporada.

Recientemente, el llamado. Los sistemas de almacenamiento SSD de "estado sólido" (disco de estado sólido o unidad de estado sólido), que son similares en principio a la "unidad flash" para una cámara o teléfono inteligente, solo tienen un controlador y una mayor cantidad de datos almacenados. A diferencia de disco duroEl SSD no tiene partes mecánicamente móviles. Hasta ahora, los precios de tales sistemas de almacenamiento son bastante altos, pero están disminuyendo rápidamente.

Todos estos son dispositivos de consumo, y entre los sistemas industriales es necesario destacar, en primer lugar, los sistemas de almacenamiento de hardware: matrices de discos duros, los llamados Controladores RAID para ellos, sistemas de almacenamiento en cinta para almacenamiento a largo plazo   datos Además, hay una clase separada: controladores para sistemas de almacenamiento, para gestionar la copia de seguridad de datos, crear "instantáneas" en el sistema de almacenamiento para su posterior recuperación, replicación de datos, etc.). Los sistemas de almacenamiento también incluyen dispositivos de red (HBA, conmutadores de canal de fibra, cables FC / SAS, etc.). Y, por último, se han desarrollado soluciones a gran escala para el almacenamiento de datos, el archivo, la recuperación de datos y la recuperación ante desastres.

¿De dónde provienen los datos a almacenar? De nosotros, seres queridos, usuarios, desde programas de aplicación, correo electrónico, así como desde diversos equipos: servidores de archivos y servidores de bases de datos. Además, el proveedor un gran número   datos - los llamados Dispositivos M2M (comunicación máquina a máquina): todo tipo de sensores, sensores, cámaras, etc.

Por la frecuencia de uso de los datos almacenados, los sistemas de almacenamiento se pueden dividir en sistemas de almacenamiento a corto plazo (almacenamiento en línea), almacenamiento a mediano plazo (almacenamiento cercano a la línea) y sistemas de almacenamiento a largo plazo (almacenamiento fuera de línea).

El primero incluye el disco duro (o SSD) de cualquier computadora personal. El segundo y el tercero son sistemas de almacenamiento externos DAS (almacenamiento conectado directo), que pueden ser una matriz de discos externos (matriz de discos) con respecto a la computadora. Ellos, a su vez, también se pueden subdividir en "solo una matriz de discos" JBOD (Just a Bunch Of Disks) y una matriz con un controlador iDAS (almacenamiento inteligente de matriz de discos).

Los sistemas de almacenamiento externo vienen en tres tipos de DAS (almacenamiento conectado directo), SAN (red de área de almacenamiento) y NAS (almacenamiento conectado a la red). Desafortunadamente, incluso muchos empleados de TI con experiencia no pueden explicar la diferencia entre SAN y NAS, diciendo que una vez hubo esta diferencia, pero ahora supuestamente ya no existe. De hecho, hay una diferencia significativa (ver Fig. 1).

Figura 1. La diferencia entre SAN y NAS.

En una SAN, los propios servidores están realmente conectados al sistema de almacenamiento a través de la red de área de almacenamiento SAN. En el caso de NAS, los servidores de red están conectados a través de LAN a un sistema de archivos compartido en RAID.

Protocolos básicos de conectividad de almacenamiento

Protocolo SCSI   (Small Computer System Interface), pronunciado "Squeeze", un protocolo desarrollado a mediados de los años 80 para conectar dispositivos externos a mini-mini-computadoras. Su versión SCSI-3 es la base de todos los protocolos de comunicación de almacenamiento y utiliza un sistema de comando SCSI común. Sus principales ventajas: independencia del servidor utilizado, la posibilidad de operación en paralelo de varios dispositivos, alta velocidad de transferencia de datos. Desventajas: número limitado de dispositivos conectados, el alcance de la conexión es muy limitado.

Protocolo FC(Fibre Channel), un protocolo interno entre el servidor y el almacenamiento compartido, el controlador, los discos. Es un protocolo de comunicación en serie ampliamente utilizado que funciona a velocidades de 4 u 8 Gigabits por segundo (Gbps). Como su nombre lo indica, funciona a través de la fibra, pero también puede funcionar en el cobre. Fibre Channel es el protocolo principal para los sistemas de almacenamiento FC SAN.

Protocolo ISCSI(Internet Small Computer System Interface), un protocolo estándar para transferir bloques de datos a través del conocido protocolo TCP / IP, es decir SCSI sobre IP iSCSI puede considerarse como una solución de alta velocidad y bajo costo para sistemas de almacenamiento conectados remotamente a través de Internet. iSCSI encapsula los comandos SCSI en paquetes TCP / IP para su transmisión a través de una red IP.

Protocolo SAS(SCSI conectado en serie). SAS utiliza transferencia de datos en serie y es compatible con discos duros SATA. Actualmente, SAS puede transmitir datos en Mp4bs o 6Gpbs, y admite el modo dúplex completo, es decir. puede transmitir datos en ambas direcciones a la misma velocidad.

Tipos de sistemas de almacenamiento.

Se pueden distinguir tres tipos principales de sistemas de almacenamiento:

  • DAS (almacenamiento adjunto directo)
  • NAS (almacenamiento conectado a la red)
  • SAN (red de área de almacenamiento)

Los sistemas de almacenamiento con conexión directa de discos DAS se desarrollaron al final


Figura 2. DAS

Años 70, debido al aumento explosivo en los datos de los usuarios, que simplemente no cabían físicamente en la memoria interna a largo plazo de las computadoras (para los jóvenes, notamos que no estamos hablando del personal allí, no estaban allí entonces, pero computadoras grandesllamado mainframes). La velocidad de transferencia de datos en el DAS no fue muy baja, de 20 a 80 Mbps, pero fue suficiente para las necesidades de entonces.

SHD con conexión de red   NAS apareció a principios de los 90. La razón fue el rápido desarrollo de redes y requisitos críticos para compartiendo   grandes cantidades de datos dentro de la red de la empresa o el operador. El NAS usó una red especial sistema de archivos   CIFS (Windows) o NFS (Linux), por lo que diferentes servidores de diferentes usuarios podrían leer el mismo archivo desde el NAS al mismo tiempo. La velocidad de transferencia de datos ya era mayor: 1 - 10Gbps.


Figura 3. NAS

A mediados de los 90, aparecieron redes para conectar dispositivos de almacenamiento FC SAN. Su desarrollo fue causado por la necesidad de organizar datos dispersos en la red. Un único dispositivo de almacenamiento en una SAN se puede dividir en varios nodos pequeños llamados LUN (Número de unidad lógica), cada uno de los cuales pertenece a un servidor. La tasa de transferencia de datos aumentó a 2-8 Gbps. Dichos sistemas de almacenamiento podrían proporcionar tecnologías de protección de pérdida de datos (instantánea, copia de seguridad).


Figura 4. FC SAN

Otro tipo de SAN es IP SAN (Red de área de almacenamiento de IP), desarrollado a principios de la década de 2000. Los sistemas FC SAN eran caros, difíciles de administrar y las redes IP estaban en la cima del desarrollo, razón por la cual apareció este estándar. Almacenamiento conectado a servidores utilizando un controlador iSCSI a través de conmutadores IP. Velocidad de transferencia de datos: 1 - 10 Gbit / s.


Fig.5. IP SAN.

La tabla muestra algunos características comparativas   Todos los sistemas de almacenamiento revisados:

Das NAS San
FC SAN IP SAN
Tipo de engranaje SCSI, FC, SAS IP FC IP
Tipo de datos Bloque de datos Archivo Bloque de datos Bloque de datos
Aplicación típica Cualquier Servidor de archivos Bases de datos Video vigilancia
Ventaja Facilidad de comprensión

Compatibilidad Superior

Fácil instalación, bajo costo. Buena escalabilidad Buena escalabilidad
Desventajas Manejo de dificultades.

Uso ineficiente de los recursos. Escalabilidad pobre

Rendimiento lento

No aplica para algunas aplicaciones.

Alto costo

Complejidad de configuración

Baja productividad

En resumen, las SAN están diseñadas para transferir bloques de datos masivos al almacenamiento, mientras que los NAS proporcionan acceso a nivel de archivo a los datos. Al combinar SAN + NAS, puede obtener un alto grado de integración de datos, acceso de alto rendimiento y uso compartido de archivos. Dichos sistemas se denominan almacenamiento unificado: "sistemas de almacenamiento unificado".

Sistemas de almacenamiento unificado:arquitectura de almacenamiento de red que admite NAS basado en archivos y SAN orientada a bloques. Dichos sistemas se desarrollaron a principios de la década de 2000 para resolver los problemas de administración y el alto costo total de propiedad de sistemas separados en una empresa. Dicho sistema de almacenamiento es compatible con casi todos los protocolos: FC, iSCSI, FCoE, NFS, CIFS.

Discos duros

Todos los discos duros se pueden dividir en dos tipos principales: HDD (Unidad de disco duro, que, de hecho, se traduce como "disco duro") y SSD (Unidad de estado sólido, la denominada "unidad de estado sólido"). Es decir, ambos discos son discos duros. ¿Qué es, entonces, un "disco blando"? ¿Existe tal cosa? Sí, en el pasado se llamaban "disquetes" (como se llamaban debido al característico sonido de "estallido" en la unidad durante la operación). Las unidades para ellos todavía se pueden ver en los bloques del sistema de las computadoras antiguas que se han conservado en algunas agencias gubernamentales. Sin embargo, con todo el deseo, tales discos magnéticos difícilmente pueden atribuirse a los sistemas de almacenamiento. Estos fueron algunos análogos de las "unidades flash" actuales.

La diferencia entre HDD y SSD es que el HDD tiene varios discos magnéticos coaxiales en su interior y mecánicas complejas que mueven los cabezales magnéticos de lectura y escritura, y el SSD no tiene partes mecánicamente móviles y, de hecho, es solo un chip presionado en plástico. Por lo tanto, llamar a "HDD" solo HDD, estrictamente hablando, es incorrecto.

Los discos duros se pueden clasificar por los siguientes parámetros:

  • Diseño: HDD, SSD;
  • Diámetro del disco duro en pulgadas: 5.25, 3.5, 2.5, 1.8 pulgadas;
  • Interfaz: ATA / IDE, SATA / NL SAS, SCSI, SAS, FC
  • Para una clase de uso: individual (clase de escritorio), corporativo (clase entreprenesie).
SATA SAS NL-SAS SSD
Velocidad de rotación (RPM) 7200 15000/10000 7200 NA
Capacidad típica (TB) 1T / 2T / 3T 0.3T / 0.6T / 0.9T 2T / 3T / 4T 0.1T / 0.2T / 0.4T
MTBF (hora) 1 200 000 1 600 000 1 200 000 2 000 000
Notas El desarrollo de unidades seriales ATA.

SATA 2.0 admite velocidades de transferencia de 300 MB / s, SATA3.0 admite hasta 600 MB / s.

El porcentaje promedio de tasa de falla AFR (tasa de falla anualizada) para unidades SATA es de aproximadamente 2%.

Duro unidades SATA   con interfaz SAS son adecuados para jerárquicos (niveles). La tasa de falla anual promedio AFR (tasa de falla anualizada) para unidades NL-SAS es de aproximadamente 2%. Unidades de estado sólido hechas de chips de memoria electrónica, que incluyen un dispositivo de control y un chip (FLASH / DRAM). La especificación de la interfaz, las funciones y el método de uso son los mismos que los del HDD, el tamaño y la forma también.

Especificaciones del disco duro:

  • Capacidad

En moderno discos duros   La capacidad se mide en gigabytes o terabytes. Para HDD, este valor es un múltiplo de la capacidad de uno disco magnético   dentro de la caja, multiplicado por el número de magnéticos, que generalmente son varios.

  • Velocidad de rotación (solo HDD)

La velocidad de rotación de los discos magnéticos dentro del variador, medida en revoluciones por minuto RPM (Rotación por minuto), suele ser de 5400 RPM o 7200 RPM. Los discos duros con interfaces SCSI / SAS tienen una velocidad de rotación de 10,000-15,000 RPM.

  • Tiempo promedio de acceso \u003dTiempo medio de búsqueda + Tiempo medio de espera, es decir hora de extraer información del disco.
  • Velocidad de datos

Estas son las velocidades de lectura y escritura de datos en el disco duro, medidas en megabytes por segundo (MB / S). Por lo general, difieren entre sí en tamaño.

  • IOPS (entrada / salida por segundo)

El número de operaciones de entrada / salida (o lectura / escritura) por segundo (Operaciones de entrada / salida por segundo), uno de los principales indicadores de medición del rendimiento del disco. Para aplicaciones con operaciones frecuentes de lectura y escritura, como OLTP (procesamiento de transacciones en línea) - procesamiento de transacciones en línea, IOPS es el indicador más importante, porque El rendimiento de la aplicación empresarial depende de ello. Otro indicador importante es el rendimiento de datos, que se puede traducir aproximadamente como "rendimiento de datos", es decir cuántos datos se pueden transferir por unidad de tiempo.

RAID

No importa cuán confiables sean los discos duros, aún los datos en ellos a veces se pierden por varias razones. Por lo tanto, se propuso la tecnología RAID (matriz redundante de discos independientes): una matriz de discos independientes con redundancia de almacenamiento de datos. La redundancia significa que todos los bytes de datos se duplican en otro disco en otro disco y se pueden usar si falla el primer disco. Además, esta tecnología ayuda a aumentar las IOPS.

Los conceptos básicos de RAID son la extracción (la llamada "transmisión" o separación) y la duplicación (la llamada "duplicación" o duplicación) de datos. Sus combinaciones determinan varios tipos   Matrices RAID de discos duros.

Se distinguen los siguientes niveles de RAID:

Las combinaciones de estos tipos dan lugar a varios tipos nuevos de RAID:

La figura ilustra el principio de RAID 0 (particionamiento):


Fig. 6. RAID 0.

Y así se realiza RAID 1 (duplicación):


Fig. 7. RAID 1.

Y así es como funciona RAID 3. XOR es una función lógica OR exclusiva (OR exclusivo). Utilizándolo, se calcula el valor de paridad para los bloques de datos A, B, C, D ..., que se registra en un disco separado.


Fig. 8. RAID 3.

Los esquemas anteriores ilustran bien el principio de RAID y no necesitan comentarios. No proporcionaremos los esquemas de operación de los niveles RAID restantes; aquellos que lo deseen pueden encontrarlos en Internet.

Las características principales de los tipos de RAID se dan en la tabla.

Software de almacenamiento

El software de almacenamiento se puede dividir en las siguientes categorías:

  1. Gestión y administración (Gestión):   gestión y especificación de parámetros de infraestructura: ventilación, refrigeración, modos de operación de disco, etc., gestión de la hora del día, etc.
  2. Protección de datos:   Instantánea ("instantánea" del estado del disco), copia del contenido del LUN, duplicación múltiple (duplicación dividida), duplicación remota de datos (replicación remota), protección continua de datos CDP (protección continua de datos), etc.
  3. Mejora de confiabilidad:varios programas para copiar y reservar múltiples rutas de transmisión de datos dentro del centro de datos y entre ellas.
  4. Aumentar la eficiencia:   Tecnología de aprovisionamiento delgado, almacenamiento en niveles de almacenamiento automático, deduplicación, gestión de calidad de servicio, captación previa de caché, particionamiento, migración automática de datos , disminución en la rotación del disco

Tecnología muy interesante " aprovisionamiento delgado". Como suele ser el caso en TI, los términos son a menudo difíciles de traducir adecuadamente al ruso, por ejemplo, es difícil traducir con precisión la palabra "aprovisionamiento" ("provisión", "soporte", "provisión" - ninguno de estos términos transmite completamente el significado). Y cuando es "delgado" ...

De acuerdo con el principio de "aprovisionamiento delgado", por ejemplo, un préstamo bancario funciona. Cuando un banco otorga diez mil préstamos con un límite de 500 mil, no necesita tener 5 mil millones en la cuenta, ya que los usuarios de tarjetas generalmente no gastan todo el crédito a la vez. Sin embargo, cada usuario individualmente puede usar el monto total o casi total del préstamo si el monto total de los fondos del banco no se ha agotado.

Las empresas de agua y electricidad también trabajan. Al proporcionar servicios de suministro de agua o electricidad, esperan que todos los residentes no abran de inmediato todos los grifos ni enciendan todos los electrodomésticos en sus hogares. Debido al consumo más flexible de recursos, es posible ahorrar en su precio y capacidad de recursos.


Fig. 9) Aprovisionamiento delgado.

Por lo tanto, el uso de aprovisionamiento delgado nos permite resolver el problema de la distribución ineficiente del espacio en la SAN, ahorrar espacio, facilitar los procedimientos administrativos para asignar espacio a las aplicaciones en el almacenamiento y usar la llamada sobre suscripción, es decir, asignar más espacio para las aplicaciones que el que tenemos físicamente, según Que las aplicaciones no exigen todo el espacio al mismo tiempo. A medida que surja la necesidad más adelante, es posible aumentar la capacidad física del almacenamiento.

La división del sistema de almacenamiento en niveles de almacenamiento en niveles supone que varios datos se almacenan en dispositivos de almacenamiento cuyo rendimiento corresponde a la frecuencia de acceso a estos datos. Por ejemplo, los datos de uso frecuente se pueden colocar en "almacenamiento en línea" en unidades SSD   Con alta velocidad de acceso, alto rendimiento. Sin embargo, el precio de estos discos sigue siendo alto, por lo que es recomendable usarlos solo para almacenamiento en línea (por ahora).

Las unidades FC / SAS también son bastante rápidas y el precio es moderado. Por lo tanto, estos discos son muy adecuados para el "almacenamiento cercano a la línea", donde se almacenan los datos, cuyo acceso ocurre no tan a menudo, pero al mismo tiempo y no tan raramente.

Finalmente, las unidades SATA / NL-SAS tienen una velocidad de acceso relativamente baja, pero se distinguen por su alta capacidad y relativamente baratas. Por lo tanto, generalmente hacen almacenamiento fuera de línea, para datos de uso poco frecuente.

Tan pronto como el sistema de administración se da cuenta de que el acceso a los datos para el almacenamiento fuera de línea se ha vuelto más frecuente, los transfiere al almacenamiento cercano a la línea y, con una mayor activación de su uso, también va al almacenamiento en línea en discos SSD.

Deduplicación (eliminación de repeticiones) de datos   (deduplicación, DEDUP): como su nombre lo indica, elimina los datos duplicados en el espacio en disco comúnmente utilizado en la copia de seguridad de datos. Aunque el sistema no puede determinar qué información es redundante, puede determinar si los datos están duplicados. Debido a esto, se hace posible reducir significativamente los requisitos para la capacidad del sistema de respaldo.

Reducción de giro de disco) - lo que generalmente se llama la "hibernación" (quedarse dormido) del disco. Los datos en alguna unidad no pueden ser utilizados mucho tiempo, en este caso, la tecnología de reducción de la velocidad del disco los pone en modo de hibernación para reducir el consumo de energía para la rotación inútil del disco a velocidad normal. Esto también aumenta la vida útil del disco y aumenta la confiabilidad del sistema en su conjunto. Cuando recibe la primera solicitud de datos en este disco, "se despierta", su velocidad de rotación aumenta. El costo para ahorrar energía y aumentar la confiabilidad es un retraso cuando accede por primera vez a los datos en el disco, pero esta placa está justificada.

  Instantánea del estado del disco (Instantánea) Instantánea es una copia totalmente utilizable de un conjunto de datos específico en el disco en el momento en que se tomó esta copia (por eso se le llama "instantánea"). Dicha copia se utiliza para restaurar parcialmente el estado del sistema en el momento de la copia. Además, la continuidad del sistema no se ve afectada en absoluto, y el rendimiento no se deteriora.

Replicacion Remota: Funciona con tecnología de espejo. Puede admitir múltiples copias de datos en dos o más sitios para evitar la pérdida de datos en caso de desastres naturales. Hay dos tipos de replicación: síncrona y asíncrona, la diferencia entre ellas se explica en la figura.


Fig. 10. Replicación remota de datos (Replicación remota).

Protección continua de datos (CDP)También conocido como respaldo continuo o respaldo en tiempo real, crea un respaldo automáticamente cada vez que cambia datos. Al mismo tiempo, es posible recuperar datos de cualquier accidente en cualquier momento, y al mismo tiempo, una copia real de los datos está disponible, y no los que estaban hace unos minutos u horas.

Programas de gestión y administración (software de gestión):esto incluye una variedad de software para administrar y administrar varios dispositivos: programas simples   configuración (asistentes de configuración), programas de monitoreo central: mapeo de topología, monitoreo en tiempo real, mecanismos de reporte de fallas. También se incluyen los programas de Garantía Comercial: estadísticas de rendimiento multidimensionales, informes de rendimiento y consultas, etc.

Recuperación ante desastres (DR, Recuperación ante desastres). Este es un componente bastante importante de los sistemas de almacenamiento industrial serios, aunque es bastante costoso. Pero estos costos deben ser asumidos para no perder de la noche a la mañana "lo que se ha ganado con el exceso de trabajo" y donde ya se han invertido fondos significativos. Los sistemas de protección de datos mencionados anteriormente (Instantánea, Replicación remota, CDP) son buenos siempre que no haya un desastre natural en el asentamiento donde se encuentra el sistema de almacenamiento: tsunami, inundación, terremoto o (pah-pah-pah) - nuclear la guerra Sí, y cualquier guerra también es capaz de estropear en gran medida la vida de las personas que se dedican a cosas útiles, por ejemplo, almacenar datos y no correr con un arma para cortar los territorios de otras personas o castigar a algunos "infieles". La replicación remota implica que el sistema de almacenamiento de replicación está en la misma ciudad, o al menos cerca. Lo cual, por ejemplo, no ahorra durante el tsunami.

La tecnología de recuperación de desastres supone que el centro de respaldo utilizado para recuperar datos de desastres naturales se encuentra a una distancia considerable del centro de datos principal e interactúa con él a través de una red de datos superpuesta a una red de transporte, a menudo óptica. Usando tal ubicación de los centros de datos principales y de respaldo, por ejemplo, la tecnología CDP simplemente será técnicamente imposible.

La tecnología DR utiliza tres conceptos fundamentales:

  • BW (Ventana de respaldo)   - "Ventana de reserva", el tiempo requerido por el sistema de reserva para copiar el volumen de datos recibido del sistema de trabajo.
  • RPO (objetivo de punto de recuperación)   - "Punto de recuperación permitido", el período de tiempo máximo y la cantidad correspondiente de datos que es aceptable perder para el usuario del almacenamiento.
  • RTO (objetivo de tiempo de recuperación)   - "tiempo de indisponibilidad permitido", el tiempo máximo durante el cual el sistema de almacenamiento puede no estar disponible sin un impacto crítico en el negocio principal.


Fig. 11. Tres conceptos fundamentales de la tecnología DR.

Este ensayo no pretende ser completo y solo explica los principios básicos de operación de los sistemas de almacenamiento, aunque de ninguna manera en su totalidad. Varias fuentes en Internet contienen muchos documentos que describen con más detalle todos los puntos establecidos (y no establecidos) aquí.

Sistema de almacenamiento de datos (SHD)   es un conglomerado de equipos y software especializados diseñados para almacenar y transferir grandes cantidades de información. Le permite organizar el almacenamiento de información en plataformas de disco con una asignación óptima de recursos.

Otro factor es la aparición en el mercado de muchas empresas que ofrecen sus soluciones para respaldar el negocio de las empresas: ERP, sistemas de facturación, sistemas de soporte de decisiones, etc. Todos ellos le permiten recopilar datos detallados de diversa naturaleza en grandes volúmenes. Si su organización tiene una infraestructura de TI desarrollada, puede recopilar estos datos juntos y analizarlos.

El siguiente factor es tecnológico. Hasta hace algún tiempo, los fabricantes de aplicaciones desarrollaron independientemente diferentes versiones de sus soluciones para diferentes plataformas de servidores u ofrecieron soluciones abiertas. Una tendencia tecnológica importante para la industria fue la creación de plataformas adaptables para resolver diversos problemas analíticos, que incluyen el componente de hardware y el DBMS. A los usuarios ya no les importa quién hizo un procesador para su computadora o memoria de acceso aleatorio, - ven el almacén de datos como un tipo de servicio. Y este es un cambio importante en la conciencia.

Tecnologías que le permiten utilizar almacenes de datos para optimizar los procesos comerciales operativos en tiempo casi real, no solo para analistas altamente calificados y gerentes de alto nivel, sino también para empleados de recepción, en particular para empleados de oficinas de ventas y centros de contacto. La toma de decisiones se delega a los empleados en los niveles inferiores de la escala corporativa. Los informes que necesitan son generalmente simples y concisos, pero requieren mucho, y el tiempo de formación debe ser corto.

  Aplicaciones de almacenamiento

Los almacenes de datos tradicionales se pueden encontrar en todas partes. Están diseñados para generar informes que ayudan a comprender lo que sucedió en la empresa. Sin embargo, este es el primer paso, la base.

No es suficiente que las personas sepan lo que pasó, quieren entender por qué sucedió. Para esto, se utilizan herramientas de inteligencia empresarial para ayudar a comprender lo que dicen los datos.

Después de esto viene el uso del pasado para predecir el futuro, construyendo modelos predictivos: qué clientes se quedarán y cuáles se irán; qué productos tendrán éxito y cuáles fracasarán, etc.

Algunas organizaciones ya están en la etapa en que los depósitos de datos comienzan a utilizarse para comprender lo que está sucediendo en el negocio hoy. Por lo tanto, el siguiente paso es la "activación" de los sistemas frontales con la ayuda de soluciones basadas en el análisis de datos, a menudo en modo automático.

Volúmenes información digital   crecer como una avalancha En el sector corporativo, este crecimiento es causado, por un lado, por una regulación más estricta y el requisito de retener más y más información relacionada con hacer negocios. Por otro lado, el fortalecimiento de la competencia requiere una información cada vez más precisa y detallada sobre el mercado, los clientes, sus preferencias, pedidos, acciones de los competidores, etc.

En el sector público, un aumento en el volumen de datos almacenados está respaldado por la transición omnipresente a la gestión de documentos electrónicos interdepartamentales y la creación de recursos analíticos departamentales basados \u200b\u200ben una variedad de datos primarios.

No menos poderosa ola crea y usuarios ordinariosquienes publican en Internet sus fotos, videos y comparten activamente contenido multimedia en las redes sociales.

  Requerimientos de almacenamiento

¿Cuál es el criterio más importante para elegir el almacenamiento en disco? El resultado de la encuesta en el sitio www.timcompany.ru, febrero de 2012

En 2008, el grupo de compañías TIM realizó una encuesta entre los clientes para determinar qué características son más importantes para ellos al elegir los sistemas de almacenamiento. Las primeras posiciones fueron la calidad y la funcionalidad de la solución propuesta. Al mismo tiempo, el cálculo del costo total de propiedad para el consumidor ruso es un fenómeno atípico. Los clientes a menudo no entienden completamente qué costos les esperan, por ejemplo, costos de alquiler y equipo, electricidad, aire acondicionado, capacitación y salarios de personal calificado, etc.

Cuando existe la necesidad de comprar almacenamiento, el máximo que el comprador estima por sí mismo es el costo directo que pasa por el departamento de contabilidad para comprar este equipo. Sin embargo, el precio en términos de importancia estaba en el noveno lugar de cada diez. Por supuesto, los clientes tienen en cuenta las posibles dificultades asociadas con el mantenimiento de los equipos. Por lo general, los paquetes de soporte de garantía extendida, que generalmente se ofrecen en proyectos, ayudan a evitarlos.

Fiabilidad y tolerancia a fallos.   El sistema de almacenamiento proporciona redundancia total o parcial de todos los componentes: fuentes de alimentación, rutas de acceso, módulos de procesador, discos, caché, etc. Es imperativo contar con un sistema de monitoreo y notificación sobre problemas posibles y existentes.

Disponibilidad de datos.   Cuenta con funciones pensadas para mantener la integridad de los datos (usando tecnología RAID, creando copias completas e instantáneas de datos dentro de un estante de disco, replicando datos a un sistema de almacenamiento remoto, etc.) y la capacidad de agregar (actualizar) equipos y software   en modo caliente sin detener el complejo;

Herramientas de gestión y control.   La gestión del almacenamiento se realiza a través de una interfaz web o línea de comando, hay funciones de monitoreo y varias opciones para notificar al administrador sobre los problemas. Rendimiento de diagnóstico de tecnología de hardware disponible.

Rendimiento   Está determinado por el número y tipo de unidades, la cantidad de memoria caché, la potencia de procesamiento del subsistema del procesador, el número y tipo de interfaces internas y externas, así como la flexibilidad de personalización y configuración.

Escalabilidad.   En un sistema de almacenamiento, generalmente existe la posibilidad de aumentar la cantidad de discos duros, el tamaño de caché, las actualizaciones de hardware y la expansión de la funcionalidad con la ayuda de un software especial. Todas estas operaciones se realizan sin una importante reconfiguración y pérdida de funcionalidad, lo que le permite ahorrar dinero y abordar de manera flexible el diseño de la infraestructura de TI.

  Tipos de almacenamiento

  Almacenamiento en disco

Se utiliza para el trabajo operativo con datos, así como para crear intermedios. copias de seguridad.

Los siguientes tipos de sistemas de almacenamiento en disco están disponibles:

  • Almacenamiento de datos operativos (equipos de alto rendimiento);
  • Almacenamiento para copias de seguridad (bibliotecas de discos);
  • SHD para el almacenamiento a largo plazo de archivos (sistemas CAS).

  Cinta de almacenamiento

Diseñado para crear copias de seguridad y archivos.

Existen los siguientes tipos de sistemas de almacenamiento en cinta:

  • accionamientos individuales;
  • cargadores automáticos (una unidad y varias ranuras de cinta);
  • bibliotecas de cintas (más de una unidad, muchas ranuras de cinta).

  Opciones de conectividad de almacenamiento

Se utilizan varias interfaces internas para conectar dispositivos y discos duros dentro del mismo almacenamiento:

Las interfaces de conexión de almacenamiento externo más comunes:

La popular interfaz de interacción del grupo de entrenudos Infiniband ahora también se usa para acceder al almacenamiento.

  Opciones de topología de almacenamiento

El enfoque tradicional de los almacenes de datos es conectar directamente los servidores al sistema de almacenamiento Direct Attached Storage, DAS (Direct Attached Storage). Además del almacenamiento conectado directo, DAS, hay dispositivos de almacenamiento conectados a la red - NAS (almacenamiento conectado a la red), así como componentes de red de área de almacenamiento - SAN (redes de área de almacenamiento). Tanto los sistemas NAS como SAN han surgido como una alternativa a la arquitectura DAS de almacenamiento conectado directo. Además, cada solución se desarrolló como respuesta a los crecientes requisitos de los sistemas de almacenamiento de datos y se basó en el uso de tecnologías disponibles en ese momento.

Las arquitecturas de los sistemas de almacenamiento en red se desarrollaron en la década de 1990 y su tarea consistía en abordar las principales deficiencias de los sistemas DAS de almacenamiento conectado directo. En el caso general, las soluciones de red en el campo de los sistemas de almacenamiento tuvieron que implementar tres tareas: reducir los costos y la complejidad de la gestión de datos, reducir el tráfico redes locales, aumentar la disponibilidad de datos y el rendimiento general. Al mismo tiempo, las arquitecturas NAS y SAN resuelven varios aspectos de un problema común. El resultado fue la coexistencia simultánea de dos arquitecturas de red, cada una de las cuales tiene sus propias ventajas y funcionalidad.

  Sistemas de almacenamiento de conexión directa (DAS)

Dado que los sistemas de almacenamiento son inseparables de los recursos informáticos, no es sorprendente que muchos de los mayores fabricantes de sistemas de almacenamiento del mundo sean líderes simultáneos en el mercado de servidores. De los fabricantes anteriores, solo tres se dedican exclusivamente al almacenamiento: estos son EMC, Hitachi y NetApp.

Entre los fabricantes de sistemas de almacenamiento representados en nuestro país, destacamos las empresas que pertenecen a la clase "B" mencionada anteriormente.

  • Cisco (Linksys)

El concepto creciente de nubes públicas tiene un impacto en el segmento de almacenamiento. Los propietarios de nubes públicas tienen menos probabilidades de pagar primas de marca, lo que puede abrir grandes oportunidades para fabricantes de segundo nivel, nicho o nuevos jugadores.

Los fabricantes nacionales de almacenamiento en disco (por ejemplo, DEPO Computers (DEPO Electronics)) ensamblan sus sistemas basados \u200b\u200ben componentes de fabricantes extranjeros, incluidos Microsemi (anteriormente Adaptec), Chenbro, Falconstore, Intel, LSI Logic, Lustre y otros. En general, los sistemas de almacenamiento local se entregan principalmente a pequeños proyectos. Además, es importante tener en cuenta que en el segmento de almacenamiento hay una tendencia persistente a desplazar a las empresas nacionales por las globales.

Una diferencia importante entre los sistemas de la marca A y los sistemas de almacenamiento local es que tienen un software especial diseñado para restaurar y proteger datos, copias de seguridad, control remoto   y monitoreo, "Gestión del ciclo de vida de la información (ILM), diagnósticos, etc. El software con funciones similares es desarrollado por muchas compañías independientes, por lo que se puede comprar por separado. Por supuesto, en ausencia de problemas de compatibilidad.

El costo de almacenamiento depende mucho de funcionalidad   y opciones adicionales: módulos de expansión, como discos duros, servicio, etc.

  Mercado de almacenamiento ruso

En los últimos años, el mercado de almacenamiento ruso se ha desarrollado y crecido con éxito. Por lo tanto, a finales de 2010, los ingresos de los fabricantes de sistemas de almacenamiento vendidos en el mercado ruso superaron los $ 65 millones, que es un 25% y un 59% más que en el segundo trimestre del mismo año. Capacidad total almacenamiento de datos   ascendió a aproximadamente 18 mil terabytes, lo que es un indicador de crecimiento de más del 150% por año.

El mercado ruso de sistemas de almacenamiento de datos se está desarrollando de forma extremadamente dinámica debido a que todavía es muy joven. La falta de equipos heredados no tiene un impacto significativo, ya que debido al crecimiento explosivo en los volúmenes de datos, los sistemas antiguos simplemente no cumplen con los requisitos del cliente y se eliminan mucho más rápido que, por ejemplo, los servidores y las estaciones de trabajo antiguas.

El rápido crecimiento de los volúmenes de datos está obligando cada vez más a las empresas nacionales a comprar sistemas externos de almacenamiento en disco. Esto se debe en gran parte a la tendencia tradicional de reducir el costo de los componentes de TI. Si anteriormente los sistemas de almacenamiento externo se percibían solo como un atributo de las grandes organizaciones, ahora incluso las pequeñas empresas no rechazan la necesidad de estos sistemas.

  Hitos para proyectos de almacenamiento de datos

Un almacén de datos es un objeto muy complejo. Una de las principales condiciones para su creación es la disponibilidad de especialistas competentes que entiendan lo que están haciendo, no solo del lado del proveedor, sino también del lado del cliente. El consumo de almacenamiento se está convirtiendo en una parte integral de la implementación de soluciones integradas de infraestructura. Como regla general, estamos hablando de inversiones impresionantes durante 3-5 años, y los clientes esperan que durante todo el período de operación el sistema cumpla plenamente con los requisitos del negocio.

A continuación, debe tener tecnologías de almacenamiento de datos. Si comenzó a crear un repositorio y está desarrollando un modelo lógico para él, entonces debe tener un diccionario que defina todos los conceptos básicos. Incluso conceptos tan comunes como "cliente" y "producto" tienen cientos de definiciones. Solo después de tener una idea de lo que significan estos o esos términos en esta organización, puede determinar las fuentes de los datos necesarios que deben cargarse en el repositorio.

Ahora puedes comenzar a crear modelo logico   datos Esta es una fase crítica del proyecto. Es necesario que todos los participantes en el proyecto creen un almacén de datos para llegar a un acuerdo sobre la relevancia de este modelo. Al finalizar este trabajo, queda claro lo que el cliente realmente necesita. Y solo entonces tiene sentido hablar sobre aspectos tecnológicos, por ejemplo, sobre el tamaño del almacenamiento. El cliente se encuentra cara a cara con un modelo de datos gigantesco que contiene miles de atributos y relaciones.

Tenga en cuenta que el almacenamiento de datos no debe ser un juguete para el departamento de TI y un costo para la empresa. Y antes que nada, el almacén de datos debería ayudar a los clientes a resolver sus problemas más críticos. Por ejemplo, ayude a las compañías de telecomunicaciones a evitar el desvío de clientes. Para resolver el problema, es necesario completar ciertos fragmentos de un modelo de datos grande, y luego ayudamos a seleccionar aplicaciones que ayudarán a resolver este problema. Estas pueden ser aplicaciones muy simples, digamos Excel. El primer paso es tratar de resolver el problema principal con estas herramientas. Intentar llenar todo el modelo de una vez, usar todas las fuentes de datos será un gran error. Los datos en las fuentes deben analizarse cuidadosamente para garantizar su calidad. Después de resolver con éxito uno o dos problemas de suma importancia, durante los cuales se garantiza la calidad de las fuentes de datos necesarias para esto, puede comenzar a resolver los siguientes problemas, rellenando gradualmente otros fragmentos del modelo de datos, así como utilizando fragmentos rellenados previamente.

El catálogo de TAdviser enumera una serie de empresas rusas relacionadas con el suministro y la implementación de sistemas de almacenamiento y la prestación de servicios relacionados. Al mismo tiempo, vale la pena comprender que en varios proyectos grandes, algunos proveedores pueden participar directamente, principalmente HP e IBM. En este caso, algunos clientes se sienten más seguros y confían plenamente en el soporte técnico de los principales fabricantes. Por supuesto, el costo de propiedad en este caso aumenta notablemente.

  Tendencias y perspectivas

La rápida evolución anual hace grandes cambios a las principales tendencias en el desarrollo de sistemas de almacenamiento. Entonces, en 2009, la capacidad de asignar recursos económicamente (Thin Provisioning) fue primordial, los últimos años han estado marcados por el trabajo de almacenamiento en las nubes. La gama de los sistemas propuestos es diversa: una gran cantidad de modelos presentados, varias opciones y combinaciones de soluciones desde el nivel de entrada hasta la clase Hi-End, soluciones llave en mano y ensamblaje de componentes inteligentes utilizando las soluciones de llenado, software y hardware más modernas de los fabricantes rusos.

El deseo de reducir los costos de la infraestructura de TI requiere un equilibrio constante entre el costo de los recursos de almacenamiento y el valor de los datos que se almacenan en ellos en un momento dado. Para decidir cómo asignar recursos de manera más eficiente en software y hardware, los especialistas en centros de datos se guían no solo por los enfoques de ILM y DLM, sino también por la práctica del almacenamiento de datos de varios niveles. A cada unidad de información a procesar y almacenar se le asignan métricas específicas. Estos incluyen el grado de accesibilidad (velocidad de proporcionar información), importancia (costo de pérdida de datos en caso de falla de hardware y software), el período a través del cual la información pasa a la siguiente etapa.


Un ejemplo de separación de sistemas de almacenamiento de acuerdo con los requisitos para el almacenamiento y procesamiento de información de acuerdo con el método de almacenamiento de datos multinivel

Al mismo tiempo, los requisitos de rendimiento de los sistemas transaccionales han aumentado, lo que implica un aumento en el número de discos en el sistema y, en consecuencia, la elección de un sistema de almacenamiento de clase superior. En respuesta a este desafío, los fabricantes han proporcionado a los sistemas de almacenamiento nuevas unidades de estado sólido que son más de 500 veces más rápidas que las anteriores en operaciones de lectura / escritura "cortas" (típicas de los sistemas transaccionales).

La popularización del paradigma de la nube ha aumentado los requisitos para el rendimiento y la confiabilidad del almacenamiento, ya que en el caso de una falla o pérdida de datos, sufrirán más de uno o dos servidores conectados directamente; se producirá una denegación de servicio para todos los usuarios de la nube. Debido al mismo paradigma, se ha demostrado una tendencia a unir dispositivos de diferentes fabricantes en una federación. Crea un grupo unificado de recursos que se proporcionan a pedido con la capacidad de mover dinámicamente aplicaciones y datos entre sitios geográficamente dispersos y proveedores de servicios.

Se observó un cierto cambio en 2011 en el área de gestión de Big Data. Anteriormente, dichos proyectos estaban en discusión, pero ahora han entrado en la etapa de implementación, desde la venta hasta la implementación.

Se planea un gran avance en el mercado, que ya ha sucedido en el mercado de servidores y, posiblemente, ya en 2012 veremos sistemas de almacenamiento masivo que admitan la deduplicación y la tecnología de Suscripción excesiva en el segmento masivo. Como resultado, como en el caso de la virtualización del servidor, esto proporcionará una utilización a gran escala de la capacidad de almacenamiento.

Un mayor desarrollo de la optimización del almacenamiento será mejorar los métodos de compresión de datos. Para datos no estructurados, que representan el 80% del volumen total, la relación de compresión puede alcanzar varios órdenes de magnitud. Esto reducirá significativamente el costo unitario del almacenamiento de datos para los SSD modernos.

  • Andrey Zakharov, Sistemas básicos de almacenamiento de datos y sus características.
  • Upgrade4_08_05 Magazine