Cómo encontrar objetos duplicados en AWS S3

23 de abril de 2024

En Amazon S3 (Simple Storage Service), los objetos duplicados hacen referencia a archivos u objetos dentro de uno o varios depósitos con contenido idéntico. Estos duplicados pueden producirse por diversos motivos, como cargas accidentales, numerosas cargas del mismo archivo o procesos de sincronización.

Es importante tener en cuenta que los objetos duplicados pueden aumentar costos de almacenamiento Dado que cada objeto se factura por separado en función del tamaño y la duración del almacenamiento, se recomienda en general gestionar de forma eficiente los objetos duplicados, evitándolos mediante convenciones de nombres adecuadas o utilizando el control de versiones cuando sea necesario.

Los objetos duplicados en AWS S3 pueden presentar varios desafíos y problemas potenciales. Los objetos duplicados consumen espacio de almacenamiento adicional, lo que genera mayores costos de almacenamiento. Realizar un seguimiento de varias copias de los mismos datos puede volverse un desafío, especialmente en entornos con actualizaciones y cargas de datos frecuentes. Muchos objetos duplicados dentro de un depósito de S3 pueden afectar el rendimiento, especialmente al enumerar, acceder o administrar objetos. Puede generar tiempos de respuesta más lentos y una mayor latencia para las operaciones del depósito. Los objetos duplicados pueden generar inquietudes sobre cumplimiento y gobernanza, especialmente en industrias reguladas donde la duplicación de datos puede generar problemas con las políticas de retención de datos, las regulaciones de privacidad de datos y los requisitos de auditoría.

OptScale puede ayudar a mitigar estos problemas. Es fundamental auditar periódicamente los depósitos de S3 para detectar objetos duplicados. Además, la herramienta puede ayudar a identificar y abordar los objetos duplicados de forma proactiva.

OptScale permite encontrar objetos duplicados en AWS S3. El Buscador de duplicados de S3 (como se lo llama en el producto) está diseñado para ayudarlo a optimizar el uso del almacenamiento de AWS S3 mediante la identificación y la administración de objetos duplicados en todos sus depósitos.

La selección de uno o varios depósitos S3 le permite ejecutar comprobaciones de objetos duplicados y obtener información sobre el uso del almacenamiento. Al identificar duplicaciones innecesarias, puede ahorrar costos.

Una vez que se inicia una verificación, OptScale escaneará cada archivo en los contenedores seleccionados e identificará objetos duplicados según su contenido. El proceso está optimizado para lograr velocidad y eficiencia, lo que garantiza un análisis exhaustivo y rápido.

¿Cómo ejecutar una comprobación de objetos duplicados en OptScale?

El punto de entrada a la página del buscador de duplicados de AWS S3 es la tarjeta "Ir al buscador de duplicados de S3" en la página "Recomendaciones".

Muestra los duplicados encontrados durante la última verificación y los posibles ahorros mensuales.
La tarjeta puede estar en diferentes estados, dependiendo de las condiciones.

No se han completado con éxito comprobaciones ni se han iniciado comprobaciones

Información del último control realizado con éxito

Se puede hacer clic en la tarjeta y te lleva a una página de resumen. Esta página muestra una tabla de todos los lanzamientos de cheques y ofrece la opción de iniciar un nuevo cheque.

Mesa

Las tablas presentan detalles, incluido el tiempo de inicialización de la verificación, una lista de los depósitos escaneados con los enlaces de recursos correspondientes, el recuento total de objetos duplicados en todos los depósitos, sus tamaños y los ahorros generales.

La columna "Progreso" indica el estado actual de una verificación específica. La etiqueta de tiempo indica el momento en el que se inició una verificación. La verificación finalizada con éxito tiene el estado "Completada".

Recién lanzado: "Creado". Espere hasta que se complete para obtener la información sobre los duplicados.

La columna "Cubos analizados" muestra todos los cubos analizados. De forma predeterminada, solo se muestran en esta columna los nombres de los dos primeros cubos analizados. Haga clic en el botón "Mostrar más" para ver los nombres restantes. La columna "Duplicados" representa la cantidad de objetos duplicados encontrados durante una verificación. La columna "Ahorros" indica el ahorro de costos potencial por eliminar los duplicados identificados.

Comportamiento

Ajustes

El botón "Configuración" activa la apertura de un cuadro de diálogo lateral que contiene un formulario. Este formulario permite a los usuarios configurar reglas de umbral de ahorro para colorear celdas en una matriz de duplicados cruzados.

Ejecutar comprobación

El botón "Ejecutar verificación" activa la apertura de una ventana modal lateral que contiene un formulario. Este formulario permite a los usuarios configurar e iniciar una nueva verificación.

Tenga en cuenta que si un usuario no tiene el permiso de 'Administrador de la organización', los botones no serán visibles para ellos y será imposible iniciar las acciones.

Optimización gratuita de los costos de la nube. De por vida

Ejecutar la comprobación de duplicados de S3

El formulario permite seleccionar el tipo de fuente de datos, los contenedores para la verificación de duplicados y establecer un umbral de tamaño de archivo mínimo.

1. La selección múltiple 'Fuente de datos' permite seleccionar las fuentes de datos deseadas donde se verificarán los depósitos.

2. La tabla 'Cubos' permite seleccionar los cubos que se desea comprobar para detectar duplicados. La lista de cubos depende de la fuente de datos seleccionada. El número máximo de cubos por comprobación es 100.

3. El campo "Tamaño mínimo de archivo" le permite especificar el umbral de tamaño mínimo de archivo. Los archivos que no cumplan con este requisito se omitirán durante la verificación.

Al hacer clic en 'Ejecutar', aparece una nota con la fecha y la hora de la comprobación en ejecución.

Una vez finalizada la comprobación, el contenido de la celda tendrá el siguiente aspecto:

Haga clic en este enlace para ver una tabla con los duplicados encontrados.
Utilice esta información para obtener conocimientos sobre cómo minimizar sus gastos y ahorrar recursos.

¿Cómo encontrar objetos duplicados en OptScale? Descripción general de los resultados de S3 Duplicate Finder

Al hacer clic en la tarjeta de resumen "Ir al buscador de duplicados de S3" en la pestaña "Recomendaciones" de la solución, se abrirá una página de descripción general que muestra los resultados de una verificación de duplicados. Luego, seleccione el elemento deseado de la tabla que presenta los detalles.

La página que se muestra presenta información clave como el estado del cheque, los ahorros generales, la cantidad de objetos escaneados, la cantidad total de objetos duplicados en todos los grupos y la duración del cheque.

Una tabla de duplicados entre categorías muestra información sobre los montos duplicados entre categorías específicas. Las categorías "Desde" se enumeran en la primera columna y las categorías "Hasta" se enumeran en la primera fila. Las intersecciones de filas y columnas muestran los posibles ahorros por mes. La tabla está ordenada por "Posibles ahorros" por mes en orden descendente.

Desde los detalles del depósito

Las celdas 'De' incluyen la siguiente información:

Nombre del depósito
Posible ahorro por mes

Las celdas 'Para' incluyen solo nombres de depósitos. Las 'celdas cruzadas' (intersección Desde-Hasta) incluyen la siguiente información

Posible ahorro por mes

Al hacer clic en una celda de la primera columna, se abre un modal lateral con información detallada sobre un depósito.

Detalles de los cubos cruzados

Al hacer clic en una celda en el cuerpo de la tabla, se abre un modal lateral con información detallada sobre los duplicados entre contenedores.

El primero es un contenedor "de" y el segundo es un contenedor "a". Descargue la lista de objetos para realizar la investigación.

La tabla está diseñada de tal manera que los duplicados en sí, los contenedores en los que se encuentran son visibles inmediatamente y también se indica una ruta a los duplicados (columna clave) y su tamaño. La columna de etiqueta es el punto de referencia para identificar duplicados; los duplicados tienen la misma columna. De manera predeterminada, la tabla está ordenada por la columna de etiqueta, es decir, cuando abre una tabla, obtiene inmediatamente datos fáciles de procesar.

Encuentre duplicados en la ruta de la clave en el depósito y elimínelos si es necesario para obtener posibles ahorros.

Proyecto OptScale en Github: https://github.com/hystax/optscale

Apreciaríamos si nos dieras una estrella.

La plataforma OptScale permite a las empresas realizar un seguimiento de sus gastos en la nube, maximizar el uso de los recursos y lograr eficiencia. Las funciones MLOps de OptScale benefician significativamente a los equipos de ML/IA al permitir la creación de perfiles de experimentos, el ajuste de hiperparámetros, la mejora del rendimiento y las recomendaciones de optimización de costos. OptScale garantiza que sus operaciones en la nube y la IA se gestionen de manera rentable y eficiente.

Ingresa tu email para recibir contenido nuevo y relevante

¡Gracias por estar con nosotros!

Esperamos que le resulte útil.

Puede darse de baja de estas comunicaciones en cualquier momento. política de privacidad

Noticias e informes

Conjunto
de diapositivas

FinOps y MLOps

Una descripción completa de OptScale como una plataforma de código abierto FinOps y MLOps para optimizar el rendimiento de la carga de trabajo en la nube y el costo de la infraestructura. Optimización de los costos de la nube, Dimensionamiento correcto de VM, instrumentación PaaS, Buscador de duplicados S3, Uso de RI/SP, detección de anomalías, + herramientas de desarrollo de IA para una utilización óptima de la nube.

Cómo hacerlo

FinOps, optimización de costos en la nube y seguridad

Descubra nuestras mejores prácticas:

Cómo liberar direcciones IP elásticas en Amazon EC2
Detectar máquinas virtuales de MS Azure detenidas incorrectamente
Reduce tu factura de AWS eliminando las copias instantáneas de disco huérfanas y no utilizadas
Y conocimientos mucho más profundos

OptScale

Optimice el uso de RI/SP para equipos de ML/AI con OptScale

Descubra cómo:

ver cobertura RI/SP
obtenga recomendaciones para el uso óptimo de RI/SP
Mejore la utilización de RI/SP por parte de los equipos de ML/AI con OptScale