Portfolio

Information Crawler

Overview

Information Crawler es una plataforma automatizada para recopilar, procesar, enriquecer y publicar contenido en múltiples sitios web temáticos.

El sistema está diseñado como un pipeline de automatización de contenido que recopila información, la procesa y la distribuye a través de múltiples sitios web.

Product Features

La plataforma incluye:

  • Recopilación automática de contenido
  • Procesamiento y enriquecimiento de contenido
  • Publicación de contenido en múltiples sitios web
  • Blog y gestión de contenido
  • Flujos de automatización

El proyecto se centra en la automatización de pipelines de contenido en lugar de la gestión manual de contenido.

Architecture

El sistema consiste en:

  • Servicios backend para crawling y procesamiento
  • Interfaz web
  • Base de datos
  • Tareas programadas y workers de automatización
  • Despliegue en Kubernetes
  • Pipelines CI/CD
  • Logging y monitorización

El sistema incluye múltiples servicios en segundo plano y trabajos de automatización.

Infrastructure & SRE

Implementado:

  • Pipelines CI/CD (GitLab)
  • Builds de Docker
  • Deployments en Kubernetes
  • Workflow GitOps con ArgoCD
  • Agregación de logs
  • Monitorización y métricas
  • Monitorización de jobs
  • Backups
  • Configuración de entornos
  • Gestión de secretos

Engineering Challenges

Principales desafíos técnicos en este proyecto:

  • Ejecutar jobs en segundo plano de forma fiable
  • Programación y automatización
  • Monitorización de jobs y fallos
  • Gestión de múltiples servicios
  • Despliegue de servicios worker en Kubernetes