Portfolio

Information Crawler

Overview

Information Crawler — это автоматизированная платформа для сбора, обработки, обогащения и публикации контента на нескольких тематических веб-сайтах.

Система спроектирована как pipeline автоматизации контента, который собирает информацию, обрабатывает её и распределяет по нескольким сайтам.

Product Features

Платформа включает:

  • Автоматический сбор контента
  • Обработка и обогащение контента
  • Публикация контента на нескольких сайтах
  • Блог и управление контентом
  • Автоматизационные workflow

Проект сосредоточен на автоматизации контент-pipeline, а не на ручном управлении контентом.

Architecture

Система состоит из:

  • Backend-сервисов для crawling и обработки
  • Веб-интерфейса
  • Базы данных
  • Планировщика задач и automation workers
  • Deployment в Kubernetes
  • CI/CD пайплайнов
  • Логирования и мониторинга

Система включает несколько фоновых сервисов и автоматизационных задач.

Infrastructure & SRE

Реализовано:

  • CI/CD пайплайны (GitLab)
  • Docker сборки
  • Deployment в Kubernetes
  • GitOps workflow через ArgoCD
  • Агрегация логов
  • Мониторинг и метрики
  • Мониторинг задач
  • Бэкапы
  • Конфигурация окружений
  • Управление секретами

Engineering Challenges

Основные технические сложности в этом проекте:

  • Надёжный запуск фоновых задач
  • Планирование и автоматизация
  • Мониторинг задач и ошибок
  • Управление несколькими сервисами
  • Deployment worker-сервисов в Kubernetes