Issue 1: Search Engine cho MXH

🚀 Mạng xã hội:
- Giả sử mỗi người dùng gửi 2 requests mỗi 10 giây.
- Số requests mỗi phút cho mỗi người dùng: 12.
- Tổng số requests mỗi phút cho 200 người dùng: 200 * 12 = 2,400 requests/phút.
Thiết kế một search engine cho web mạng xã hội trên

Bước 1: Xác định và Hiểu rõ Vấn đề
- Vấn đề: Xây dựng một search engine hiệu quả cho mạng xã hội với lưu lượng truy cập lớn (200 người dùng, mỗi người gửi 2 requests/10 giây).
- Phạm vi: Tập trung vào tìm kiếm bài đăng, bình luận, và thông tin người dùng.
- Yêu cầu chức năng (Functional Requirements):
  - Tìm kiếm theo từ khóa, cụm từ, hashtag.
  - Lọc kết quả theo người đăng, loại nội dung, thời gian.
  - Xếp hạng kết quả theo mức độ liên quan.
  - Hiển thị kết quả nhanh chóng.
- Yêu cầu phi chức năng (Non-functional Requirements):
  - Khả năng mở rộng (scalability) để đáp ứng lượng người dùng tăng.
  - Tính sẵn sàng cao (high availability) để đảm bảo hệ thống luôn hoạt động.
  - Độ trễ thấp (low latency) để mang lại trải nghiệm người dùng tốt.
- Giả định:
  - Số lượng người dùng sẽ tăng trưởng nhanh chóng.
  - Dữ liệu người dùng và nội dung sẽ rất lớn.
  - Cần ưu tiên tốc độ tìm kiếm và độ chính xác của kết quả.
Bước 2: Thiết kế High-Level
- Giao tiếp: Sử dụng RESTful API hoặc GraphQL để giao tiếp giữa client và server. GraphQL có thể giúp tối ưu hóa việc truy vấn dữ liệu.
- Thành phần:
  - Client: Giao diện người dùng cho phép người dùng nhập truy vấn tìm kiếm và hiển thị kết quả.
  - Web Servers: Xử lý yêu cầu HTTP, giao tiếp với app server.
  - Load Balancer: Phân phối lưu lượng truy cập đều giữa các web server.
  - App Servers: Xử lý logic tìm kiếm, xếp hạng, giao tiếp với database và cache.
  - Database: Lưu trữ dữ liệu người dùng, bài đăng, bình luận. Có thể sử dụng cơ sở dữ liệu NoSQL (như Elasticsearch) để tối ưu cho việc tìm kiếm.
  - Elasticsearch Cluster: Lưu trữ dữ liệu người dùng, bài đăng, bình luận dưới dạng JSON documents. Sử dụng cơ chế phân đoạn (sharding) và sao chép (replication) để đảm bảo khả năng mở rộng và tính sẵn sàng cao.
  - Cache, Redis Cluster: Lưu trữ cache kết quả tìm kiếm phổ biến, giảm tải cho Elasticsearch.
Bước 3: Thiết kế Chi tiết
- Mô hình dữ liệu:
  - Elasticsearch: Lưu trữ dữ liệu người dùng, bài đăng, bình luận dưới dạng JSON documents. Sử dụng các trường đặc biệt để phân tích và tìm kiếm (ví dụ: text cho nội dung, keyword cho các từ khóa quan trọng).
  - Redis: Lưu trữ cache kết quả tìm kiếm.
  Cụ thể các công nghệ - ngôn ngữ:
  - Web Server: Nginx (hiệu năng cao, nhẹ)
  - App Server: Node.js (phù hợp với ứng dụng real-time) hoặc Python (đa năng, nhiều thư viện hỗ trợ) - Django or nestjs
  - Database: Elasticsearch (tối ưu cho tìm kiếm)
  - Cache Database: Redis (nhanh, hỗ trợ nhiều kiểu dữ liệu)
  - Image Storage: Amazon S3 (lưu trữ đám mây, khả năng mở rộng cao)
  - Hoặc: Nginx, HAProxy hoặc Amazon Elastic Load Balancing (ELB).
  Load Balancing:
  - Vị trí: Đặt giữa các tầng như sau:
    - Requests - Web Server
    - Web Server - App Server
    - App Server - Database
    - App Server - Image Storage
    - App Server - Cache Database
- Thuật toán:
  - Phân tích văn bản (Text Analysis): Sử dụng các kỹ thuật như tokenization, stemming, stop word removal để chuẩn hóa văn bản trước khi tìm kiếm.
  - Round Robin với health check để đảm bảo tự động chuyển hướng khi có server gặp sự cố.
  - Tìm kiếm (Search): Sử dụng các thuật toán như BM25 hoặc TF-IDF để tính toán mức độ liên quan của kết quả.
  - Xếp hạng (Ranking): Kết hợp nhiều yếu tố như mức độ liên quan, độ phổ biến, thời gian đăng để xếp hạng kết quả.
  - Tối ưu truy vấn: Sử dụng các kỹ thuật caching, query optimization trong Elasticsearch.
Bước 4: Xác định Bottleneck và Scale
- Bottleneck tiềm ẩn:
  - Database: Khi lượng dữ liệu và truy vấn tăng, database có thể trở thành nút thắt cổ chai.
  - App Servers: Nếu logic tìm kiếm phức tạp, app server có thể bị quá tải.
- Giải pháp mở rộng:
  - Database:
    - Sharding: Chia dữ liệu thành nhiều phần nhỏ để xử lý song song.
    - Replication: Sao chép dữ liệu sang nhiều server để tăng khả năng chịu lỗi và đọc.
  - App Servers:
    - Load Balancing: Phân phối đều tải giữa các app server.
    - Thêm server: Tăng số lượng app server khi cần thiết.
  - Cache:
    - Thêm server: Tăng số lượng cache server để lưu trữ nhiều kết quả hơn.
    - Distributed Cache: Sử dụng hệ thống cache phân tán như Redis Cluster.
    - Eviction policies: Sử dụng công nghệ Eviction policies để clear cache
  - CDN: Sử dụng CDN để phân phối nội dung tĩnh (hình ảnh, video) và giảm tải cho server.
Bước 5: Tóm tắt
- Điểm quan trọng:
  - Sử dụng Elasticsearch để lưu trữ và tìm kiếm dữ liệu.
  - Sử dụng Redis để cache kết quả.
  - Áp dụng các kỹ thuật phân tích văn bản và thuật toán tìm kiếm hiệu quả.
  - Xây dựng kiến trúc có khả năng mở rộng bằng sharding, replication, load balancing.
  - Sử dụng CDN để tối ưu hóa việc phân phối nội dung.