系统设计：URL缩短器

系统设计

类型	估计
写入（新 URL）	40/秒
读取（重定向）	4K/秒
带宽（传入）	20 KB/秒
带宽（传出）	2 MB/秒
储存（10年）	6 TB
内存（缓存）	每天约 35 GB

在这种方法中，我们将从一台服务器开始，该服务器将维护生成的密钥的数量。一旦我们的服务收到请求，它就会联系计数器，计数器返回一个唯一的数字并递增。当下一个请求到来时，计数器再次返回该唯一数字，如此循环。

计数器（0-3.5 \space 万亿）\rightarrow base62encode \rightarrow hash

这种方法的问题在于它很快就会成为单点故障。而且，如果我们运行多个计数器实例，可能会发生冲突，因为它本质上是一个分布式系统。

为了解决这个问题，我们可以使用分布式系统管理器，例如Zookeeper，它可以提供分布式同步功能。Zookeeper 可以为我们的服务器维护多个范围。

\begin{align*} & 范围 \space 1:\space 1 \rightarrow 1,000,000 \ & 范围 \space 2:\space 1,000,001 \rightarrow 2,000,000 \ & 范围 \space 3:\space 2,000,001 \rightarrow 3,000,000 \ & ... \end{align*}

一旦服务器达到其最大范围，Zookeeper 就会将未使用的计数器范围分配给新服务器。这种方法可以保证 URL 不重复且不会发生冲突。此外，我们可以运行多个 Zookeeper 实例来消除单点故障。

密钥生成服务（KGS）

正如我们所讨论的，大规模生成唯一密钥且避免重复和冲突可能颇具挑战性。为了解决这个问题，我们可以创建一个独立的密钥生成服务 (KGS)，它会提前生成唯一密钥并将其存储在单独的数据库中以供后续使用。这种方法可以简化我们的工作。

如何处理并发访问？

一旦使用了密钥，我们可以在数据库中对其进行标记，以确保不会重复使用它，但是，如果有多个服务器实例同时读取数据，则两个或多个服务器可能会尝试使用相同的密钥。

解决这个问题最简单的方法是将键存储在两个表中。一旦某个键被使用，我们就将其移动到一个单独的表中，并设置适当的锁定。此外，为了提高读取速度，我们可以将一些键保留在内存中。

KGS数据库估计

根据我们的讨论，我们可以生成最多约 568 亿个独特的 6 个字符长的密钥，这将导致我们必须存储 300 GB 的密钥。

6 \space 个字符 \times 56.8 \space 十亿 = \sim 390 \space GB

虽然对于这个简单的用例来说 390 GB 似乎很多，但重要的是要记住这是我们整个服务生命周期的大小，并且密钥数据库的大小不会像我们的主要数据库那样增加。

缓存

现在，我们来谈谈缓存。根据我们的估算，我们每天大约需要 35 GB 的内存来缓存 20% 的服务请求。对于这种用例，我们可以将Redis或Memcached服务器与 API 服务器一起使用。

有关详细信息，请参阅缓存。

设计

现在我们已经确定了一些核心组件，让我们开始系统设计的初稿。

工作原理如下：

创建新的 URL

当用户创建新的 URL 时，我们的 API 服务器会从密钥生成服务 (KGS) 请求一个新的唯一密钥。
密钥生成服务向 API 服务器提供唯一密钥，并将该密钥标记为已使用。
API 服务器将新的 URL 条目写入数据库和缓存。
我们的服务向用户返回 HTTP 201（已创建）响应。

访问 URL

当客户端导航到某个短 URL 时，请求就会发送到 API 服务器。
请求首先访问缓存，如果在那里找不到条目，则从数据库中检索，并向原始 URL 发出 HTTP 301（重定向）。
如果在数据库中仍然找不到该密钥，则会向用户发送 HTTP 404（未找到）错误。

详细设计

现在是时候讨论我们设计的细节了。

数据分区

为了扩展数据库，我们需要对数据进行分区。水平分区（又称分片）是一个很好的第一步。我们可以使用以下分区方案：

基于哈希的分区
基于列表的分区
基于范围的分区
复合分区

上述方法仍然会导致数据和负载分布不均匀，我们可以使用一致性哈希来解决这个问题。

有关更多详细信息，请参阅分片和一致性哈希。

数据库清理

这更像是我们服务的维护步骤，取决于我们是保留过期条目还是将其删除。如果我们决定删除过期条目，我们可以通过两种不同的方式进行：

主动清理

在主动清理中，我们将运行一个单独的清理服务，该服务将定期从存储和缓存中移除过期链接。这将是一个非常轻量级的服务，类似于cron 作业。

被动清理

对于被动清理，我们可以在用户尝试访问过期链接时删除相应条目。这可以确保数据库和缓存的延迟清理。

缓存

现在让我们来讨论一下缓存。

使用哪种缓存驱逐策略？

正如我们之前讨论过的，我们可以使用Redis或Memcached等解决方案并缓存 20% 的每日流量，但哪种缓存驱逐策略最适合我们的需求？

对我们的系统来说，最近最少使用（LRU）策略可能是一个不错的选择。在这个策略中，我们首先丢弃最近最少使用的键。

如何处理缓存未命中？

每当出现缓存未命中时，我们的服务器可以直接访问数据库并使用新条目更新缓存。

指标和分析

记录分析和指标是我们的扩展需求之一。我们可以将访客的国家/地区、平台、浏览次数等元数据与 URL 条目一起存储在数据库中并进行更新。

安全

为了安全起见，我们可以引入私有 URL 和授权机制。可以使用单独的表来存储有权访问特定 URL 的用户 ID。如果用户没有适当的权限，我们可以返回 HTTP 401（未授权）错误。

我们还可以使用API 网关，因为它们可以开箱即用地支持授权、速率限制和负载平衡等功能。

识别并解决瓶颈

让我们识别并解决设计中的单点故障等瓶颈：

“如果 API 服务或密钥生成服务崩溃怎么办？”
“我们将如何在组件之间分配流量？”
“我们如何才能减轻数据库的负载？”
“如果KGS使用的密钥数据库出现故障怎么办？”
“如何提高我们的缓存的可用性？”

为了使我们的系统更具弹性，我们可以执行以下操作：

运行我们的服务器和密钥生成服务的多个实例。
在客户端、服务器、数据库和缓存服务器之间引入负载平衡器。
由于我们的数据库是一个读取密集型系统，因此对其使用多个读取副本。
我们的关键数据库的备用副本，以防万一它出现故障。
我们的分布式缓存有多个实例和副本。

本文是我在 Github 上提供的开源系统设计课程的一部分。

karanpratapsingh /系统设计

学习如何大规模设计系统并准备系统设计面试

系统设计

嘿，欢迎来到本课程。希望本课程能给您带来良好的学习体验。

这门课程也可以在我的网站上找到，也可以在leanpub上找到电子书。如果觉得有帮助，请留下⭐作为鼓励！

系统设计：URL 缩短系统设计目录

系统设计：URL缩短器

系统设计

目录

什么是 URL 缩短器？

为什么我们需要 URL 缩短器？

要求

功能要求

非功能性需求

扩展要求

估计和约束

交通

数据模型设计

我们应该使用什么样的数据库？

API 设计

创建 URL

获取 URL

删除网址

为什么我们需要 API 密钥？

高层设计

URL 编码

密钥生成服务（KGS）

缓存

设计

详细设计

数据分区

数据库清理

缓存

指标和分析

安全

识别并解决瓶颈

karanpratapsingh /系统设计

学习如何大规模设计系统并准备系统设计面试

系统设计

目录