系统设计：Twitter

系统设计

类型	估计
每日活跃用户（DAU）	1亿
每秒请求数 (RPS)	12K/秒
存储（每天）	~5.1 TB
储存（10年）	~19 PB
带宽	~60 MB/s

生成推文是一个繁琐的过程，可能会耗费大量时间，尤其是对于关注人数较多的用户而言。为了提升性能，可以预先生成推文并将其存储在缓存中，然后我们可以通过一种机制定期更新推文，并将我们的排名算法应用于新推文。

出版

发布是根据每个特定用户推送动态数据的步骤。这可能是一个相当繁重的操作，因为一个用户可能有数百万的好友或粉丝。为了解决这个问题，我们有三种不同的方法：

拉动模型（或负载扇出）

当用户创建推文，关注者刷新其新闻源时，该新闻源会被创建并存储在内存中。只有当用户请求时，才会加载最新的新闻源。这种方法减少了数据库的写入操作次数。

这种方法的缺点是，除非用户从服务器“拉”数据，否则他们将无法查看最新的信息，这将增加服务器上的读取操作次数。

推送模型（或写入时扇出）

在这个模型中，用户一旦创建推文，就会立即“推送”到所有关注者的动态。这样一来，系统就无需逐一检查用户的整个关注者列表来查看更新。

然而，这种方法的缺点是它会增加数据库的写入操作次数。

混合模型

第三种方法是拉动模型和推动模型之间的混合模型。它结合了上述两种模型的优点，并试图在两者之间提供一种平衡的方法。

混合模型仅允许关注者数量较少的用户使用推送模型，而对于关注者数量较多的用户（名人），将使用拉取模型。

排名算法

正如我们所讨论的，我们需要一个排名算法来根据每条推文与每个特定用户的相关性对其进行排名。

例如，Facebook 曾经使用过EdgeRank算法，其中每个 feed 项的排名由以下公式描述：

等级 = 亲和力 × 权重 × 衰减

在哪里，

Affinity：表示用户与边线创建者的“亲密度”。如果用户经常点赞、评论或留言给边线创建者，那么亲密度值就会更高，从而导致帖子排名更高。

Weight：是根据每条边分配的值。评论的权重可能比点赞更高，因此评论较多的帖子更有可能获得更高的排名。

Decay：衡量边的生成时间。边越老，衰减值越小，最终的等级就越低。

如今，算法变得更加复杂，排名是使用机器学习模型来完成的，该模型可以考虑数千个因素。

转发是我们的扩展需求之一。为了实现此功能，我们只需创建一条新推文，其中包含转发原推文的用户 ID，然后修改新推文的type枚举和content属性，使其与原推文关联起来。

例如，type枚举属性可以是 tweet 类型，类似于文本、视频等，并且content可以是原始推文的 ID。这里第一行表示原始推文，而第二行表示转发推文。

ID	用户身份	类型	内容	创建于
ad34-291a-45f6-b36c	7a2c-62c4-4dc8-b1bb	文本	嘿，这是我的第一条推文……	1658905644054
f064-49ad-9aa2-84a6	6aa2-2bc9-4331-879f	鸣叫	ad34-291a-45f6-b36c	1658906165427

这是一个非常基本的实现，为了改进它，我们可以创建一个单独的表来存储转发。

搜索

有时，传统的 DBMS 性能不够强，我们需要一些能够快速、近乎实时地存储、搜索和分析海量数据，并在几毫秒内给出结果的工具。Elasticsearch可以帮助我们实现这一目标。

Elasticsearch是一个分布式、免费且开放的搜索和分析引擎，适用于所有类型的数据，包括文本、数字、地理空间、结构化和非结构化数据。它构建于Apache Lucene之上。

我们如何识别热门话题？

趋势功能将基于搜索功能。我们可以缓存最近N几秒内搜索最频繁的查询、标签和主题，并M使用某种批处理机制每秒更新一次。我们的排名算法也可以应用于趋势主题，赋予它们更高的权重，并为用户提供个性化服务。

通知

推送通知是任何社交媒体平台不可或缺的一部分。我们可以使用消息队列或消息代理（例如Apache Kafka）配合通知服务，将请求发送到Firebase 云消息传递 (FCM)或Apple 推送通知服务 (APNS)，后者负责将推送通知发送到用户设备。

有关更多详细信息，请参阅我们在其中讨论推送通知的Whatsapp系统设计。

详细设计

现在是时候详细讨论我们的设计决策了。

数据分区

为了扩展数据库，我们需要对数据进行分区。水平分区（又称分片）是一个很好的第一步。我们可以使用以下分区方案：

基于哈希的分区
基于列表的分区
基于范围的分区
复合分区

上述方法仍然会导致数据和负载分布不均匀，我们可以使用一致性哈希来解决这个问题。

有关更多详细信息，请参阅分片和一致性哈希。

共同的朋友

对于共同好友，我们可以为每个用户构建一个社交图谱。图中的每个节点代表一个用户，一条有向边代表关注者和被关注者。之后，我们可以遍历用户的关注者，找到并推荐共同好友。这需要使用像Neo4j和ArangoDB这样的图数据库。

这是一个非常简单的算法，为了提高我们的建议准确性，我们需要结合使用机器学习作为我们算法一部分的推荐模型。

指标和分析

记录分析和指标是我们的扩展需求之一。由于我们将使用Apache Kafka发布各种事件，因此我们可以使用Apache Spark（一个用于大规模数据处理的开源统一分析引擎）来处理这些事件并对数据进行分析。

缓存

在社交媒体应用中，我们必须谨慎使用缓存，因为用户期望获取最新数据。因此，为了防止资源使用量激增，我们可以缓存排名前 20% 的推文。

为了进一步提高效率，我们可以在系统 API 中添加分页功能。这项功能对于网络带宽有限的用户来说非常实用，因为他们无需在需要时才检索旧消息。

使用哪种缓存驱逐策略？

我们可以使用Redis或Memcached等解决方案并缓存 20% 的每日流量，但哪种缓存驱逐策略最适合我们的需求？

对我们的系统来说，最近最少使用（LRU）策略可能是一个不错的选择。在这个策略中，我们首先丢弃最近最少使用的键。

如何处理缓存未命中？

每当出现缓存未命中时，我们的服务器可以直接访问数据库并使用新条目更新缓存。

有关详细信息，请参阅缓存。

媒体访问和存储

众所周知，我们的大部分存储空间将用于存储媒体文件，例如图像、视频或其他文件。我们的媒体服务将处理用户媒体文件的访问和存储。

但是，我们可以在哪里大规模存储文件呢？嗯，对象存储就是我们想要的。对象存储将数据文件分解成称为对象的块。然后，它将这些对象存储在一个存储库中，该存储库可以分布在多个联网系统中。我们也可以使用分布式文件存储，例如HDFS或GlusterFS。

内容分发网络 (CDN)

内容分发网络 (CDN)可以提高内容可用性和冗余度，同时降低带宽成本。通常，静态文件（例如图像和视频）由 CDN 提供。对于这种情况，我们可以使用Amazon CloudFront或Cloudflare CDN等服务。

识别并解决瓶颈

让我们识别并解决设计中的单点故障等瓶颈：

“如果我们的某项服务崩溃了怎么办？”
“我们将如何在组件之间分配流量？”
“我们如何才能减轻数据库的负载？”
“如何提高我们的缓存的可用性？”
“我们如何才能使我们的通知系统更加强大？”
“我们如何降低媒体存储成本”？

为了使我们的系统更具弹性，我们可以执行以下操作：

运行我们每项服务的多个实例。
在客户端、服务器、数据库和缓存服务器之间引入负载平衡器。
为我们的数据库使用多个读取副本。
我们的分布式缓存有多个实例和副本。
在分布式系统中，精确一次传递和消息排序是一项挑战，我们可以使用专用消息代理（如Apache Kafka或NATS）来使我们的通知系统更加健壮。
我们可以在媒体服务中添加媒体处理和压缩功能来压缩大文件，这将节省大量存储空间并降低成本。

本文是我在 Github 上提供的开源系统设计课程的一部分。

karanpratapsingh /系统设计

学习如何大规模设计系统并准备系统设计面试

系统设计

嘿，欢迎来到本课程。希望本课程能给您带来良好的学习体验。

这门课程也可以在我的网站上找到，也可以在leanpub上找到电子书。如果觉得有帮助，请留下⭐作为鼓励！

系统设计：Twitter 系统设计目录

系统设计：Twitter

系统设计

目录

什么是 Twitter？

要求

功能要求

非功能性需求

扩展要求

估计和约束

交通

数据模型设计

我们应该使用什么样的数据库？

API 设计

发布推文

关注或取消关注用户

获取新闻源

高层设计

建筑学

新闻源

排名算法

转发

搜索

通知

详细设计

数据分区

共同的朋友

指标和分析

缓存

媒体访问和存储

内容分发网络 (CDN)

识别并解决瓶颈

karanpratapsingh /系统设计

学习如何大规模设计系统并准备系统设计面试

系统设计

目录