要设计出一套能支撑几十亿人的系统是很困难的。对于软件架构师来说,这一直是一项很大的挑战,但是,从现在开始,看完我的文章,你就会觉得容易很多了。
下面是我在本文中提到的几个话题:
在这篇文章里,我不打算谈论诸如容错、可靠性、高可用性等高性能计算的通用术语。
在下图中,我要先设计一个有一些用户的基本应用。最容易的方式是在一台服务器上部署整个应用。我们中的大部分人可能都是这样开始的。
我们在同一台物理机上同时拥有 Web 服务器和数据库服务器
但是,当前的架构存在下列缺陷:
在这种情况下,我们没有故障转移和冗余。如果一个服务器出现故障,所有的都将会失效。
在上图中,用户(或客户端)连接到 DNS 系统,以获得我们系统所在的服务器的互联网协议(IP)地址。一旦获得 IP 地址,请求就会直接发送到我们的系统。
每次访问网站时,计算机都会执行 DNS 查询。
通常情况下,域名系统(DNS)服务器是作为托管公司提供的付费服务使用的,并不在你自己的服务器上运行。
由于很多原因,我们的系统可能需要进行扩展,例如数据量的增加、工作量的增加(如事务的数目),以及用户的增加。
可扩展性一般是指添加更多的资源,在不影响用户体验的情况下处理更多的用户、客户机、数据、事务或请求。
我们必须决定怎样才能扩大这个系统的规模。在这种情况下,有以下两种类型的扩展:纵向扩展
(scale up) 和横向扩展
(scale out)。
纵向扩展 vs 横向扩展
这也被称为“垂直扩展”,是指为了提高系统处理日益增长的负载的能力而使系统能够最大限度地利用资源——例如,通过增加内存和 CPU 来增加服务器的能力。
如果我们运行的服务器有 8G 的内存,那么只要更换或者增加硬件,就可以轻松地提升到 32G,甚至 128G。
有很多方法可以进行纵向扩展,具体如下:
对于小型系统来说,纵向扩展是一个很好的选择,可以负担得起硬件升级,但也存在一些严重的限制,具体如下:
纵向扩展不仅适用于硬件方面,也适用于软件方面,例如,它包括优化查询和应用程序代码。
相比之下,纵向减缩(scale down)是指从现有的服务器中移除现有的资源,如 CPU、内存和磁盘。
当用户数量不断增加时,一台服务器将无法满足需求。我们需要考虑将一台单独的服务器分离到多台服务器上。
当用户数量不断增加时,一台服务器将无法满足需求
采用该架构有如下优势:
这也被称为“水平扩展”,是指向资源池中添加更多的实体(如机器、服务等)。横向扩展要比纵向扩展更难实现,因为我们必须在建立一个系统之前就把这个问题考虑进去。
开始时,为了满足最基本的需求,我们需要更多的服务器,因此横向扩展最初往往花费更多,但是到了最后,我们将获得更多的收益。我们需要权衡利弊。
服务器数量的增长意味着更多的资源需要维护。同时,还必须对系统代码进行修改,以便实现在多台服务器间进行并行和分配工作。
与此相反,横向减缩(Scale in)指的是删除现有服务器的过程。
负载均衡器是一种专门的硬件或软件组件,它可以帮助分散流量到服务器集群,从而改善系统的响应能力和可用性,包括但不限于应用程序、网站或数据库。
使用负载均衡器来均衡所有节点之间的流量
负载均衡器一般都是在客户端与服务器之间,接受传入的网络及应用程序的流量,并利用各种算法,将流量分配到多个后端服务器。所以,它也可以用于各种场合,比如 Web 服务器与数据库服务器之间,以及客户端和 Web 服务器之间。
HAProxy 和 Nginx 是目前比较受欢迎的开源负载均衡软件。
负载均衡器技术是一种能够改善系统可用性的容错保护方法,具体如下:
负载均衡器通过不同的策略和任务分配算法对负载进行了最优分配,具体如下:
在多个服务器之间均衡请求的最直接方法是使用一个硬件设备。
软件负载均衡是硬件负载均衡器的一个廉价替代品。其操作于第 4 层(网络层)和第 7 层(应用层)。
对于一个简单的系统,我们可以通过 RDBMS,如 Oracle 或者 MySQL 来存储数据项。然而,关系数据库系统也存在着一些问题,尤其是在我们需要扩展的时候。
有很多技术可以扩展关系型数据库:主 - 从复制、主 - 主复制、联合、分片、非规范化和 SQL 调优。
主 - 从复制技术使一个数据库服务器(主服务器)的数据被复制到一个或多个其他数据库服务器(从服务器),如下图所示:
对主服务器进行的所有更新
在实践中,还是存在一些瓶颈。
下面是实现仅一台服务器能处理更新请求的一些解决方案。
请记住,如果同步解决方案过慢,那就改成异步解决方案。
每个数据库服务器都可以在其他服务器被当作主服务器的同时充当主服务器。在某个时间点上,所有的这服务器都会同步,以确保它们的数据是正确的、最新的。
所有节点读写所有数据
以下是主 - 主复制的一些优势:
联合(或功能分区)将数据库按功能划分。例如,你可以有三个数据库:Forum、users 和 products,而不是一个单一的单体数据库,这样就能降低对各个数据库的读写流量,因此减少了复制滞后。
联合按功能划分数据库
数据库越小,可以容纳在内存中的数据就越多,这反过来会导致缓存点击率的增加,这是由于缓存命中的改进。因为不需要单一的中央主控器序列化写操作,所以你可以进行并行写入,这样就可以提高吞吐量。
分片(也被称为数据分区),是一种将大数据库分成许多小部分的技术,这样每个数据库只能管理数据的一个子集。
在理想情况下,我们有不同的用户都与不同的数据库节点对话。它有助于提高系统的可管理性、性能、可用性和负载均衡。
在实践中,有许多不同的技术可以将一个数据库分解成多个小部分。
这种技术是将不同的行放到不同的表中。比如,如果我们在一个表中存储用户资料,我们可以决定将 ID 小于 1000 的用户存储在一个表中,而将 ID 大于 1001 小于 2000 的用户存储在另一个表中。
我们将不同的行放入不同的表中
在这种情况下,我们对数据进行划分,将与特定特性相关的表存储在它们自己的服务器上。例如,如果我们正在建立一个类似于 Instagram 的系统——需要存储与用户、他们上传的照片以及他们所关注的人有关的数据——我们可以决定将用户的资料信息放在一台数据库服务器上,好友列表放在另一台服务器上,而照片放在第三台服务器上。
我们将数据划分,存储与特定特性相关的表,并将其存储在各自的服务器上。
解决这个问题的一个松散耦合的方法,就是创建一个查询服务,它了解你当前的分区模式,并保持每个实体以及存储在哪个数据库分片的映射关系。
当数据存储可能需要扩展到超出单个存储节点的可用资源时,或者通过减少数据存储中的争用来提高性能时,我们可以使用这种方法。但请记住,分片技术存在以下一些常见问题:
非规范化的目的是提高读取性能,但却要牺牲一定的写入性能。为了避免昂贵的连接,可以将数据的冗余副本写入到多个表中。
一旦数据通过联合和分片等技术变得分散,管理跨数据中心的连接将会进一步增加复杂性。非规范化可以避免需要如此复杂的连接。
在大多数系统中,读取操作的次数远远多于写入操作,大约是 100:1,甚至是 1000:1。导致读取复杂数据库连接可能会非常昂贵,而且会耗费很多时间在磁盘上。
有些 RDBMS,像 PostgreSQL 和 Oracle 都支持物化视图,它们可以处理存储冗余数据,并使冗余副本保持一致。
Facebook 的 Ryan Mack 在其出色的文章《建立时间表:利用非规范化的力量扩大规模来保存你的生活故事》(Building Timeline: Scaling up to hold your life story)中分享了很多时间表自身的实现故事。
在数据库领域,主要有两种类型的解决方案。SQL 与 NoSQL。它们的构建方式、存储信息的类型以及存储方式都有所不同。
关系型数据库以行和列的形式存储数据。每一行包含一个实体的所有信息,每一列包含所有独立的数据点。
目前最受欢迎的关系型数据库是 MySQL、Oracle、MS SQL Server、SQLite、Postgres 和 MariaDB。
它也被称为非关系型数据库。这些数据库一般分为五大类别:Key-Value、Graph、Column、Document 和 Blob 存储。
数据被存储在一个键值对的数组中。key
(键)是一个与 value
(值)相连的属性名称。
知名的键值存储有 Redis、Voldemort 和 Dynamo。
在这些数据库中,数据被存储在文档中(而不是表格中的行和列),这些文档被分组在集合中。每个文档都可能是截然不同的结构。
文档数据库包括 CouchDB 和 MongoDB。
在列式数据库中,我们没有“表”,而是有列族,它们是行的容器。与关系型数据库不同,我们不必事先了解所有的列,也不必要求每一行的列数目都相同。
列式数据库最适合分析大型数据集,著名的有 Cassandra 和 HBase。
这些数据库用于存储数据,其关系最好用图来表示。数据被保存在带有节点(实体)、属性(关于实体的信息)和线(实体之间的连接)的图结构中。
图数据库的例子包括 Neo4J 和 InfiniteGraph。
Blob 更像是文件的键 / 值存储,可以通过 Amazon S3、Windows Azure Blob Storage、Google Cloud Storage、Rackspace Cloud Files 或 OpenStack Swift 等 API 访问。
如何选择要使用的数据库?
当涉及数据库技术时,没有放之四海而皆准的解决方案。这就是为什么许多企业同时依赖 SQL 和 NoSQL 数据库来满足不同的需求。
请看下面我画的思维导图!
使用哪个数据库?
我们已经扩展了数据层,现在我们也需要扩展 Web 层。为了做到这一点,我们需要将用户会话的数据(状态)移出 Web 层,将其存储在数据库中,如关系型数据库或 NoSQL。这也被称为无状态架构。
无状态系统很简单。
不要使用有状态架构;由于状态的实现会限制可扩展性。降低可用性和提高成本,所以我们需要尽可能地选择无状态架构。
在上面的场景中,由于可以为最优的请求处理选择任意服务器,因此负载均衡器能够可以达到最高的效率。
负载均衡能够帮助你横向扩展越来越多的服务器,但缓存可以让你更好地利用现有的资源,从而更快速地向下一个请求提供数据。
如果数据不在缓存中,就从数据库中获取,然后保存到缓存中,再从缓存中读取。
我们可以在服务器中添加缓存,避免从服务器中直接读取网页或数据,从而降低了服务器的响应时间及负载。这使得我们的应用程序更加易于扩展。
缓存可以被用于许多层,例如数据库层、Web 服务器层和网络层。
CDN 服务器保存内容(如图像、网页等)的缓存副本,并从最近的位置提供服务。
CDN 的使用可以提高用户的页面加载时间,因为数据是在离它最近的地方检索的。这也有助于提高内容的可用性,因为它被存储在多个地点。
使用 CDN 改善了用户的页面加载时间,因为数据是在最接近它的地方被检索到的。
CDN 服务器向我们的网络服务器发出请求,以验证被缓存的内容,并在需要时更新它们。被缓存的内容通常是静态的,如 HTML 页面、图像、JavaScript 文件、CSS 文件等。
随着你的应用程序在全球范围内推广,你将会在全球范围内建立和运营数据中心,使你的产品每天 24 小时、每周 7 天保持运行。收到的请求将被路由到基于 GeoDNS 的“最佳”数据中心。
当你的应用程序走向全球时……
GeoDNS 是一项 DNS 服务,它可以将一个域名按照用户所在的位置解析为 IP 地址。来自亚洲的客户端可以得到与来自欧洲客户端的不同 IP 地址。
通过迭代应用所有这些技术,我们可以轻松地将系统扩展到 1 亿多用户,如无状态架构、应用负载均衡器、尽可能多地使用缓存数据、支持多个数据中心、在 CDN 上托管静态资产、通过分片扩展你的数据层,诸如此类。
有很多方法可以提高可扩展性和高性能,如下所示:
分片和复制技术相结合。
长轮询 vs Websockets vs 服务器发送事件。
索引和代理。
SQL 调优。
弹性计算。
本文由哈喽比特于2年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/PCCq7TNfVoWyl3aU0oLnIg
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。