国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

首頁

解決方案&服務

客戶&案例

營銷資訊

關(guān)于我們

15158846557 或

在線咨詢

所在位置：首頁 > 營銷資訊 > 網(wǎng)站運營 > 系統(tǒng)設(shè)計面試之網(wǎng)頁爬蟲

系統(tǒng)設(shè)計面試之網(wǎng)頁爬蟲

時間：2023-09-18 11:06:01 | 來源：網(wǎng)站運營

時間：2023-09-18 11:06:01 來源：網(wǎng)站運營

系統(tǒng)設(shè)計面試之網(wǎng)頁爬蟲：

本文翻譯自GitHub上有關(guān)系統(tǒng)設(shè)計的repo：system design primer里面關(guān)于面試系統(tǒng)設(shè)計之網(wǎng)頁爬蟲，6w+的star。

Note: 為了避免重復，當前文檔直接鏈接到系統(tǒng)設(shè)計主題的相關(guān)區(qū)域，請參考鏈接內(nèi)容以獲得綜合的討論點、權(quán)衡和替代方案。

第一步：概述用例和約束

收集這個問題的需求和范疇。問相關(guān)問題來明確用例和約束。討論一些假設(shè)。

因為沒有面試官來明確這些問題，所以我們自己將定義一些用例和約束。

用例

我們將問題的范疇限定在如下用例

服務爬取一個 url 列表：

為包含搜索項的頁面生成單詞的反向索引
生成頁面的標題和摘要

標題和摘要是靜態(tài)的，它們不會根據(jù)搜索查詢進行更改

用戶輸入搜索詞并查看包含爬網(wǎng)程序生成的標題和摘要的相關(guān)頁面列表

僅為此用例繪制高級組件和交互，無需深入研究

服務需要高可用

超出范疇的用例

搜索分析
個性化搜索結(jié)果
網(wǎng)頁排名

約束和假設(shè)

狀態(tài)假設(shè)

流量不是均勻分布的

有些搜索非常頻繁，而其他搜索只執(zhí)行一次

僅支持匿名用戶
應該很快生成搜索結(jié)果
網(wǎng)頁爬蟲不應該陷入無限循環(huán)

如果圖形包含循環(huán)，我們會陷入無限循環(huán)

10 億個鏈接爬取

需要定期爬取頁面以確保新鮮度
平均刷新率約為每周一次，對于熱門網(wǎng)站更為頻繁

每月爬取 40 億個鏈接

每個網(wǎng)頁的平均存儲大?。?00 KB

為簡單起見，計數(shù)更改與新頁面相同

每月 1000 億次搜索

使用更傳統(tǒng)的系統(tǒng) - 不要使用 solr 或 nutch 等現(xiàn)有系統(tǒng)。

計算使用

如果您應該運行背信息使用計算，請與您的面試官澄清。

每個月存儲頁面內(nèi)容 2 PB

每個頁面 500 KB * 每個月爬取 40 億個鏈接
在3年內(nèi)存儲的頁面內(nèi)容為 72 PB

每秒 1,600 次寫請求
每秒 40,000 次搜索請求

方便的轉(zhuǎn)換指南：

每月 250 萬秒
每秒1個請求=每月 250 萬個請求
每秒40個請求=每月 1 億個請求
每秒400個請求=每月 10 億個請求

第二步：創(chuàng)建一個高層次設(shè)計

概述一個包括所有重要的組件的高層次設(shè)計

第三步：設(shè)計核心組件

深入每一個核心組件的細節(jié)

用例：服務爬取一個網(wǎng)址列表

假設(shè)我們有一個最初根據(jù)整體網(wǎng)站流行度排名的 links_to_crawl 列表。如果這不是一個合理的假設(shè)，我們可以使用鏈接到外部內(nèi)容（如 Yahoo，DMOZ 等）的熱門網(wǎng)站為爬蟲播種。

我們將使用表 crawled_links 來存儲已處理的鏈接及其頁面簽名。

我們可以將 links_to_crawl 和 crawled_links 存儲在鍵值 NoSQL Database 中。對于 links_to_crawl 中的排名鏈接，我們可以使用 Redis 和排序集來維護頁面鏈接的排名。我們應該討論選擇 SQL 或 NoSQL 之間的用例和權(quán)衡。

爬蟲服務通過下面的循環(huán)處理每一個頁面鏈接：

采用排名靠前的頁面鏈接進行爬取

檢查 NoSQL Database 中的 crawled_links 以獲取具有類似頁簽名的條目

如果我們有類似的頁面，則降低頁面鏈接的優(yōu)先級

這可以防止我們進入一個循環(huán)
繼續(xù)執(zhí)行

否則, 爬取這個鏈接

將一個任務添加到反向索引服務隊列以生成反向索引
將一個任務添加到文檔服務隊列以生成一個靜態(tài)標題和摘要
生成頁面的簽名
把這個鏈接從 NoSQL Database 中的 links_to_crawl 刪除
將頁面鏈接和簽名插入 NoSQL Database 中的 crawled_links

向面試官闡明你需要寫多少代碼

PagesDataStore 是爬蟲服務中使用 NoSQL Database 的抽象：

class PagesDataStore(object):    def __init__(self, db);        self.db = db        ...    def add_link_to_crawl(self, url):        """Add the given link to `links_to_crawl`."""        ...    def remove_link_to_crawl(self, url):        """Remove the given link from `links_to_crawl`."""        ...    def reduce_priority_link_to_crawl(self, url):        """Reduce the priority of a link in `links_to_crawl` to avoid cycles."""        ...    def extract_max_priority_page(self):        """Return the highest priority link in `links_to_crawl`."""        ...    def insert_crawled_link(self, url, signature):        """Add the given link to `crawled_links`."""        ...    def crawled_similar(self, signature):        """Determine if we've already crawled a page matching the given signature"""        ...

Page 是爬蟲服務中的一個抽象，它封裝了一個頁面，以及它的內(nèi)容，子URL和簽名：

class Page(object):    def __init__(self, url, contents, child_urls, signature):        self.url = url        self.contents = contents        self.child_urls = child_urls        self.signature = signature

Crawler 是爬蟲服務中的主要類，由 Page 和 PagesDataStore 組成。

class Crawler(object):    def __init__(self, data_store, reverse_index_queue, doc_index_queue):        self.data_store = data_store        self.reverse_index_queue = reverse_index_queue        self.doc_index_queue = doc_index_queue    def create_signature(self, page):        """Create signature based on url and contents."""        ...    def crawl_page(self, page):        for url in page.child_urls:            self.data_store.add_link_to_crawl(url)        page.signature = self.create_signature(page)        self.data_store.remove_link_to_crawl(page.url)        self.data_store.insert_crawled_link(page.url, page.signature)    def crawl(self):        while True:            page = self.data_store.extract_max_priority_page()            if page is None:                break            if self.data_store.crawled_similar(page.signature):                self.data_store.reduce_priority_link_to_crawl(page.url)            else:                self.crawl_page(page)

處理重復

我們需要注意網(wǎng)絡爬蟲不會陷入無限循環(huán)，這會在當圖形包含一個循環(huán)時發(fā)生。

向面試官闡明你需要寫多少代碼

我們要刪除重復的網(wǎng)址：

對于較小的列表，我們可以使用類似排序的 sort | unique
有 10 億個鏈接爬取，我們可以使用 MapReduce 來只輸出頻率為 1 的條目

class RemoveDuplicateUrls(MRJob):    def mapper(self, _, line):        yield line, 1    def reducer(self, key, values):        total = sum(values)        if total == 1:            yield key, total

檢測重復內(nèi)容更復雜。我們可以根據(jù)頁面內(nèi)容生成簽名，并比較這兩個簽名的相似性。一些潛在的算法是雅克卡指數(shù) 和余弦相似度。

確定何時更新爬取結(jié)果

需要定期爬取頁面以確保新鮮度。爬取結(jié)果可能有一個 timestamp 字段，表示爬取頁面的最后時間。在默認時間段（例如一周）之后，應刷新所有頁面。經(jīng)常更新或更受歡迎的網(wǎng)站可以在較短的時間間隔內(nèi)刷新。

雖然我們不會深入研究分析的細節(jié)，但我們可以進行一些數(shù)據(jù)挖掘以確定特定頁面更新之前的平均時間，并使用該統(tǒng)計信息來確定重新爬取頁面的頻率。

我們也可能選擇支持一個 Robots.txt 文件，該文件可讓網(wǎng)站管理員控制爬取頻率。

用例：用戶輸入搜索詞并查看帶有標題和摘要的相關(guān)頁面列表

客戶端發(fā)送一個請求到作為一個反向代理啟動的 Web 服務器
Web 服務器 轉(zhuǎn)發(fā)請求給 查詢接口 服務器
查詢接口 服務器執(zhí)行如下操作：

解析這個查詢

刪除標記
將文本分解為術(shù)語
處理拼寫錯誤
規(guī)范化大寫
將查詢轉(zhuǎn)換為使用布爾運算

使用反向索引服務查找與查詢匹配的文檔

反向索引服務對匹配結(jié)果進行排名并返回最高結(jié)果
使用文檔服務返回標題和摘要

我們將會用一個公開的 REST 風格接口：

$ curl https://search.com/api/v1/search?query=hello+worldResponse:

{    "title": "foo's title",    "snippet": "foo's snippet",    "link": "https://foo.com",},{    "title": "bar's title",    "snippet": "bar's snippet",    "link": "https://bar.com",},{    "title": "baz's title",    "snippet": "baz's snippet",    "link": "https://baz.com",},

用于內(nèi)部通信，我們可以用 RPC。

第四步：擴展這個設(shè)計

基于給定的約束條件，確定并解決瓶頸問題。

重要提示: 不要簡單的從最初的設(shè)計直接跳到最終的設(shè)計

說明您將迭代地執(zhí)行這樣的操作：1)Benchmark/Load 測試，2)Profile 出瓶頸，3)在評估替代方案和權(quán)衡時解決瓶頸，4)重復前面，可以參考在 AWS 上設(shè)計一個可以支持百萬用戶的系統(tǒng)這個用來解決如何迭代地擴展初始設(shè)計的例子。

重要的是討論在初始設(shè)計中可能遇到的瓶頸，以及如何解決每個瓶頸。比如，在多個 Web 服務器上添加負載平衡器可以解決哪些問題？CDN 解決哪些問題？主從復制解決哪些問題? 替代方案是什么和怎么對每一個替代方案進行權(quán)衡比較？

我們將介紹一些組件來完成設(shè)計，并解決可伸縮性問題。內(nèi)部的負載平衡器并不能減少雜亂。

為了避免重復的討論，參考以下系統(tǒng)設(shè)計主題獲取主要討論要點、權(quán)衡和替代方案：

DNS
負載均衡器
水平擴展
反向代理（web 服務器）
應用層
緩存
NoSQL
一致性模式
可用性模式

有些搜索非常受歡迎，而其他搜索只執(zhí)行一次。流行查詢可以從內(nèi)存緩存**（例如 Redis 或 Memcached）提供，以減少響應時間并避免重載反向索引服務和文檔服務。內(nèi)存緩存對于處理不均勻分布的流量和流量峰值也很有用。從內(nèi)存順序讀取 1 MB 大約需要 250 微秒，而從 SSD 讀取需要 4 倍，而從磁盤讀取需要 80 倍。1

以下是對爬取服務的一些其他優(yōu)化：

為了要處理數(shù)據(jù)大小和請求負載，反向索引服務和文檔服務可能需要大量使用分片和復制
DNS 查找可能是一個瓶頸，爬蟲服務可以保留自己定期刷新的 DNS 查找
爬蟲服務可以通過一次保持多個開放連接來提高性能并減少內(nèi)存使用，稱為連接池

切換到 UDP 也可以提高性能

網(wǎng)頁爬取是帶寬密集型的，確保有足夠的帶寬來維持高吞吐量

額外的話題

是否更深入探討額外主題，取決于問題的范圍和面試剩余的時間。

SQL 擴展模式

讀副本
聯(lián)合
分片
非規(guī)范化
SQL調(diào)優(yōu)

NoSQL

鍵值存儲
文檔存儲
列型存儲
圖數(shù)據(jù)庫
sql 還是 nosql

緩存

在哪緩存

客戶端緩存
CDN 緩存
Web 服務器緩存
數(shù)據(jù)庫緩存
應用緩存

緩存什么

數(shù)據(jù)庫查詢級別的緩存
對象級別的緩存

何時更新緩存

緩存模式
直寫模式
回寫模式
刷新

異步和微服務

消息隊列
任務隊列
背壓
微服務

通信

討論權(quán)衡:

跟客戶端之間的外部通信 - HTTP APIs following REST
內(nèi)部通信 - RPC

服務發(fā)現(xiàn)

安全

參考安全。

延遲數(shù)字

見每個程序員都應該知道的延遲數(shù)。

持續(xù)進行

繼續(xù)對系統(tǒng)進行基準測試和監(jiān)控，以在瓶頸出現(xiàn)時解決它們
擴展是一個迭代的過程

關(guān)鍵詞：爬蟲,設(shè)計,系統(tǒng)

網(wǎng)站
營銷
設(shè)計
運營
優(yōu)化
效率
專注
電商
方案
推廣

解決方案&服務

客戶&案例

營銷資訊

關(guān)于我們

解決方案&服務

客戶&案例

營銷資訊

關(guān)于我們

微信公眾號

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

系統(tǒng)設(shè)計面試之網(wǎng)頁爬蟲

第一步：概述用例和約束

用例

我們將問題的范疇限定在如下用例

超出范疇的用例

約束和假設(shè)

狀態(tài)假設(shè)

計算使用

第二步：創(chuàng)建一個高層次設(shè)計

第三步：設(shè)計核心組件

用例：服務爬取一個網(wǎng)址列表

處理重復

確定何時更新爬取結(jié)果

用例：用戶輸入搜索詞并查看帶有標題和摘要的相關(guān)頁面列表

第四步：擴展這個設(shè)計

額外的話題

SQL 擴展模式

NoSQL

緩存

異步和微服務

通信

安全

延遲數(shù)字

持續(xù)進行

深圳網(wǎng)站設(shè)計比較好的公司有哪些？

百度愛采購走進杭州助力企業(yè)提效轉(zhuǎn)型

營銷型網(wǎng)站的建設(shè)要求

優(yōu)質(zhì)的登錄/注冊UI模板素材推薦，不容錯過！

靜態(tài)網(wǎng)站的運行和數(shù)據(jù)庫的介紹

外貿(mào)行業(yè)網(wǎng)站建設(shè)解決方案|外貿(mào)獨立站建設(shè)應該注意哪些問題

國內(nèi)有哪些高端網(wǎng)站設(shè)計制作公司？

10大最好的主機服務器（2021）

企業(yè)網(wǎng)站整站優(yōu)化七大思路

【實戰(zhàn)演練】Python+Django網(wǎng)站開發(fā)系列04-Django導航BASE頁開發(fā)

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

系統(tǒng)設(shè)計面試之網(wǎng)頁爬蟲

第一步：概述用例和約束

用例

我們將問題的范疇限定在如下用例

超出范疇的用例

約束和假設(shè)

狀態(tài)假設(shè)

計算使用

第二步：創(chuàng)建一個高層次設(shè)計

第三步：設(shè)計核心組件

用例：服務爬取一個網(wǎng)址列表

處理重復

確定何時更新爬取結(jié)果

用例：用戶輸入搜索詞并查看帶有標題和摘要的相關(guān)頁面列表

第四步：擴展這個設(shè)計

額外的話題

SQL 擴展模式

NoSQL

緩存

異步和微服務

通信

安全

延遲數(shù)字

持續(xù)進行

推薦文章

系統(tǒng)設(shè)計面試之網(wǎng)頁爬蟲

HTML+CSS+JS大作業(yè)——汽車保險銷售綜合商城(44頁) HTML5網(wǎng)頁設(shè)

10元寫的Html網(wǎng)頁設(shè)計第七次作業(yè)——美食專欄和移動端字體設(shè)計 -

關(guān)于城市旅游的HTML網(wǎng)頁設(shè)計——中國旅游HTML+CSS+JavaScript 11

使網(wǎng)頁設(shè)計更加現(xiàn)代化的10種方法

HTML5期末大作業(yè)：漢堡美食網(wǎng)站設(shè)計——餐飲美食-漢堡美食(6頁) HT

HTML+CSS美食靜態(tài)網(wǎng)頁設(shè)計——八大菜系介紹舌尖上的美食5頁

旅行網(wǎng)頁制作網(wǎng)頁設(shè)計-2

餐飲美食網(wǎng)頁制作網(wǎng)頁設(shè)計-3

楊濤教育的楊亦濤老師分享網(wǎng)頁美工設(shè)計的要點

深圳網(wǎng)站設(shè)計比較好的公司有哪些？

百度愛采購走進杭州 助力企業(yè)提效轉(zhuǎn)型

營銷型網(wǎng)站的建設(shè)要求

優(yōu)質(zhì)的登錄/注冊UI模板素材推薦，不容錯過！

靜態(tài)網(wǎng)站的運行和數(shù)據(jù)庫的介紹

外貿(mào)行業(yè)網(wǎng)站建設(shè)解決方案|外貿(mào)獨立站建設(shè)應該注意哪些問題

國內(nèi)有哪些高端網(wǎng)站設(shè)計制作公司？

10大最好的主機服務器（2021）

企業(yè)網(wǎng)站整站優(yōu)化七大思路

【實戰(zhàn)演練】Python+Django網(wǎng)站開發(fā)系列04-Django導航BASE頁開發(fā)

深圳網(wǎng)站設(shè)計比較好的公司有哪些？

百度愛采購走進杭州助力企業(yè)提效轉(zhuǎn)型

優(yōu)質(zhì)的登錄/注冊UI模板素材推薦，不容錯過！

國內(nèi)有哪些高端網(wǎng)站設(shè)計制作公司？