全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2299|回复: 16
打印 上一主题 下一主题

谁知道google 爬虫是咋写的

[复制链接]
跳转到指定楼层
1#
发表于 2020-12-28 23:29:40 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
全球域名这么多,怎么保证几天就抓一次呢,有的还时时抓

得是多少台服务器,啥样的服务器能实现啊

怎么我写的爬虫并发几十就到极限了。。。。
推荐
发表于 2020-12-28 23:39:58 来自手机 | 只看该作者
因为你写的爬虫是辣鸡
推荐
发表于 2020-12-29 07:50:45 | 只看该作者
2016年google有250万台server
17#
发表于 2020-12-29 13:19:22 | 只看该作者
并发几十就到极限了,你在古董路由器上跑吗?
16#
发表于 2020-12-29 13:16:31 来自手机 | 只看该作者
说起来你们可能不信,g家还是用的mjj提供的小鸡来爬数据的
15#
发表于 2020-12-29 08:42:30 来自手机 | 只看该作者
知识盲区,不懂
13#
发表于 2020-12-29 07:31:39 来自手机 | 只看该作者
google翻几页就限制ip,得循环多ip. 才能实现啊
12#
发表于 2020-12-29 07:10:45 来自手机 | 只看该作者
类似于google爬虫的代码在github一大把,自己研究去
11#
发表于 2020-12-29 07:08:06 来自手机 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
10#
发表于 2020-12-29 02:08:47 来自手机 | 只看该作者
肯定是异步,然后多线程,多进程拉满,然后分布式也弄上。然后去重也是个很麻烦的问题用布隆呗,数据库的话感觉一半是no sql一半是普通的数据库。而且这么大的数据写入量,优化sql语句,分布式数据库如何同步就是盲区了
9#
发表于 2020-12-29 00:33:48 来自手机 | 只看该作者
异步多线程,垃圾笔记本一天爬几亿条数据小意思
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-15 19:24 , Processed in 0.068197 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表