-
Notifications
You must be signed in to change notification settings - Fork 5.3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
思路 很好啊。就是数据库有点不方便 #255
Comments
建议不错,我也想过用sqlite之类的不需要安装的数据库,之前有人提过mysql的,但是感觉关系型的数据库不是很好,后面抽空会琢磨琢磨 |
昨晚又想了一下,其实连数据库都不需要啊。 |
因为采集和验证的速度都很快,等有客户请求时才做也来得及。也省资源。 |
数据库还是有必要,节省了持久化的工作 |
验证实时做的话,这效率要求也太低了。 |
如果能够使用sqlite这种内置的数据库就非常棒了 |
是的,数据要是能存在sqlite中的话会方便很多 |
感谢建议,后续会考虑不需要额外安装得存储介质 |
其实代理IP数据应该分为几种:
其实代理IP数据应该分为几种: 毕竟 这免费代理IP的有效性不适合长期保存,频繁写数据库和频繁验证对主机压力很大. |
@szchengmi 首先不管用那种方式取代理验证代理 都需要每步都需要持久化到数据库,第二个频繁验证对主机压力的问题,代理池就是这么个作用,定时验证保证爬虫部分的效率,另外部署的主机只需要带宽足够就行,不存在什么压力 |
现在用ssdb还是另外安装一个来运行。
不如全部在python里面控制,比如数据库使用peewee来控制 就省事。
对用户来说,只要打开 main运行就行了。现在还要另外 运行一个数据库服务,又不是为了高性能才不得已这么做。
The text was updated successfully, but these errors were encountered: