Java URL 规则解释器

接上文《Java 自定义 URL 规则解析》,这次,我们来写这个结构的解释器。 上文的描述中,我们得到了这样的一个数据结构: S: start E: end loop: loop BS: branch start BE: branch end -- http --- -- m. -- -- loop: 1-2 -------------------- S -- BS BE -- :// -- BS BE -- mike/ -- BS BE -- .html -- E -- https -- -- '' -- ... [阅读全文]

Java 自定义 URL 规则解析

正如上文说的,最近再写一个 Proxy 的爬取工具。那么有个问题就接着来了。如何快速的定义一个方便的 URL 配制方法。 举个简单的例子。我们可以看到: public final static String VPS_LIST_URL[] = { "http://www.cz88.utils/proxy/[|http_[2-3|7-9].shtml]", "http://www.site-digger.com/html/articles/20110516/proxieslist.html", "http://www.kuaidaili.com/proxylist/[0-10]" }; 这边在 cz88 这个站点,他的路径是比较奇怪的。页码为1的时候,他是直接根目录访问,但是从之后就是 2-3 和 7-9 两个区间。所以,这边我... [阅读全文]

一个爬虫引发的 Java AES 问题

写在开头,为什么有这一篇文章呢?因为,最近我开始了一个项目组,就是 HTTP Proxy 的信息采集。因为之前一直有个写爬虫的习惯,但是因为一直没有一个稳定的 Proxy 的提供渠道,或者说,并没有限制的资金购买这个服务。导致了我之前的刷某些服务器,被封了 IP (也是因为懒)。 所以,为了避免以上的悲剧不再发生,就开始了这个项目组。那么,这个项目和 AES 加密有什么关系呢。其实,我的计划里,并没有关系。但是,在写爬虫爬取各个网站上的 Proxy 的时候,遇到了这么个情况。有些网站本身也是通过提供 VPS 盈利的,所以他们会在前端显示的时候,做一些加密处理。 比如: http://www.site-digger.com/html/articles/20110516/proxieslist.html 当时,我很简单的以为,他和其他的网站一样,直接脱... [阅读全文]

Hexo Blog Encrypt 1.0.0 发布

最新的文档请查看 : https://github.com/MikeCoder/hexo-blog-encrypt/blob/master/ReadMe.zh.md 插件的GITHUB 距离上一篇 Hexo 博客加密插件简述 先凑个数,等刷完了 TODO,再来发布 1.0.0 版本 已经过去五个月了啊。。。不过现在倒是真的完成了这个插件。原因其实很简单,我不是 hexo 用户,而且当时只是证明,某人觉得做不到的东西,其实很简单。在技术论证结束之后,我就不管了。不过后来的一个 star 和私信给了我完善的理由。 缘由 虽然我不是一个 Hexo 用户,但是,看到这样的知乎问答: 其实很讨厌一种人,常常吐槽某个东西,却不愿意自己改善,... [阅读全文]

Laravel ORM 的一个优化场景

评论中 forehalo 提供了一个更 Laravel 的实现方式:https://laravel.com/docs/5.0/eloquent#eager-loading Laravel 的 Eloquent 可能是最好的 PHP ORM 之一。不过,他也有所有 ORM 框架的通病,就是技术人员在不熟悉框架的情况下进行编码,很容易造成性能问题。之前遇到的一个应用场景。现在简化出来。 有两张表,一张暂定为 user 表,一张为 userinfo 表,现在有个需求是将特定用户抽取出来,然后从 userinfo 表中找到他们的数据,然后显示在页面上。 通常,在 Laravel 中,推荐的方法是使用 Eloquent 的关系函数,比如这样: 在 User Model 里: <?php namespace App; use Il... [阅读全文]

B 站看片记

这是我很早之前就想做的一个项目。因为,作为一个非动漫骨灰级玩家,或者说是一个刚刚接触这个领域的人来说。尝试下口碑较好的作品是比较好的入门方式。所以,我找了个专家 May 咨询了下,并且得到了一个动漫的列表吧。 然后就开始看了。很大程度上,很多的作品都是直接从 B 站上看的,因为有个好处,就是 B 站上有弹幕,而且往往好玩的并不是作品本身,而是弹幕引发的二次讨论。所以,我想对动漫的好看程度或者说是槽点进行一个排名。通常情况下,B 站上都是只提供几种简单的排序,比如播放数,弹幕数,硬币数,收藏数来进行。而且通过分析他的请求,可以发现他的数据都是通过离线计算出来的。 比如说,我希望得到 2016.08.01 ~ 2016.08.12 中弹幕最多的完结动漫,所以,这个请求是: http://www.bilibili.com/list/damku-32-1-2016-0... [阅读全文]