一场叫做研究生的游戏开始

9.1, 传统意义上,应该是开学的日子,因为是研究生,所以写一下期待下吧。确切的说,应该是 9.7 开学。 自从 4 月份辞职以来,一直是以自由身的身份在生活。一开始准备托福,但是,中期遇到了可能会相伴一生的人。所以在对之后的规划上出现了点变动。所以之后的日子都是更多的在训练自己的一些解决问题的思维能力。 不过这段时间的训练下来,总的来说还算是比较满意的。Codeforce 因为才打了两场,第一场因为不熟悉套路,rank 了1500,有点郁闷,第二场 372 的 rank 还是比较满意(A 题看错题目 WA 3 次。。),目前稳定在了蓝名,6000 名,LeetCode 目前是…

吐槽 Markdown 的设计

之前一开始还是很喜欢 Markdown 的,相对来说比较的简单,从 office word 转到 mardown 的一段时间,适应了之后,写文章的速度就有了很大的提升。 但是,自从开始了编写 markdown-parser,一个 markdown 的解释器,就发现,markdown 的规范都是扯淡,并没有一个很好的官方规范性的文档和转义规范。 比如无顺序的列表,-,+,* 都可以作为前置表达符。但是有的解释器,对*号并不支持。关于引用部分就更加的随机了。如下的一段文章 > Hello World \“` Hello…

快速求出某数的所有约数

故事是这样的,有一场比赛题,本来应该是考察 DP 的,但是算法写出来之后,一值暴 TLE,我一开始以为是 C++ 的 map 是 log(n) 的复杂度,于是改成了 unorder_map 试了下,结果还是 TLE。最后花了很久定位到求约数的算法超时。 按照人惯性的思维,求一个数的约数,直接使用一个 for 就可以了。而且算法的复杂度是 O(n) 具体一点可以说是 O(sqrt(n)) 也是可以接受的。…

VIM Quickrun 插件

这同样是一个重复造轮子的项目,主要的原因就是受大家喜欢的 https://github.com/thinca/vim-quickrun 并不能很好的满足我的需求。 他的运行方式是新开一个 buffer 然后将运行的结果放在 buffer 里面。这样有一个问题就是交互不是很方便。同时,我对这个插件的需求主要还是在写 ACM 的代码时,可以快速的运行。同时在写单脚本语言时,可以方便的配置。 所以,基于以上的几个原因,我自己便开始写了这么一个小插件。 原理其实很简单,就是对你当前的文件名进行一个匹配。比如 “main.cpp”,我会发现这个文件的后缀名是 “cpp”,于是,就会自动查找到配置文件中的 “cpp” 选项。 let g:quickrun_known_file_types = {…

字符串纠错

故这样的,之前在 Leetcode 遇到一道题:『Edit Distance』, 当时做的时候并没有太多的思考,原因也很简单,不知道这道题的算法什么时候可以用得到。 直到,最近在看搜索引擎部分的算法,在处理用户的拼写异常的时候,比如,当用户搜索 『苏州大雪』的时候,怎么能进行纠错为『苏州大学』。 亦或者,在进行爬虫数据筛选的时候,比如在 B 站进行动漫数据抓取的时候,有很多的 UP 主会对动漫的名字做一定的修改,比如『(xx 字幕组)小林家的龙女仆』或者『小林家的龙女仆(高清)』。按照我之前的处理方式,还是很简单的 KV 存储,所以在计算弹幕和播放量的时候,并没有统计合并这样的数据。而从实际情况上来看的话,这两个的数据是应该统计在一起的。 所以,发现这个算法也是可以用的。而且,这个算法确实挺有意思。 using namespace std; class…

搜索最近的店铺 or 找最多店铺的点

这两个问题,应该是电商网站或者说 O2O 业务中最常用的功能。在之前,我也想过该题的解决方法。 第一个问题最简单的方法就是,一个 for 遍历周围所有的数据。通过欧式距离的判断,进行从小打大的排序判断,然后推送结果给用户。但是,当商铺基数足够大的时候,似乎,每次的 O(N) 操作,都是一个不小的时间开销。于是,可以通过进行地区的划分进行优化。 比如在二维坐标系中,划分为 N * N 的正方形区域。进行距离判断的时候,只需要查询用户当前区域和周围 8 个区域的店铺,然后进行搜索,然后排序。同时,也可以针对每个区域进行 cache,因为某个区域间的商铺的排序顺序基本不会有太大变化,而且即使是不同的距离,基本也就是 50 ~ 100 米的误差,某种程度上,用户也能接受这样的误差。…

短链的实现

问题的起因是这个: 这是我的刷题日志。当时是 2017.3.4 号,做了这道题之后,一直想写下是否有更好的解题思路。但是一直没(lan)有(lan)时(lan)间(lan)。 正巧今天在复习数据结构的时候看到了 LZW 压缩器。这就可以拉出来好好扯一下了。 其实现在流行的,或者网上的标准操作套路都是使用 hash 的方式,将其对应到几个短的链接上,但是因为毕竟这个属于 hash 映射,在长度变短的情况下,始终会有冲突的危险。所以也就带来了 rehash(cpu 开销和内存开销) 和 hash 表最坏情况(退化为链表结构,查找效率退化成 O(n))的风险。 比如常见的,使用 md5…

2017 考研小结

考研并不是因为工作不如意,待遇不好,只是我觉得,总得拿个有挑战性的东西玩玩,不然每天总是做重复的工作,太无趣了。而且,一边工作一边考研,未尝不是一件乐事。而且就今年主要就是图个做真题,准备明年认真考。 本来第一天考完就想写的,不过一想到要是考砸了呢?是不是太丢脸了。于是拖到了现在。不过现在查到分数之后也就安心了。数学咋了,英语和政治算是正常发挥。专业课无奈,因为复习时间紧(没辞职,两个月时间)只能放弃 40 分的题目。专心复习剩下的110分。 政治最后是 68 分。比较可惜,毕竟 1000 题这本书,我来来回回刷了 4 次(未复习前一次,复习完之后一次,错题刷一次,二次错题再刷一次)。然而,选择题还是不高,主要是今年全选太多,我太过于谨慎没敢全选。倒是简答题,我也就是临考前两天,开始被肖的 12 套预测卷,基本就是 12 套的所有答案,基本都能背出来(短期强迫记忆,考完全忘光,考试写满试卷)。 英语最后是 87 分,比较满意,毕竟也是我花了最少时间复习的科目。也就是刷了历年真题,以及10套左右的模拟卷,作文也是保持每天批改网上写一篇。拖了工作的福,最常用的就是用英语和外国人探讨人生。 数学最后是 111…