联合早报又没更新。
发现并不是代码的问题。
有的网站是肯定抓不到全文的,这点咱服,玩不起的躲着。最烦的就是联合早报这种留下了种种漏洞让你能抓到全文的,最近的方法又不行了。
早报其实还算良心,订户专区的文章本来就不多,但谁让咱有强迫症呢。
之所以说又,把我能想起来的抓取过程念叨一下:
1.文件头head里藏着,虽然是全文,但没有格式,费挺大劲格式化这字符串。
2.一些在线博彩网站可能为了引流,会镜像联合早报的所有新闻,用过一段时间,总觉得膈应,现在也没有这类网站了。
3.发现用中国大陆代理可以免费看订户专区,并且跟官网的都不是一套代码。说明它有判断用户来源来分配不同网页。用了很长一段时间。
4.大陆代理失效,什么也看不到了,偶然发现香港代理还是能得到全文。
这几天不更新了,即使用代理,也和官网看到的是一样的代码了,说明它关掉了这个福利。
其实早就发现了uzaobao.com这个网站,它不是简单的镜像(要不早就用了),还自己改了标题,但正文内容应该是一样的,我对比过。为了全文,可能会启用这根最后的稻草了。
有洁癖的知悉一下,早报的文章将来并不是来自官网。
怪不得这几天联合早报没更新……特地来看了一哈。站长辛苦了
站长,能否增加个关于cnbeta.com的订阅源呢?谢谢
有啊,左侧,科技分类
幸苦了:D
也是没有看到更新来看看,不过好歹路透还活着,哈哈
谢谢站长
这个看起来不是sph 早报的官方网站,我昨天看到更新后发现它的风格和之前也不是特别一样,不懂是个人做出来的新闻集合网站还是大外宣的一部分。
不管如何楼主辛苦了,我自己用feed43做了zb本地新闻的feed,发现更新频率太慢导致抓取的内容不是很全,还是你的这种全文好。
肯定不是官网,最后一句写明了。
应该只是改了标题,正文没看出有什么不同。
太认真了,感谢