如何爬取百度好看短视频

这里跟大家分享一下我是如何爬取到百度好看短视频的,分为以下的几步了,首先是打开网站http://haokan.baidu.com,建议使用chrome

可以根据频道,然后选择其中一个用户,这里以“洋子说动物“为例,然后点击用户的头像,进入到该用户的主页。

打开F12,开发者工具,然后选择“网络”-> “Fetch/XHR”,拉动鼠标向下,

在页面上会看到有视频不断的补充进来,然后网络请求栏里面,也陆续增加一些记录,这些记录是ajax的异步请求,返回的内容就是新增加进来的视频,然后我们详细查看下响应内容,

可以清楚的看到返回的格式是json,一次返回数量是10个视频,然后具体的就是每个视频的详情字段:

cover表示视频封面

duration 表示视频时长

playcnt 表示播放次数

publish_time 表示发布时间

title 表示视频的标题

vid. 表示视频的id

大家注意到这里,没有视频的播放地址,所以我们还需要打开一个视频观看,来查看视频的播放地址,

同样的打开开发者工具,然后选择“网络”-> “媒体”,可以看到视频的地址

这个视频的地址有点长,然后可以通过截取的方式,提取出mp4的简洁地址。

整理下代码思路,需要2个循环,第1个 是获取这个用户的所有视频链接,提取出视频id,第2个是访问视频的播放页面,获取到视频的地址。

最后是将所有的相关视频数据存入到数据库中。

另外就是需要加一个定时任务,因为我们不知道原创作者是什么时候更新视频,所以只能通过定时来拉取,判断目前用户已发布的视频是否被我们爬取出,如果爬取过,就不爬取,如果有没爬取过的数据,就爬取一遍。就是同步原创者的更新量。

这个方案也可以通过crontab,也可以通过Python的apscheduler来实现,方法有很多,大家可以去研究一下。

       Python实例代码我已经打包好了,需要的伙伴,找我私聊,发网盘链接

       接下来我给大家讲解下,如何将爬取的视频全自动同步到视频号上的。

程序员赚钱系列-网课讲师-4

在试听结束之后,官方(慕课网)邮寄发来了合同书,上面列举了一些条款,说下当时我的薪酬是1750元/小时,然后我签字之后就回寄一份过去了,当时没有注意里面的坑。

1750元/小时,看似很高哈,来,我细说一下,那时课程官方主要是用作宣传,是免费给用户看的,所以对时间的控制特别严,一般一个课在2个小时以内,当时我录制完成第一套课程的话是1小时11分,然而被官方的剪辑师傅硬是剪到了42分,相当于少了半小时,直接少了875元,因为官方有权把作者的视频自由剪辑,所以官方会把一些它认为无意义的停顿或者空白时间都去掉,所以时间就被压缩了 ,这是比较坑的点。

程序员赚钱系列-网课讲师-3

古人云:万事开头难,确实如此,我开始试录的时候,本来反复练习了好多次,结果录制过程中,要么就是进杂音,要么声音小,要么就是录制一段时间后开始不连贯了,就是各种车祸不断,主要还是不自信。反复纠结了几次之后,然后就慢慢好了很多,第一个视频因为录制不下30次,哎,不自信的人要付出比常人更多的努力。

在录制好demo后,兴奋第一时间回传给了官方(慕课网),官方会找自己的员工来进行试听,并提出一些建议。比如语速的把控,技术名词概念的解释是否有误,以及演示网站的选择等等,事无巨细。

然后我这边认真听取官方的建议,做了一些调整和修改,然后又回传过去,终于一次过了! 接下来要开始真正的录制了!

程序员赚钱系列-网课讲师-2

前面说完是如何勾搭上慕课网的小姐姐的,接下来就是如何相处了。

在确定了第一次录制课程的主题,我就开始一系列的准备工作,包括哪些呢?

1.安装录制软件

2.设置桌面主题,桌面必须用指定的桌面,都有官方的logo

3.准备课件的PPT

4.准备录音麦克风

当时是很激动的,因为想到是要录制课程了,以前都是看各路大牛的课程,想到现在自己也能录课了,还是很兴奋,为了尽快适应这个角色,一周内抽时间把已有的PHP各路讲师的课程看了下,有点感觉了,在课件PPT准备完毕并且过审之后,就开始准备要试录了,毕竟没有录制过,官方(慕课网)也不了解我,不知道我能不能兜得住,所以只有通过试听来判定我个人的水平,不然官方也不敢放我的课上去,录得很差的话,就是打官方自己的脸!

我一直不敢丝毫懈怠,反复折腾了好久! 尴尬!