爬取网页信息的小能手——微软PowerBI

火箭君曾经介绍过使用Excel直接下载网页中数据,但是在实际使用中你会发现许多困难,比如说在本文介绍的案列中,你根本无法通过Excel抓取到网页中合适的信息,而微软旗下的另一款软件Power BI在这时候就显示出了无可比拟的优势。具体是什么,就让我们来看看文章吧!

什么是Power BI?

也许有的小伙伴对于此工具还比较陌生。根据微软官方的定义,PowerBI是这样一款产品:

Power BI 是软件服务、应用和连接器的集合,它们协同工作以将相关数据来源转换为连贯的视觉逼真的交互式见解。 无论用户的数据是简单的 Excel 电子表格,还是基于云和本地混合数据仓库的集合,Power BI 都可让用户轻松地连接到数据源,直观看到(或发现)重要内容,与任何所希望的人进行共享。

它是一种集成式的工具,提现了微软在企业端为企业数字化转型所做出的尝试。但是,天生的好工具也不只能局限于在企业业务场景,Power BI也可以为我们个人所用。

比如……

抓取豆瓣「最受关注图书榜」

如果我们想要抓取豆瓣读书页面上(https://book.douban.com/)「最受关注图书榜」的相关信息:

  • 书名

  • 评分

  • 作者

    ……

这时我们就可以毫不犹豫得使用这个Power BI工具。

Step 1

在Power BI的主界面中分别选中「获取数据」->「Web」。

Step 2

在弹出的窗口中复制进豆瓣的地址(https://book.douban.com/),并确认

Step 3

这时候会再弹出一个导航器,选择「使用示例添加表」。

Step 4

这时你能看到再次弹出的窗口分别由两部分组成:上部为浏览器,下部为类似Excel表格的界面。这时,你只要给到列的标题,并选择前1到2个需要抓取的数据内容,比如说「人生海海」和「皮肤的秘密」这两个书名,然后按回车。Power BI会自动帮你填充所有其他在网页中相同的元素类型。

以此类推可以完成评分,作者等内容的抓取。

按确认键结束内容抓取。

Step 5

数据抓取加载完成后,我们就可以在数据视图中看到所有内容。

如果你说:“唔,我还是想用Excel来最终处理或者保存这些数据。”这当然也是没有问题的。只要在右侧的工具栏中,右键单击表格,在弹出的菜单中选择「复制表」。这样你就可以安安心心把这些数据存到Excel中去了。

你学会了吗?