ChatGPT+python快速爬取胡润全球独角兽榜教程

01

引言

胡润研究院2023年4月18日于广州发布《2023全球独角兽榜》(Global Unicorn Index 2023),列出了全球成立于2000年之后,价值10亿美元以上的非上市公司。本次榜单估值计算的截止日期为2022年12月31日,在发布之前更新了估值的重大变化。胡润研究院从2017年开始追踪记录独角兽企业,这是第五次发布全球独角兽榜。

今天,小编就带着大家一起学习,如何用ChatGPT结合Python快速获取全球独角兽榜。文末有完整代码的获取方式,记得查收噢!

02

步骤

第一步:通过开发者工具找到目标网页

访问胡润全球独角兽榜(),按下F12打开开发者工具,选择下方每个页面显示的条数,即可在开发者工具中看到目标网页。

第二步:获得cURL

右键该网页,复制为cURL(bash)

第三步:用ChatGPT获取数据

打开ChatGPT,将以下prompt输入:
作为一位资深的Python爬虫工程师,请你基于以下由三个反引号界定的cURL(bash),写一段Python爬虫程序。
程序需要预留出数据处理的部分。
cURL(bash):
```
你刚刚复制的内容
```

之后,ChatGPT将给你一个可行的代码,复制并运行后,就能获得网站响应的结果。

第四步:用ChatGPT提取数据

将网页的内容切换至响应,复制前面的一小段内容即可。

将以下prompt输入给ChatGPT:

现在,我希望加入数据处理的功能。请根据以下的要求输出数据处理部分的代码。

下面由三个反引号界定的内容是响应的JSON结果。我需要提取其中的排名、企业估值(亿元)、企业信息、掌门人/联合创始人、行业。最终的结果保存为excel文件,表头需要设置为中文,只保留我规定的数据,不需要保留index。

只需要输出“数据处理部分”的代码即可。

响应结果示例:

```

你复制的内容

```

 

如果这一步给出的代码运行报错,就将错误信息复制给ChatGPT,让它帮你改正代码。

如果你的代码并不是完整的代码,你可以用prompt要求ChatGPT将两个代码合并。

Prompt

请把代码整理一下,输出完整的代码

在运行ChatGPT给出的代码后,你应该可以获得这样的Excel文件(图中为展示效果手动调整过列间距):

第五步:多页爬取

通过点击下一页,我们可以看到,新的页面和第一页的区别在于,offset参数发生了变化,从0变为200。

以此类推,如果希望爬取多页数据,可以直接给ChatGPT输入以下prompt:

现在我希望能够爬取多页信息,并且最后保存到一个文件中。每个页面都有200条信息,而每个页面的区别在于offset参数。第一页为0,第二页为200,以此类推,共有1360条信息。请你根据这个代码,定义函数实现需求

 

运行结果:

至此,你已经获得一个可以爬取完整胡润全球独角兽榜的程序。

注意事项

1、在使用爬虫进行批量爬取时,需要特别留意爬取的频率。如果频率过高,可能会给网站带来较大的负担,甚至被视为攻击行为,导致IP被封禁,从而导致无法获取到相应的数据。

2、如果确实需要高频率地进行爬取以节省时间,建议使用IP池来进行爬取。你可以根据所购买网站提供的说明文档来了解具体的使用方法,或者向ChatGPT咨询相关问题,它会为你提供帮助。

3、ChatGPT生成的结果并不是完全相同的,即使使用相同的提示。因此,如果生成的代码与文章中不一致,也是可以运行的。如果运行时出现错误,请直接将错误信息复制给ChatGPT,让它帮助你修正代码,直到正确运行为止。

03

结语

希望本文的内容能够帮助读者更加专业地利用爬虫技术,获取胡润全球独角兽榜中感兴趣的数据,为研究和学习提供便利。同时,也提醒读者在使用爬虫时要遵守相关法律法规和网站规定,确保合法合规操作。

THE END