ChatGPT+python快速爬取胡润全球独角兽榜教程
今天,小编就带着大家一起学习,如何用ChatGPT结合Python快速获取全球独角兽榜。文末有完整代码的获取方式,记得查收噢!
访问胡润全球独角兽榜(),按下F12打开开发者工具,选择下方每个页面显示的条数,即可在开发者工具中看到目标网页。

右键该网页,复制为cURL(bash)

之后,ChatGPT将给你一个可行的代码,复制并运行后,就能获得网站响应的结果。

将以下prompt输入给ChatGPT:
现在,我希望加入数据处理的功能。请根据以下的要求输出数据处理部分的代码。
下面由三个反引号界定的内容是响应的JSON结果。我需要提取其中的排名、企业估值(亿元)、企业信息、掌门人/联合创始人、行业。最终的结果保存为excel文件,表头需要设置为中文,只保留我规定的数据,不需要保留index。
只需要输出“数据处理部分”的代码即可。
响应结果示例:
```
你复制的内容
```

如果这一步给出的代码运行报错,就将错误信息复制给ChatGPT,让它帮你改正代码。
如果你的代码并不是完整的代码,你可以用prompt要求ChatGPT将两个代码合并。
Prompt:
请把代码整理一下,输出完整的代码
在运行ChatGPT给出的代码后,你应该可以获得这样的Excel文件(图中为展示效果手动调整过列间距):
通过点击下一页,我们可以看到,新的页面和第一页的区别在于,offset参数发生了变化,从0变为200。
以此类推,如果希望爬取多页数据,可以直接给ChatGPT输入以下prompt:
现在我希望能够爬取多页信息,并且最后保存到一个文件中。每个页面都有200条信息,而每个页面的区别在于offset参数。第一页为0,第二页为200,以此类推,共有1360条信息。请你根据这个代码,定义函数实现需求
运行结果:
至此,你已经获得一个可以爬取完整胡润全球独角兽榜的程序。
1、在使用爬虫进行批量爬取时,需要特别留意爬取的频率。如果频率过高,可能会给网站带来较大的负担,甚至被视为攻击行为,导致IP被封禁,从而导致无法获取到相应的数据。
2、如果确实需要高频率地进行爬取以节省时间,建议使用IP池来进行爬取。你可以根据所购买网站提供的说明文档来了解具体的使用方法,或者向ChatGPT咨询相关问题,它会为你提供帮助。
3、ChatGPT生成的结果并不是完全相同的,即使使用相同的提示。因此,如果生成的代码与文章中不一致,也是可以运行的。如果运行时出现错误,请直接将错误信息复制给ChatGPT,让它帮助你修正代码,直到正确运行为止。
希望本文的内容能够帮助读者更加专业地利用爬虫技术,获取胡润全球独角兽榜中感兴趣的数据,为研究和学习提供便利。同时,也提醒读者在使用爬虫时要遵守相关法律法规和网站规定,确保合法合规操作。