网站建设与开发

ChatGPT＋python快速爬取胡润全球独角兽榜教程

网站建设与开发

37

2023-6-24

01

引言

胡润研究院2023年4月18日于广州发布《2023全球独角兽榜》（Global Unicorn Index 2023），列出了全球成立于2000年之后，价值10亿美元以上的非上市公司。本次榜单估值计算的截止日期为2022年12月31日，在发布之前更新了估值的重大变化。胡润研究院从2017年开始追踪记录独角兽企业，这是第五次发布全球独角兽榜。

今天，小编就带着大家一起学习，如何用ChatGPT结合Python快速获取全球独角兽榜。文末有完整代码的获取方式，记得查收噢！

02

步骤

第一步：通过开发者工具找到目标网页

访问胡润全球独角兽榜（），按下F12打开开发者工具，选择下方每个页面显示的条数，即可在开发者工具中看到目标网页。

第二步：获得cURL

右键该网页，复制为cURL(bash)

第三步：用ChatGPT获取数据

打开ChatGPT，将以下prompt输入：

作为一位资深的Python爬虫工程师，请你基于以下由三个反引号界定的cURL(bash)，写一段Python爬虫程序。

程序需要预留出数据处理的部分。

cURL(bash)：

```

你刚刚复制的内容

```

之后，ChatGPT将给你一个可行的代码，复制并运行后，就能获得网站响应的结果。

第四步：用ChatGPT提取数据

将网页的内容切换至响应，复制前面的一小段内容即可。

将以下prompt输入给ChatGPT：

现在，我希望加入数据处理的功能。请根据以下的要求输出数据处理部分的代码。

下面由三个反引号界定的内容是响应的JSON结果。我需要提取其中的排名、企业估值（亿元）、企业信息、掌门人/联合创始人、行业。最终的结果保存为excel文件，表头需要设置为中文，只保留我规定的数据，不需要保留index。

只需要输出“数据处理部分”的代码即可。

响应结果示例：

```

你复制的内容

```

如果这一步给出的代码运行报错，就将错误信息复制给ChatGPT，让它帮你改正代码。

如果你的代码并不是完整的代码，你可以用prompt要求ChatGPT将两个代码合并。

Prompt：

请把代码整理一下，输出完整的代码

在运行ChatGPT给出的代码后，你应该可以获得这样的Excel文件（图中为展示效果手动调整过列间距）：

第五步：多页爬取

通过点击下一页，我们可以看到，新的页面和第一页的区别在于，offset参数发生了变化，从0变为200。

以此类推，如果希望爬取多页数据，可以直接给ChatGPT输入以下prompt：

现在我希望能够爬取多页信息，并且最后保存到一个文件中。每个页面都有200条信息，而每个页面的区别在于offset参数。第一页为0，第二页为200，以此类推，共有1360条信息。请你根据这个代码，定义函数实现需求

运行结果：

至此，你已经获得一个可以爬取完整胡润全球独角兽榜的程序。

注意事项

1、在使用爬虫进行批量爬取时，需要特别留意爬取的频率。如果频率过高，可能会给网站带来较大的负担，甚至被视为攻击行为，导致IP被封禁，从而导致无法获取到相应的数据。

2、如果确实需要高频率地进行爬取以节省时间，建议使用IP池来进行爬取。你可以根据所购买网站提供的说明文档来了解具体的使用方法，或者向ChatGPT咨询相关问题，它会为你提供帮助。

3、ChatGPT生成的结果并不是完全相同的，即使使用相同的提示。因此，如果生成的代码与文章中不一致，也是可以运行的。如果运行时出现错误，请直接将错误信息复制给ChatGPT，让它帮助你修正代码，直到正确运行为止。

03

结语

希望本文的内容能够帮助读者更加专业地利用爬虫技术，获取胡润全球独角兽榜中感兴趣的数据，为研究和学习提供便利。同时，也提醒读者在使用爬虫时要遵守相关法律法规和网站规定，确保合法合规操作。

THE END

AI绘画Stable Diffusion新手入门及汉化教程

Midjourney更新V5.2，画面扩展功能上线，可控性大大增加！