在AI代理中添加爬虫功能 - 完美的MCP服务器教程

在AI代理中添加爬虫功能的完整MCP服务器教程。使用MCP,AI可以从网站上获取数据并进行分析。了解可以使用MCP进行的爬取任务。

13
在AI代理中添加爬虫功能 - 完美的MCP服务器教程

如果AI能够直接从网络获取数据?

阅读时间: 10分钟 | 截至2026年1月


核心摘要

像ChatGPT、Claude、Cursor这样的AI工具很强大,但无法直接访问实时网络数据。即使询问“告诉我这个产品在Coupang的价格”,实际上也不会进入Coupang查看价格。

使用MCP(Model Context Protocol)可以突破这一限制。将爬虫MCP服务器连接到AI代理中,AI就可以直接从网站获取数据并进行分析。

本文涵盖内容:
- MCP是什么(非开发人员也能理解)
- 为什么AI需要爬虫(实际用例)
- 如何连接(Claude、Cursor设置方法)
- 实际使用示例(爬虫MCP可以做什么)


目录

  1. MCP是什么
  2. AI需要爬虫的原因
  3. 爬虫MCP服务器的工作原理
  4. 设置方法:Claude Desktop
  5. 设置方法:Cursor
  6. 设置方法:Windsurf
  7. 实际应用示例
  8. 爬虫MCP服务器比较
  9. 常见问题

1. MCP是什么

用类比理解

安装应用程序到智能手机上会增加新功能。安装KakaoMap可以导航,安装KakaoBank可以汇款。

MCP就像AI代理的应用商店

将MCP服务器连接到AI代理后,AI就获得新能力。连接爬虫MCP服务器后,AI可以从网站获取数据,连接数据库MCP服务器后,AI可以查询数据库。

技术上的解释

MCP(Model Context Protocol)是Anthropic于2024年11月发布的开放协议。使AI模型可以以标准化的方式访问外部工具和数据源。

[AI 에이전트]  ←→  [MCP 프로토콜]  ←→  [MCP 서버 (도구)]
                                         ├── 크롤링 서버
                                         ├── DB 서버
                                         ├── 파일 시스템
                                         └── API 연동

关键在于标准化。在MCP之前,每个AI工具的插件方式都不同。有了MCP,只需创建一个服务器,就可以在所有MCP兼容的客户端(如Claude、Cursor、Windsurf)中使用。

MCP的组成部分

组件 角色 示例
MCP客户端 AI代理(发出请求的一方) Claude Desktop、Cursor、Windsurf
MCP服务器 工具提供者(执行的一方) 爬虫服务器、数据库服务器、GitHub服务器
MCP协议 通信协议 基于JSON-RPC的标准消息格式

2. AI需要爬虫的原因

即使AI再聪明,也无法得知不在训练数据中的实时信息

情景1:市场调研

당신: "쿠팡에서 '에어팟 프로' 검색하면 최저가가 얼마야?"

기존 AI: "제가 실시간 가격을 확인할 수 없지만, 
         일반적으로 30만원대입니다..." ( 부정확)

MCP 연결 AI: "쿠팡에서 확인했습니다. 
             에어팟 프로 2 최저가 289,000원, 
             로켓배송 가능, 4.8점 (리뷰 12,340건)" ( 실시간)

情景2:竞争对手监控

당신: "우리 제품과 경쟁사 제품의 쿠팡 가격을 비교해줘"

기존 AI: "죄송합니다, 실시간 데이터에 접근할 수 없습니다."

MCP 연결 AI: [쿠팡에서 5개 상품 크롤링 수행]
             "비교 결과:
              - 우리 제품: 45,900원 (4.5점)
              - 경쟁A: 42,000원 (4.3점)
              - 경쟁B: 48,500원 (4.7점)
              가격 경쟁력은 중간이지만 평점이..."

情景3:内容研究

당신: "이 블로그 글의 주요 내용을 요약해줘" [URL 전달]

기존 AI: (URL에 접근 불가)

MCP 연결 AI: [페이지 크롤링 → 본문 추출]
             "이 글의 핵심 3가지:
              1. ...
              2. ...
              3. ..."

如果每次都手动执行这些任务,将会耗费大量时间。通过连接MCP进行爬虫,AI可以代替执行这些任务。


3. 爬虫MCP服务器的工作原理

爬虫MCP服务器的工作原理如下:

1. 사용자가 AI에게 요청
   "쿠팡에서 이 상품 가격 확인해줘"

2. AI가 MCP 서버에 크롤링 요청
   → POST /scrape { "url": "https://coupang.com/..." }

3. MCP 서버가 크롤링 실행
   → 안티봇 우회
   → JavaScript 렌더링
   → 데이터 추출

4. MCP 서버가 결과 반환
   → { "title": "...", "price": 29900, "rating": 4.8 }

5. AI가 결과를 해석하여 사용자에게 답변
   "해당 상품은 29,900원이며 평점 4.8점입니다."

重要的是用户无需了解爬虫。只需用自然语言向AI提出请求即可,MCP服务器会在后台处理所有技术工作。


4. 设置方法:Claude Desktop

以下是在Claude Desktop中连接MCP服务器的方法。

步骤1:安装Claude Desktop

claude.ai/download下载桌面应用程序。

步骤2:打开MCP设置文件

macOS:
```bash

설정 파일 열기

code ~/Library/Application\ Support/Claude/claude_desktop_config.json
```

Windows:
```bash

설정 파일 열기

code %APPDATA%\Claude\claude_desktop_config.json
```

步骤3:添加爬虫MCP服务器

以下示例是连接HashScraper MCP服务器的设置。您也可以以相同格式添加其他MCP服务器。

{
  "mcpServers": {
    "hashscraper": {
      "command": "npx",
      "args": ["-y", "@hashscraper/mcp-server"],
      "env": {
        "HASHSCRAPER_API_KEY": "your-api-key-here"
      }
    }
  }
}

API密钥可在hashscraper.com/mcp免费注册后获取。

步骤4:重新启动Claude Desktop

保存设置后,完全退出Claude Desktop,然后重新运行。如果左下角出现工具图标(),表示连接成功。

步骤5:使用

现在,只需向Claude提出与网络数据相关的问题即可:

"https://www.coupang.com/vp/products/12345678 이 상품 정보 알려줘"
"네이버 쇼핑에서 '무선 이어폰' 검색 결과 상위 5개 가져와"
"이 URL의 본문 내용을 요약해줘: https://example.com/article"

5. 设置方法:Cursor

通过在Cursor IDE中连接MCP服务器,您可以在编码过程中立即使用网络数据。

步骤1:打开Cursor设置

按下Cmd+Shift+P(Mac)或Ctrl+Shift+P(Windows) → 搜索“Cursor Settings” → 转到MCP选项卡

步骤2:添加MCP服务器

单击“Add new MCP server”,然后输入以下内容:

{
  "hashscraper": {
    "command": "npx",
    "args": ["-y", "@hashscraper/mcp-server"],
    "env": {
      "HASHSCRAPER_API_KEY": "your-api-key-here"
    }
  }
}

步骤3:示例用法

# Cursor의 AI Chat에서:
"쿠팡 API 응답 형식이 궁금한데, 
 실제로 이 URL을 크롤링해서 HTML 구조를 분석해줘"

→ AI가 MCP 서버로 페이지를 크롤링하고, 
   HTML 구조를 분석하여 파싱 코드를 작성해줍니다.

6. 设置方法:Windsurf

步骤1:打开MCP设置文件

在Windsurf中按Cmd+Shift+P(Mac)或Ctrl+Shift+P(Windows) → 搜索“Open MCP Config”以打开设置文件。

步骤2:添加MCP服务器

{
  "mcpServers": {
    "hashscraper": {
      "command": "npx",
      "args": ["-y", "@hashscraper/mcp-server"],
      "env": {
        "HASHSCRAPER_API_KEY": "your-api-key-here"
      }
    }
  }
}

步骤3:在Cascade中使用

Windsurf的Cascade(AI代理)会自动识别MCP服务器。向Cascade发出与网络数据相关的请求时,将调用爬虫MCP服务器。

# Cascade에서:
"이 웹페이지의 API 응답 구조를 분석해서 
 타입스크립트 인터페이스를 만들어줘"

→ Cascade가 페이지를 크롤링 → HTML 분석 → 
   TypeScript interface 자동 생성

7. 实际应用示例

示例1:价格监控自动化

프롬프트: "다음 5개 URL의 상품 가격을 가져와서 표로 정리해줘"

AI 응답:
| 상품 | 가격 | 배송 | 평점 |
|------|------|------|------|
| 에어팟 프로 2 | 289,000원 | 로켓배송 | 4.8 |
| 갤럭시 버즈 3 | 179,000원 | 일반배송 | 4.6 |
| ...

示例2:评论分析

프롬프트: "이 상품 페이지에서 최근 리뷰 20개를 수집하고, 
         긍정/부정 키워드를 분석해줘"

AI 응답:
긍정 키워드: 음질(12회), 노이즈캔슬링(8회), 디자인(6회)
부정 키워드: 가격(5회), 배터리(3회), 착용감(2회)
전체 만족도: 87% 긍정

示例3:竞争对手内容分析

프롬프트: "경쟁사 블로그 3개를 크롤링해서 
         최근 1달간 어떤 주제를 다뤘는지 분석해줘"

AI 응답:
경쟁사 A: AI 활용 사례 (3편), 제품 업데이트 (2편)
경쟁사 B: SEO 가이드 (4편), 고객 성공 사례 (1편)
...
트렌드: AI 관련 콘텐츠가 공통적으로 증가 추세

8. 爬虫MCP服务器比较

以下是目前可用的主要爬虫MCP服务器。

服务 反抗机器人封锁 价格 特点
Firecrawl MCP 基本水平 免费500次,$16/月起 适用于一般网站,阻止Akamai
Bright Data MCP 高级 每月免费5,000次,额外付费 全球覆盖,免费套餐慷慨
HashScraper MCP 高级(包括Akamai) 免费100次,$35/月起 专注于反机器人,返回解析的JSON
Crawl4AI 基本水平 开源(免费) 需要自行托管,不支持高级反机器人

选择标准:
- 仅爬取一般网站,从免费开始 → Firecrawl或Crawl4AI
- 爬取全球网站,有充足的免费使用次数 → Bright Data MCP(每月5,000次免费)
- 面对强大的反机器人(Akamai、Cloudflare等) → HashScraper MCP


9. 常见问题

Q: 使用MCP需要了解编程吗?

由于在设置阶段需要编辑JSON文件,因此需要一些技术知识。但遵循本指南,只需5分钟即可完成。设置后,只需用自然语言向AI提出请求即可,无需编程。

Q: 爬虫成本如何?

取决于MCP服务器提供商。从免费(Crawl4AI,自行托管)到每月几十到几百美元不等。HashScraper MCP提供100次免费试用后,从每月$35起。

Q: ChatGPT也可以使用MCP吗?

截至2026年1月,ChatGPT尚未正式支持MCP。支持MCP的AI客户端包括Claude Desktop、Cursor、Windsurf等。OpenAI未来也有可能提供支持。

Q: 可以同时连接多个MCP服务器吗?

可以。可以同时连接爬虫服务器、数据库服务器、GitHub服务器等。AI会自动选择适合情况的工具。

Q: 爬虫数据的准确性如何?

MCP服务器返回的数据是从实际网站提取的,因此与该时刻的网站内容相同。在AI解释数据时可能会出现错误,但原始数据本身是准确的。


结语

MCP极大地扩展了AI代理的可能性。连接爬虫MCP服务器后,AI可以基于实时网络数据提供更准确和有用的答案。

特别是在商业环境中,如果能够委托AI执行价格监控、市场调研、评论分析等任务,将节省大量时间。


为AI代理添加爬虫功能

HashScraper MCP是一个内置了反机器人绕过功能的爬虫MCP服务器。可以自动处理强大的机器人封锁,如Akamai、Cloudflare等。

从100次免费开始 →

5分钟设置,立即使用。


相关文章

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

继续阅读

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.