跳到主要内容

Firecrawl 集成接口指南


概述

本文档介绍 A1 平台与 Firecrawl 集成的相关接口函数及参数定义。Firecrawl 是一个强大的网站数据提取服务,可将整个网站转换为适用于大语言模型(LLM)的结构化数据格式。


一、firecrawl_crawl

功能说明

深度爬取指定网站,自动遍历所有链接并返回结构化数据。适用于需要通过边缘函数触发全站内容抓取的场景。

输入参数

参数名类型必填说明
api_keyString*Firecrawl 提供的 API 密钥,用于身份认证
urlString*要爬取的目标网站地址
max_depthInteger-最大爬取深度,控制从起始 URL 开始的遍历层级
max_discovery_depthInteger-最大发现深度,限制发现新页面的层级
limitInteger-本次爬取最多处理的页面数量

输出参数

参数名类型说明
idStringFirecrawl 返回的任务 ID,可用于后续查询任务状态或获取结果
urlString与任务关联的原始目标 URL

二、firecrawl_map

功能说明

获取指定网站的完整链接结构映射,返回所有可发现的页面链接。适用于需要快速了解网站结构或构建站点地图的场景。

输入参数

参数名类型必填说明
api_keyString*Firecrawl 提供的 API 密钥,用于身份认证
urlString*要映射的目标网站地址
searchString-搜索条件,用于过滤特定链接

输出参数

参数名类型说明
linksString[]返回网站中所有映射到的页面链接列表

三、firecrawl_scrape

功能说明

提取单个网页的内容,并返回多种格式的结构化数据。适用于需要精确获取特定页面内容的场景。

输入参数

参数名类型必填说明
api_keyString*Firecrawl 提供的 API 密钥,用于身份认证
urlString*要抓取的目标网页地址
formatsEnum-期望返回的内容格式,可选值:
markdown - Markdown 格式
html - 清理后的 HTML
rawHtml - 原始 HTML
links - 页面链接列表
removeBase64ImagesBoolean-是否移除 base64 编码的图片以减少输出长度(保留图片描述文本)

输出参数

参数名类型说明
markdownString页面内容的 Markdown 格式表示
htmlString清理后的 HTML 内容
raw_htmlString原始 HTML 内容(未经过滤)
linksString该页面中发现的所有链接
metadataObject页面元数据,包括标题、描述、Open Graph 信息等

功能说明

根据搜索关键词查询相关网页,并返回结构化的搜索结果。适用于需要通过边缘函数触发搜索引擎查询并获取多页面数据的场景。

输入参数

参数名类型必填说明
api_keyString*Firecrawl 提供的 API 密钥,用于身份认证
queryString*要执行的搜索关键词或短语
limitInteger-返回的最大搜索结果数量
langString-搜索语言偏好,如 zh(中文)、en(英文)
scrape_optionsObject-抓取选项,可指定返回的内容格式(如 markdownhtml 等)

输出参数

参数名类型说明
descriptionString[]所有匹配结果的描述信息列表
urlString[]所有匹配结果的链接地址列表
markdownString[]每个搜索结果对应的 Markdown 格式内容列表
metadataObject[]每个页面的元数据列表(标题、描述、Open Graph 数据等)
htmlString[]每个页面清理后的 HTML 内容列表

五、使用示例

5.1 网站爬取流程

5.2 单页抓取流程

5.3 网站映射流程

5.4 搜索流程

5.5 完整业务场景


六、注意事项

项目说明
API 密钥api_key 需在 Firecrawl 官网 申请
请求限制免费版有请求次数限制,请合理设置 limit 参数
爬取深度max_depth 过大可能导致爬取时间过长,建议从较小值开始
格式选择根据使用场景选择合适的 formats,Markdown 格式更适合 LLM 处理
错误处理建议对接口返回结果进行异常捕获和处理

如需更多帮助,请参考 Firecrawl 官方文档 或联系技术支持。