💡 建议配合 学习模式 使用本工具 学术合规

WebWalker 是阿里巴巴通义事业群开源的 Web 检索 Agent,对应仓库 Alibaba-NLP/WebAgent 下的最轻量子项目(与之并列的 WebDancer / WebSailor / WebShaper 均依赖 7B+ 微调模型 + GPU 推理,本清单不涵盖)。

技术栈:Playwright(无头 Chromium)+ DashScope qwen-max(推理 LLM)。完整链路是"打开 URL → 内容抽取 → LLM 摘要 / 决策 → 多步翻页"。国内部署关键是 npmmirror 镜像下载 Chromium(约 280MB),以及 libnss3 / libatk1.0-0 等系统依赖。

ACL 2025 收录

WebAgent 研究被 ACL 2025 接收,WebWalker 是其最轻量可复现子项目,验证了"浏览器操控 + LLM 摘要"范式的可行性。

Playwright 端到端浏览器操控

基于 Playwright 无头 Chromium 实现"打开 → 提取 → 摘要 → 翻页"链路,支持多步检索与动态页面交互。

国内镜像零障碍

Chromium 通过 npmmirror 下载(约 280MB),Python 依赖走阿里云 pypi,无需特殊网络配置即可完成全部安装。

CPU 即可运行

推理完全依赖 DashScope qwen-max API,本地只需 CPU + Node.js ≥ 18 + Playwright,无 GPU 要求。

成功判定:依赖装齐 + Chromium 实例化通过 + .env 写入真实 DASHSCOPE_API_KEY + 端到端冒烟脚本输出页面摘要。

① 前置条件检查

python3 --version    # 3.10+(推荐 3.11) node --version       # ≥ 18(Playwright 装浏览器用) git --version df -h .              # ≥ 5 GB(含 Chromium 280MB)

② 人类必填项

DASHSCOPE_API_KEY 通义千问 创建(需开通 qwen-max)
START_URL 默认:https://www.aliyun.com

③ .env 模板

DASHSCOPE_API_KEY=sk-REPLACE_ME LLM_MODEL=qwen-max LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1 PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright PLAYWRIGHT_BROWSERS_PATH=$HOME/.cache/ms-playwright HF_ENDPOINT=https://hf-mirror.com LANGCHAIN_TRACING_V2=false WANDB_MODE=disabled

④ 按序执行

git clone https://github.com/Alibaba-NLP/WebAgent.git && cd WebAgent/WebWalker python3 -m venv .venv && source .venv/bin/activate export PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements.txt --timeout 600 pip install playwright openai dashscope beautifulsoup4 -i https://mirrors.aliyun.com/pypi/simple/ playwright install chromium    # ~280MB · 走 npmmirror set -a; source .env; set +a python -c "from playwright.sync_api import sync_playwright; p=sync_playwright().start(); b=p.chromium.launch(); print('✅', b.version); b.close(); p.stop()"
⑤ 常见故障排查
Chromium 启动 Failed to launch装系统依赖:apt-get install -y libnss3 libatk1.0-0 libatk-bridge2.0-0 libcups2 libdrm2 libxkbcommon0 libxcomposite1 libxdamage1 libxfixes3 libxrandr2 libgbm1 libpango-1.0-0 libcairo2 libasound2
playwright install 超时已设 PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright
Node 版本太旧用 nvm 切到 ≥ 18
WebDancer/WebSailor OOM本清单不涵盖;这两个子项目需 GPU ≥ 24GB

AI·RESEARCH·HUB — WebWalker — Web 检索 Agent · ACL 2025