ACL 2025 收录
WebAgent 研究被 ACL 2025 接收,WebWalker 是其最轻量可复现子项目,验证了"浏览器操控 + LLM 摘要"范式的可行性。
阿里巴巴通义事业群 · Web 检索 Agent(WebAgent 子项目,ACL 2025)
WebWalker 是阿里巴巴通义事业群开源的 Web 检索 Agent,对应仓库 Alibaba-NLP/WebAgent 下的最轻量子项目(与之并列的 WebDancer / WebSailor / WebShaper 均依赖 7B+ 微调模型 + GPU 推理,本清单不涵盖)。
技术栈:Playwright(无头 Chromium)+ DashScope qwen-max(推理 LLM)。完整链路是"打开 URL → 内容抽取 → LLM 摘要 / 决策 → 多步翻页"。国内部署关键是 npmmirror 镜像下载 Chromium(约 280MB),以及 libnss3 / libatk1.0-0 等系统依赖。
WebAgent 研究被 ACL 2025 接收,WebWalker 是其最轻量可复现子项目,验证了"浏览器操控 + LLM 摘要"范式的可行性。
基于 Playwright 无头 Chromium 实现"打开 → 提取 → 摘要 → 翻页"链路,支持多步检索与动态页面交互。
Chromium 通过 npmmirror 下载(约 280MB),Python 依赖走阿里云 pypi,无需特殊网络配置即可完成全部安装。
推理完全依赖 DashScope qwen-max API,本地只需 CPU + Node.js ≥ 18 + Playwright,无 GPU 要求。
成功判定:依赖装齐 + Chromium 实例化通过 + .env 写入真实 DASHSCOPE_API_KEY + 端到端冒烟脚本输出页面摘要。
python3 --version # 3.10+(推荐 3.11) node --version # ≥ 18(Playwright 装浏览器用) git --version df -h . # ≥ 5 GB(含 Chromium 280MB) DASHSCOPE_API_KEY=sk-REPLACE_ME LLM_MODEL=qwen-max LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1 PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright PLAYWRIGHT_BROWSERS_PATH=$HOME/.cache/ms-playwright HF_ENDPOINT=https://hf-mirror.com LANGCHAIN_TRACING_V2=false WANDB_MODE=disabled git clone https://github.com/Alibaba-NLP/WebAgent.git && cd WebAgent/WebWalker python3 -m venv .venv && source .venv/bin/activate export PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements.txt --timeout 600 pip install playwright openai dashscope beautifulsoup4 -i https://mirrors.aliyun.com/pypi/simple/ playwright install chromium # ~280MB · 走 npmmirror set -a; source .env; set +a python -c "from playwright.sync_api import sync_playwright; p=sync_playwright().start(); b=p.chromium.launch(); print('✅', b.version); b.close(); p.stop()" apt-get install -y libnss3 libatk1.0-0 libatk-bridge2.0-0 libcups2 libdrm2 libxkbcommon0 libxcomposite1 libxdamage1 libxfixes3 libxrandr2 libgbm1 libpango-1.0-0 libcairo2 libasound2PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright