DeepAnalyze-8B - 人大 RUC DataLab · 自主数据科学 Agent

DeepAnalyze-8B — 数据科学 Agent

项目简介

DeepAnalyze-8B 是中国人民大学 RUC DataLab 提出的自主数据科学 Agent（论文：DeepAnalyze: Agentic Large Language Models for Autonomous Data Science），目标是"上传 CSV → 自动探索 → 自动建模 → 自然语言报告"全自动数据分析流水线。

推理后端按显存条件分为三路：Path A 本地 GPU（FP16 ≥16GB / 4bit ≥6GB，最佳精度）、Path B 远程 vLLM（GPU 在另一台机器）、Path C DashScope qwen-plus fallback（纯 CPU 即可跑，精度略降）。国内离线 Linux 无 GPU 用户走 Path C 最快通路。

应用结果

三路推理分流架构

支持本地 GPU（FP16/4bit）、远程 vLLM、DashScope qwen-plus fallback 三条路径，根据硬件条件灵活切换。

EDA 全自动化流水线

“上传 CSV → 自动探索 → 自动建模 → 自然语言报告”端到端数据分析，显著降低数据科学入门门槛。

8B 自训模型

基于 8B 参数量微调的专用数据科学模型，在特定任务上表现优于通用大模型。

人大 RUC DataLab 出品

由中国人民大学 RUC DataLab 开源（arXiv 2510.16872），数据科学领域专业背景深厚。

🤖 Agent 自主部署 manifest-ready

成功判定：依赖装齐 + INFER_BACKEND 选定 + CSV pandas 描述统计通过 + 8B 模型按选定 backend 可达。

📘 完整安装文档（Markdown）：agent-install/deepanalyze-agent-install.md 含三路推理分流

① 前置条件检查

python3 --version    # 3.10+ git --version df -h .              # ≥ 20 GB（含 8B 权重 ~16GB） nvidia-smi           # 决定 backend：≥16GB → local，否则 vllm/fallback

② 人类必填项

MODEL_PATH 本地：RUC-DataLab/DeepAnalyze-8B · 远程：vLLM URL

INFER_BACKEND local / vllm / dashscope-fallback

DASHSCOPE_API_KEY 仅 Path C（无 GPU）需要

③ .env 模板

MODEL_PATH=./models/DeepAnalyze-8B INFER_BACKEND=local                # local / vllm / dashscope-fallback LOAD_IN_4BIT=false VLLM_BASE_URL=                     # http://gpu-node:8000/v1 DASHSCOPE_API_KEY= LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1 FALLBACK_MODEL=qwen-plus HF_ENDPOINT=https://hf-mirror.com LANGCHAIN_TRACING_V2=false WANDB_MODE=disabled

④ 按序执行（CPU 路径）

git clone https://github.com/ruc-datalab/DeepAnalyze.git && cd DeepAnalyze python3 -m venv .venv && source .venv/bin/activate export HF_ENDPOINT=https://hf-mirror.com PYTHONPATH=$(pwd):$PYTHONPATH # CPU 版 torch（避免 CUDA 包超时） pip install torch==2.4.0 --index-url https://mirrors.aliyun.com/pytorch-wheels/cpu/ pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements.txt --timeout 600 pip install pandas matplotlib seaborn transformers accelerate -i https://mirrors.aliyun.com/pypi/simple/ # Path A（本地）：huggingface-cli download RUC-DataLab/DeepAnalyze-8B --local-dir ./models/DeepAnalyze-8B # Path C（fallback）：跳过模型下载，配 DashScope Key 即可 set -a; source .env; set +a python -c "import torch, pandas, transformers; print('✅ Level 1', torch.__version__)"

⑤ 常见故障排查

pip install torch 1GB 超时已用 CPU wheel：--index-url https://mirrors.aliyun.com/pytorch-wheels/cpu/

HF 模型下载超时export HF_ENDPOINT=https://hf-mirror.com 重试

模型加载 OOM切 INFER_BACKEND=vllm / LOAD_IN_4BIT=true / dashscope-fallback

bitsandbytes 装不上4bit 仅 GPU 有效，CPU 跳过

app.py 7860 占用lsof -i:7860 清进程