一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

TabFM - 谷歌开源零样本表格基础模型

时间:2026-07-05 09:06:54 编辑:袖梨 来源:一聚教程网

TabFM是什么

TabFM 是 Google Research 推出的零样本表格基础模型,支持对混合数值与类别特征的结构化数据进行分类(最多10类)和回归。模型在数百亿合成表格数据上训练,无需微调或超参数搜索,仅以训练行为上下文进行单次前向预测,在 TabArena 基准51个数据集上超越经大量调优的梯度提升树等强基线。TabFM提供 PyTorch 与 JAX 两种权重版本,安装简便,适合快速表格推断任务。

TabFM的主要功能

  • 零样本分类:无需训练数据调参,直接对最多10个类别的表格数据进行分类预测。
  • 零样本回归:支持数值型目标变量的回归任务,无需模型微调。
  • 混合特征处理:原生支持数值型与类别型特征混合的表格数据,自动处理编码与缩放。
  • 上下文学习推理:将训练数据作为”上下文”读取,通过单次前向传播完成预测。
  • 双后端兼容:提供 JAX 与 PyTorch 两种权重版本,用户可按需选择后端框架。

TabFM的技术原理

  • 合成数据预训练:TabFM 基于结构因果模型(SCM)生成数百亿合成表格数据进行预训练,通过随机采样有向无环图定义变量间的因果结构,再基于父节点条件分布生成每个特征的值,从而完全规避真实数据的隐私与版权风险。
  • Transformer 序列架构:模型采用 Transformer 处理表格数据,将每行样本视为一个 token 序列,数值特征经线性投影或分桶编码为连续向量,类别特征通过嵌入层映射为稠密向量,利用自注意力机制自动捕捉列间的高阶交互关系。
  • 上下文学习推理:推理时将用户的训练集序列化为上下文,与测试样本拼接后输入模型,模型通过注意力读取训练样本的统计规律,在不更新任何权重的情况下直接输出预测,实现真正的零样本推断。
  • 自动化预处理:通过 scikit-learn 兼容接口封装了自动化流水线,包括类别特征的 Ordinal Encoding、数值特征的标准化缩放以及缺失值的鲁棒处理,用户无需手动干预即可直接传入原始 DataFrame。

微信关注回复“开源”,加入AI开源项目交流群

如何使用TabFM

  • 克隆仓库:执行 git clone https://github.com/google-research/tabfm.git 下载源码。
  • 安装依赖:进入目录后,根据后端选择安装:pip install -e .[pytorch]pip install -e .[jax]
  • 加载预训练权重:在代码中导入对应后端模块(如 tabfm_v1_0_0_pytorch)并调用 .load() 自动下载权重。
  • 初始化分类器/回归器:用 TabFMClassifierTabFMRegressor 包装模型,调用 .fit(X_train, y_train) 准备编码器。
  • 执行预测:调用 .predict(X_test).predict_proba() 获取零样本预测结果。

TabFM的核心优势

  • 真正零样本:无需微调、无需超参数搜索,开箱即用,降低使用门槛。
  • 隐私安全:基于合成数据训练,不依赖真实敏感数据,天然规避隐私与版权风险。
  • 性能强劲:在51个真实数据集的 TabArena 基准上,零样本表现超越精心调优的梯度提升树。
  • 框架灵活:同时提供 PyTorch 与 JAX 权重,兼容不同技术栈的部署环境。
  • 接口友好:完全兼容 scikit-learn API,数据科学家可无缝接入现有工作流。

TabFM的项目地址

  • 项目官网:https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/
  • GitHub仓库:https://github.com/google-research/tabfm
  • HuggingFace模型库:https://huggingface.co/google/tabfm-1.0.0-pytorch

TabFM的同类竞品对比

维度TabFMTabPFN开发团队Google Research德国弗莱堡大学 / AutoML 团队训练数据数百亿合成表格(SCM生成)数百万合成数据集(先验分布采样)分类类别限制最多10类最多10类回归支持原生支持早期版本不支持,后续扩展有限后端支持PyTorch + JAX 双版本主要基于 PyTorch数据规模适合中小规模表格(<10,000样本)同样针对中小规模优化核心机制上下文学习(In-Context Learning)基于 Transformer 的近似贝叶斯推断

TabFM的应用场景

  • 金融风控:快速评估贷款申请风险,无需历史数据重新训练模型,保护客户隐私。
  • 医疗辅助诊断:基于患者混合特征进行疾病分类,规避敏感医疗数据泄露。
  • 电商定价预测:对新上架商品进行零样本价格回归,结合类别特征与数值特征。
  • 广告点击率预估:冷启动场景下快速预测广告CTR,无需等待积累足够训练数据。
  • 科研数据探索:研究人员在敏感数据集(如人口普查、社会调查)上进行快速基线建模,无需接触原始隐私数据。

热门栏目