Data Attribution Methods Leaderboards

Survey and ranking of data attribution methods on data selection and downstream application tasks for the Date-LM Evaluation paper.

Leaderboard Submission:

To submit your team's scores, click on the "Submit Scores" tab.

Data Attribution Method Categories:

Gradient (ex. GradDot, GradSim, LESS, DataInf, EKFAC)
Similarity (ex. RepSim)
Modeling (ex. MATES)
Lexical (ex. BM25)
Baseline (ex. GradSafe, OpenAI Moderation, LLM Classifiers)
Other

Search Feature:

Input the name of the method you would like to search / filter for, and then press "Enter". The original row from the leaderboard table will be displayed.

DATE-LM Task Description: Trained pythia-1B model on Fineweb using Lambada reference dataset. Testing results conducted on 10K step checkpoint.

Ranking Metric: highest score in avg column

{

"headers": [
- "Rank",
- "Method",
- "Attribution Method Type",
- "Model",
- "Model Size",
- "avg",
- "sciq",
- "arc_easy",
- "arc_challenge",
- "logiqa",
- "boolq",
- "hellaswag",
- "piqa",
- "winogrande",
- "openbookqa",
- "Paper/Code/Contact Link"
],
"data": [
- [
  - 1,
  - "Rep Sim",
  - "Similarity",
  - "Pythia-1b",
  - "1B",
  - 46,
  - 0.691,
  - 0.441,
  - 0.237,
  - 0.275,
  - 0.561,
  - 0.409,
  - 0.695,
  - 0.537,
  - 0.294,
  - ""
  ],
- [
  - 2,
  - "Grad Sim",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 45.98,
  - 0.689,
  - 0.44,
  - 0.24,
  - 0.272,
  - 0.556,
  - 0.406,
  - 0.69,
  - 0.537,
  - 0.308,
  - ""
  ],
- [
  - 3,
  - "Edu",
  - "Other",
  - "Pythia-1b",
  - "1B",
  - 45.83,
  - 0.688,
  - 0.452,
  - 0.24,
  - 0.264,
  - 0.571,
  - 0.409,
  - 0.689,
  - 0.52,
  - 0.292,
  - ""
  ],
- [
  - 4,
  - "Mates",
  - "Modeling",
  - "Pythia-1b",
  - "1B",
  - 45.76,
  - 0.685,
  - 0.441,
  - 0.241,
  - 0.269,
  - 0.563,
  - 0.408,
  - 0.696,
  - 0.523,
  - 0.292,
  - ""
  ],
- [
  - 5,
  - "BM25",
  - "Lexical",
  - "Pythia-1b",
  - "1B",
  - 45.72,
  - 0.692,
  - 0.439,
  - 0.239,
  - 0.26,
  - 0.556,
  - 0.406,
  - 0.696,
  - 0.531,
  - 0.296,
  - ""
  ],
- [
  - 6,
  - "Random",
  - "Other",
  - "Pythia-1b",
  - "1B",
  - 45.34,
  - 0.689,
  - 0.431,
  - 0.244,
  - 0.275,
  - 0.52,
  - 0.407,
  - 0.69,
  - 0.535,
  - 0.29,
  - ""
  ]
],
"metadata": null

}

DATE-LM Task Description: This leaderboard presents detection AUPRC results of baseline methods and data attribution methods in the homogenous setting (i.e., detecting small amount of toxic/biased data embedded into larger benign data).

Ranking Metric: AUPRC (an average of ToxicChat, XSTest-response, JailBreakBench)

Filter Model Size

{

"headers": [
- "Rank",
- "Method",
- "Attribution Method Type",
- "Model",
- "Model Size",
- "ToxicChat",
- "XSTest-response",
- "JailBreakBench",
- "AUPRC",
- "Paper/Code/Contact Link"
],
"data": [
- [
  - 1,
  - "Rep-Sim",
  - "Similarity",
  - "Llama-3.1-8B",
  - "8B",
  - 0.989,
  - 0.999,
  - 0.98,
  - 0.989,
  - ""
  ],
- [
  - 2,
  - "Wildguard",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.56,
  - 0.93,
  - 0.989,
  - 0.827,
  - ""
  ],
- [
  - 3,
  - "Llama-Guard-3-8B",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.445,
  - 0.916,
  - 0.985,
  - 0.782,
  - ""
  ],
- [
  - 4,
  - "Rep-Sim",
  - "Similarity",
  - "Llama-3.2-1B",
  - "1B",
  - 0.632,
  - 0.792,
  - 0.854,
  - 0.759,
  - ""
  ],
- [
  - 5,
  - "LESS",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.388,
  - 0.724,
  - 1,
  - 0.704,
  - ""
  ],
- [
  - 6,
  - "LESS",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.294,
  - 0.792,
  - 1,
  - 0.695,
  - ""
  ],
- [
  - 7,
  - "Grad Sim",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.259,
  - 0.798,
  - 1,
  - 0.686,
  - ""
  ],
- [
  - 8,
  - "Rep-Sim",
  - "Similarity",
  - "Pythia-1b",
  - "1B",
  - 0.374,
  - 0.657,
  - 0.986,
  - 0.672,
  - ""
  ],
- [
  - 9,
  - "LESS",
  - "Gradient",
  - "Llama-3.1-8B",
  - "8B",
  - 0.499,
  - 0.615,
  - 0.767,
  - 0.627,
  - ""
  ],
- [
  - 10,
  - "EKFAC",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.264,
  - 0.562,
  - 1,
  - 0.609,
  - ""
  ],
- [
  - 11,
  - "Grad Sim",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.106,
  - 0.647,
  - 1,
  - 0.584,
  - ""
  ],
- [
  - 12,
  - "EKFAC",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.216,
  - 0.497,
  - 1,
  - 0.571,
  - ""
  ],
- [
  - 13,
  - "Grad Sim",
  - "Gradient",
  - "Llama-3.1-8B",
  - "8B",
  - 0.28,
  - 0.603,
  - 0.82,
  - 0.567,
  - ""
  ],
- [
  - 14,
  - "DataInf",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.204,
  - 0.487,
  - 0.999,
  - 0.563,
  - ""
  ],
- [
  - 15,
  - "DataInf",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.215,
  - 0.442,
  - 1,
  - 0.552,
  - ""
  ],
- [
  - 16,
  - "Grad Dot",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.212,
  - 0.437,
  - 1,
  - 0.55,
  - ""
  ],
- [
  - 17,
  - "GradSafe",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.347,
  - 0.491,
  - 0.802,
  - 0.546,
  - ""
  ],
- [
  - 18,
  - "ShieldGemma-2b",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.17,
  - 0.74,
  - 0.664,
  - 0.525,
  - ""
  ],
- [
  - 19,
  - "Grad Dot",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.084,
  - 0.483,
  - 0.999,
  - 0.522,
  - ""
  ],
- [
  - 20,
  - "Grad Dot",
  - "Gradient",
  - "Llama-3.1-8B",
  - "8B",
  - 0.47,
  - 0.368,
  - 0.274,
  - 0.371,
  - ""
  ],
- [
  - 21,
  - "AEGIS-Defensive",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.376,
  - 0.274,
  - 0.346,
  - 0.332,
  - ""
  ],
- [
  - 22,
  - "test",
  - "Gradient",
  - "pythia",
  - "1B",
  - 0.3,
  - 0.3,
  - 0.3,
  - 0.3,
  - "test"
  ],
- [
  - 23,
  - "OpenAI Moderation",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.243,
  - 0.378,
  - 0.187,
  - 0.269,
  - ""
  ]
],
"metadata": null

}

DATE-LM Task Description: This leaderboard presents detection AUPRC results of baseline methods and data attribution methods in the heterogeneous setting (i.e., safety-aligned examples that resemble unsafe data in format but contain safe responses).

Ranking Metric: AUPRC (an average of ToxicChat, XSTest-response, JailBreakBench)

Filter Model Size

{

"headers": [
- "Rank",
- "Method",
- "Attribution Method Type",
- "Model",
- "Model Size",
- "ToxicChat",
- "XSTest-response",
- "JailBreakBench",
- "AUPRC",
- "Paper/Code/Contact Link"
],
"data": [
- [
  - 1,
  - "Wildguard",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.551,
  - 0.928,
  - 0.972,
  - 0.817,
  - ""
  ],
- [
  - 2,
  - "Llama-Guard-3-8B",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.423,
  - 0.91,
  - 0.966,
  - 0.766,
  - ""
  ],
- [
  - 3,
  - "Rep-Sim",
  - "Similarity",
  - "Llama-3.2-1B",
  - "1B",
  - 0.598,
  - 0.733,
  - 0.461,
  - 0.597,
  - ""
  ],
- [
  - 4,
  - "Rep-Sim",
  - "Similarity",
  - "Llama-3.1-8B",
  - "8B",
  - 0.602,
  - 0.638,
  - 0.514,
  - 0.585,
  - ""
  ],
- [
  - 5,
  - "GradSafe",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.347,
  - 0.491,
  - 0.802,
  - 0.546,
  - ""
  ],
- [
  - 6,
  - "LESS",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.326,
  - 0.734,
  - 0.484,
  - 0.515,
  - ""
  ],
- [
  - 7,
  - "Grad Sim",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.228,
  - 0.772,
  - 0.531,
  - 0.51,
  - ""
  ],
- [
  - 8,
  - "Rep-Sim",
  - "Similarity",
  - "Pythia-1b",
  - "1B",
  - 0.335,
  - 0.58,
  - 0.578,
  - 0.498,
  - ""
  ],
- [
  - 9,
  - "ShieldGemma-2b",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.165,
  - 0.731,
  - 0.552,
  - 0.483,
  - ""
  ],
- [
  - 10,
  - "LESS",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.23,
  - 0.616,
  - 0.596,
  - 0.481,
  - ""
  ],
- [
  - 11,
  - "Grad Sim",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.362,
  - 0.601,
  - 0.434,
  - 0.466,
  - ""
  ],
- [
  - 12,
  - "Grad Sim",
  - "Gradient",
  - "Llama-3.1-8B",
  - "8B",
  - 0.223,
  - 0.703,
  - 0.401,
  - 0.442,
  - ""
  ],
- [
  - 13,
  - "LESS",
  - "Gradient",
  - "Llama-3.1-8B",
  - "8B",
  - 0.258,
  - 0.744,
  - 0.114,
  - 0.372,
  - ""
  ],
- [
  - 14,
  - "EKFAC",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.239,
  - 0.398,
  - 0.369,
  - 0.334,
  - ""
  ],
- [
  - 15,
  - "DataInf",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.195,
  - 0.392,
  - 0.396,
  - 0.328,
  - ""
  ],
- [
  - 16,
  - "Grad Dot",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.194,
  - 0.389,
  - 0.396,
  - 0.326,
  - ""
  ],
- [
  - 17,
  - "AEGIS-Defensive",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.376,
  - 0.274,
  - 0.294,
  - 0.314,
  - ""
  ],
- [
  - 18,
  - "EKFAC",
  - "Gradient",
  - "Pythia-1b",
  - "1B",
  - 0.221,
  - 0.344,
  - 0.373,
  - 0.313,
  - ""
  ],
- [
  - 19,
  - "DataInf",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.196,
  - 0.347,
  - 0.369,
  - 0.304,
  - ""
  ],
- [
  - 20,
  - "Grad Dot",
  - "Gradient",
  - "Llama-3.2-1B",
  - "1B",
  - 0.195,
  - 0.341,
  - 0.369,
  - 0.302,
  - ""
  ],
- [
  - 21,
  - "OpenAI Moderation",
  - "Baseline",
  - "N/A",
  - "N/A",
  - 0.214,
  - 0.358,
  - 0.185,
  - 0.253,
  - ""
  ],
- [
  - 22,
  - "Grad Dot",
  - "Gradient",
  - "Llama-3.1-8B",
  - "8B",
  - 0.289,
  - 0.328,
  - 0.085,
  - 0.234,
  - ""
  ]
],
"metadata": null

}

Data Attribution Methods Leaderboards

Submit Your Score to a Leaderboard