DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

MetaAI开源高质量高精度标注的图像数据集FACET:3.2万张图片、5万个主题,平均图像解析度达到1500×2000

2023/09/01 08:13:08
1,041 阅读
FACET图像数据集数据集

MetaAI在2023年8月31日开源了一个全新的图像数据集,FACET(FAirness in Computer Vision EvaluaTion),FACET数据集包含32,000张图片和50,000人,这些图片由专家进行了详细的标注,包括人口统计属性(如感知性别表达和感知年龄组)和其他物理属性(如感知肤色和发型)。这样的设计使得研究人员可以更全面、更深入地评估模型在不同人群中的表现,从而更准确地识别和解决模型的不公平性问题。

为什么要发布FACET数据集

FACET数据集是一个图像数据集,包含了3.2万张高精度的图像,最大的特点是包含图像相关的人员信息,如涉及到的人员的人口统计学信息、相关类别信息等。

在人工智能和机器学习的快速发展中,计算机视觉模型已经在各种应用场景中取得了显著的成功。然而,这些模型在不同人群和任务中的表现可能存在差异,这些差异通常与人们的人口统计特征有关。为了解决这一问题,MetaAI发布了FACET(FAirness in Computer Vision EvaluaTion)。

FACET数据集的具体信息

FACET数据包含3.2万张高精度、多样化的图像数据集,每一张图像都有与人员相关的详细标注,包括13个人员属性和52个人员类别信息。FACET数据集具体信息如下:

属性详细信息
发布日期2023年8月31日
目的评估AI和机器学习视觉模型的健壮性和算法公平性
数据类型图片
用途仅用于研究目的
图片数量32,000张
主题数量50,000个
平均图片分辨率1500×2000像素
人口统计属性感知肤色、感知年龄组、感知性别表达等
其他属性头发颜色、类型、面部毛发;配饰如头巾、口罩、帽子
人相关类别篮球运动员、医生等
许可仅用于评估目的,非商业和研究基础
数据来源SA-1B的子集,由专家注释员收集
地理分布未知
标签验证方法由人类验证

具体来说,该数据集的评估标注包含图像每个人的Bounding boxes、52个人员相关的类别,以及来自SA-1B里面的6.9万个人物、服饰和头发相关的标签。具体来说如下:

分组具体标签包含的数量
人口统计属性感知肤色50,000
感知年龄组50,000
感知性别表达50,000
其他属性头发颜色50,000
头发类型50,000
面部毛发50,000
头巾50,000
口罩50,000
帽子50,000
纹身50,000
人相关类别篮球运动员不详
医生不详

FACET相关资源

FACET具体资源如下。

FACET数据集的论文:https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/ FACET数据集的下载和申请地址:https://ai.meta.com/datasets/facet-downloads/ FACET数据集的介绍:https://ai.meta.com/datasets/facet/

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • Google发布迄今为止公开可用的最大的多语言网络数据集MADLAD-400,覆盖419种语言
  • AI2发布全新的大语言模型预训练数据集:包含3万亿tokens的大规模文本数据集AI2 Dolma,开源免费商用数据集~
  • Saleforce发布最新的开源语言-视觉处理深度学习库LAVIS
  • 重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)
  • 重磅数据集分享:大规模多模态语料库之悟道数据集(WuDaoCorpora 2.0)

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署