位置: IT常识 - 正文

文本生成图像工作简述2--常用数据集分析与汇总(文本生成图像前景怎么样)

编辑:rootadmin
文本生成图像工作简述2--常用数据集分析与汇总

推荐整理分享文本生成图像工作简述2--常用数据集分析与汇总(文本生成图像前景怎么样),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:文本生成图像 应用,文本生成图像前景怎么样,文本转图像,文本生成图像前景怎么样,文本生成图像工具是什么,文本生成图像工具有哪些,文本生成图像工具有哪些,文本生成图像工具在哪,内容如对您有帮助,希望把文章链接给更多的朋友!

文本到图像的 AI 模型仅根据简单的文字输入就可以生成图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。

文本生成图像(text-to-image)可以根据给定文本生成符合描述的真实图像,其是多模态机器学习的任务之一,具有巨大的应用潜力,如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计。

本篇将简述文本生成图像的数据集,汇总介绍数据集的内容、特点、细节和下载方式等。

一、Caltech-UCSD Bird(CUB-200-2011)1.1、介绍

CUB-200-2011数据集是CUB-200-2011是CUB-200的扩展版本,这是一个具有挑战性的200种鸟类数据集。扩展版本大致将每个类别的图像数量增加了一倍,并添加了新的零件定位注释。所有图像都使用边界框、零件位置和属性标签进行注释。图像和注释由Mechanical Turk的多个用户过滤。

鸟类物种分类是一个难题,它突破了人类和计算机视觉能力的极限。尽管鸟类拥有相同的基本部分,但不同的鸟类在形状和外观上可能会有很大的差异,而且,由于照明和背景的变化以及姿势的极端变化(例如,飞鸟、游泳鸟和栖息在树枝上的鸟类),鸟图像的类内差异也很大。

1.2、细节

1️⃣数据量:数据集包含200种鸟类的11788张图像,其中训练数据集有5994张图像,测试集有5794张图像。

2️⃣种类:每个物种都与维基百科相关,并按照科学分类(目、科、属、种)进行组织。物种名称列表是使用在线野外指南获得的,使用Flickr图像搜索获取图像,然后通过向多个Mechanical Turk用户展示每个图像进行过滤。

3️⃣数据信息:每张图像均提供了图像类标记信息,每个图像都带有边界框(bounding box)、关键part位置信息,以及属性信息。每张图片的注释:15 个关键部位信息、312 个二进制属性、1 个边界框。

1.3、下载

1️⃣论文链接:The Caltech-UCSD Birds-200-2011 Dataset

2️⃣官方网站:http://www.vision.caltech.edu/datasets/cub_200_2011/

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

数据集包括:bounding_boxes.txt;classes.txt;image_class_labels.txt; images.txt; train_test_split.txt.

其中: bounding_boxes.txt为图像中鸟类的边界框信息; classes.txt为鸟类的类别信息,共有200类; image_class_labels.txt为图像标签和所属类别标签信息; images.txt为图像的标签和图像路径信息; train_test_split.txt为训练集和测试集划分。

二、Oxford-102 Flower2.1、介绍

Oxford-102 Flower是是牛津工程大学于2008年发布的用于图像分类的花卉数据集,选择的花通常在英国本土,详细信息和每个类别的图像数量可以在网站的类别统计页面上找到,如下:

分类花卉对自行车、汽车和猫等类别来说是一个额外的挑战,因为花内类别之间有很大的相似性,比如一朵花与另一朵花的区别有时是颜色,例如蓝色的钟形与向日葵,有时是形状,例如水仙花与蒲公英,有时是花瓣上的图案,例如三色堇与虎耳草等。

2.2、细节

1️⃣数据量:8189张图像组成的数据集,这些图像被划分为103个花卉类别,都是英国常见的花卉。数据集分为训练集、验证集和测试集,训练集和验证集各包含10个图像,测试集由剩余的6129张图像组成(每类至少20张)。

2️⃣种类:每个类包含40到250个图像,百香花的图像数量最多,桔梗、墨西哥紫菀、青藤、月兰、坎特伯雷钟和报春花的图像最少,即每类40个,图像被重新缩放,使最小尺寸为500像素。

2.3、下载

1️⃣论文链接:Automated flower classification over a large number of classes

2️⃣官方网站:https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

三、MS-COCO3.1、介绍文本生成图像工作简述2--常用数据集分析与汇总(文本生成图像前景怎么样)

MSCOCO数据集全称是Microsoft Common Objects in Context。其是微软开发维护的大型图像数据集,任务包括识别(recognition),分割(segementation),及检测(detection)。

COCO是一个具有非常高的行业地位且规模非常庞大的数据集,用于目标检测、分割、图像描述等等场景。特点包括:

Object segmentation:对象级分割Recognition in context:上下文识别Superpixel stuff segmentation:超像素分割330K images (>200K labeled):330万张图像(超过20万张已标注图像)1.5 million object instances:150万个对象实例80 object categories:80个目标类别91 stuff categories:91个物体类别5 captions per image:每张图片有5段描述250,000 people with keypoints:250万个人体关键点标注

该数据集解决了场景理解中的三个核心研究问题:检测对象的非图标视图(或非规范视角)、对象之间的上下文推理和对象的精确二维定位。

3.2、细节

1️⃣数据量:MS COCO数据集共包含123287幅图像,包含80k张用于训练的图像和40k张用于测试的图像。其中每个图像包含5个句子注释。COCO的官方培训部分用于培训,COCO的正式验证部分用于测试。在训练的小批量选择期间,为其中一个字幕选择随机图像视图(例如裁剪、翻转)。

2️⃣种类:MS-COCO总共包含 91个类别,每个类别的图片数量如下:

3.3、下载

1️⃣论文链接:Microsoft COCO: Common Objects in Context

2️⃣官方网站:https://cocodataset.org/#overview

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

其中,

Train images:训练集,训练过程中使用到的图像 Val images:验证集,验证过程中使用到的图像 Test images:测试集,测试过程中使用到的图像(如果使用test数据集,那么可以把验证集合训练集一起用于训练),后续例子中没有下载使用 Train/Val annotations:训练集和验证集的标注文件,json格式

下载后,压缩到同一个文件夹中,以COCO2017为例,形成如下结构:

COCO_2017

├── val2017 # 验证集所在文件夹,包含5000张图像 ├── train2017 # 训练集所在文件夹,包含118287张图像 ├── annotations # 标注文件所在文件夹,包含如下文件 ├── instances_train2017.json # 目标检测、分割任务的训练集标注文件 ├── instances_val2017.json # 目标检测、分割任务的验证集标注文件文件 ├── person_keypoints_train2017.json # 人体关键点检测的训练集标注文件 ├── person_keypoints_val2017.json # 人体关键点检测的验证集标注文件 ├── captions_train2017.json # 图像描述的训练集标注文件 ├── captions_val2017.json # 图像描述的验证集标注文件四、Multi-Modal-CelebA-HQ4.1、介绍

Multi-Modal-CelebA-HQ是一个大规模人脸图像数据集。

Multi-Modal-CelebA-HQ可用于训练和评估文本到图像生成、文本引导图像处理、草图到图像生成、图像说明和 VQA 的算法。这个数据集是在TediGAN中提出并使用的。

文本描述是使用基于给定属性的概率上下文无关语法 (PCFG) 生成的,按照流行的CUB数据集和COCO数据集的格式为每个图像创建十个独特的单句描述以获得更多训练数据。

4.2、细节

1️⃣数据量:Multi-modal-CelebA-HQ数据集由CELEBA-HQ数据集和其相对应的文本描述组成,具有30,000个高分辨率人脸图像,每个图像都对应10个描述性文本,除此之外还包含语义分割图、草图和透明背景的图像。该数据集分为24,000张训练集和6000张测试集。

2️⃣数据信息:数据集与通用的文本生成非人脸数据集CUB和COCO数据集具有相同的数据格式。

4.3、下载

1️⃣论文链接:TediGAN: Text-Guided Diverse Face Image Generation and Manipulation

2️⃣官方网站:https://github.com/IIGROUP/MM-CelebA-HQ-Dataset

3️⃣图像下载:谷歌云盘链接

4️⃣文本下载:谷歌云盘链接

💡 最后

上一篇:文本生成图像工作简述1–概念介绍和技术梳理

以上下载若有错误或失效,请及时反馈,另外,我们已经建立了🏤T2I研学社群,如果你对Dreamfields和DreamFusion还有其他疑问或者对🎓文本生成图像很感兴趣,可以私信我加入社群。

📝 加入社群 抱团学习:中杯可乐多加冰-采苓AI研习社

🔥 限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

本文链接地址:https://www.jiuchutong.com/zhishi/299065.html 转载请保留说明!

上一篇:解决SpringBoot和前端Vue的跨域问题(springboot比spring做了哪些改进)

下一篇:YOLOv5输出端损失函数(yolov3输出是什么)

  • 淘宝网店怎样做好推广优化工作(淘宝网店怎样做推广赚钱)

    淘宝网店怎样做好推广优化工作(淘宝网店怎样做推广赚钱)

  • 与其有钱,不如值钱(与其有钱不如自在的句子)

    与其有钱,不如值钱(与其有钱不如自在的句子)

  • iqooz5支持nfc吗(iqooz5支持5g吗)

    iqooz5支持nfc吗(iqooz5支持5g吗)

  • 智能终端设备是什么(智能终端技术是啥)

    智能终端设备是什么(智能终端技术是啥)

  • 快手粉丝团升四级多少分(快手粉丝团升四级多少钱)

    快手粉丝团升四级多少分(快手粉丝团升四级多少钱)

  • 爱玛充电器绿灯一直闪(爱玛充电器绿灯一直闪怎么办)

    爱玛充电器绿灯一直闪(爱玛充电器绿灯一直闪怎么办)

  • i74510u相当于几代i5(i74510u相当于什么cpu)

    i74510u相当于几代i5(i74510u相当于什么cpu)

  • 淘宝卖家把退货地址写成国外(淘宝卖家把退货地址写成国外怎么投诉)

    淘宝卖家把退货地址写成国外(淘宝卖家把退货地址写成国外怎么投诉)

  • 快手关注人数和实际不符(快手关注人数多有什么好处)

    快手关注人数和实际不符(快手关注人数多有什么好处)

  • 移动硬盘文件突然消失(移动硬盘文件突然消失 容量还占用)

    移动硬盘文件突然消失(移动硬盘文件突然消失 容量还占用)

  • 华为单声道音频要开吗(华为单声道音频怎么关闭)

    华为单声道音频要开吗(华为单声道音频怎么关闭)

  • 网络已停用是什么意思(手机数据网络不可用是什么原因)

    网络已停用是什么意思(手机数据网络不可用是什么原因)

  • 爱奇艺为什么不能自动播放下一集了(爱奇艺为什么不能扫码登录了?)

    爱奇艺为什么不能自动播放下一集了(爱奇艺为什么不能扫码登录了?)

  • 系统光盘装在电脑里面不启动是怎么回事(系统光盘放入电脑怎么启动不了)

    系统光盘装在电脑里面不启动是怎么回事(系统光盘放入电脑怎么启动不了)

  • 钉钉只能加入一个班级群吗(钉钉只能加入一个师生群吗)

    钉钉只能加入一个班级群吗(钉钉只能加入一个师生群吗)

  • uwp应用是什么意思(uwp版是什么意思)

    uwp应用是什么意思(uwp版是什么意思)

  • 苹果6s plus和6plus有什么区别(苹果6s plus和6plus屏幕一样吗)

    苹果6s plus和6plus有什么区别(苹果6s plus和6plus屏幕一样吗)

  • 苹果怎么强制关机重启(苹果怎么强制关机屏幕失灵)

    苹果怎么强制关机重启(苹果怎么强制关机屏幕失灵)

  • 数字图像处理有什么意义(数字图像处理有用吗)

    数字图像处理有什么意义(数字图像处理有用吗)

  • 苹果桌面怎么删空白页(苹果桌面怎么删除图标)

    苹果桌面怎么删空白页(苹果桌面怎么删除图标)

  • 手机人物拍照角度技巧(手机照人物角度技巧集锦)

    手机人物拍照角度技巧(手机照人物角度技巧集锦)

  • 手机无线网出现感叹号(手机无线网出现6是什么意思)

    手机无线网出现感叹号(手机无线网出现6是什么意思)

  • 视频上下模糊怎么做(视频上下模糊怎么做的)

    视频上下模糊怎么做(视频上下模糊怎么做的)

  • 已激活的Office因激活问题无法使用(office已经激活)

    已激活的Office因激活问题无法使用(office已经激活)

  • shpc32.exe - shpc32是什么进程 有什么用

    shpc32.exe - shpc32是什么进程 有什么用

  • YOLOV5-断点训练/继续训练(yolov5训练中途停止了怎么办)

    YOLOV5-断点训练/继续训练(yolov5训练中途停止了怎么办)

  • 北京增值税发票勾选认证平台
  • 税前弥补亏损是净利润吗
  • 税前扣除什么意思
  • 收到税务局退款怎么做分录
  • 可供出售金融资产和长期股权投资
  • 一般纳税人季报是哪几个月报税
  • 发票后面附清单明细能导出吗
  • 公司购买车辆抵扣税
  • 微信公众号认证费用
  • 会计凭证归档后几年后可销毁
  • 期间费用如何设置项目核算
  • 制造费用属于资产类账户吗
  • 商业承兑汇票托收凭证怎么做分录
  • pos机刷卡的银行有哪些
  • 电子承兑汇票付款流程
  • 企业最应避免的外部环境和内部条件组合是
  • 人力资源公司劳务派遣怎么收费
  • 基本养老保险覆盖人数
  • 企业增值税留抵退税新闻稿范文
  • 离退休人员再任职的规定
  • 公司作账都按不含税价吗
  • 无形资产软件摊销年限的最新规定2021
  • 上月销项税额错了怎么修改凭证?
  • 单位汽车按揭贷款怎么贷
  • 增值税当月计提当月交可以吗
  • 出口退税申报时间限制
  • 人力资源外包公司发展前景
  • 交印花税会计分录怎么写
  • 等值货币什么意思
  • 航空公司收取什么费
  • 为什么电脑连上蓝牙耳机却是外放
  • 长期待摊费用挂账原因
  • 加入申请理由怎么写
  • 出租车发票没有发票专用章是否能报销
  • win10显示我的电脑
  • 外销收入申报表怎么填
  • 弃置费用的会计核算
  • 如何管理和维护企业微信客户
  • 计提减值后折旧年限怎么算
  • echarts饼图颜色设置
  • php 计算
  • webserviceclient
  • 印花税的征税范围及税率
  • 帝国cms建站实例教程
  • 装修店面装修费的会计分录
  • 经营所得预缴申报收入总额
  • 小规模纳税人有几种税率
  • 发票没有纳税人识别号怎么重开
  • 项目清算后未售房产怎么纳税
  • 建行E信通贴现需要发票吗
  • 带有折扣的增值税专用发票图片
  • 公司交社保有什么用处
  • 租赁公司异地经营
  • 小规模纳税人系统查询
  • 车辆违章处理有什么规定
  • 只有进项要交税吗
  • 企业外币折算的方法包括
  • 滞纳金的收取依据
  • 年末进项大于销项怎么结转
  • linux下mysql 5.7.16 免安装版本图文教程
  • 怎样打开进程管理器功能
  • mcappins.exe - mcappins进程是什么文件 什么意思.
  • window10光驱
  • linux双网卡绑定原理
  • win10如何将我的电脑添加到桌面
  • js加载失败怎么办
  • 摄像机跟随与摄像的区别
  • javascript基于
  • js实现@功能
  • 用javascript
  • js倒计时秒杀
  • jquery的选择器有哪几种类型
  • android:exported 属性详解
  • 领导班子和领导干部政绩观偏差主要问题清单
  • 国家税务总局61号
  • 税务疑点核查报告
  • 税务绩效管理存在不足
  • 上年汇算清缴调减的职工薪酬今年需要调增吗
  • 安徽省税务干部学校
  • 京豆付款有返利吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设