免费看成人电影

商军财经网
>美女AV > 原创热点 > 爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库

爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库

2020-03-02 00:16:55

乾明 发自 凹非寺

想做研究,却没有足够的数据,着实让人抓狂、苦恼。

现在,你可以自己动手创建数据集了。

免费看成人电影英伟达工程师小姐姐Chip Huyen,在GitHub上开源了一个名为“lazynlp”的工具库。

爬网页、清洗数据、创建数据集都可以搞定。

她说,使用这个库,你应该能创建一个比大于40G的文本数据集,比OpenAI训练GPT-2时使用的还要大。

爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库(图1)

免费看成人电影而且,用这个工具库创建数据集的过程,也并不麻烦。

五步走,一条龙

免费看成人电影第一步,获取你想抓取的网页的网址。

免费看成人电影小姐姐提供了三个你可以直接拿走使用的网址集合,分别来自Reddit、古腾堡计划(电子书)维基百科。

第二步,删除重复的网址。

网址有很多,重复也在所难免。

爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库(图2)

如果网址数量比较大,可以将列表分成多个文件的,分别调用函数。

第四步,清理网页。

这一步有3个方法可以选择,一是使用lazynlp/cleaner.py中的方法,二是直接调用命令行:

lazynlp.clean_page(page)

另外,也可以使用lazynlp.download_pages ( )函数,同时爬网页并清理。

免费看成人电影第五步,删除重复网页。

不然就会有一些文本重复出现,从而影响数据集的表现。

免费看成人电影做完这些,你就有自己的NLP数据集了,想干什么就可以放手去做了。

如果你有想法,请收好下面的传送门:

完—

一份小调查

大噶好。

本文相关词条概念解析:

网页

网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站。网页是一个文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要透过网页浏览器来阅读。