2022年最新 100G+ 亿级+ 免费互联网数据集 整理分享

发布于:2022-10-14 ⋅ 阅读:(553) ⋅ 点赞:(0)

    数据由搜索引擎从网上爬取并持续进行中,数据量正在持续增长中,截至2022年5月大约有48.9G的数据,包含这些内容:

    · 域名数据(2.7G)包含6257636个域名,来自1938617个一级域名。

    ·  网页数据(6.4G)包含53294027个网页。其中有标题的网页有48577906个,有介绍的网页有35971682个。

    ·  反向索引数据(39.7G)包含17669628个词,每个词对应1~28000个网页。

    

     资源整理自网络,源地址:https://github.com/RimoChan/internet-dataset

下载地址

    你可以选一个自己喜欢的地方下载:

    GitHub      Release:https://github.com/RimoChan/internet-dataset/releases

    OneDrive:https://v0vxj-my.sharepoint.com/:f:/g/personal/rimochan_v0vxj_onmicrosoft_com/EqRakuQVVjBDqMyU8xd7NnEB3MZrDZxDwPTVXK7tNv5Rqw?e=cXQMod

内容截图

往期精品内容推荐

ML机器学习入门新书-《从第一原理学习机器学习理论》免费分享

2021 编程新书-《Python编码与数值计算-面向科学家及工程师指南》免费分享

TF实战经典教材-《Hands-On Machine Learning ..TensorFlow》 中英文 10本经典书籍推荐

最新书籍推荐-《机器学习算法入门》免费pdf分享

历史最全模型压缩相关方法、论文、代码等资源整理分享

新书-《机器学习角度-因果推理算法介绍》免费pdf分享

神经网络视频/图像渲染相关经典论文、项目、数据集等资源整理分享

斯坦福、伯克利及MIT联合打-2020年DL/RL必学造6门经典课程-视频资源免费分享

本文含有隐藏内容,请 开通VIP 后查看