Вчера в логах нашел бота с именем Dotbot. Решил посмотреть, на сервис, для которого он кравлит интернет, нашел сайт – dotnetdotcom.org. Все бы ничего и не пивал бы об этом в блог, если бы не одно но.
На этом сайте, которые сделали разработчики бота – ребята из Сиэтла, написано для чего они сделали бота, но даже это не главное. Самое интересное заключается в том, что они всем желающим раздают свой индекс. В этом, индексе, как написано на сайте содержится контент около 600 тысяч страниц, вместе с урлами и заголовками страниц. Файл с индексом в запакованном состоянии весит около 3,2 Гб, в распакованном – около 14 Гб.
Имхо, столько текста в одном месте – это буквально кладезь текста для дорвейщика на всю жизнь
Единственное, что плохо – скорее всего текст там на разных языках.