Бизнес на Парсинге Данных: Подробное Руководство. 47 советов из опыта.

  Рет қаралды 5,040

РУССКИЙ ИТ-БИЗНЕС

РУССКИЙ ИТ-БИЗНЕС

Күн бұрын

Еще больше и чаще пишу в канал t.me/bezsmuzi - подписывайтесь.
Рассказываю о том, как можно зарабатывать 5 млн. в месяц на парсинге сайтов и как построить на этом свой бизнес. Делюсь нашим опытом.
00:00:00 Введение в парсинг
• Автор рассказывает о своем опыте в парсинге, начиная с 2019 года, когда он и его команда начали заниматься этим бизнесом.
• Они зарабатывают на этом около 40-60 миллионов рублей в год, обслуживая клиентов из России, Беларуси и Казахстана.
00:04:48 Инструменты и источники данных
• Парсинг выполняется на стеке дотнет, питоне и других языках программирования.
• Основные источники данных - интернет-магазины, маркет-плейсы, ЦИАН, ДомКлик и другие.
00:09:38 Подводные камни парсинга
• Защита сайтов от парсинга, капчи и другие сложности.
• Парсинг не дешев, но обеспечивает качество данных.
00:10:38 Архитектура парсера
• Парсер пишется с чистого листа, без шаблонов и решений.
• Поддержка парсера осуществляется командой программистов, которые адаптируются к новым задачам и изменениям на сайтах.
00:11:18 Хранение и выгрузка данных
• Парсеры собирают данные, выгружают их на облако, где клиенты могут забрать их вручную или через API.
• Парсеры не хранят данные, так как это физически невозможно для тысяч сайтов в день.
00:12:54 Оценка качества работы и блокировка ботов
• Отчеты о работе парсеров приходят на почту, команда поддержки следит за количеством собираемых данных.
• Парсеры обходят блокировки ботов, используя прокси-серверы.
00:13:50 Автоматизация и обучение
• Парсеры автоматизируют мониторинг цен и сбор контента, но не занимаются аналитикой или оценкой правомерности действий.
• Для парсинга достаточно базовых навыков программирования.
00:14:45 Ускорение работы и оптимизация хранения данных
• Парсеры оптимизируют хранение данных, чтобы избежать перегрузки базы данных.
• Обучение парсингу: начать парсить и учиться на практике.
00:18:04 Успешные коммерческие проекты
• Бренд-монитор с выручкой около миллиарда рублей занимается аналитикой тональности и упоминаемости.
• Парсеры продают данные, а не сам парсинг.
00:19:31 Тестирование и языки программирования
• Парсеры тестируют работу парсеров через техническую поддержку и визуальные инструменты.
• Для парсинга подходят языки программирования, такие как Python.
00:22:22 Парсинг и его использование
• Парсинг - это сбор данных с сайтов, не считается незаконным, если не нарушает авторские права.
• Парсинг может быть использован для анализа данных и создания продуктов на их основе.
00:24:12 Выбор прокси и задачи парсинга
• Используются мобильные прокси для обхода защиты сайтов.
• Задачи парсинга связаны с топовыми ресурсами в каждой сфере (маркетплейсы, строительные магазины, автомобильные сайты).
00:25:24 Потенциал парсинга для бизнеса
• Парсинг может приносить регулярный доход для бизнеса.
• Важно получать регулярные платежи от клиентов.
00:26:53 Рекомендации по парсингу
• Не пытайтесь решать задачи за клиента, пусть клиент приходит к вам.
• Используйте библиотеки для упрощения парсинга, но не делайте его ключевым моментом.
• Важно не навредить сайту при парсинге и не нарушать авторские права.
00:29:47 Защита парсера от блокировки
• Обходить защиту сайта и не нарушать авторские права.
• Не давать гарантий на качество парсинга.
00:33:26 Правовые претензии и парсинг
• Автор рассказывает о том, как компания столкнулась с правовыми претензиями из-за использования товарного знака "Эльдорадо" на своем сайте.
• Он решил проблему, просто изменив название на "Парсинг Эльдорадо".
00:34:28 Книги для парсинга и обучение
• Автор утверждает, что для обучения парсингу достаточно использовать готовые библиотеки и начать парсить сайты.
• Он также отмечает, что в индустрии парсинга растет конкуренция, но объем рынка остается колоссальным.
00:35:27 Будущее парсинга
• Автор считает, что парсинг будет востребован в различных отраслях, и его навыки будут востребованы.
• Он также упоминает о необходимости нанимать команду программистов и поддерживать серверы для выполнения заказов на парсинг.
00:36:19 Заключение
• Автор считает парсинг вечной темой и надеется, что она не станет вне закона в России.
• Он также отмечает, что зарубежные заказчики продолжают обращаться к его компании, несмотря на ограничения в их странах.
Наши проекты:
Защита от скликивания рекламы clickfraud.ru
Мониторинг цен конкурентов xmldatafeed.com/
Разработка мобильных приложений notissimus.com/
Мне можно писать вопросы здесь: t.me/maximkulgin

Пікірлер: 34
@pafnuteus
@pafnuteus 2 ай бұрын
ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...
@Lukaviskys
@Lukaviskys 6 ай бұрын
Спасибо!
@AlexShataev
@AlexShataev 6 ай бұрын
"Библиотеки сами поищете, прокси команда закупает, сервис для решения капчи не помню как называется" 😂 спасибо, очень информативное видео 😂
@MaximKulgin
@MaximKulgin 6 ай бұрын
Ну извините - надо жопу оторвать и поработать тоже
@user-bw7cn3gu1k
@user-bw7cn3gu1k 5 ай бұрын
По его мнению вы должны были просто отдать свой бизнес ему ) в благодарность за просмотр.
@NikolayServakov
@NikolayServakov 6 ай бұрын
Самый известный, наверное, успешный коммерческий проект - авиасейлз)
@albor7599
@albor7599 6 ай бұрын
Осталось только курсы на Udemy выложить😊
@MaximKulgin
@MaximKulgin 6 ай бұрын
:)
@johnconnor632
@johnconnor632 6 ай бұрын
Вы в защитах акамай забыли упомянуть)
@pafnuteus
@pafnuteus 2 ай бұрын
18:10 есть компания Медиалогия (мониторинг эмоциональной оценки). Работал на них одно время, жирные у них клиенты
@AlexShataev
@AlexShataev 6 ай бұрын
Подскажите, хороший объём для специалиста, это сколько товаров в сутки на том же я.маркете например? На что ориентироваться примерно?
@MaximKulgin
@MaximKulgin 6 ай бұрын
Ну например 100к в сутки
@johnconnor632
@johnconnor632 6 ай бұрын
2gis через мобильное API парсится, прилу снифать надо
@DreamingDolphing
@DreamingDolphing 6 ай бұрын
Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?
@vr29645
@vr29645 6 ай бұрын
а никак. таких заказчиков еще надо поискать, а с учетом того что их мало - смысла инвестировать в сложный мл, полагаю, нет
@MaximKulgin
@MaximKulgin 6 ай бұрын
Верно
@MagicMightNew
@MagicMightNew 6 ай бұрын
Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)
@email9092
@email9092 6 ай бұрын
такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!
@RaleXx85
@RaleXx85 6 ай бұрын
Парсинг - штука неоднозначная. Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты? И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки). Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.
@SergeyBagretsov
@SergeyBagretsov 6 ай бұрын
С какой скоростью желательно парсить ап-ру и все-ин?
@cherkasA
@cherkasA 6 ай бұрын
когда то парсил все инструментыру было у них тогда около 800 000 товаров что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел выкачивал всё характеристики, фото. описания и т.д.
@mustizeo760
@mustizeo760 5 ай бұрын
​@@cherkasAна каком яп выполнил задачу ?
@TheDoartLos
@TheDoartLos 5 ай бұрын
Можно ли устроиться к вам в компанию? Стек: python
@user-pe8ew9tq8z
@user-pe8ew9tq8z 6 ай бұрын
У вас есть франч? Я бы купил ваш код парсинга и переписал под 1С ))
@MaximKulgin
@MaximKulgin 6 ай бұрын
:) нету
@ypohut1673
@ypohut1673 5 ай бұрын
Этот еще надо заказчиков искать чтобы парсинг продать?
@MaximKulgin
@MaximKulgin 5 ай бұрын
Да
@vyacheslavs5642
@vyacheslavs5642 6 ай бұрын
NextCloud?
@MaximKulgin
@MaximKulgin 6 ай бұрын
да
@your-hater
@your-hater 6 ай бұрын
Снова один и тот же ролик с посылом обо всём и ни о чём. Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻‍♂️
@MaximKulgin
@MaximKulgin 6 ай бұрын
у нас нет рекламы
- А что в креме? - Это кАкАооо! #КондитерДети
00:24
Телеканал ПЯТНИЦА
Рет қаралды 7 МЛН
Clowns abuse children#Short #Officer Rabbit #angel
00:51
兔子警官
Рет қаралды 74 МЛН
Heartwarming Unity at School Event #shorts
00:19
Fabiosa Stories
Рет қаралды 18 МЛН
Как делают и зарабатывают на Open Source
23:00
Senior Software Vlogger
Рет қаралды 89 М.
- А что в креме? - Это кАкАооо! #КондитерДети
00:24
Телеканал ПЯТНИЦА
Рет қаралды 7 МЛН