README.txt 7.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169
  1. Парсер для сервиса ВкусВилл
  2. - Папка user_data - единственное место где можно редактировать файлы (не разработчику).
  3. - Файл user_data/generated_statistics/tables - статистика данных по парсингу.
  4. - Файл user_data/list_of_products_for_parsing.txt - список товаров которые
  5. будут парситься и по которым будет рассылаться статистика.
  6. - Файл user_data/list_of_proxies.txt - список прокси который будет использоваться
  7. при парсинге указанных продуктов.
  8. - Файл user_data/malling_by_email.txt - список электронных почт.
  9. - Файл user_data/settings.txt - файл с настройками парсинга. Пока там указано
  10. только время для запуска парсера и отправки данных.
  11. - Для запуска необходимо выполнить следующие действия:
  12. ===== 1. УКАЗАТЬ НЕОБХОДИМЫЕ ДАННЫЕ ДЛЯ ПАРСИНГА (когда уже будет скачан сам парсер, не забудьте) =====
  13. 1.1 Указать какие товары будут парситься.
  14. 1.2 Указать список электронных почт, с которой будет отправляться статистика и куда.
  15. В файле user_data/malling_by_email.txt написана инструкция как это сделать.
  16. 1.3 Указать время для парсинга и отправки результатов.
  17. 1.4 Указать прокси которые будут использоваться для парсинга.
  18. 1.5 Создать файл в папке парсера (scraper_vkusvill) .env и заполнить его по шаблону файла .env.dist
  19. ===== 2. УСТАНАВЛИВАЕМ ОБНОВЛЕНИЯ СИСТЕМЫ =====
  20. 2.1 Необходимо открыть терминал и выполнить такую команду:
  21. sudo apt update
  22. 2.2 А потом такую:
  23. sudo apt upgrade
  24. ===== 3. УСТАНАВЛИВАЕМ PYTHON3.10 ======
  25. 3.1 Выполняем такую команду:
  26. sudo apt install -y build-essential zlib1g-dev libffi-dev libsqlite3-dev libncurses5-dev
  27. 3.2 Потом такую:
  28. sudo apt install -y libncursesw5-dev libreadline6-dev libdb5.3-dev
  29. 3.3 Еще такую:
  30. sudo apt install -y libgdbm-dev libssl-dev libbz2-dev libexpat1-dev liblzma-dev tk-dev
  31. 3.4 Открыть файл в текстовом редакторе:
  32. sudo xed /etc/apt/sources.list
  33. 3.5 В конец файла вставить указанную строку, сохранить и выйти:
  34. deb-src http://archive.ubuntu.com/ubuntu/ focal main
  35. 3.6 Потом выполнить в терминале такую команду:
  36. sudo apt-get update
  37. 3.7 Дальше выполняем указанную команду. Если не началась загрузка, то понижаем версию,
  38. пока на начнется загрузка.
  39. sudo apt-get build-dep python3.10 -y
  40. 3.7.1 Понижаем так, если понадобится:
  41. sudo apt-get build-dep python3.9 -y
  42. 3.8 Потом переходим по этой ссылке https://www.python.org/downloads/release/python-31011/
  43. Листаем почти в самый низ и находим таблицу под названием Files
  44. Тыкаем на Gzipped source tarball и загружаем
  45. 3.9 Как все загрузится, выполняем в терминале такую команду:
  46. cd ~/Downloads
  47. 3.10 Выполняем в терминале такую команду:
  48. tar xvf Python-3.10.11.tgz
  49. 3.11 Потом такую команду:
  50. cd Python-3.10.11
  51. 3.12 Потом такую команду:
  52. ./configure --prefix=/opt/python-3.10.11/
  53. 3.13 Потом такую команду:
  54. make -j4
  55. 3.14 Потом так:
  56. sudo make altinstall
  57. ===== 4. УСТАНАВЛИВАЕМ POSTGRESQL =====
  58. 4.1 Выполняем такую команду:
  59. sudo apt -y install postgresql
  60. 4.2 Выполняем такую команду:
  61. sudo -i -u postgres
  62. 4.3 Выполняем такую команду:
  63. psql
  64. 4.4 Вводим указанную запись, на месте password - пишем пароль
  65. (запомните его, потом необходимо будет вставить его в файл .env),
  66. только из букв и чисел:
  67. CREATE ROLE harry PASSWORD 'password';
  68. 4.5 Вводим указанную запись:
  69. ALTER ROLE harry CREATEROLE CREATEDB LOGIN;
  70. 4.4 Вводим указанную запись:
  71. CREATE DATABASE scraper_vkusvill;
  72. 4.5 Закрываем терминал
  73. ===== 5. УСТАНАВЛИВАЕМ REDIS =====
  74. 5.1 Опять открываем терминал и пишем:
  75. sudo apt-get install redis-server -y
  76. ===== 6. УСТАНАВЛИВАЕМ CHROME =====
  77. 6.1 Устанавливаем браузер chrome в терминале раз:
  78. wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
  79. 6.2 Устанавливаем браузер chrome в терминале два:
  80. sudo dpkg -i --force-depends google-chrome-stable_current_amd64.deb
  81. 6.3 Смотрим какая версия chrome установилась: открываем его и три точки в правом верхнем углу -> Настройки -> О chrome (в левой панели, внизу).
  82. 6.3 Переходим сюда https://chromedriver.chromium.org/downloads
  83. Смотрим первые цифры и нажимаем на соответствующую версию.
  84. У меня установилась 113 версия chrome, значит я нажимаю на ChromeDriver 113.0.5672.63.
  85. 6.4 Потом нажимаем на chromedriver_linux64.zip
  86. 6.5 Когда парсер будет скачан, необходимо расспаковать скачанное и файл под
  87. названием chromedriver перенести в папку scraper_vkusvill/scraper
  88. ===== 7. ЗАПУСКАЕМ ПАРСЕР =====
  89. 7.1. Открываем новый терминал и пишем так:
  90. такую команду:
  91. sudo apt-get install git
  92. 7.2 После так:
  93. git clone https://notabug.org/borrya_/scraper_vkusvill
  94. 7.3 После так:
  95. cd scraper_vkusvill
  96. 7.3 После так:
  97. /opt/python-3.10.11/bin/python3.10 -m venv venv
  98. 7.4 После так:
  99. source venv/bin/activate
  100. 7.4 После так:
  101. pip install -r requirements.txt
  102. 7.5 Запускаем парсер:
  103. python main.py