Конференция VBStreets

**Хакер** » 30.12.2016 (Пт) 2:27

Что случилось? Кто виноват?
Как вы, наверное, все знаете, утром 12 декабря (в 10 утра по московскому времени) наш сервер перестал работать. Когда я пошёл разбираться, оказалось, что не работает он не по внутренним, а по-внешним причинам — от меня не зависящим.

Через какое-то время служба поддержки хостинга вывесила объявление, что у сервера вышел из строя жесткий диск, и что устранение ситуации будет завершено в течение дня.

На самом деле, в течение того дня, конечно, не последовало ни восстановления работы, ни какой-либо отписки от персонала дата-центра. С учётом того, что хостеры клянутся, что применяют RAID-зеркалирование, а оно, как известно, не подразумевает длительных перерывов (а обычно вообще не подразумевает никаких перерывов), при выходе из строя одного из HDD, тот факт, что уже сутки никто ничего не починил, на второй день вызывал у меня сильное беспокойство.

Тут я уже пошёл активно донимать поддержку расспросами насчёт срока (первый день я их не трогал — объявление есть, чего зря людей отвлекать от работы). Со слов хостера, ничего серьёзного не произошло, никакие данные не были повреждены или потеряны, а затягивание сроков вызвано большим объёмом файлов, которые необходимо проверить™.

Что делать?
Очевидно, в сложившейся ситуации у меня было два выхода:

Срочно броситься поднимать сервер в другом месте из собственных бэкапов.
Дождаться восстановления

С учётом того, что я не приверженец шаблонных готовых решений, а предпочитаю всё делать вручную, не теряя контроль за ситуацией, первый вариант не обещал быть быстрым. Возможно, что я потратил бы кучу времени, и когда всё было бы уже почти готово, оригинальный сервер восстановили бы.

Другая большая проблема с первым вариантом была в том, что имеющиеся у меня бэкапы были не самыми свежими. И даже очень не свежими.

Бэкапы
Делались ли вообще бэкапы VBStreets? Со стороны хостера никаких действий по созданию бэкапов не предпринималось вообще (с определённого момента истории, когда они решили полностью переложить это бремя на клиентов). В свою очередь с моей стороны снятие бэкапов проводилось регулярно — последний бэкап был сделан 18 ноября 2016 года, то есть чуть меньше, чем за месяц до аварии.

Однако, когда я пошёл смотреть на этот бэкап, я был немало шокирован: оказалось, со временем что-то в махнизме создания бэкапов поломалось, и последний снятый бэкап оказался непригодным для использования. И его предшественник тоже. И предшественник предшественника...

В общем, изучив всю вереницу папок, стало ясно, что последний успешный полноценный бэкап был сделан аж 10 октября 2014 года.

Отсюда мораль: мало снимать бэкапы. Мало автоматизировать процесс их создания. Нужно ещё наладить контроль за правильностью их создания, целостностью файлов и проверять, получается ли из снятого бэкапа развернуть окружение. Желательно всё это автоматизировать.

К слову, причина, по которой с определённого момента бэкапы перестали правильно забираться с сервера, была установлена, и, пожалуй, в отдельном посте я о ней расскажу.

Шэф, всё пропало?
С учётом вышесказанного, два варианта моих возможных действий представлялись уже так: либо дождаться восстановления, либо потерять все топики за последние 2 года. Поскольку если выбрать вариант ожидания, можно было вообще так ничего и не дождаться, были предприняты активные действия: путём приложения немалых усилий все потерянные топики за 2 года были восстановлены из кешей Яндекса, Гугла и сайта archive.org. Отдельно спасибо можно было бы сказать Яндексу, потому что его бот приходил сюда буквально за несколько часов до аварии и проиндексировал все топики в самом свежем их состоянии.

Так что все топики за 2 года были спасены, а вот восстановить подобным образом аттачи (вложения) и личные сообщения не представлялось возможным, что конечно давало повода для переживаний на тот момент.

Почему так долго?
С самого начала у меня был «план А» — дождаться восстановления данных, и «план Б» на случай, если никто ничего не восстановит — использовать старый бэкап + материалы из кешей поисковиков. Поэтому с одной стороны я ждал, а с другой стороны по мере возможного проводилось вытаскивание топиков из кеша поисковиков.

Первые дни хостер пытался всех убедить, что потерей данных даже не пахнет.
Затем хостер всё-таки сознался: умер не хард в составе RAID-массива, а RAID-контроллер. При этом повредились данные на дисках. Удастся ли им восстановить какие-то данные — под большим вопросом.

Это, вкупе с тем, что на сервере использовалось старое железо и стояла FreeBSD 8, поддержка которой уже несколько лет кончилась, заставило хостера принять решение вообще не восстанавливать сервер.

В итоге, только 18 декабря мне впервые удалось получить от хостера огромный архив со всеми данными, которые им удалось восстановить. Архив загружен, а дальше мне предстояло определить, какая часть данных уцелела (в ходе восстановления).

Надо сказать, что архив содержал большое число аномалий: файлы с одинаковыми именами (вплоть до регистра символов), но разным размером, пустые файлы и файлы с совершенно фантастическим содержимым (вроде смеси из содержимого совершенно других файлов моей файловой системы).

Больше всего пострадал каталог с вложениями: множество вложений отсутствовало, часть была повреждена. Однако же большая часть пострадавших вложений пришлась на то время, которое было захвачено старыми бэкапами. Таким образом, из всех вложений (а их 10 тысяч) потеряно только что-то около трёх.

Все файлы (вложения, аватары, скрипты, БД) нуждались в детальной проверки, и это заняло некоторое время.

Беда пришла откуда не ждали
Но не в этом причина большей части задержки. С 12 по 19 декабря я по большей части ждал результатов работы хостера по восстаовлению файлов, загрузал и проверял эти файлы.

Что же с 20-го декабря по 29-ое?

Так получилось, что 20-го декабря я весь день был вынужден провести в разъездах. Магазины, банки, государственные органы. Пришлось немало понервничать.

Под конец дня я уже чувствовал, что мне не совсем хорошо. Я незаметно уснул.
Однако я проснулся уже в 3 часа ночи и почувствовал, что мне уже совсем не хорошо.

Последующие 10 дней я себя чувствовал так «хорошо», что даже просто подойти к компьютеру (не говоря уже, чтобы что-то делать) не представлялось возможным. Разве что я мучил себя мыслью о том, насколько же всё это затянется, если меня увезут в больницу в инфекционный бокс. К счастью, подобной участи я избежал.

Как вы понимаете, это было вовсе не что-то банальное типа гриппа. До выздоровления ещё неделя, две или три — но по крайней мере сидеть уже не так больно, как лежать, а поэтому я могу делать что-то полезное, как-то работать.

Может быть я напишу по поводу болезни отдельный пост в блог.

Что с VBStreets?
На самом деле, на разворачивание сервера нужно пару дней. Примерно так я и рассчитывал, когда повесил страницу-заглушку «с дихлофосом». Увы, но после этого выпало 10 дней из жизни.

Как я и обещал, работоспособность основного сайта (со статьями) и форума восстановлены.

Никакие топики, посты, пользователи и личные сообщения не потеряны.

Пока что форум работает с некоторыми ограничениями:

Отключена регистрация новых пользователей
Отключены все функции, связанные с email

Причина в том, что подсистема, относящаяся к отправке и получению почты, ещё не готова. Как только я всё настрою, регистрация и email-зависимые функции (уведомления, восстановление пароля) будет включено вновь.

Кроме того, нам предстоит ещё один переезд в середине января или немного раньше. Дело в том, что сервер, на который я сейчас всё перенёс, довольно таки слабый, ограниченный и убогий (и дешёвый как следствие). Если не будет ощущаться совсем уж сильной нехватки его ресурсов, мы досидим на нём предоплаченный месяц и перейдём на более мощный сервер. В противном случае придётся мигрировать раньше.

P.S. Простите за сумбурный стиль изложения и ошибки (если есть) — сейчас 5 утра, а я не в самой лучшей форме.
P.P.S. Если наблюдаете ошибки или проблемы — сообщайте в личку или на sls_hacker@mail.ru. Хотя я и поглядываю за логами, могу какие-то проблемы пропустить. Писать на forum@vbstreets.ru или admin@vbstreets.ru пока что нельзя.

**bon818** » 30.12.2016 (Пт) 17:58

Да-уж. Соскучится по нашему форуму.
Спасибо за проделанную работу.
Все хорошо, что хорошо кончается.
Все что нас не убивает делает сильнее!(философ Фридрих Ницше!)
Желаю скорейшего выздоровления и крепкого здоровья.
C наступающим Новым Годом!

**Teranas** » 30.12.2016 (Пт) 18:04

Вообще-то всё это можно было уместить в несколько предложений, первый, про падение, второе, про болезнь, и третье про ограничения.
Но это так, просто. Мне даже взгрустнулось, кода сервер упал, я уже успел привязаться к этому сайту. :cry:

С Новым Годом!!!

**Vova_2581** » 31.12.2016 (Сб) 17:44

Ну что можно сказать? Спасибо Вам за проделанную работу по восстановлению сайта, и, конечно же, как я уже говорил раньше в своем топике: искренне желаю Вам крепкого здоровья и благополучия! Я даже не знал, что Вы так сильно переживали из-за всей этой ситуации. Блин... вот действительно неожиданная неприятность может приключиться и застать врасплох. Ну что же... хорошо, что многое удалось восстановить это радует. Еще раз: спасибо Вам, здоровья, надежной, безотказной и долгой работы сайту в будущем! С Новым годом!

**Viper** » 31.12.2016 (Сб) 21:48

Ура! Спасибо за проделанную работу! Ну и с Новым Годом! :-)

**TheWatcher** » 31.12.2016 (Сб) 23:53

Кмк, Ваши предпосылки вполне логичны и, как следствие, действия -- правильные. Не считайте себя виновным: Вы сделали все, что могли, и уверен, сделали бы еще больше, если был бы хотя бы малейший шанс. Кто виноват -- вопрос неблагодарный и неконструктивный.

И еще: это может показаться чересчур прагматичным с моей стороны, но де-факто Вы -- один из ценнейших ресурсов этого сайта. Посему берегите себя, а все остальное -- восполнимо!

**alibek** » 01.01.2017 (Вс) 14:08

Есть два типа админов: те кто еще не проверяет бэкапы, и те кто уже проверяет.
Но ИМХО, вина хостера тут однозначная.
Одно дело, когда хостер перекладывает обязанность делать бэкапы пользовательских данных на пользователей, тут есть определенная логика.
Но бэкапить сам сервер и системные данные он обязан сам.

**Хакер** » 01.01.2017 (Вс) 18:46

Кстати, это не первый раз, когда я страдаю от инцидентов в ДЦ.
В прошлый раз всё было куча печальнее: http://lenta.com.ua/591253.html

**Vova_2581** » 01.01.2017 (Вс) 22:53

Ахренеть! Вот это супер-мега противопожарная система – последний писк моды, но ни хрена не сработало! Но, мне кажется, причина была не в этом... а в нашем обычном распиз-@#$%%$-cтве (извините). Как обычно системщики установили систему, а сантехники забыли открыть кран и подать в эту самую систему воду. Или нет... скорее приняли на душу по 150 с огурчиком и соединили водопроводную трубу не с водой, а с канализацией – ну как всегда у нас это делается. Вот откуда, видимо, пожар и случился. Извините, это только мои предположения, но я не удивлюсь, если окажется, что именно так все и было.

**Proxy** » 02.01.2017 (Пн) 21:31

Хакер писал(а):Нужно ещё наладить контроль за правильностью их создания, целостностью файлов и проверять, получается ли из снятого бэкапа развернуть окружение.

КМК, это один из базовых принципов резервного копирования вообще. Удивлен, что кому-то не доводилось сталкиваться с этим и кто-то ещё не пришёл к необходимости проверки бэкапов.

Мне довелось столкнуться с аналогичным случаем выхода из строя RAID вместе с данными. Один-в-один: RAID контроллер вышел из ума и понаписал на харды какой-то мусор напоследок (а там было не просто зеркало, поврежденные чередующиеся восстановить было очень не просто). С тех пор положительно отношусь к распределенным ФС, софтварным RAID, репликации и т.д.

Про бэкапы ещё могу ещё одну мысль привести: старые резервные копии нужно вовремя конвертировать в тот формат, который в обозримом будущем можно будет восстановить за какое-то адекватное время. Это касается, например, хранения данных на устаревших носителях (бэкап есть, считать нечем: стример давно списан / BRD живых не осталось / ключ от сейфа 5 лет никто не встречал) или платный софт резервного копирования (лицензия до версии N.N, которая ставится на Windows Server 2003, но не устанавливается даже на 2008/2008R2, например).

Мне кажется, что это очевидные вещи.

**Хакер** » 03.01.2017 (Вт) 10:29

Proxy писал(а):Удивлен, что кому-то не доводилось сталкиваться с этим и кто-то ещё не пришёл к необходимости проверки бэкапов.

Пристыдил — так пристидил!

Если говорить о ручной проверке, то уверяю тебя, вряд ли ты будешь регулярно на протяжении 7 лет заходить в папочку и контролировать, что 4 архивных файла на месте, если они из раза в раз оказываются на месте. Первые года 4 я проверял.

Если говорить об автоматизированной проверке, то это не такое простое дело с организационной точки зрения. Это нужно либо иметь локальную тест-машину, на которой испытывать успешность возможности разворачивания. Под такое дело у меня банально не хватает мощностей. Либо создавать такую машину в, к примеру, амазоновском EC2-облаке. Но в таком случае нужно аплоадить туда бэкапы, а, к примеру, на то, чтобы загрузить данные (с сжатом виде) на сервер, на котором сейчас работает форум, у меня ушло 1.5 суток! И пока шла загрузка, я не мог нормально пользоваться интернетом, потому что весь апстрим был занят под upload. Так что вариант сливать бэкапы себе, а потом тестировать их на удалённой машине с моим текущим интернетом — не подходит. Тогда возможно нужно с главного сервера перекачивать их на тестовый сервер, тестировать успешность снятия там, а уже оттуда сливать на моё локальное хранилище. Но в таком случае контролируется успешность снятия, а не успешность передачи.

**Viper** » 03.01.2017 (Вт) 15:09

Хакер писал(а):Если говорить о ручной проверке, то уверяю тебя, вряд ли ты будешь регулярно на протяжении 7 лет заходить в папочку и контролировать, что 4 архивных файла на месте, если они из раза в раз оказываются на месте. Первые года 4 я проверял.

Воооот!!! Каждый раз, во время дежурств обхожу все подозрительные места, где может быть что-то не закрыто, что-то не опечатано и так далее. Некоторые другие дежурные такую скрупулезность игнорируют. Типа, что там проверять, всегда все нормально. А практика показывает, что если 100 раз проверить и все нормально, то на 101-й, когда проверять не будешь, как раз и получишь что-то незакрытое и здравствуй ЧП.

**Teranas** » 03.01.2017 (Вт) 18:33

Если что-то должно случить, оно всё равно случится и не сотый, и не сто первый раз проверки не поможет. Можно конечно сеть возле закрытой двери и сидеть ждать, если времени как жизни, пока придет этот самый «ЧП» и тут ты такой красивый и гордый собой его цап-царап, может даже медаль дадут. Правда на практике выживают жополизы и бездельники с хорошо подвешенным языком… :wink:

**Proxy** » 03.01.2017 (Вт) 18:46

Хакер писал(а):Пристыдил — так пристидил!

Я не хотел никого пристыдить, я лишь выразил свое удивление. Не сталкивался и ладно, теперь довелось вот и выход найден, как я наблюдаю.

В моем случае вышло все резервные копии складывать в одно место, в моей зоне ответственности все серверы на жирном канале, а бэкапы складывают и вовсе на хранилище в сети. Ранее снимал бекапы различным специфическим софтом и хранил образы в формате того софта. AOMEI Backupper раз подставил (а позже у разработчика и вовсе жажда денег победила здравое мышление, теперь и платно и по моем опыту не работает в 100% случаев) и во время восстановления образа извинился и сообщил, что по неведомой причине данный образ восстановить не может, с тех пор более серьезно отнесся к вопросу, стал принимать более обдуманные решения. Сейчас храню резервные копии только архивами, которые открываются любым более-менее популярным софтом (что касается всяческих дампов системы с загрузочной областью и т.п, то это вручную с учетом того, что при восстановлении все изменения накатятся уже автоматической копией). Резервные копии всего, связанного с СУБД только средствами самой СУБД (и это единственный вариант не потерять целостность данных; а с СУБД ну очень часто в резервной копии нет никакого смысла, только и только репликация).

А тут 100% оплошность хостера. Криворукость в крайне неприемлемой и несовместимой с выполняемыми задачами степени, что в целом, увы, очень характерно для хостинга в СНГ в целом (у меня часто их работа вызывает гнев и непонимание).

А вот ещё у нас есть железка на колокейшне, там вообще занятная позиция компании: вы арендуете 2 юнита, но про питание не сказано, что оно бесперебойное, арендуйте ещё место и размещайте свой UPS. В итоге в любое удобное для них время наша железка уходит в даун по питанию. Думаю не будет рекламой, если я скажу, что это Ростелеком (про эту компанию могу часами гадости перечислять)... Наша железка — мультиплексор, сидит на их каналах, т.е. перевезти её от них не представляется возможным.
Что? У вашей железки пропало питание? Так это наш техник стойку моет, ему ваши шнурки помешали, домоет, чаёк попьет и включит. А вы платите, платите...

Если что-то должно случить, оно всё равно случится и не сотый, и не сто первый раз проверки не поможет.

Замечательный повод забить болт на всё.

Viper писал(а):Каждый раз, во время дежурств обхожу все подозрительные места, где может быть что-то не закрыто, что-то не опечатано и так далее.

А разве не в этом единственный смысл дежурства?
Если кто-то забивает, то это полностью идентично тому, как на заводе гайки забывают закрутить, выпуская изделия. Или приятель из поднебесной, решивший вопреки договоренности использовать кислотный (активный) флюс (в итоге срок службы изделия разительно далёк от заявленного для всей партии). Во всех случаях ответственный подписью подтверждает меру своей ответственности. Во всех случаях за некачественную работу есть риск заплатить рублем.

**alibek** » 03.01.2017 (Вт) 23:15

Proxy писал(а):Что? У вашей железки пропало питание? Так это наш техник стойку моет, ему ваши шнурки помешали, домоет, чаёк попьет и включит. А вы платите, платите...

Ну для этого SLA подписывается.
Даже Ростелеком вполне можно научить порядку при большом желании.

**Qwertiy** » 04.01.2017 (Ср) 22:55

Очень рад, что удалось всё восстановить!
Надеюсь, имелись в виду 3 вложения, а не 3К вложений?)

С метками прочитанности сообщений судя по всему беда? Потому что непрочитанными помечены не только те сообщения, которые я читал, но и даже те, которые писал

Хакер, выздоравливай!

**Хакер** » 04.01.2017 (Ср) 23:59

Qwertiy писал(а):С метками прочитанности сообщений судя по всему беда? Потому что непрочитанными помечены не только те сообщения, которые я читал, но и даже те, которые писал

У меня ничего подобного не наблюдается. Кто-нибудь ещё видит неадекватное отображение меток прочитанности?

Вообще, судя по некоторым жалобам, — вот этой в частности, а ещё жалобы от Proxy, которую я получал, я могу сделать вывод, что некоторые таблицы БД всё-таки повредились, хотя проверка их структуры силами СУБД не показала абсолютно никаких проблем.

**Don Leno** » 05.01.2017 (Чт) 8:55

Хакер, спасибо, что вернул нам родной форум!!! Не болей!!!

**Qwertiy** » 06.01.2017 (Пт) 1:46

Хм.. А я думал, такое состояние меток из-за восстановления данных из кэша поисковиков.
Я давно не заходил на форум, потом заглядывал пару раз, прочитал несколько тем, написал несколько сообщений.
Возникает ощущение, что метки расставлены с отставанием на 1-3 входа на сайт, т. е. вроде правдоподобно, но попадаются темы, которые я читал, а в некоторых даже писал.
Ну и метки корректно снимаются, так что можно считать, что сейчас всё работает.

Вот интересный скриншот - сообщения начиная с моего отмечены непрочитанными:

**Хакер** » 06.01.2017 (Пт) 13:06

Qwertiy писал(а):А я думал, такое состояние меток из-за восстановления данных из кэша поисковиков.

Забудь про данные из кеша поисковиков — это всё в итоге не пригодилось.

**Teranas** » 03.06.2017 (Сб) 21:10

Хакер
Чё у тя всё этот пороно-рекламер прыгает, всё никак его не угомонишь.

**VBTerminator** » 04.06.2017 (Вс) 9:17

Terenas, я отправил всем модераторам и администраторам, заходившим на форум в этом месяце, личное сообщение следующего содержания:

Прошу принять меры к спамеру
Отправлено: 03 июн 2017, 19:23
От: VBTerminator
Кому: alibek Viper Хакер

У нас на форуме завёлся спамер (или спам-бот) ellentq1, не опубликовавший ничего, кроме ряда сообщений с рекламой порнографии.

Прошу принять соответствующие административные меры.

Теперь надо дождаться, пока кто-нибудь из них снова не зайдёт сюда.

**Mikle** » 04.06.2017 (Вс) 18:36

VBTerminator писал(а):я отправил всем модераторам и администраторам, заходившим на форум в этом месяце, личное сообщение следующего содержания

А я просто воспользовался кнопкой "Пожаловаться".

**VBTerminator** » 04.06.2017 (Вс) 19:10

Mikle, я сделал это в самую первую очередь ещё за день до рассылки сообщений. Только толку пока ноль, вот и дёрнул всех модераторов. Но и после этого спамовые сообщения продолжают жить и здравствовать!

**Viper** » 05.06.2017 (Пн) 5:49

Если бы спамер был один а то ведь их несколько. Мочим по мере проявления.

Конференция VBStreets

По поводу нашего двухнедельного аута (12.12.16—29.12.16)

По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Re: По поводу нашего двухнедельного аута (12.12.16—29.12.16)

Кто сейчас на конференции