Поисковое очковтирательство

Разговоры на любые темы: вы можете обсудить здесь какой-либо сайт, найти единомышленников или просто пообщаться...
Хакер
Телепат
Телепат
Аватара пользователя
 
Сообщения: 16473
Зарегистрирован: 13.11.2005 (Вс) 2:43
Откуда: Казахстан, Петропавловск

Поисковое очковтирательство

Сообщение Хакер » 09.01.2014 (Чт) 23:38

Почему современные поисковые системы плевать хотели на поискоую строку? Почему оператор AND в поисковой строке они воспринимают за OR?

Такое впечатление, что всё сделано так, чтобы выдать хоть какую-то порцию дрянных результатов, пусть там даже не пахнет истиной и заставить человека просматривать вручную 20 страниц ерунды, чем сказать, что по искомой фразе нет ни одной страницы.

Или я чего-то не понимаю? Или я один от этого страдаю?
—We separate their smiling faces from the rest of their body, Captain.
—That's right! We decapitate them.

iGrok
Артефакт VBStreets
Артефакт VBStreets
 
Сообщения: 4272
Зарегистрирован: 10.05.2007 (Чт) 16:11
Откуда: Сетевое сознание

Re: Поисковое очковтирательство

Сообщение iGrok » 10.01.2014 (Пт) 0:36

Не один. Как раз на днях сталкивался... Но они, вроде, "AND" вообще не воспринимают.
Но можно указывать "+" перед каждым словом. Мне, по крайней мере, помогло.
label:
cli
jmp label

alibek
Большой Человек
Большой Человек
 
Сообщения: 14205
Зарегистрирован: 19.04.2002 (Пт) 11:40
Откуда: Russia

Re: Поисковое очковтирательство

Сообщение alibek » 10.01.2014 (Пт) 7:43

Хакер писал(а):Почему современные поисковые системы плевать хотели на поискоую строку?

Потому что обычно так лучше для пользователей.
Если тебе нужен поиск по точному соответствию, заключай запрос в кавычки или используй соответствующий поисковик (Альтависта, например).
Либо ищи в Яндексе, там пока от языка поисковых запросов не отказались.

И кстати, в Гугле никогда не было оператора AND, только OR.
Lasciate ogni speranza, voi ch'entrate.

Qwertiy
Доктор VB наук
Доктор VB наук
 
Сообщения: 2753
Зарегистрирован: 26.06.2011 (Вс) 21:26

Сообщение Qwertiy » 10.01.2014 (Пт) 9:46

alibek писал(а):И кстати, в Гугле никогда не было оператора AND, только OR.

Эм.. А пробел разве не AND?
И расширенный поиск есть...
Последний раз редактировалось Qwertiy 10.01.2014 (Пт) 10:00, всего редактировалось 1 раз.

The trick
Постоялец
Постоялец
 
Сообщения: 774
Зарегистрирован: 26.06.2010 (Сб) 23:08

Re: Поисковое очковтирательство

Сообщение The trick » 10.01.2014 (Пт) 10:00

Бесит когда в гугле пишешь например имя метода PictureChanged, а он пишет "возможно Вы имели ввиду Picture changed" и выдает практически только из второй категории, приходится запрос в кавычки запихивать.
UA6527P

Хакер
Телепат
Телепат
Аватара пользователя
 
Сообщения: 16473
Зарегистрирован: 13.11.2005 (Вс) 2:43
Откуда: Казахстан, Петропавловск

Re: Поисковое очковтирательство

Сообщение Хакер » 10.01.2014 (Пт) 10:32

alibek писал(а):Если тебе нужен поиск по точному соответствию, заключай запрос в кавычки

Ну вот каычками-то я как раз и пользуюсь регулярно. Больше всего проблем бывает при запросах вида "foo bar" AND baaz

Qwertiy писал(а):Эм.. А пробел разве не AND?

А это зависит.

Если оба слова знакомы системе, интеллект империи зла решает, что одно из слов можно отбросить:
google_zug_arp.png
google_zug_arp.png (11.44 Кб) Просмотров: 3927

(Разумеется, в первых двух результатов словом «арпеджиатор» не пахнет ни в настоящей, ни в закешированной гуглом версиях.

Но если исказить слово, то ИИ не решит выкидывать его:
google_zug_arpx.png
google_zug_arpx.png (8.89 Кб) Просмотров: 3927
—We separate their smiling faces from the rest of their body, Captain.
—That's right! We decapitate them.

iGrok
Артефакт VBStreets
Артефакт VBStreets
 
Сообщения: 4272
Зарегистрирован: 10.05.2007 (Чт) 16:11
Откуда: Сетевое сознание

Re: Поисковое очковтирательство

Сообщение iGrok » 10.01.2014 (Пт) 10:46

Qwertiy писал(а):А пробел разве не AND?

Пробел в гугле - это вообще ни AND ни OR, у него более сложная логика.

Хакер писал(а):Если оба слова знакомы системе, интеллект империи зла решает, что одно из слов можно отбросить:

Не, не так. Он по умолчанию настроен так, чтобы показать хоть что-то, и может отбрасывать слова, если по полной фразе нет совпадений.
Причём он ещё и выбирает приоритетное слово, кажется, по частоте запросов с этим словом.
Для "массового потребителя" это оптимальный вариант. :)

Заставить нормально работать можно только пользуясь языком запросов / расширенным поиском.
Хакер писал(а):"foo bar" AND baaz

Да, есть такое. Вот как с этим бороться - самому очень интересно.

UPD:
Ха! Нашёл. См. вложение.
Вложения
scr2_2014-01-10_114831.png
scr2_2014-01-10_114831.png (34.79 Кб) Просмотров: 3923
Последний раз редактировалось iGrok 10.01.2014 (Пт) 10:49, всего редактировалось 1 раз.
label:
cli
jmp label

alibek
Большой Человек
Большой Человек
 
Сообщения: 14205
Зарегистрирован: 19.04.2002 (Пт) 11:40
Откуда: Russia

Re:

Сообщение alibek » 10.01.2014 (Пт) 10:48

Qwertiy писал(а):Эм.. А пробел разве не AND?

Не совсем. Гугл ищет слишком интеллектуально.
Lasciate ogni speranza, voi ch'entrate.

Хакер
Телепат
Телепат
Аватара пользователя
 
Сообщения: 16473
Зарегистрирован: 13.11.2005 (Вс) 2:43
Откуда: Казахстан, Петропавловск

Re: Поисковое очковтирательство

Сообщение Хакер » 10.01.2014 (Пт) 10:50

iGrok писал(а):Не, не так. Он по умолчанию настроен так, чтобы показать хоть что-то, и может отбрасывать слова, если по полной фразе нет совпадений.


Так они есть. Но не в топе.
—We separate their smiling faces from the rest of their body, Captain.
—That's right! We decapitate them.

alibek
Большой Человек
Большой Человек
 
Сообщения: 14205
Зарегистрирован: 19.04.2002 (Пт) 11:40
Откуда: Russia

Re: Поисковое очковтирательство

Сообщение alibek » 10.01.2014 (Пт) 10:50

Хакер писал(а):Если оба слова знакомы системе, интеллект империи зла решает, что одно из слов можно отбросить:

Плюс перед словом ставь.
Ну или Яндексом ищи, у него алгоритмы более формализованные.
Lasciate ogni speranza, voi ch'entrate.

Хакер
Телепат
Телепат
Аватара пользователя
 
Сообщения: 16473
Зарегистрирован: 13.11.2005 (Вс) 2:43
Откуда: Казахстан, Петропавловск

Re: Поисковое очковтирательство

Сообщение Хакер » 10.01.2014 (Пт) 11:02

alibek писал(а):Плюс перед словом ставь.

"foo bar" → 61 тысяча результатов
foo +bar → 7 результатов
+foo +bar → 4 результата

Хотя должно быть наоборот, потому что foo +bar не настаивает на порядке слов и отсутствии промежуточного слова в середине.

alibek писал(а):Ну или Яндексом ищи, у него алгоритмы более формализованные.

В основном им ищу, ибо у меня мозг плохо воспринимает результаты без favicon-ов да и ранжирование мне больше нравится. Гугл скорее как инструмент для чисто англоязычного поиска или в случае, когда яндексом ничего не нашлось толкового.

Но в яндексе я замечал такую же дурь. Не могу сейчас вспомнить случай или найти скриншоты, но я даже в поддержку писал.
—We separate their smiling faces from the rest of their body, Captain.
—That's right! We decapitate them.

Qwertiy
Доктор VB наук
Доктор VB наук
 
Сообщения: 2753
Зарегистрирован: 26.06.2011 (Вс) 21:26

Сообщение Qwertiy » 10.01.2014 (Пт) 16:26

Хакер писал(а):Ну вот каычками-то я как раз и пользуюсь регулярно. Больше всего проблем бывает при запросах вида "foo bar" AND baaz

Хм.. Насколько я помню, гугл не выкидывает слова, если одна из частей запроса в кавычках и с этим случаем как раз проблем быть не должно: просто "foo bar" baaz, правда орфографию исправлять может, если захочет :)

Хакер писал(а):да и ранжирование мне больше нравится

А мне наоборот гугловское.

И гугл не достаёт вводом капчи через каждые 5 минут с фразой с вашей подсети слишком много запросов. Если уж один раз спросит, то на весь день хватит. А яндекс 5 минут - и держи капчу. И пофигу куда хотел попасть - ввёл капчу и кышь на главную. Жуть!

Mikle
Изобретатель велосипедов
Изобретатель велосипедов
Аватара пользователя
 
Сообщения: 4147
Зарегистрирован: 25.03.2003 (Вт) 14:02
Откуда: Туапсе

Re: Поисковое очковтирательство

Сообщение Mikle » 10.01.2014 (Пт) 18:36

Это что за подсети такие? Я ни от гугла, ни от яндекса вообще ни разу не видел капчи после запроса. В яндексе пользуюсь короткой формой www.ya.ru

Qwertiy
Доктор VB наук
Доктор VB наук
 
Сообщения: 2753
Зарегистрирован: 26.06.2011 (Вс) 21:26

Сообщение Qwertiy » 10.01.2014 (Пт) 18:45

Mikle писал(а):Это что за подсети такие?

Ну, программистов много, поиском пользоваться тоже все любят. Ну и логично что IP всех компьютеров (как минимум офиса) в одной подсети. Вот поисковикам периодически и не нравится, что к ним много запросов поступает. Не могу сказать, что это происходит часто, но всё же периодически случается.
Но у Гугла это - ввёл капчу, попал на страницу поиска и видишь результаты. И скорее всего капчу сегодня больше не увидишь.
У Яндекса - ввёл капчу, попал на главную страницу, причём неважно где был до этого, даже маркет посылает на главную. И с большой вероятностью через несколько минут ты снова увидишь капчу. И их не волнует, если ты выбрал какие-то параметры поиска (в маркете, например) и нажал кнопку применить - капча и снова на главную...

Хакер
Телепат
Телепат
Аватара пользователя
 
Сообщения: 16473
Зарегистрирован: 13.11.2005 (Вс) 2:43
Откуда: Казахстан, Петропавловск

Re: Поисковое очковтирательство

Сообщение Хакер » 10.01.2014 (Пт) 18:50

Здравый смысл говорит, что тактика Яндекса более правильная. Иначе можно один раз привлечь индуса, а затем дать разгуляться боту.
—We separate their smiling faces from the rest of their body, Captain.
—That's right! We decapitate them.

Qwertiy
Доктор VB наук
Доктор VB наук
 
Сообщения: 2753
Зарегистрирован: 26.06.2011 (Вс) 21:26

Сообщение Qwertiy » 10.01.2014 (Пт) 18:56

Хакер писал(а):Здравый смысл говорит, что тактика Яндекса более правильная.

С точки зрения сервера - да.
А вот с точки зрения пользователя - мне проще ввести капчу один раз, чем вводить постоянно.
Ну и да, кидать на главную вместо обработки запроса после ввода капчи - в любом случае криво.

Хакер писал(а):Иначе можно один раз привлечь индуса, а затем дать разгуляться боту.

Напоминаю, что речь про подсеть, а не один адрес даже. Мне кажется естественным спрашивать капчу, когда с конкретного адреса идёт много запросов. Потому что ну кто будет держать подсеть для заваливания поисковика запросами? Если это какой-то ботнет, то адреса ведь не будут из одной подсети, верно? Получается что проверка на подсеть вообще мало что фильтрует.

iGrok
Артефакт VBStreets
Артефакт VBStreets
 
Сообщения: 4272
Зарегистрирован: 10.05.2007 (Чт) 16:11
Откуда: Сетевое сознание

Re: Поисковое очковтирательство

Сообщение iGrok » 10.01.2014 (Пт) 19:41

Qwertiy писал(а):гугл не выкидывает слова, если одна из частей запроса в кавычках

Ещё как выкидывает.

Qwertiy писал(а):Потому что ну кто будет держать подсеть для заваливания поисковика запросами? Если это какой-то ботнет, то адреса ведь не будут из одной подсети, верно? Получается что проверка на подсеть вообще мало что фильтрует.

Арендуем сервак с 200 айпи на нём, и оп-ля, у нас уже "свой" поисковик. А на редкие запросы капчи можно и антикапчу навесить с китайцами, или даже ручками.
label:
cli
jmp label

alibek
Большой Человек
Большой Человек
 
Сообщения: 14205
Зарегистрирован: 19.04.2002 (Пт) 11:40
Откуда: Russia

Re: Поисковое очковтирательство

Сообщение alibek » 13.01.2014 (Пн) 8:35

Хакер писал(а):Так они есть. Но не в топе.

Значит это оптимизация.
Например я ищу песню The Man Who Sold the World (текст песни).
Точное название песни я не помню, поэтому в поиске ввожу «man sold world» — это оптимальный вариант.
Или же, в более пессимистическом варианте, указываю неправильные артикли, вместо who пишу where или which (или вообще whe), Man или World пишу во множественном числе.
Поисковик с хорошими потребительскими качествами:
  1. Определит контекст (ищется цитата, текст песни или что-то похожее). Контекст он может определить (или попытаться определить) по истории поисковых запросов, по накопленной статистике посещений сайта, по профилю пользователя и его предпочтениям, по общим трендам в интернете для данного времени суток и данного региона, и еще по тысяче различных факторов.
  2. Выделит из запроса ключевые слова для данного контекста. В данном случае это man sold world. Дополнительно поисковик может учитывать популярные сценарии (поиск текстов песен) и держать вспомогательную БД с заголовками и словами песен.
  3. Дополнительно отберет неточные/неявные совпадения и добавит их в результаты. И в результате получается такое.
Изображение

iGrok писал(а):Арендуем сервак с 200 айпи на нём

Это дата-центр надо арендовать.
Вложения
search.png
Скриншот поиска
search.png (301.14 Кб) Просмотров: 3864
Lasciate ogni speranza, voi ch'entrate.

iGrok
Артефакт VBStreets
Артефакт VBStreets
 
Сообщения: 4272
Зарегистрирован: 10.05.2007 (Чт) 16:11
Откуда: Сетевое сознание

Re: Поисковое очковтирательство

Сообщение iGrok » 13.01.2014 (Пн) 20:49

alibek писал(а):Это дата-центр надо арендовать.

С чего вдруг? У нас есть два сервера, на каждом по сотне айпи. По запросу и больше дают. Стоит это, конечно...
label:
cli
jmp label


Вернуться в Народный треп

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6

    TopList