Цитата Сообщение от ArmTheHomeless Посмотреть сообщение
word2vec основан на гипотезе, что контекст любого слова содержится в ближайших соседних словах. Методика давно работает в машинном переводе, анализе сентиментов и др. задачах обработки естественных языков.
Это для того, чтобы выбрать значение слова из двух и более вариантов. Вполне логично, что значение слова можно определить по окружению, учитываются, что информация об окружающих словах достаточно известна, так же как и о возможных вариантах значения данного слова.

В нашем же случае идет анализ вообще неизвестного текста, т.е. считается, то изначально система ничего не знает о языке. Возможно, что не анализируя грамматику, мы тоже можем получить хороший результат, поскольку при приближении к бесконечности количества обрабатываемой информации мы будем видеть схожесть некоторых слов по окружению. Опять же, тут важно не то, что два слова употребляются рядом, а то, что у двух слов похожие окружающие слова, это очень существенно. В любом случае, подобный алгоритм будет малоэффективен и неточен. Полный перебор - это неэффективно, если анализируемую информацию можно структурировать.

Например, в начале 90-х в России одновременно были компьютеры Spectrum и IBM, причем производительность IBM была значительно выше (может в 100-1000 раз, не знаю). При этом более старая шахматная программа на Spectrum (Colossus) вполне себе иногда обыгрывала шахматную программу на IBM (Chesmaster), несмотря на разницу в производительности. Особенность в том, что Colossus имел более совершенный алгоритм, который просчитывал не все варианты, а только лучшие, Chesmaster (ранний) просто равномерно просчитывал на несколько ходов все возможные варианты, а поскольку в шахматах у каждой стороны в среднем около 20 вариантов ходов, то не удивительно, что он быстро захлебывался. Короче говоря, полный перебор - это плохо, если есть возможность анализировать информацию другим способом. Причем в шахматах достаточно трудно без перебора сразу отличить, какие варианты просчитывать, а какие нет, тогда как в лингвистике структурировать информацию относительно легко.