Страница 1129 из 1129 ПерваяПервая ... 129 629 1029 1079 1119 1125 1126 1127 1128 1129
Показано с 11,281 по 11,286 из 11286
  1. Цитата Сообщение от Alex 1353 Посмотреть сообщение
    Вижу что распределено по нормальному закону. Это не может не радовать.
    Ошибаешься, нет никакой шляпы. На картинке tSNE уменьшение размерности word embeddings.

    Цитата Сообщение от Alex 1353 Посмотреть сообщение
    Как ты это сделал и что означают оси и цвета? Это глубокое обучение?
    Весь текст склеивается в одну последовательность, по ней двигается "окно" и к текущему слову "учит" окружение – обычной логистической регрессией. Это не глубокое обучение, тут нет многослойных сетей. Очень простая модель.

    Оси и цвета ничего не значат. Имеется многомерное пространство, где близкие по контексту слова оказываются рядом, а разные по смыслу –*далеко. Единственная цель этого отображения расположить в 2D рисунке эти точки так же, чтобы рядом сохранились близкие.

    Применение этой модели к форуму просто шутка. Объём текста в этой ветке слишком мал для обучения: меньше полумиллиона слов. По-хорошему надо на пару порядков больше.



    Цитата Сообщение от extatic Посмотреть сообщение
    по каким параметрам производится подсчет похожих слов
    По соседним словам. При этом предложения просто склеены в массив слов через пробел. Отсюда много "левых" выводов о связи. Например, последнего слова одного предложения от одного участника, и первого слова другого коммента от другого участника, в другом контексте.


    Цитата Сообщение от extatic Посмотреть сообщение
    как можно расположить близкие по смыслу слова ближе к друг к другу
    Google: "word embeddings", "word2vec". На Хабре подробно на Русском языке.


    Цитата Сообщение от extatic Посмотреть сообщение
    Правильно было оценивать частотность только информативных слов, а "воду" фильтровать
    Спору нет.
    Последний раз редактировалось ArmTheHomeless; Вчера в 11:46.

  2. Аватар для dolfin
    Город-герой Осташков
    Сообщений
    4,492
    Благодарностей: 1695
    Цитата Сообщение от ArmTheHomeless Посмотреть сообщение
    Ошибаешься, нет никакой шляпы. На картинке tSNE уменьшение размерности word embeddings.


    Весь текст склеивается в одну последовательность, по ней двигается "окно" и к текущему слову "учит" окружение – обычной логистической регрессией. Это не глубокое обучение, тут нет многослойных сетей. Очень простая модель.

    Оси и цвета ничего не значат. Имеется многомерное пространство, где близкие по контексту слова оказываются рядом, а разные по смыслу –*далеко. Единственная цель этого отображения расположить в 2D рисунке эти точки так же, чтобы рядом сохранились близкие.

    Применение этой модели к форуму просто шутка. Объём текста в этой ветке слишком мал для обучения: меньше полумиллиона слов. По-хорошему надо на пару порядков больше.




    По соседним словам. При этом предложения просто склеены в массив слов через пробел. Отсюда много "левых" выводов о связи. Например, последнего слова одного предложения от одного участника, и первого слова другого коммента от другого участника, в другом контексте.



    Google: "word embeddings", "word2vec". На Хабре подробно на Русском языке.



    Спору нет.
    А смысл-то всей этой беды в чем? в двух словах можно пояснить?
    Какой вывод/выводы можно сделать из картинки?
    Последний раз редактировалось dolfin; Вчера в 12:16.

  3. Цитата Сообщение от dolfin Посмотреть сообщение
    А смысл-то всей этой беды в чем? в двух словах можно пояснить?
    По идее, должны выявиться смысловые параллели: пары одинаково связанных понятий должны выглядеть параллельными векторами примерно одинаковой длины. «Собака – щенок» и «Кошка – котёнок» были бы вершинами параллелограма.

    Подумал, может, кто-то на форуме тоже сейчас учится ML/NLP и предложит свою модель или идею.
    The cost of my desire...Sleep Now In The Fire!

  4. Цитата Сообщение от AramrAm Посмотреть сообщение
    да, упущение, однако, теперь и мне понятно. с одной стороны - да ,мог скопировать ссылку,с другой процесс явно должен был быть упрощен или хотя бы иметь возможность проверки.
    Согласен, программисты делали это быстро и на живую, но немаловажно, что были изначальные концептуальные ошибки при разработке ВСУ - об этом-то мы и спорили с Radiance в этой ветке.

    Если с помощью КСИ-2017 найдем тех, кто реализует это безупречно(правильно), то в следующем Сезоне таких проблем быть уже не должно

  5. Цитата Сообщение от ArmTheHomeless Посмотреть сообщение
    По идее, должны выявиться смысловые параллели: пары одинаково связанных понятий должны выглядеть параллельными векторами примерно одинаковой длины. «Собака – щенок» и «Кошка – котёнок» были бы вершинами параллелограма.

    Подумал, может, кто-то на форуме тоже сейчас учится ML/NLP и предложит свою модель или идею.
    Пытаться классифицировать язык, анализируя только совместное употребление слов - путь в никуда. Программа должна в первую очередь распознать грамматику и научиться определять часть речи и формы слова. А еще раньше программа должна определить тип языка. После этого каждое слово должно быть подробно классифицировано. Естественно, в первую очередь эти слова - конкретные существительные, и они не должны путаться с абстрактными существительными, например. Далее, мы определяем, что собака - это животное. Как алгоритм определяет, что слово является животным? Имея доступ к условно-бесконечному количеству текста, это нетрудно. Существует упоминания, что животное бегает, ест, радуется и умирает. Мы понимаем, что речь идет о животном. Так что смысл не в том, что собака и кошка употребляются вместе, а в том, что собака и кошка употребляются совместно с определенными, заранее известными словами. Задача усложняется, если нам не известны значения глаголов и прилагательных, но, тем не менее, можно судить о схожести слов кошка и собака именно потому, что они должны употребляться со схожими глаголами и прилагательными, но не друг с другом. Однако часть речи система должна определять в любом случае.
    Что касается параллелограмма, то он должен возникнуть при построении в n-мерном пространстве. Т.е. на плоскости он может выглядеть непредсказуемо.
    Хочешь закурировать 100 человек и выиграть приз, а нет денег на рекламу? Не беда! Ведь есть беспроцентная рассрочка на 3 месяца вообще без переплат на любые платежи! Получи карту здесь.

  6. Цитата Сообщение от Alex 1353 Посмотреть сообщение
    ну вообще цвет был бы одним параметром, если бы речь шла о монохромной диаграмме. Но в данном случае цвет передаёт 3-и параметра:
    RGB в 8-ми битном диапазоне целых чисел. Вопрос в другом, делал он этот модуль сам или скачал на GitHub и подключил к парсеру. Если так, то навряд ли мы узнаем ответ.
    И часто на практике вы наблюдали, чтобы цветом передавалось более одного параметра? Обычно параметр один, причем дискретный.
    Хочешь закурировать 100 человек и выиграть приз, а нет денег на рекламу? Не беда! Ведь есть беспроцентная рассрочка на 3 месяца вообще без переплат на любые платежи! Получи карту здесь.

Страница 1129 из 1129 ПерваяПервая ... 129 629 1029 1079 1119 1125 1126 1127 1128 1129