Подписаться на обновления
17 ноябряСуббота

usd цб 65.9931

eur цб 74.9022

днём
ночью

Восх.
Зах.

18+

ОбществоЭкономикаВ миреКультураМедиаТехнологииЗдоровьеЭкзотикаКнигиКорреспонденция
Энергетика и экология  Компьютеры  Сеть  Мобильные технологии  Наука  Космонавтика  Военные технологии  Биотехнологии  Ноосфера  Транспорт  Краудфандинг  Эко-программа утилизации  Электронная
наука
 
Человеческий капитал  Данные НКО 
vas3k.ru   вторник, 2 октября 2018 года, 16:00

Машинное обучение для людей
Разбираемся простыми словами


   увеличить размер шрифта уменьшить размер шрифта распечатать отправить ссылку добавить в избранное код для вставки в блог




Машинное обучение — как секс в старших классах. Все говорят о нем по углам, единицы понимают, а занимается только препод. Статьи о машинном обучении делятся на два типа: это либо трёхтомники с формулами и теоремами, которые я ни разу не смог дочитать даже до середины, либо сказки об искусственном интеллекте, профессиях будущего и волшебных дата-саентистах.

Материал опубликован на портале vas3k.ru.

Решил сам написать пост, которого мне не хватало. Большое введение для тех, кто хочет наконец разобраться в машинном обучении — простым языком, без формул-теорем, зато с примерами реальных задач и их решений.

Погнали.

Зачем обучать машины

Снова разберём на Олегах.

Предположим, Олег хочет купить автомобиль и считает сколько денег ему нужно для этого накопить. Он пересмотрел десяток объявлений в интернете и увидел, что новые автомобили стоят около $20 000, годовалые — примерно $19 000, двухлетние — $18 000 и так далее.

В уме Олег-аналитик выводит формулу: адекватная цена автомобиля начинается от $20 000 и падает на $1000 каждый год, пока не упрётся в $10 000.

Олег сделал то, что в машинном обучении называют регрессией — предсказал цену по известным данным. Люди делают это постоянно, когда считают почём продать старый айфон или сколько шашлыка взять на дачу (моя формула — полкило на человека в сутки).

Да, было бы удобно иметь формулу под каждую проблему на свете. Но взять те же цены на автомобили: кроме пробега есть десятки комплектаций, разное техническое состояние, сезонность спроса и еще столько неочевидных факторов, которые Олег, даже при всём желании, не учел бы в голове.

Люди тупы и ленивы — надо заставить вкалывать роботов. Пусть машина посмотрит на наши данные, найдёт в них закономерности и научится предсказывать для нас ответ. Самое интересное, что в итоге она стала находить даже такие закономерности, о которых люди не догадывались.

Так родилось машинное обучение.

Три составляющие обучения

Цель машинного обучения — предсказать результат по входным данным. Чем разнообразнее входные данные, тем проще машине найти закономерности и тем точнее результат.

Итак, если мы хотим обучить машину, нам нужны три вещи:

Данные. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны его лайки или посты. Данных нужно как можно больше. Десятки тысяч примеров — это самый злой минимум для отчаянных.

Данные собирают как могут. Кто-то вручную — получается дольше, меньше, зато без ошибок. Кто-то автоматически — просто сливает машине всё, что нашлось, и верит в лучшее. Самые хитрые, типа гугла, используют своих же пользователей для бесплатной разметки. Вспомните ReCaptcha, которая иногда требует «найти на фотографии все дорожные знаки» — это оно и есть.

За хорошими наборами данных (датасетами) идёт большая охота. Крупные компании, бывает, раскрывают свои алгоритмы, но датасеты — крайне редко.

Признаки. Мы называем их фичами (features), так что ненавистникам англицизмов придётся страдать. Фичи, свойства, характеристики, признаки — ими могут быть пробег автомобиля, пол пользователя, цена акций, даже счетчик частоты появления слова в тексте может быть фичей.

Машина должна знать, на что ей конкретно смотреть. Хорошо, когда данные просто лежат в табличках — названия их колонок и есть фичи. А если у нас сто гигабайт картинок с котами? Когда признаков много, модель работает медленно и неэффективно. Зачастую отбор правильных фич занимает больше времени, чем всё остальное обучение. Но бывают и обратные ситуации, когда кожаный мешок сам решает отобрать только «правильные» на его взгляд признаки и вносит в модель субъективность — она начинает дико врать.

Алгоритм. Одну задачу можно решить разными методами примерно всегда. От выбора метода зависит точность, скорость работы и размер готовой модели. Но есть один нюанс: если данные плохие, даже самый лучший алгоритм не поможет. Не зацикливайтесь на процентах, лучше соберите побольше данных.


Обучение vs Интеллект

Однажды в одном хипстерском издании я видел статью под заголовком «Заменят ли нейросети машинное обучение». Пиарщики в своих пресс-релизах обзывают «искусственным интеллектом» любую линейную регрессию, с которой уже дети во дворе играют. Объясняю разницу на картинке, раз и навсегда.


Искусственный интеллект — название всей области, как биология или химия.

Машинное обучение — это раздел искусственного интеллекта. Важный, но не единственный.

Нейросети — один из видов машинного обучения. Популярный, но есть и другие, не хуже.

Глубокое обучение — архитектура нейросетей, один из подходов к их построению и обучению. На практике сегодня мало кто отличает, где глубокие нейросети, а где не очень. Говорят название конкретной сети и всё.

Сравнивать можно только вещи одного уровня, иначе получается полный буллщит типа «что лучше: машина или колесо?» Не отождествляйте термины без причины, чтобы не выглядеть дурачком.

Карта мира машинного обучения

Лень читать лонгрид — повтыкайте хотя бы в картинку, будет полезно.


Думаю потом нарисовать полноценную настенную карту со стрелочками и объяснениями, что где используется, если статья зайдёт.

И да. Классифицировать алгоритмы можно десятком способов. Я выбрал этот, потому что он мне кажется самым удобным для повествования. Надо понимать, что не бывает так, чтобы задачу решал только один метод. Я буду упоминать известные примеры применений, но держите в уме, что «сын маминой подруги» всё это может решить нейросетями.

Начну с базового обзора. Сегодня в машинном обучении есть всего четыре основных направления.


Часть 1. Классическое обучение

Первые алгоритмы пришли к нам из чистой статистики еще в 1950-х. Они решали формальные задачи — искали закономерности в циферках, оценивали близость точек в пространстве и вычисляли направления.

Сегодня на классических алгоритмах держится добрая половина интернета. Когда вы встречаете блок «Рекомендованные статьи» на сайте, или банк блокирует все ваши деньги на карточке после первой же покупки кофе за границей — это почти всегда дело рук одного из этих алгоритмов.

Да, крупные корпорации любят решать все проблемы нейросетями. Потому что лишние 2% точности для них легко конвертируются в дополнительные 2 миллиарда прибыли. Остальным же стоит включать голову. Когда задача решаема классическими методами, дешевле реализовать сколько-нибудь полезную для бизнеса систему на них, а потом думать об улучшениях. А если вы не решили задачу, то не решить её на 2% лучше вам не особо поможет.

Знаю несколько смешных историй, когда команда три месяца переписывала систему рекомендаций интернет-магазина на более точный алгоритм, и только потом понимала, что покупатели вообще ей не пользуются. Большая часть просто приходит из поисковиков.

При всей своей популярности, классические алгоритмы настолько просты, что их легко объяснить даже ребёнку. Сегодня они как основы арифметики — пригождаются постоянно, но некоторые всё равно стали их забывать.


Обучение с учителем

Классическое обучение любят делить на две категории — с учителем и без. Часто можно встретить их английские наименования — Supervised и Unsupervised Learning.

В первом случае у машины есть некий учитель, который говорит ей как правильно. Рассказывает, что на этой картинке кошка, а на этой собака. То есть учитель уже заранее разделил (разметил) все данные на кошек и собак, а машина учится на конкретных примерах.

В обучении без учителя, машине просто вываливают кучу фотографий животных на стол и говорят «разберись, кто здесь на кого похож». Данные не размечены, у машины нет учителя, и она пытается сама найти любые закономерности. Об этих методах поговорим ниже.

Очевидно, что с учителем машина обучится быстрее и точнее, потому в боевых задачах его используют намного чаще. Эти задачи делятся на два типа: классификация — предсказание категории объекта, и регрессия — предсказание места на числовой прямой.

Классификация

«Разделяет объекты по заранее известному признаку. Носки по цветам, документы по языкам, музыку по жанрам»

Сегодня используют для:

• Спам-фильтры

• Определение языка

• Поиск похожих документов

• Анализ тональности

• Распознавание рукописных букв и цифр

• Определение подозрительных транзакций

Популярные алгоритмы: Наивный Байес, Деревья Решений, Логистическая Регрессия, K-ближайших соседей, Машины Опорных Векторов

Классификация вещей — самая популярная задача во всём машинном обучении. Машина в ней как ребёнок, который учится раскладывать игрушки: роботов в один ящик, танки в другой. Опа, а если это робот-танк? Штош, время расплакаться и выпасть в ошибку.

Для классификации всегда нужен учитель — размеченные данные с признаками и категориями, которые машина будет учиться определять по этим признакам. Дальше классифицировать можно что угодно: пользователей по интересам — так делают алгоритмические ленты, статьи по языкам и тематикам — важно для поисковиков, музыку по жанрам — вспомните плейлисты Спотифая и Яндекс.Музыки, даже письма в вашем почтовом ящике.

Раньше все спам-фильтры работали на алгоритме Наивного Байеса. Машина считала сколько раз слово «виагра» встречается в спаме, а сколько раз в нормальных письмах. Перемножала эти две вероятности по формуле Байеса, складывала результаты всех слов и бац, всем лежать, у нас машинное обучение!


Позже спамеры научились обходить фильтр Байеса, просто вставляя в конец письма много слов с «хорошими» рейтингами. Метод получил ироничное название Отравление Байеса, а фильтровать спам стали другими алгоритмами. Но метод навсегда остался в учебниках как самый простой, красивый и один из первых практически полезных.

Возьмем другой пример полезной классификации. Вот берёте вы кредит в банке. Как банку удостовериться, вернёте вы его или нет? Точно никак, но у банка есть тысячи профилей других людей, которые уже брали кредит до вас. Там указан их возраст, образование, должность, уровень зарплаты и главное — кто из них вернул кредит, а с кем возникли проблемы.

Да, все догадались, где здесь данные и какой надо предсказать результат. Обучим машину, найдём закономерности, получим ответ — вопрос не в этом. Проблема в том, что банк не может слепо доверять ответу машины, без объяснений. Вдруг сбой, злые хакеры или бухой админ решил скриптик исправить.

Для этой задачи придумали Деревья Решений. Машина автоматически разделяет все данные по вопросам, ответы на которые «да» или «нет». Вопросы могут быть не совсем адекватными с точки зрения человека, например «зарплата заёмщика больше, чем 25934 рубля?», но машина придумывает их так, чтобы на каждом шаге разбиение было самым точным.

Так получается дерево вопросов. Чем выше уровень, тем более общий вопрос. Потом даже можно загнать их аналитикам, и они навыдумывают почему так.

Деревья нашли свою нишу в областях с высокой ответственностью: диагностике, медицине, финансах.

Два самых популярных алгоритма построения деревьев — CART и C4.5.

В чистом виде деревья сегодня используют редко, но вот их ансамбли (о которых будет ниже) лежат в основе крупных систем и зачастую уделывают даже нейросети. Например, когда вы задаете вопрос Яндексу, именно толпа глупых деревьев бежит ранжировать вам результаты.


Но самым популярным методом классической классификации заслуженно является Метод Опорных Векторов (SVM). Им классифицировали уже всё: виды растений, лица на фотографиях, документы по тематикам, даже странных Playboy-моделей. Много лет он был главным ответом на вопрос «какой бы мне взять классификатор».

Идея SVM по своей сути проста — он ищет, как так провести две прямые между категориями, чтобы между ними образовался наибольший зазор. На картинке видно нагляднее:


У классификации есть полезная обратная сторона — поиск аномалий. Когда какой-то признак объекта сильно не вписывается в наши классы, мы ярко подсвечиваем его на экране. Сейчас так делают в медицине: компьютер подсвечивает врачу все подозрительные области МРТ или выделяет отклонения в анализах. На биржах таким же образом определяют нестандартных игроков, которые скорее всего являются инсайдерами. Научив компьютер «как правильно», мы автоматически получаем и обратный классификатор — как неправильно.

Сегодня для классификации всё чаще используют нейросети, ведь по сути их для этого и изобрели.

Правило буравчика такое: сложнее данные — сложнее алгоритм. Для текста, цифр, табличек я бы начинал с классики. Там модели меньше, обучаются быстрее и работают понятнее. Для картинок, видео и другой непонятной бигдаты — сразу смотрел бы в сторону нейросетей.

Лет пять назад еще можно было встретить классификатор лиц на SVM, но сегодня под эту задачу сотня готовых сеток по интернету валяются, чо бы их не взять. А вот спам-фильтры как на SVM писали, так и не вижу смысла останавливаться.

Регрессия

«Нарисуй линию вдоль моих точек. Да, это машинное обучение»

Сегодня используют для:

• Прогноз стоимости ценных бумаг

• Анализ спроса, объема продаж

• Медицинские диагнозы

• Любые зависимости числа от времени

Популярные алгоритмы: Линейная или Полиномиальная Регрессия

Регрессия — та же классификация, только вместо категории мы предсказываем число. Стоимость автомобиля по его пробегу, количество пробок по времени суток, объем спроса на товар от роста компании и.т.д. На регрессию идеально ложатся любые задачи, где есть зависимость от времени.

Регрессию очень любят финансисты и аналитики, она встроена даже в Excel. Внутри всё работает, опять же, банально: машина тупо пытается нарисовать линию, которая в среднем отражает зависимость. Правда, в отличии от человека с фломастером и вайтбордом, делает она это математически точно — считая среднее расстояние до каждой точки и пытаясь всем угодить.

Когда регрессия рисует прямую линию, её называют линейной, когда кривую — полиномиальной. Это два основных вида регрессии, дальше уже начинаются редкоземельные методы. Но так как в семье не без урода, есть Логистическая Регрессия, которая на самом деле не регрессия, а метод классификации, от чего у всех постоянно путаница. Не делайте так.

Схожесть регрессии и классификации подтверждается еще и тем, что многие классификаторы, после небольшого тюнинга, превращаются в регрессоры. Например, мы можем не просто смотреть к какому классу принадлежит объект, а запоминать, насколько он близок — и вот, у нас регрессия.

Обучение без учителя

Обучение без учителя (Unsupervised Learning) было изобретено позже, аж в 90-е, и на практике используется реже. Но бывают задачи, где у нас просто нет выбора.

Размеченные данные, как я сказал, дорогая редкость. Но что делать если я хочу, например, написать классификатор автобусов — идти на улицу руками фотографировать миллион сраных икарусов и подписывать где какой? Так и жизнь вся пройдёт, а у меня еще игры в стиме не пройдены.

Когда нет разметки, есть надежда на капитализм, социальное расслоение и миллион китайцев из сервисов типа Яндекс.Толока, которые готовы делать для вас что угодно за пять центов. Так обычно и поступают на практике. А вы думали где Яндекс берёт все свои крутые датасеты?

Либо, можно попробовать обучение без учителя. Хотя, честно говоря, из своей практики я не помню чтобы где-то оно сработало хорошо.

Обучение без учителя, всё же, чаще используют как метод анализа данных, а не как основной алгоритм. Специальный кожаный мешок с дипломом МГУ вбрасывает туда кучу мусора и наблюдает. Кластеры есть? Зависимости появились? Нет? Ну штош, продолжай, труд освобождает. Тыж хотел работать в датасаенсе.

Кластеризация

«Разделяет объекты по неизвестному признаку. Машина сама решает как лучше»

Сегодня используют для:

• Сегментация рынка (типов покупателей, лояльности)

• Объединение близких точек на карте

• Сжатие изображений

• Анализ и разметки новых данных

• Детекторы аномального поведения

Популярные алгоритмы: Метод K-средних, Mean-Shift, DBSCAN

Кластеризация — это классификация, но без заранее известных классов. Она сама ищет похожие объекты и объединяет их в кластеры. Количество кластеров можно задать заранее или доверить это машине. Похожесть объектов машина определяет по тем признакам, которые мы ей разметили — у кого много схожих характеристик, тех давай в один класс.

Отличный пример кластеризации — маркеры на картах в вебе. Когда вы ищете все крафтовые бары в Москве, движку приходится группировать их в кружочки с циферкой, иначе браузер зависнет в потугах нарисовать миллион маркеров.

Более сложные примеры кластеризации можно вспомнить в приложениях iPhoto или Google Photos, которые находят лица людей на фотографиях и группируют их в альбомы. Приложение не знает как зовут ваших друзей, но может отличить их по характерным чертам лица. Типичная кластеризация.

Правда для начала им приходится найти эти самые «характерные черты», а это уже только с учителем.

Сжатие изображений — еще одна популярная проблема. Сохраняя картинку в PNG, вы можете установить палитру, скажем, в 32 цвета. Тогда кластеризация найдёт все «примерно красные» пиксели изображения, высчитает из них «средний красный по больнице» и заменит все красные на него. Меньше цветов — меньше файл.

Проблема только, как быть с цветами типа Cyan ◼︎ — вот он ближе к зеленому или синему? Тут нам поможет популярный алгоритм кластеризации — Метод К-средних (K-Means). Мы случайным образом бросаем на палитру цветов наши 32 точки, обзывая их центроидами. Все остальные точки относим к ближайшему центроиду от них — получаются как бы созвездия из самых близких цветов. Затем двигаем центроид в центр своего созвездия и повторяем пока центроиды не перестанут двигаться. Кластеры обнаружены, стабильны и их ровно 32 как и надо было.

Искать центроиды удобно и просто, но в реальных задачах кластеры могут быть совсем не круглой формы. Вот вы геолог, которому нужно найти на карте схожие по структуре горные породы — ваши кластеры не только будут вложены друг в друга, но вы ещё и не знаете сколько их вообще получится.

Хитрым задачам — хитрые методы. DBSCAN, например. Он сам находит скопления точек и строит вокруг кластеры. Его легко понять, если представить, что точки — это люди на площади. Находим трёх любых близко стоящих человека и говорим им взяться за руки. Затем они начинают брать за руку тех, до кого могут дотянуться. Так по цепочке, пока никто больше не сможет взять кого-то за руку — это и будет первый кластер. Повторяем, пока не поделим всех. Те, кому вообще некого брать за руку — это выбросы, аномалии. В динамике выглядит довольно красиво.

Как и классификация, кластеризация тоже может использоваться как детектор аномалий. Поведение пользователя после регистрации резко отличается от нормального? Заблокировать его и создать тикет саппорту, чтобы проверили бот это или нет. При этом нам даже не надо знать, что есть «нормальное поведение» — мы просто выгружаем все действия пользователей в модель, и пусть машина сама разбирается кто тут нормальный.

Работает такой подход, по сравнению с классификацией, не очень. Но за спрос не бьют, вдруг получится.

Уменьшение Размерности (Обобщение)

«Собирает конкретные признаки в абстракции более высокого уровня»

Сегодня используют для:

• Рекомендательные Системы (★)

• Красивые визуализации

• Определение тематики и поиска похожих документов

• Анализ фейковых изображений

• Риск-менеджмент

Популярные алгоритмы: Метод главных компонент (PCA), Сингулярное разложение (SVD), Латентное размещение Дирихле (LDA), Латентно-семантический анализ (LSA, pLSA, GLSA), t-SNE (для визуализации)

Изначально это были методы хардкорных Data Scientist'ов, которым сгружали две фуры цифр и говорили найти там что-нибудь интересное. Когда просто строить графики в экселе уже не помогало, они придумали напрячь машины искать закономерности вместо них. Так у них появились методы, которые назвали Dimension Reduction или Feature Learning.

Для нас практическая польза их методов в том, что мы можем объединить несколько признаков в один и получить абстракцию. Например, собаки с треугольными ушами, длинными носами и большими хвостами соединяются в полезную абстракцию «овчарки». Да, мы теряем информацию о конкретных овчарках, но новая абстракция всяко полезнее этих лишних деталей. Плюс, обучение на меньшем количестве размерностей идёт сильно быстрее.

Инструмент на удивление хорошо подошел для определения тематик текстов (Topic Modelling). Мы смогли абстрагироваться от конкретных слов до уровня смыслов даже без привлечения учителя со списком категорий. Алгоритм назвали Латентно-семантический анализ (LSA), и его идея была в том, что частота появления слова в тексте зависит от его тематики: в научных статьях больше технических терминов, в новостях о политике — имён политиков. Да, мы могли бы просто взять все слова из статей и кластеризовать, как мы делали с ларьками выше, но тогда мы бы потеряли все полезные связи между словами, например, что батарейка и аккумулятор, означают одно и то же в разных документах.

Точность такой системы — полное дно, даже не пытайтесь.

Нужно как-то объединить слова и документы в один признак, чтобы не терять эти скрытые (латентные) связи. Отсюда и появилось название метода. Оказалось, что Сингулярное разложение (SVD) легко справляется с этой задачей, выявляя для нас полезные тематические кластеры из слов, которые встречаются вместе.


Для понимания рекомендую статью Как уменьшить количество измерений и извлечь из этого пользу, а практическое применение хорошо описано в статье Алгоритм LSA для поиска похожих документов.

Другое мега-популярное применение метода уменьшения размерности нашли в рекомендательных системах и коллаборативной фильтрации (у меня был пост про их виды). Оказалось, если абстрагировать ими оценки пользователей фильмам, получается неплохая система рекомендаций кино, музыки, игр и чего угодно вообще.

Полученная абстракция будет с трудом понимаема мозгом, но когда исследователи начали пристально рассматривать новые признаки, они обнаружили, что какие-то из них явно коррелируют с возрастом пользователя (дети чаще играли в Майнкрафт и смотрели мультфильмы), другие с определёнными жанрами кино, а третьи вообще с синдромом поиска глубокого смысла.

Машина, не знавшая ничего кроме оценок пользователей, смогла добраться до таких высоких материй, даже не понимая их. Достойно. Дальше можно проводить соцопросы и писать дипломные работы о том, почему бородатые мужики любят дегенеративные мультики.

На эту тему есть неплохая лекция Яндекса — Как работают рекомендательные системы.

Поиск правил (ассоциация)

«Ищет закономерности в потоке заказов»

Сегодня используют для:

• Прогноз акций и распродаж

• Анализ товаров, покупаемых вместе

• Расстановка товаров на полках

• Анализ паттернов поведения на веб-сайтах

Популярные алгоритмы: Apriori, Euclat, FP-growth

Сюда входят все методы анализа продуктовых корзин, стратегий маркетинга и других последовательностей.

Предположим, покупатель берёт в дальнем углу магазина пиво и идёт на кассу. Стоит ли ставить на его пути орешки? Часто ли люди берут их вместе? Орешки с пивом, наверное да, но какие ещё товары покупают вместе? Когда вы владелец сети гипермаркетов, ответ для вас не всегда очевиден, но одно тактическое улучшение в расстановке товаров может принести хорошую прибыль.

То же касается интернет-магазинов, где задача еще интереснее — за каким товаром покупатель вернётся в следующий раз?

По непонятным мне причинам, поиск правил — самая плохо продуманная категория среди всех методов обучения. Классические способы заключаются в тупом переборе пар всех купленных товаров с помощью деревьев или множеств. Сами алгоритмы работают наполовину — могут искать закономерности, но не умеют обобщать или воспроизводить их на новых примерах.

В реальности каждый крупный ритейлер пилит свой велосипед, и никаких особых прорывов в этой области я не встречал. Максимальный уровень технологий здесь — запилить систему рекомендаций, как в пункте выше. Хотя может я просто далёк от этой области, расскажите в комментах, кто шарит?

Часть 2. Обучение с подкреплением

«Брось робота в лабиринт и пусть ищет выход»

Сегодня используют для:

• Самоуправляемых автомобилей

• Роботов пылесосов

• Игр

• Автоматической торговли

• Управления ресурсами предприятий

Популярные алгоритмы: Q-Learning, SARSA, DQN, A3C, Генетический Алгоритм

Наконец мы дошли до вещей, которые, вроде, выглядят как настоящий искусственный интеллект. Многие авторы почему-то ставят обучение с подкреплением где-то между обучением с учителем и без, но я не понимаю чем они похожи. Названием?

Обучение с подкреплением используют там, где задачей стоит не анализ данных, а выживание в реальной среде.

Средой может быть даже видеоигра. Роботы, играющие в Марио, были популярны еще лет пять назад. Средой может быть реальный мир. Как пример — автопилот Теслы, который учится не сбивать пешеходов, или роботы-пылесосы, главная задача которых — напугать вашего кота с максимальной эффективностью.

Знания об окружающем мире такому роботу могут быть полезны, но чисто для справки. Не важно сколько данных он соберёт, у него всё равно не получится предусмотреть все ситуации. Потому его цель — минимизировать ошибки, а не рассчитать все ходы. Робот учится выживать в пространстве с максимальной выгодой: собранными монетками в Марио, временем поездки в Тесле или количеством убитых кожаных мешков хихихих.

Выживание в среде и есть идея обучения с подкреплением. Давайте бросим бедного робота в реальную жизнь, будем штрафовать его за ошибки и награждать за правильные поступки. На людях норм работает, почему бы на и роботах не попробовать.

Умные модели роботов-пылесосов и самоуправляемые автомобили обучаются именно так: им создают виртуальный город (часто на основе карт настоящих городов), населяют случайными пешеходами и отправляют учиться никого там не убивать. Когда робот начинает хорошо себя чувствовать в искусственном GTA, его выпускают тестировать на реальные улицы.

Запоминать сам город машине не нужно — такой подход называется Model-Free. Конечно, тут есть и классический Model-Based, но в нём нашей машине пришлось бы запоминать модель всей планеты, всех возможных ситуаций на всех перекрёстках мира. Такое просто не работает. В обучении с подкреплением машина не запоминает каждое движение, а пытается обобщить ситуации, чтобы выходить из них с максимальной выгодой.


Помните новость пару лет назад, когда машина обыграла человека в Го? Хотя незадолго до этого было доказано, что число комбинаций физически невозможно просчитать, ведь оно превышает количество атомов во вселенной. То есть если в шахматах машина реально просчитывала все будущие комбинации и побеждала, с Го так не прокатывало. Поэтому она просто выбирала наилучший выход из каждой ситуации и делала это достаточно точно, чтобы обыграть человека.

Эта идея лежит в основе алгоритма Q-learning и его производных (SARSA и DQN). Буква Q в названии означает слово Quality, то есть робот учится поступать наиболее качественно в любой ситуации, а все ситуации он запоминает как простой марковский процесс.

Машина прогоняет миллионы симуляций в среде, запоминая все сложившиеся ситуации и выходы из них, которые принесли максимальное вознаграждение. Но как понять, когда у нас сложилась известная ситуация, а когда абсолютно новая? Вот самоуправляемый автомобиль стоит у перекрестка и загорается зелёный — значит можно ехать? А если справа мчит скорая помощь с мигалками?

Ответ — никак, магии не бывает, исследователи постоянно этим занимаются, изобретая свои костыли. Одни прописывают все ситуации руками, что позволяет им обрабатывать исключительные случаи типа проблемы вагонетки. Другие идут глубже и отдают эту работу нейросетям, пусть сами всё найдут. Так вместо Q-learning'а у нас появляется Deep Q-Network (DQN).

Reinforcement Learning для простого обывателя выглядит как настоящий интеллект. Потому что ух ты, машина сама принимает решения в реальных ситуациях! Он сейчас на хайпе, быстро прёт вперёд и активно пытается в нейросети, чтобы стать еще точнее (а не стукаться о ножку стула по двадцать раз).

Потому если вы любите наблюдать результаты своих трудов и хотите популярности — смело прыгайте в методы обучения с подкреплением (до чего ужасный русский термин, каждый раз передёргивает) и заводите канал на ютюбе! Даже я бы смотрел.

Помню, у меня в студенчестве были очень популярны генетические алгоритмы (по ссылке прикольная визуализация). Это когда мы бросаем кучу роботов в среду и заставляем их идти к цели, пока не сдохнут. Затем выбираем лучших, скрещиваем, добавляем мутации и бросаем еще раз. Через пару миллиардов лет должно получиться разумное существо. Теория эволюции в действии.

Так вот, генетические алгоритмы тоже относятся к обучению с подкреплением, и у них есть важнейшая особенность, подтвержденная многолетней практикой — они никому не нужны.

Человечеству еще не удалось придумать задачу, где они были бы реально эффективнее других. Зато отлично заходят как студенческие эксперименты и позволяют кадрить научруков «достижениями» особо не заморачиваясь. На ютюбе тоже зайдёт.

Часть 3. Ансамбли

«Куча глупых деревьев учится исправлять ошибки друг друга»

Сегодня используют для:

• Всего, где подходят классические алгоритмы (но работают точнее)

• Поисковые системы (★)

• Компьютерное зрение

• Распознавание объектов

Популярные алгоритмы: Random Forest, Gradient Boosting

Теперь к настоящим взрослым методам. Ансамбли и нейросети — наши главные бойцы на пути к неминуемой сингулярности. Сегодня они дают самые точные результаты и используются всеми крупными компаниями в продакшене. Только о нейросетях трещат на каждом углу, а слова «бустинг» и «бэггинг», наверное, пугают только хипстеров с теккранча.

При всей их эффективности, идея до издевательства проста. Оказывается, если взять несколько не очень эффективных методов обучения и обучить исправлять ошибки друг друга, качество такой системы будет аж сильно выше, чем каждого из методов по отдельности.

Причём даже лучше, когда взятые алгоритмы максимально нестабильны и сильно плавают от входных данных. Поэтому чаще берут Регрессию и Деревья Решений, которым достаточно одной сильной аномалии в данных, чтобы поехала вся модель. А вот Байеса и K-NN не берут никогда — они хоть и тупые, но очень стабильные.

Ансамбль можно собрать как угодно, хоть случайно нарезать в тазик классификаторы и залить регрессией. За точность, правда, тогда никто не ручается. Потому есть три проверенных способа делать ансамбли.

Стекинг. Обучаем несколько разных алгоритмов и передаём их результаты на вход последнему, который принимает итоговое решение. Типа как девочки сначала опрашивают всех своих подружек, чтобы принять решение встречаться с парнем или нет.


Ключевое слово — разных алгоритмов, ведь один и тот же алгоритм, обученный на одних и тех же данных не имеет смысла. Каких — ваше дело, разве что в качестве решающего алгоритма чаще берут регрессию.

Чисто из опыта — стекинг на практике применяется редко, потому что два других метода обычно точнее.

Беггинг. Он же Bootstrap AGGregatING. Обучаем один алгоритм много раз на случайных выборках из исходных данных. В самом конце усредняем ответы.

Данные в случайных выборках могут повторяться. То есть из набора 1-2-3 мы можем делать выборки 2-2-3, 1-2-2, 3-1-2 и так пока не надоест. На них мы обучаем один и тот же алгоритм несколько раз, а в конце вычисляем ответ простым голосованием.


Самый популярный пример беггинга — алгоритм Random Forest, беггинг на деревьях, который и нарисован на картинке. Когда вы открываете камеру на телефоне и видите как она очертила лица людей в кадре желтыми прямоугольниками — скорее всего это их работа. Нейросеть будет слишком медлительна в реальном времени, а беггинг идеален, ведь он может считать свои деревья параллельно на всех шейдерах видеокарты.

Дикая способность параллелиться даёт беггингу преимущество даже над следующим методом, который работает точнее, но только в один поток. Хотя можно разбить на сегменты, запустить несколько... ах кого я учу, сами не маленькие.

Бустинг. Обучаем алгоритмы последовательно, каждый следующий уделяет особое внимание тем случаям, на которых ошибся предыдущий.

Как в беггинге, мы делаем выборки из исходных данных, но теперь не совсем случайно. В каждую новую выборку мы берём часть тех данных, на которых предыдущий алгоритм отработал неправильно. То есть как бы доучиваем новый алгоритм на ошибках предыдущего.


Плюсы — неистовая, даже нелегальная в некоторых странах, точность классификации, которой позавидуют все бабушки у подъезда. Минусы уже названы — не параллелится. Хотя всё равно работает быстрее нейросетей, которые как гружёные камазы с песком по сравнению с шустрым бустингом.

Нужен реальный пример работы бустинга — откройте Яндекс и введите запрос. Слышите, как Матрикснет грохочет деревьями и ранжирует вам результаты? Вот это как раз оно, Яндекс сейчас весь на бустинге. Про Google не знаю.

Сегодня есть три популярных метода бустинга, отличия которых хорошо донесены в статье CatBoost vs. LightGBM vs. XGBoost.

Часть 4. Нейросети и глубокое обучение

«У нас есть сеть из тысячи слоёв, десятки видеокарт, но мы всё еще не придумали где это может быть полезно. Пусть рисует котиков!»

Сегодня используют для:

• Вместо всех вышеперечисленных алгоритмов вообще

• Определение объектов на фото и видео

• Распознавание и синтез речи

• Обработка изображений, перенос стиля

• Машинный перевод

Популярные архитектуры: Перцептрон, Свёрточные Сети (CNN), Рекуррентные Сети (RNN), Автоэнкодеры

Если вам хоть раз не пытались объяснить нейросеть на примере якобы работы мозга, расскажите, как вам удалось спрятаться? Я буду избегать этих аналогий и объясню как нравится мне.

Любая нейросеть — это набор нейронов и связей между ними. Нейрон лучше всего представлять просто как функцию с кучей входов и одним выходом. Задача нейрона — взять числа со своих входов, выполнить над ними функцию и отдать результат на выход. Простой пример полезного нейрона: просуммировать все цифры со входов, и если их сумма больше N — выдать на выход единицу, иначе — ноль.

Связи — это каналы, через которые нейроны шлют друг другу циферки. У каждой связи есть свой вес — её единственный параметр, который можно условно представить как прочность связи. Когда через связь с весом 0.5 проходит число 10, оно превращается в 5. Сам нейрон не разбирается, что к нему пришло и суммирует всё подряд — вот веса и нужны, чтобы управлять на какие входы нейрон должен реагировать, а на какие нет.

Чтобы сеть не превратилась в анархию, нейроны решили связывать не как захочется, а по слоям. Внутри одного слоя нейроны никак не связаны, но соединены с нейронами следующего и предыдущего слоя. Данные в такой сети идут строго в одном направлении — от входов первого слоя к выходам последнего.

Если сделать достаточное количество слоёв и правильно расставить веса в такой сети, получается следующее — подав на вход, скажем, изображение написанной от руки цифры 4, чёрные пиксели активируют связанные с ними нейроны, те активируют следующие слои, и так далее и далее, пока в итоге не загорится самый выход, отвечающий за четвёрку. Результат достигнут.

В реальном программировании, естественно, никаких нейронов и связей не пишут, всё представляют матрицами и считают матричными произведениями, потому что нужна скорость. У меня есть два любимых видео, в которых весь описанный мной процесс наглядно объяснён на примере распознавания рукописных цифр. Посмотрите, если хотите разобраться.


Такая сеть, где несколько слоёв и между ними связаны все нейроны, называется перцептроном (MLP) и считается самой простой архитектурой для новичков. В боевых задачах лично я никогда её не встречал.

Когда мы построили сеть, наша задача правильно расставить веса, чтобы нейроны реагировали на нужные сигналы. Тут нужно вспомнить, что у нас же есть данные — примеры «входов» и правильных «выходов». Будем показывать нейросети рисунок той же цифры 4 и говорить «подстрой свои веса так, чтобы на твоём выходе при таком входе всегда загоралась четвёрка».

Сначала все веса просто расставлены случайно, мы показываем сети цифру, она выдаёт какой-то случайный ответ (весов-то нет), а мы сравниваем, насколько результат отличается от нужного нам. Затем идём по сети в обратном направлении, от выходов ко входам, и говорим каждому нейрону — так, ты вот тут зачем-то активировался, из-за тебя всё пошло не так, давай ты будешь чуть меньше реагировать на вот эту связь и чуть больше на вон ту, ок?

Через тысяч сто таких циклов «прогнали-проверили-наказали» есть надежда, что веса в сети откорректируются так, как мы хотели. Научно этот подход называется Backpropagation или «Метод обратного распространения ошибки». Забавно то, что чтобы открыть этот метод понадобилось двадцать лет. До него нейросети обучали как могли.

Второй мой любимый видос более подробно объясняет весь процесс, но всё так же просто, на пальцах.


Хорошо обученная нейросеть могла притворяться любым алгоритмом из этой статьи, а зачастую даже работать точнее. Такая универсальность сделала их дико популярными. Наконец-то у нас есть архитектура человеческого мозга, говорили они, нужно просто собрать много слоёв и обучить их на любых данных, надеялись они. Потом началась первая Зима ИИ, потом оттепель, потом вторая волна разочарования.

Оказалось, что на обучение сети с большим количеством слоёв требовались невозможные по тем временам мощности. Сейчас любое игровое ведро с жифорсами превышает мощность тогдашнего датацентра. Тогда даже надежды на это не было, и в нейросетях все сильно разочаровались.

Пока лет десять назад не бомбанул диплёрнинг.

На английской википедии есть страничка Timeline of machine learning, где хорошо видны всплески радости и волны отчаяния.

В 2012 году свёрточная нейросеть порвала всех в конкурсе ImageNet, из-за чего в мире внезапно вспомнили о методах глубокого обучения, описанных еще в 90-х годах. Теперь-то у нас есть видеокарты!

Отличие глубокого обучения от классических нейросетей было в новых методах обучения, которые справлялись с большими размерами сетей. Однако сегодня лишь теоретики разделяют, какое обучение можно считать глубоким, а какое не очень. Мы же, как практики, используем популярные «глубокие» библиотеки типа Keras, TensorFlow и PyTorch даже когда нам надо собрать мини-сетку на пять слоёв. Просто потому что они удобнее всего того, что было раньше. Мы называем это просто нейросетями.

Расскажу о двух главных на сегодняшний момент.

Свёрточные Нейросети (CNN)

Свёрточные сети сейчас на пике популярности. Они используются для поиска объектов на фото и видео, распознавания лиц, переноса стиля, генерации и дорисовки изображений, создания эффектов типа слоу-мо и улучшения качества фотографий. Сегодня CNN применяют везде, где есть картинки или видео. Даже в вашем айфоне несколько таких сетей смотрят на ваши фотографии, чтобы распознать объекты на них.

Проблема с изображениями всегда была в том, что непонятно, как выделять на них признаки. Текст можно разбить по предложениям, взять свойства слов из словарей. Картинки же приходилось размечать руками, объясняя машине, где у котика на фотографии ушки, а где хвост. Такой подход даже назвали «handcrafting признаков» и раньше все так и делали.

Проблем у ручного крафтинга много.

Во-первых, если котик на фотографии прижал ушки или отвернулся — всё, нейросеть ничего не увидит.

Во-вторых, попробуйте сами сейчас назвать хотя бы десять характерных признаков, отличающих котиков от других животных. Я вот не смог. Однако когда ночью мимо меня пробегает чёрное пятно, даже краем глаза я могу сказать котик это или крыса. Потому что человек не смотрит только на форму ушей и количество лап — он оценивает объект по куче разных признаков, о которых сам даже не задумывается. А значит, не понимает и не может объяснить машине.

Получается, машине надо самой учиться искать эти признаки, составляя из каких-то базовых линий. Будем делать так: для начала разделим изображение на блоки 8x8 пикселей и выберем какая линия доминирует в каждом — горизонтальная [-], вертикальная [|] или одна из диагональных [/]. Могут и две, и три, так тоже бывает, мы не всегда точно уверены.

На выходе мы получим несколько массивов палочек, которые по сути являются простейшими признаками наличия очертаний объектов на картинке. По сути это тоже картинки, просто из палочек. Значит мы можем вновь выбрать блок 8x8 и посмотреть уже, как эти палочки сочетаются друг с другом. А потом еще и еще.

Такая операция называется свёрткой, откуда и пошло название метода. Свёртку можно представить как слой нейросети, ведь нейрон — абсолютно любая функция.


Когда мы прогоняем через нашу нейросеть кучу фотографий котов, она автоматически расставляет большие веса тем сочетаниям из палочек, которые увидела чаще всего. Причём неважно, это прямая линия спины или сложный геометрический объект типа мордочки — что-то обязательно будет ярко активироваться.

На выходе же мы поставим простой перцептрон, который будет смотреть какие сочетания активировались и говорить кому они больше характерны — кошке или собаке.

Красота идеи в том, что у нас получилась нейросеть, которая сама находит характерные признаки объектов. Нам больше не надо отбирать их руками. Мы можем сколько угодно кормить её изображениями любых объектов, просто нагуглив миллион картинок с ними — сеть сама составит карты признаков из палочек и научится определять что угодно.

По этому поводу у меня даже есть несмешная шутка:

Дай нейросети рыбу — она сможет определять рыбу до конца жизни. Дай нейросети удочку — она сможет определять и удочку до конца жизни...

Рекуррентные Нейросети (RNN)

Вторая по популярности архитектура на сегодняшний день. Благодаря рекуррентным сетям у нас есть такие полезные вещи, как машинный перевод текстов (читайте мой пост об этом) и компьютерный синтез речи. На них решают все задачи, связанные с последовательностями — голосовые, текстовые или музыкальные.

Помните олдскульные голосовые синтезаторы типа Microsoft Sam из Windows XP, который смешно произносил слова по буквам, пытаясь как-то склеить их между собой? А теперь посмотрите на Amazon Alexa или Алису от Яндекса — они сегодня не просто произносят слова без ошибок, они даже расставляют акценты в предложении!

Потому что современные голосовые помощники обучают говорить не буквами, а фразами. Но сразу заставить нейросеть целиком выдавать фразы не выйдет, ведь тогда ей надо будет запомнить все фразы в языке и её размер будет исполинским. Тут на помощь приходит то, что текст, речь или музыка — это последовательности. Каждое слово или звук — как бы самостоятельная единица, но которая зависит от предыдущих. Когда эта связь теряется — получатся дабстеп.

Достаточно легко обучить сеть произносить отдельные слова или буквы. Берём кучу размеченных на слова аудиофайлов и обучаем по входному слову выдавать нам последовательность сигналов, похожих на его произношение. Сравниваем с оригиналом от диктора и пытаемся максимально приблизиться к идеалу. Для такого подойдёт даже перцептрон.

Вот только с последовательностью опять беда, ведь перцептрон не запоминает что он генерировал ранее. Для него каждый запуск как в первый раз. Появилась идея добавить к каждому нейрону память. Так были придуманы рекуррентные сети, в которых каждый нейрон запоминал все свои предыдущие ответы и при следующем запуске использовал их как дополнительный вход. То есть нейрон мог сказать самому себе в будущем — эй, чувак, следующий звук должен звучать повыше, у нас тут гласная была (очень упрощенный пример).


Была лишь одна проблема — когда каждый нейрон запоминал все прошлые результаты, в сети образовалось такое дикое количество входов, что обучить такое количество связей становилось нереально.

Когда нейросеть не умеет забывать — её нельзя обучить (у людей та же фигня).

Сначала проблему решили в лоб — обрубили каждому нейрону память. Но потом придумали в качестве этой «памяти» использовать специальные ячейки, похожие на память компьютера или регистры процессора. Каждая ячейка позволяла записать в себя циферку, прочитать или сбросить — их назвали ячейки долгой и краткосрочной памяти (LSTM).

Когда нейрону было нужно поставить себе напоминалку на будущее — он писал это в ячейку, когда наоборот вся история становилась ненужной (предложение, например, закончилось) — ячейки сбрасывались, оставляя только «долгосрочные» связи, как в классическом перцептроне. Другими словами, сеть обучалась не только устанавливать текущие связи, но и ставить напоминалки.

Просто, но работает!

Озвученные тексты для обучения начали брать откуда угодно. Даже базфид смог выгрузить видеозаписи выступлений Обамы и весьма неплохо научить нейросеть разговаривать его голосом. На этом примере видно, что имитировать голос — достаточно простая задача для сегодняшних машин. С видео посложнее, но это пока.

Про архитектуры нейросетей можно говорить бесконечно. Любознательных отправляю смотреть схему и читать статью Neural Network Zoo, где собраны все типы нейронных сетей. Есть и русская версия.

Заключение: когда на войну с машинами?

На вопрос «когда машины станут умнее нас и всех поработят?» я всегда отвечаю, что он заранее неправильный. В нём слишком много скрытых условий, который примаются как как данность.

Вот мы говорим «станут умнее нас». Значит мы подразумеваем, что существует некая единая шкала интеллекта, наверху которой находится человек, собаки пониже, а глупые голуби тусят в самом низу. Получается человек должен превосходить нижестоящих животных во всём, так? А в жизни не так. Средняя белка может помнить тысячу тайников в орешками, а я не могу вспомнить где ключи. Получается интеллект — это набор разных навыков, а не единая измеримая величина? Или просто запоминание орешков в него не входит? А убивание человеков входит?

Ну и самый интересный для меня вопрос — почему мы заранее считаем, что возможности человеческого мозга ограничены? В интернетах обожают рисовать графики, на которых технологический прогресс обозначен экспонентой, а возможности кожаных мешков константой. Но так ли это?

Вот давайте, прямо сейчас в уме умножьте 1680 на 950. Да, знаю, вы даже пытаться не станете. Но дай вам калькулятор, это займёт две секунды. Значит ли это, что вы только что расширили возможности своего мозга с помощью калькулятора? Можно ли продолжать их расширять другими машинами? Я вот использую заметки на телефоне — значит ли это, что я расширяю свою память с помощью машины?

Получается, мы уже успешно расширяем способности нашего мозга с помощью машин. Или нет?

Подумайте. У меня всё.

Источник: vas3k.ru




ОТПРАВИТЬ:       



 




Статьи по теме:



(Не)сбывшиеся технопророчества

Каким видели XXI век в прошлом, что из этого сбылось, что нет, а что еще сбудется

Когда-то «в 2000 году» звучало как «в далеком будущем». К этому рубежу эпох писатели-фантасты, кинорежиссеры и даже серьезные ученые обещали нам всевозможные чудеса техники. Кое-что из их предсказаний сбылось. Другие оказались тупиковой ветвью технологической эволюции, а иные и вовсе не вышли за пределы прогнозов.

03.11.2018 13:00, Алексей Тимошенко, chrdk.ru


Финалисты конкурса лучших фотографий года в Instagram

Пейзажи, портреты и снимки собак

Подвёл итоги первый фотоконкурс Photobox Instagram Photography Awards, нацеленный на выявление «потрясающих фотографий, которые чествуют красоту в повседневной жизни».

27.10.2018 19:00, cameralabs.org


Как Instagram занял важное место в современной культуре

Начало и наши дни

Основатели Instagram Кевин Систром и Майк Кригер объявили об уходе из компании. Они создали компанию, занимающую центральное место в современной культуре. В этом им помогли технологические достижения и перемены в обществе, которое требовало такого приложения, как Instagram.

15.10.2018 13:00, Анна Самойдюк, rb.ru


Российские дипломаты планировали тайно вывести Джулиана Ассанжа из Великобритании

Как пишет The Guardian, в последний момент план посчитали слишком рискованным

В 2017 году российские дипломаты вели переговоры с приближенными Джулиана Ассанжа, пытаясь оценить, возможно ли вывести основателя WikiLeaks за пределы Великобритании, предпочтительно — в Россию. Об этом пишет газета The Guardian со ссылкой на различные неназванные источники.

22.09.2018 18:08, Stephanie Kirchgaessner, Dan Collyns and Luke Harding, theguardian.com


«Мы не хотим, чтобы НКО подсели на «грантовую иглу»

О работе Фонда президентских грантов, социальных эффектах и открытости НКО

Улучшать жизнь людей и положительно влиять на состояние страны могут не только госструктуры, но и некоммерческие организации. Последние более свободны в своей деятельности, а потому могут более эффективно решать актуальные общественные проблемы. В 2017 году в России был создан Фонд президентских грантов, успешно помогающий развиваться НКО по всей стране. Генеральный директор фонда Илья Чукалин рассказал «ЧасКору» о проделанной работе, открытых данных в контексте деятельности некоммерческих организаций и региональных проектах.

10.09.2018 16:00, Ольга Кареева


Каким будет мир, когда мы сможем жить сотни лет?

Несколько циклов жизней и семья на время

По оценкам демографов, средняя продолжительность жизни на планете с 1990 года увеличилась на 6,2 года. Вероятнее всего, этот рост не только продолжится, но и ускорится. И через какое-то время продолжительность жизни человека увеличится до нескольких сотен лет.

02.09.2018 13:00, Сергей Соболь, naked-science.ru


Российские НКО пока еще не понимают преимуществ публикации открытых данных

Аналитик АНО «Инфокультура» Анна Сакоян о публикации открытых данных некоммерческими организациями

28 августа АНО «Инфокультура» провела семинар на тему «Публикация данных НКО как новый способ самопрезентации и продвижения», организованный в рамках проекта «Данные НКО». Аналитик АНО «Инфокультура» Анна Сакоян рассказала участникам семинара о том, на какие группы можно разделить некоммерческие организации, какая информация может быть названа термином «данные» и в каком виде она должна быть представлена. Публикуем тезисы выступления.

31.08.2018 19:14, Елизавета Приндюк


Препятствуя загрязнениям, контролируя нарушения, улучшая жизнь людей

Обзор технологических социальных проектов на основе открытых данных в России

Российские технологические социальные проекты активно разрабатывают веб-сайты, сервисы и мобильные приложения, в том числе основанные на основе открытых данных. Благодаря подобным проектам, любой человек может изучить статистику результатов ЕГЭ, узнать, где ведется ремонт дорог, или проверить, насколько безопасен район, в котором он живет.

31.08.2018 18:00, Яна Кулаева


«Если исследование финансируется обществом, то его результаты должны стать достоянием этого общества»

Как сделать работу НКО более слаженной и эффективной

Открытые данные являются основой для множества полезных сервисов, которыми мы пользуемся каждый день. Однако многое из того, что могло бы быть доступно, всё ещё не становится достоянием общественности – в т.ч. данные, производимые некоммерческим сектором. АНО «Инфокультура» запустила проект «Данные НКО», который должен стать инструментом обмена данными для некоммерческих организаций со всей России. О специфике платформы «Частному корреспонденту» рассказал соучредитель АНО «Информационная культура», руководитель проекта «Данные НКО» Василий Буров.

31.08.2018 16:00, Ольга Кареева


Открытый — значит, нужный

Какие организации в России и за рубежом способствуют развитию работы с открытыми данными

Рассказываем о самых заметных проектах, которые помогают людям ориентироваться на цифры и факты, а также делают государство более прозрачным для граждан.

30.08.2018 18:00, Ольга Кареева






 

Новости

Приглашаем на хакатон социальных проектов PublicData
24-25 ноября 2018 года АНО «Информационная культура» приглашает разработчиков, дизайнеров, дата-журналистов, активистов на хакатон социальных проектов PublicData.
Интерактивная карта показывает, как мало осталось питьевой воды
Профессор университета Аалто Джозеф Гийом и его помощник Матти Кумму разработали интерактивный атлас, который показывает, как мало осталось питьевой воды в разных регионах мира.
Как боты участвуют в дискуссиях в интернете
На прошлой неделе Twitter обсуждал новость: тысячи мигрантов из Центральной Америки пересекли Мексику и движутся к границе США. Консерваторы во главе с Дональдом Трампом с готовностью включились в дискуссию, намереваясь использовать «караван» как аргумент на предстоящих выборах. Как оказалось, им помогали боты.
Венеция ушла под воду на 75%
Уровень воды в итальянской Венеции поднялся до 156 сантиметров, затоплены 75% территории города.
Искусство ради экологии: получите билеты в театр за раздельный сбор мусора
C 12 октября по 15 ноября москвичи смогут обменять бумагу, стекло, пластик или алюминий на билеты в театры, музеи, кинотеатры и на концерты.

 

 

Мнения

Иван Бегтин

Слабость и ошибки

Выйти из ситуации без репутационных потерь не удастся

Сейчас блокировки и иные ограничения невозможно осуществлять без снижения качества жизни миллионов людей. Информационное потребление стало частью ежедневных потребностей, и сила государственного воздействия на эти потребности резко выросла, вызывая активное противодействие.

Владимир Яковлев

Зло не должно пройти дальше меня

Самое страшное зло в этом мире было совершено людьми уверенными, что они совершают добро

Зло не должно пройти дальше меня. Я очень люблю этот принцип. И давно стараюсь ему следовать. Но с этим принципом есть одна большая проблема.

Мария Баронова

Эпохальный вопрос

Кто за кого платит в ресторане, и почему в любой ситуации важно оставаться людьми

В комментариях возник вопрос: "Маша, ты платишь за мужчин в ресторанах?!". Кажется, настал момент залезть на броневичок и по этому вопросу.

Николай Подосокорский

Виртуальная дружба

Тенденции коммуникации в Facebook

Дружба в фейсбуке – вещь относительная. Вчера человек тебе писал, что восторгается тобой и твоей «сетевой деятельностью» (не спрашивайте меня, что это такое), а сегодня пишет, что ты ватник, мерзавец, «расчехлился» и вообще «с тобой все ясно» (стоит тебе написать то, что ты реально думаешь про Крым, Украину, США или Запад).

Дмитрий Волошин

Три типа трудоустройства

Почему следует попробовать себя в разных типах работы и найти свой

Мне повезло. За свою жизнь я попробовал все виды трудоустройства. Знаю, что не все считают это везением: мол, надо работать в одном месте, и долбить в одну точку. Что же, у меня и такой опыт есть. Двенадцать лет работал и долбил, был винтиком. Но сегодня хотелось бы порассуждать именно о видах трудоустройства. Глобально их три: найм, фриланс и свой бизнес.

«Этим занимаются контрабандисты, этим занимаются налетчики, этим занимаются воры»

Обращение Анатолия Карпова к участникам пресс-конференции «Музею Рериха грозит уничтожение»

Обращение Анатолия Карпова, председателя Совета Попечителей общественного Музея имени Н. К. Рериха Международного Центра Рерихов, президента Международной ассоциации фондов мира к участникам пресс-конференции, посвященной спасению наследия Рерихов в России.

Марат Гельман

Пособие по материализму

«О чем я думаю? Пытаюсь взрастить в себе материалиста. Но не получается»

Сегодня на пляж высыпало много людей. С точки зрения материалиста-исследователя, это было какое-то количество двуногих тел, предположим, тридцать мужчин и тридцать женщин. Высоких было больше, чем низких. Худых — больше, чем толстых. Блондинок мало. Половина — после пятидесяти, по восьмой части стариков и детей. Четверть — молодежь. Пытливый ученый, быть может, мог бы узнать объем мозга каждого из нас, цвет глаз, взял бы сорок анализов крови и как-то разделил бы всех по каким-то признакам. И даже сделал бы каждому за тысячу баксов генетический анализ.

Владимир Шахиджанян

Заново научиться писать

Как овладеть десятипальцевым методом набора на компьютере

Это удивительно и поразительно. Мы разбазариваем своё рабочее время и всё время жалуемся, мол, его не хватает, ничего не успеваем сделать. Вспомнилось почему-то, как на заре советской власти был популярен лозунг «Даёшь повсеместную грамотность!». Людей учили читать и писать. Вот и сегодня надо учить людей писать.

Дмитрий Волошин, facebook.com/DAVoloshin

Теория самоневерия

О том, почему мы боимся реальных действий

Мы живем в интересное время. Время открытых дискуссий, быстрых перемещений и медленных действий. Кажется, что все есть для принятия решений. Информация, много структурированной информации, масса, и средства ее анализа. Среда, открытая полемичная среда, наработанный навык высказывать свое мнение. Люди, много толковых людей, честных и деятельных, мечтающих изменить хоть что-то, мыслящих категориями целей, уходящих за пределы жизни.

facebook.com/ivan.usachev

Немая любовь

«Мы познакомились после концерта. Я закончил работу поздно, за полночь, оборудование собирал, вышел, смотрю, сидит на улице, одинокая такая. Я её узнал — видел на сцене. Я к ней подошёл, начал разговаривать, а она мне "ыыы". Потом блокнот достала, написала своё имя, и добавила, что ехать ей некуда, с парнем поссорилась, а родители в другом городе. Ну, я её и пригласил к себе. На тот момент жена уже съехала. Так и живём вместе полгода».

Александр Чанцев

Вскоре похолодало

Уикэндовое кино от Александра Чанцева

Радость и разочарование от новинок, маргинальные фильмы прошлых лет и вечное сияние классики.

Ясен Засурский

Одна история, разные школы

Президент журфака МГУ Ясен Засурский том, как добиться единства подходов к прошлому

В последнее время много говорилось о том, что учебник истории должен быть единым. Хотя очевидно, что в итоге один учебник превратится во множество разных. И вот почему.

Ивар Максутов

Необратимые процессы

Тяжелый и мучительный путь общества к равенству

Любая дискриминация одного человека другим недопустима. Какой бы причиной или критерием это не было бы обусловлено. Способностью решать квадратные уравнения, пониманием различия между трансцендентным и трансцендентальным или предпочтениям в еде, вине или сексуальных удовольствиях.

Александр Феденко

Алексей Толстой, призраки на кончике носа

Александр Феденко о скрытых смыслах в сказке «Буратино»

Вы задумывались, что заставило известного писателя Алексея Толстого взять произведение другого писателя, тоже вполне известного, пересказать его и опубликовать под своим именем?

Игорь Фунт

Черноморские хроники: «Подогнал чёрт работёнку»...

Записки вятского лоха. Июнь, 2015

Невероятно красивая и молодая, размазанная тушью баба выла благим матом на всю курортную округу. Вряд ли это был её муж – что, впрочем, только догадки. Просто она очень напоминала человека, у которого рухнули мечты. Причём все разом и навсегда. Жёны же, как правило, прикрыты нерушимым штампом в серпасто-молоткастом: в нём недвижимость, машины, дачи благоверного etc.

Марат Гельман

Четыре способа как можно дольше не исчезнуть

Почему такая естественная вещь как смерть воспринимается нами как трагедия?

Надо просто прожить свою жизнь, исполнить то что предначертано, придет время - умереть, но не исчезнуть. Иначе чистая химия. Иначе ничего кроме удовольствий значения не имеет.

Андрей Мирошниченко, медиа-футурист, автор «Human as media. The emancipation of authorship»

О роли дефицита и избытка в медиа и не только

В презентации швейцарского футуриста Герда Леонарда (Gerd Leonhard) о будущем медиа есть замечательный слайд: кролик окружен обступающей его морковью. Надпись гласит: «Будь готов к избытку. Распространение, то есть доступ к информации, больше не будет проблемой…».

Михаил Эпштейн

Симпсихоз. Душа - госпожа и рабыня

Природе известно такое явление, как симбиоз - совместное существование организмов разных видов, их биологическая взаимозависимость. Это явление во многом остается загадкой для науки, хотя было обнаружено швейцарским ученым С. Швенденером еще в 1877 г. при изучении лишайников, которые, как выяснилось, представляют собой комплексные организмы, состоящие из водоросли и гриба. Такая же сила нерасторжимости может действовать и между людьми - на психическом, а не биологическом уровне.

Игорь Фунт

Евровидение, тверкинг и Винни-Пух

«Простаквашинское» уныние Полины Гагариной

Полина Гагарина с её интернациональной авторской бригадой (Габриэль Аларес, Иоаким Бьёрнберг, Катрина Нурберген, Леонид Гуткин, Владимир Матецкий) решили взять Евровидение-2015 непревзойдённой напевностью и ласковым образным месседжем ко всему миру, на разум и благодатность которого мы полагаемся.

Петр Щедровицкий

Социальная мечтательность

Истоки и смысл русского коммунизма

«Pyccкиe вce cклoнны вocпpинимaть тoтaлитapнo, им чyжд cкeптичecкий кpитицизм эaпaдныx людeй. Этo ecть нeдocтaтoк, npивoдящий к cмeшeнияи и пoдмeнaм, нo этo тaкжe дocтoинcтвo и yкaзyeт нa peлигиoзнyю цeлocтнocть pyccкoй дyши».
Н.А. Бердяев

Лев Симкин

Человек из наградного листа

На сайте «Подвиг народа» висят наградные листы на Симкина Семена Исааковича. Моего отца. Он сам их не так давно увидел впервые. Все четыре. Последний, 1985 года, не в счет, тогда Черненко наградил всех ветеранов орденами Отечественной войны. А остальные, те, что датированы сорок третьим, сорок четвертым и сорок пятым годами, выслушал с большим интересом. Выслушал, потому что самому читать ему трудновато, шрифт мелковат. Все же девяносто.

 

Календарь

Олег Давыдов

Колесо Екатерины

Ток страданий, текущий сквозь время

7 декабря православная церковь отмечает день памяти великомученицы Екатерины Александрийской. Эта святая считалась на Руси покровительницей свадеб и беременных женщин. В её день девушки гадали о суженом, а парни устраивали гонки на санках (и потому Екатерину называли Санницей). В общем, это был один из самых весёлых праздников в году. Однако в истории Екатерины нет ничего весёлого.

Ив Фэрбенкс

Нельсон Мандела, 1918-2013

5 декабря 2013 года в Йоханнесбурге в возрасте 95 лет скончался Нельсон Мандела. Когда он болел, Ив Фэрбенкс написала эту статью о его жизни и наследии

Достижения Нельсона Ролилахлы Манделы, первого избранного демократическим путем президента Южной Африки, поставили его в один ряд с такими людьми, как Джордж Вашингтон и Авраам Линкольн, и ввели в пантеон редких личностей, которые своей глубокой проницательностью и четким видением будущего преобразовывали целые страны. Брошенный на 27 лет за решетку белым меньшинством ЮАР, Мандела в 1990 году вышел из заточения, готовый простить своих угнетателей и применить свою власть не для мщения, а для создания новой страны, основанной на расовом примирении.

Молот ведьм. Существует ли колдовство?

5 декабря 1484 года началась охота на ведьм

5 декабря 1484 года была издана знаменитая «ведовская булла» папы Иннокентия VIII — Summis desiderantes. С этого дня святая инквизиция, до сих пор увлечённо следившая за чистотой христианской веры и соблюдением догматов, взялась за то, чтобы уничтожить всех ведьм и вообще задушить колдовство. А в 1486 году свет увидела книга «Молот ведьм». И вскоре обогнала по тиражам даже Библию.

Максим Медведев

Фриц Ланг. Апология усталой смерти

125 лет назад, 5 декабря 1890 года, родился режиссёр великих фильмов «Доктор Мабузе…», «Нибелунги», «Метрополис» и «М»

Фриц Ланг являет собой редкий пример классика мирового кино, к работам которого мало применимы собственно кинематографические понятия. Его фильмы имеют гораздо больше параллелей в старых искусствах — опере, балете, литературе, архитектуре и живописи — нежели в пространстве относительно молодой десятой музы.

Игорь Фунт

А портрет был замечателен!

5 декабря 1911 года скончался русский живописец и график Валентин Серов

…Судьба с детства свела Валентина Серова с семьёй Симонович, с сёстрами Ниной, Марией, Надеждой и Аделаидой (Лялей). Он бесконечно любил их, часто рисовал. Однажды Маша и Надя самозабвенно играли на фортепьяно в четыре руки. Увлеклись и не заметили, как братик Антоша-Валентоша подкрался сзади и связал их длинные косы. Ох и посмеялся Антон, когда сёстры попробовали встать!

Юлия Макарова, Мария Русакова

Попробуй, обними!

4 декабря - Всемирный день объятий

В последнее время появляется всё больше сообщений о международном движении Обнимающих — людей, которые регулярно встречаются, чтобы тепло обнять друг друга, а также проводят уличные акции: предлагают обняться прохожим. Акции «Обнимемся?» проходят в Москве, Санкт-Петербурге и других городах России.

Илья Миллер

Благодаря Годара

85 лет назад, 3 декабря 1930 года, родился великий кинорежиссёр, стоявший у истоков французской новой волны

Имя Жан-Люка Годара окутано анекдотами, как ни одно другое имя в кинематографе. И это логично — ведь и фильмы его зачастую представляют собой не что иное, как связки анекдотов и виньеток, иногда даже не скреплённые единым сюжетом.

Денис Драгунский

Революционер де Сад

2 декабря 1814 года скончался философ и писатель, от чьего имени происходит слово «садизм»

Говорят, в штурме Бастилии был виноват маркиз де Сад. Говорят, он там как раз сидел, в июле месяце 1789 года, в компании примерно десятка заключённых.

Александр Головков

Царствование несбывшихся надежд

190 лет назад, 1 декабря 1825 года, умер император Александра I, правивший Россией с 1801 по 1825 год

Александр I стал первым и последним правителем России, обходившимся без органов, охраняющих государственную безопасность методами тайного сыска. Четверть века так прожили, и государство не погибло. Кроме того, он вплотную подошёл к черте, за которой страна могла бы избавиться от рабства. А также, одержав победу над Наполеоном, возглавил коалицию европейских монархов.

Александр Головков

Зигзаги судьбы Маршала Победы

1 декабря 1896 года родился Георгий Константинович Жуков

Его заслуги перед отечеством были признаны официально и всенародно, отмечены высочайшими наградами, которых не имел никто другой. Потом эти заслуги замалчивались, оспаривались, отрицались и снова признавались полностью или частично.


 

Интервью

Энрико Диндо: «Главное – оставаться собой»

20 ноября в Большом зале Московской консерватории в рамках IХ Международного фестиваля Vivacello выступил Камерный оркестр «Солисты Павии» во главе с виолончелистом-виртуозом Энрико Диндо.

В 1997 году он стал победителем конкурса Ростроповича в Париже, маэстро сказал тогда о нем: «Диндо – виолончелист исключительных качеств, настоящий артист и сформировавшийся музыкант с экстраординарным звуком, льющимся, как великолепный итальянский голос». С 2001 года до последних дней Мстислав Ростропович был почетным президентом оркестра I Solisti di Pavia. Благодаря таланту и энтузиазму Энрико Диндо ансамбль добился огромных успехов и завоевал признание на родине в Италии и за ее пределами. Перед концертом нам удалось немного поговорить.

«Музыка Земли» нашей

Пианист Борис Березовский не перестает удивлять своих поклонников: то Прокофьева сыграет словно Шопена – нежно и лирично, то предстанет за роялем как деликатный и изысканный концертмейстер – это он-то, привыкший быть солистом. Теперь вот выступил в роли художественного руководителя фестиваля-конкурса «Музыка Земли», где объединил фольклор и классику. О концепции фестиваля и его участниках «Частному корреспонденту» рассказал сам Борис Березовский.

Александр Привалов: «Школа умерла – никто не заметил»

Покуда школой не озаботится общество, она так и будет деградировать под уверенным руководством реформаторов

Конец учебного года на короткое время поднял на первые полосы школьную тему. Мы воспользовались этим для того, чтобы побеседовать о судьбе российского образования с научным редактором журнала «Эксперт» Александром Николаевичем Приваловым. Разговор шёл о подлинных целях реформы образования, о том, какими знаниями и способностями обладают в реальности выпускники последних лет, бесправных учителях, заинтересованных и незаинтересованных родителях. А также о том, что нужно, чтобы возродить российскую среднюю школу.

Василий Голованов: «Путешествие начинается с готовности сердца отозваться»

С писателем и путешественником Василием Головановым мы поговорили о едва ли не самых важных вещах в жизни – литературе, путешествиях и изменении сознания. Исламский радикализм и математическая формула языка Платонова, анархизм и Хлебников – беседа заводила далеко.

Дик Свааб: «Мы — это наш мозг»

Всемирно известный нейробиолог о том, какие значимые открытия произошли в нейронауке в последнее время, почему сексуальную ориентацию не выбирают, куда смотреть молодым ученым и что не так с рациональностью

Плод осознанного мыслительного процесса ни в коем случае нельзя считать продуктом заведомо более высокого качества, чем неосознанный выбор. Иногда рациональное мышление мешает принять правильное решение.

«Триатлон – это новый ответ на кризис среднего возраста»

Михаил Иванов – тот самый Иванов, основатель и руководитель издательства «Манн, Иванов и Фербер». В 2014 году он продал свою долю в бизнесе и теперь живет в США, открыл новый бизнес: онлайн-библиотеку саммари на максимально полезные книги – Smart Reading.

Андрей Яхимович: «Играть спинным мозгом, развивать анти-деньги»

Беседа с Андреем Яхимовичем (группа «Цемент»), одним из тех, кто создавал не только латвийский, но и советский рок, основателем Рижского рок-клуба, мудрым контркультурщиком и настоящим рижанином – как хороший кофе с черным бальзамом с интересным собеседником в Старом городе Риги. Неожиданно, обреченно весело и парадоксально.

«Каждая собака – личность»

Интервью со специалистом по поведению собак

Антуан Наджарян — известный на всю Россию специалист по поведению собак. Когда его сравнивают с кинологами, он утверждает, что его работа — нечто совсем другое, и просит не путать. Владельцы собак недаром обращаются к Наджаряну со всей страны: то, что от творит с животными, поразительно и кажется невозможным.

«Самое большое зло, которое может быть в нашей профессии — участие в создании пропаганды»

Правила журналистов

При написании любого текста я исхожу из того, что никому не интересно мое мнение о происходящем. Читателям нужно само происходящее, моя же задача - максимально корректно отзеркалить им картинку. Безусловно, у меня есть свои личные пристрастия и политические взгляды, но я оставлю их при себе. Ведь ни один врач не сообщает вам с порога, что он - член ЛДПР.

Юрий Арабов: «Как только я найду Бога – умру, но для меня это будет счастьем»

Юрий Арабов – один из самых успешных и известных российских сценаристов. Он работает с очень разными по мировоззрению и стилистике режиссёрами. Последние работы Арабова – «Фауст» Александра Сокурова, «Юрьев день» Кирилла Серебренникова, «Полторы комнаты» Андрея Хржановского, «Чудо» Александра Прошкина, «Орда» Андрея Прошкина. Все эти фильмы были встречены критикой и зрителями с большим интересом, все стали событиями. Трудно поверить, что эти сюжеты придуманы и написаны одним человеком. Наш корреспондент поговорила с Юрием Арабовым о его детстве и Москве 60-х годов, о героях его сценариев и религиозном поиске.