Подсказки от YAGO. Профессор из Парижа рассказал в Челябинске об IT-технологии поиска информации

7 марта 2017 Автор: Евгений Аникиенко Фото: из архива редакции

Как в интернете найти именно ту информацию, которая нужна? И как ее обработать, чтобы получилась стройная web-картина «на заданную тему»?

Это стало одной из главных тем доклада на международной научной конференции «Информационные технологии и системы-2017», организатором которой выступили Челябинский государственный университет, Уральский федеральный университет, Федеральный исследовательский центр информатики и управления РАН и Уфимский авиационный технический университет.

На форуме большой интерес вызвало выступление ведущего ученого в сфере информационных технологий, Наука_Фабиан-Зуханек_IMGA0619.jpg

одного из создателей базы знаний YAGO, профессора Парижского университета телекоммуникаций Фабиана Зуханека. Ученый рассказал о новейших способах извлечения фактов из потока информации. Чтобы выяснить, что такое технология YAGO и что она может дать человечеству, корреспондент «ЮП» встретился с профессором.

Кто такой Элвис Пресли

— Для начала, доктор Зуханек, несколько слов о себе…

— Я обучаю студентов IT-технологиям, пишу программы. В последние годы вместе с командой ученых Парижского университета телекоммуникаций работаю над созданием технологии YAGO, которая сегодня очень востребована в мире, причем не только у представителей IT-сообщества, но и у журналистов, лингвистов и социологов. Например, такая информация может оказаться очень полезной для предсказания последствий какого‑либо события.

— Чем вызван такой интерес к вашим исследованиям?

— Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет, а это означает, что такими же темпами должны изменяться методы извлечения знаний из таких хранилищ. Быстро развиваются так называемые NLP-методы обработки данных на «естественных» языках для анализа и извлечения знаний из любых текстовых документов, в том числе и устной речи.

— А что такое ваше детище — технология YAGO?

— Один из результатов применения технологии искусственного интеллекта баз данных — наша онлайновая база знаний YAGO, с помощью которой можно быстро получить самую разную информацию. Она построена на извлечении знаний из WikiPedia, других интернет-ресурсов. Кто такой Элвис Пресли? Когда он родился? Его самые популярные песни? Какая команда на чемпионате мира по футболу забила наибольшее количество голов в меньшинстве за последние 10 лет? Это и многое другое знает YAGO.

Информационная модель

— А разве недостаточно традиционной системы поиска информации?

— Следует пояснить, что сегодня одновременно используются (а зачастую и противоборствуют) два подхода к анализу и извлечению информации, и у каждого есть свои плюсы и минусы. Традиционный метод, или rule based, основан на строгих правилах с набором моделей-шаблонов для поиска и извлечения нужных данных. Его преимущество — высокая точность информации, но есть и недостаток — он не обеспечивает нахождения всех данных. Есть и другой подход — статистический, или с применением «машинного обучения». Идея такого анализа основана на повторяемости слов, их сочетаемости друг с другом. По сути, это анализ контекста слов в сложившихся устойчивых словосочетаниях. Он хорош тем, что обеспечивает максимальную полноту извлекаемой информации и даже дает возможность вероятностной оценки полученных результатов. Но и у него есть свой минус — недостаточная точность, выверенность таких данных. Но этот метод постоянно обновляется, совершенствуется, над этим мы и работаем. К примеру, наша база знаний YAGO, по отзывам экспертов, отличается высокой точностью информации.

— На чем строится эта информационная модель?

— Наша IT-технология YAGO во многом строится на концепции Big Data — это своего рода универсальная информационная модель, парадигма, в основе которой комплексный подход при анализе различных сущностей и отношений между ними. Это также система отношений, в которой часть чего‑либо является составным элементом целого. Сам термин Big Data впервые был озвучен в 2008 году на страницах спецвыпуска журнала Nature в статье главного редактора Клиффорда Линча. Этот номер издания был посвящен взрывному росту глобальных объемов данных и их роли в науке. А широкое применение в IT-сфере этот термин получил начиная с 2011 года. По сути, «большие данные» — довольно условное и относительное понятие. Оно означает накопление и анализ огромных объемов данных. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине больших объемов.

Машинный взгляд

— Известно, что машины следят за нами повсюду…

— Не секрет, что основной поток информации в XXI веке генерируют не люди. Сегодня существует и быстро развивается «Интернет вещей», самостоятельных устройств, работающих в режиме информационных роботов. Они фотографируют, следят за температурой, погодой, обеспечивают нашу безопасность. Умный автомобиль сам не только напомнит о техническом осмотре, но и договорится о времени в сервисном центре. А холодильник сделает заказ на недостающие продукты. В ближайшее время они начнут общаться с нами на естественном языке, выполняя роль секретарей, помощников и советчиков. Все они определяют стремительный темп роста объема данных, что приводит к появлению потребности расширять и внедрять новые data-центры.

— Но при этом возникает и этическая проблема. Ведь сбор данных (особенно без ведома пользователя) может затронуть и частную жизнь человека?

— Поисковики записывают каждый клик пользователя в интернете, им известен его IP-адрес, интересы, онлайн-покупки, личные данные, почтовые сообщения. Этим уже пользуются, к примеру, продавцы товаров, включающие контекстную рекламу, (иногда очень навязчивую) в соответствии с интересами пользователя в интернете. Причем на это согласия не спрашивается, нет возможности выбора, какие сведения человек желает получить. То есть в Big Data собирается все, что затем будет храниться на серверах таких сайтов. Впрочем, уже разработаны программы, как защититься от назойливой рекламы. Мы же помогаем «отсеять» все лишнее, извлечь из моря информации то, что несет знание.

Ключ к познанию мира

— Какие данные можно выудить из интернета с помощью вашей системы?

— Абсолютно все, попавшие во Всемирную паутину. Это информация о политиках, звездах шоу-бизнеса, производстве и продажах товаров, образовательной, медицинской сферах, научных открытиях… При помощи технологии YAGO можно получить самую подробную информацию, причем структурированную, отобранную по желанию пользователя. Круг ее получателей самый широкий. Она может оказаться очень полезной для бизнесменов, отыскивающих партнеров и покупателей своей продукции, потребителей, изобретателей, ищущих выход на инвесторов, фермеров и переработчиков, артистов, спортсменов и футбольных фанатов…

— Есть ли у вашей системы аналоги? Как разобраться в море баз знаний и поисковых систем?

— Конечно, самая распространенная поисковая система — это Google, в России — Yandex. Но с ними нельзя путать базы знаний, такие, как YAGO. У нас хоть в чем‑то и схожие, но все же разные задачи. Наш продукт помогает найти совершенно конкретную информацию, которая структурирована и выверена. Для этого служат семантические сети, система идентификации Digression identity, Knowledge graph. А аналоги у нашей системы, конечно, есть. Это, например, Linked Data — базы знаний в обычных, ненаучных приложениях. Для получения информации можно использовать международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные по различным тематическим кластерам информации.

Словом, выбор у пользователей есть, но важно не затеряться в информационном море. Эту цель мы и ставим перед собой. На мой взгляд, главное преимущество нашей системы — ее универсальность, способность вобрать в себя элементы других источников, творчески переработать и создать единый ключ к познанию мира.

Новости smi2.ru