'

Обработка слабоструктурированных веб-документов на основе облачных технологий Semantic Social Web

Понравилась презентация – покажи это...





Слайд 0

Обработка слабоструктурированных веб-документов на основе облачных технологий Semantic Social Web Яблонский Сергей Александрович СПбГУ yablonsky.serge@gmail.com


Слайд 1

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web 2.0+3.0) IE + cлабоструктурированные веб-документы IE + Облачные технологии


Слайд 2

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web 2.0+3.0) IE + cлабоструктурированные веб-документы IE + Облачные технологии


Слайд 3

Эволюция сетей WWW


Слайд 4

Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется); Web 2.0 – объединение в социальные сети – Social Web (пройден, социальные сети стали реальностью и стремительно растут); Web 3.0 – объединение в семантические сети – Semantic Web (начинается сейчас); Web 4.0 – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива). WEB 1.0, 2.0, 3.0, 4.0 (?)


Слайд 5

Информационный взрыв Социального Веба! image from tinyurl.com/nuketest


Слайд 6

Boom!


Слайд 7


Слайд 8


Слайд 9

http://map.web2summit.com/


Слайд 10


Слайд 11

61% = социальные сети 11% = форумы 11% = создаваемый пользователями контент -> urbandictionary.com 10% = создаваемые пользователями рынки и классификаторы -> craigslist.org 03% = блоги 01% = создаваемые пользователями обзоры -> apartmentratings.com 01% = вики 02% = прочее


Слайд 12


Слайд 13


Слайд 14


Слайд 15

Social websites are like data silos image from pidgintech.com


Слайд 16

Нужны способы объединения image from pidgintech.com


Слайд 17

Данных и пользователей image from pidgintech.com


Слайд 18

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web 2.0+3.0) IE + cлабоструктурированные веб-документы Облачные технологии


Слайд 19

Эволюция сетей WWW


Слайд 20

Tim Berners-Lee, The 1st World Wide Web Conference, Geneva, May 1994 To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity, as in fact documents on the Web describe real objects and imaginary concepts, and give particular relationships between them. […] Adding semantics to the Web involves two things: allowing documents which have information in machine-readable forms, and allowing links to be created with relationship values. Only when we have this extra level of semantics will we be able to use computer power to help us exploit the information to a greater extent than our own reading.


Слайд 21

Переход от «читаемых человеком» к «читаемых компьютером» (machine readable) документам на основе технологий SW стал одним из важнейших путей дальнейшего развития WWW. Semantic Web – Web 3.0


Слайд 22

image from www.w3.org/2007/03/layerCake.png The Semantic Web stack


Слайд 23

Semantic Web Базовая модель Semantic Web включает следующие компоненты: URI/IRI – универсальный идентификатор ресурсов; расширяемый язык разметки (XML); общая схема описания ресурсов RDF; метаданные и схема RDF Schema (RDFS); онтологии и языки их описания (OWL: OWL Lite, OWL DL, OWL Full ); метаданные и схема OWL Schema (OWLS); язык запросов SPAROL к RDF-хранилищам; агенты/сервисы WSDL и схемы WSDLS и пр. Консорциум W3C предложил и использует стандарты практически по всем компонентам SW (Berners-Lee, 2003).


Слайд 24

Представление знаний в SW


Слайд 25

RDF URIs identify resources: How do we define assertions about these resources? We use RDF (Resource Description Framework): A data model; a directed, labeled graph using URIs Various serialisations (RDF/XML, N3, RDFa, etc.) RDF is based on triples: <subject> <predicate> <object>


Слайд 26

RDF пример @prefix dct: <http://purl.org/dc/terms/> . <http://example.org/dm110-semweb> dct:title “Introduction to the Semantic Web” ; dct:author <http://apassant.net/alex> ; dct:subject <http://dbpedia.org/resource/Semantic_Web> .


Слайд 27

Онтологии состоят из classes и properties :Person a rdfs:Class . :father a rdfs:Property . :father rdfs:domain :Person . :father rdfs:range :Person .


Слайд 28

Metadata and ontologies


Слайд 29

Известные онтологии Social networks and social data: FOAF, SIOC Software development: DOAP, BEATLE Comprehensive / top-level: Yago, OpenCYC Lexical ontologies WordNet Taxonomies and controlled vocabularies: SKOS


Слайд 30

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web 2.0+3.0) IE + cлабоструктурированные веб-документы IE + Облачные технологии


Слайд 31

The Semantic Social Web


Слайд 32

Linked Data Building a “Web of Data” to enhance the current Web The Linking Open Data (LOD) project: http://linkeddata.org/ Translating existing datasets into RDF and linking them together, for example DBpedia (Wikipedia) and GeoNames, Freebase, BBC programmes, etc. Governement data also available as Linked Data


Слайд 33

The LOD cloud 2008 2007


Слайд 34

The LOD cloud 2009 2008


Слайд 35

image from richard.cyganiak.de/2007/10/lod/lod-datasets_2009-07-14.png


Слайд 36

LOD


Слайд 37

LOD


Слайд 38

LOD


Слайд 39


Слайд 40


Слайд 41

Данные о 2.6 миллионах “вещей” (things), включая 213,000 персоналий; 328,000 мест; 57,000 музыкальных альбомов; 36,000 фильмов; 20,000 компаниях. Всего 274 миллионов RDF триплетов, в том числе 609,000 ссылок на изображения; 3,150,000 ссылок на внешние веб-страницы; 4 878 100 ссылок на данные во внешних RDF наборах. Wikipedia


Слайд 42

Wikipedia


Слайд 43

Найти всех, родившихся в 19 веке в Берлине. SPARQL


Слайд 44


Слайд 45

DBpedia (LOD-версия Wikipedia, www.wikipedia.org/), включающая: 3.5 млн сущностей, в том числе 410000 описаний мест (places), 3100000 персоналий (persons), 146000 видов, 1400000 организаций, 950000 музыкальных альбомов, 50000 фильмов, 33000 строений, 150000 видеоигр, 5000 заболеваний; описания на 90 языках; 1 млрд RDF-триплетов, 10 млн связей с внешними RDF-наборами данных из LOD; онтологию, содержащую 260 классов, 1200 свойств, 3.5 млн экземпляров; DBpedia


Слайд 46

Freebase (www.freebase.com/) – аналогична DBpedia, но в 10 раз меньше при значительно лучшем качестве данных; OpenCyc (http://www.cyc.com/cyc/opencyc) - часть базы знаний Cyc, которая является собственностью компании Cycorp, Inc, вошла в состав LOD. Последняя версия OpenCyc, 1.0 была выпущена в июле 2006 г. и включает в себя полную онтологию Cyc из сотни тысяч выражений. База знаний содержит 470000 концепций и 306000 экземпляров-фактов. Стратегическая цель компании Cycorp, Inc, – создать полностью открытую, свободно распространяемую базу знаний для использования в Web 3.0; Freebase и OpenCyc


Слайд 47

YAGO (http://www.mpi-inf.mpg.de/yago-naga/yago/) – это онтология, связывающая Wikipedia с WorldNet; состоит из более 2 млн сущностей (persons, organizations, cities, etc.) и 20 млн фактов-экземпляров об этих сущностях; UMBEL (Upper Mapping and Binding Exchange Layer, www.umbel.org/) – подмножество 20000 концептов OpenCyc, обеспечивающее связь с YAGO и DBpedia и возможность логического вывода на основе Cyc; YAGO и UMBEL


Слайд 48

W3C WordNet (http://www.w3.org/TR/wordnet-rdf/) – RDF/OWL представление лексической онтологии WordNet в LD; GeoNames (http://www.geonames.org/) – содержит информацию о 6 млн мест (places); MusicBrainz (musicbrainz.org/) – содержит информацию о 55000 артистов, 220000 альбомов, 36 млн RDF-триплетов;


Слайд 49

Open Government Data: Data.gov – 2400 наборов данных (но только 400 из них в настоящее время представлены в виде RDF-триплетов), 6.5 млрд триплетов/ 0.5 млрд сущностей; Data.gov.uk 3 тыс. наборов данных; Data Publica 2 тыс. наборов данных; Eurostat 4 тыс. наборов данных; OpenGovData.ru (http://opengovdata.ru/) – это российский некоммерческий проект, точных статистических данных пока не получено.


Слайд 50

Friend Of A Friend (FOAF)


Слайд 51


Слайд 52

An ontology for describing people and the relationships that exist between them: http://foaf-project.org/ Identity, personal profiles and social networks Can be integrated with other SW vocabularies FOAF on the Web: LiveJournal, MyOpera, identi.ca, MyBlogLog, hi5, Fotothing, Videntity, FriendFeed, Ecademy, Typepad FOAF (Friend-of-a-Friend)


Слайд 53

FOAF (Friend-of-a-Friend)


Слайд 54

FOAF (Friend-of-a-Friend)


Слайд 55

FOAF at a glance


Слайд 56

FOAF from Flickr


Слайд 57

FOAF from Twitter


Слайд 58

Экспорт FOAF данных Facebook: http://www.dcs.shef.ac.uk/~mrowe/foafgenerator.html Twitter: http://semantictweet.com/ Flickr: http://apassant.net/blog/2007/12/18/rdf-export-flickr-profiles-foaf-and-sioc/ и др. (Drupal 7, WordPress plug-ins, ...)


Слайд 59

Определение связей на основе FOAF


Слайд 60

Кросс-сайтовые социальные рекомендации FOAF


Слайд 61

Semantically-Interlinked Online Communities (SIOC)


Слайд 62

63


Слайд 63


Слайд 64

Некоторые онтологические классы и свойства SIOC


Слайд 65

Объединение SIOC и FOAF


Слайд 66


Слайд 67

68 Разъединенные сайты Social Web / Web 2.0 могут быть связаны на основе Semantic Web / Web 3.0 словарей


Слайд 68


Слайд 69


Слайд 70

Web 1.0


Слайд 71

Web 2.0


Слайд 72

Web 2.0 + 3.0


Слайд 73

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web 2.0+3.0) IE + cлабоструктурированные веб-документы Облачные технологии


Слайд 74

Information Extraction


Слайд 75

Под извлечением информации традиционно понимается извлечение из текста именованных сущностей (люди, организации, компании, местоположение, книги, альбомы, авторы и пр.; всего более 250 классов), фактов (позиция, образование и пр.), событий (спорт, управление, изменения, IPO – Initial Public Offering – первоначальное публичное предложение акций компании на продажу, трудовые действия и пр.), отношений между сущностями и ряда других. Information Extraction


Слайд 76

IE Systems


Слайд 77

IE Systems


Слайд 78


Слайд 79

IE Systems


Слайд 80

Avatar: Semantic search on personal emails DBLife: Use IE to build a knowledge base about database researchers AliBaba: IE over medical research papers IE Systems


Слайд 81

Enterprise Semantic Search Enterprise Data as a Service Business Intelligence Data-driven Enterprise Mashups New IE Systems


Слайд 82

Enterprise Semantic Search


Слайд 83

Enterprise Data as a Service


Слайд 84

Business Intelligence


Слайд 85

Business Intelligence


Слайд 86

Data-Driven Mashups


Слайд 87


Слайд 88


Слайд 89


Слайд 90


Слайд 91


Слайд 92

GATE


Слайд 93

IBM project (2005) for information extraction (named entities) in textual data IBM UIMA (v1.4) OmniFind (semantic search engine) et DB2 Data Warehouse UIMA


Слайд 94

UIMA


Слайд 95

UIMA


Слайд 96

2006 - Incubation at the ASF (Apache Software Foundation) (v2.2) 2009 - OASIS Members Approve Open Standard for Accessing Unstructured Information (data model, component interface, ...) IBM, EMC, Carnegie Mellon University, University of Manchester, University of Tokyo, U.S. National Center for Supercomputing Applications, ... and Others Collaborate on Platform for Semantic Analysis and Search http://docs.oasis-open.org/uima/v1.0/os/uima-spec-os.html UIMA


Слайд 97

XML Metadata Interchange (XMI) XML language to represent MOF (Meta-Object Facility) OMG (Object Management Group) standards to exchange UML metadata Импорт/Экспорт ииз любой DB Пример: JDBC for Apache Derby DataBase UIMA


Слайд 98

OASIS Specification


Слайд 99

Development API : Java, C++ but Perl, Python,TCL... Bean Scripting Framework (BSF) Annotators, (http ://jakarta.apache.org/bsf) : Beanshell, Rhino Javascript, Jython, Jruby Deployment in REST service (Representational StateTransfer) HTTP + URL + XML/HTML/GIF/JPEG/etc (Resource Representations) + mime type UIMA


Слайд 100

wrappers for GATE (IBM UIMA) (Hamish Cunningham – University of Sheeld) wrappers for OpenNLP Tools wrapper for LingPipe JULIE Lab NLP Toolsuite IBM LanguageWare on Alphaworks NLP UIMA


Слайд 101

Apache UIMA Sandbox - Regular Expression Annotator WEKA for IBM UIMA - Machine Learning TextMarker Rule-based information extraction Apache UIMA Sandbox Tika Annotator Cas Editor Dictionary Annotator, Concept Mapper UIMA


Слайд 102

IBM Semantic Search, a Free Apache version is developed by IBM IBM OmniFind Enterprise Search, Yahoo ! Edition index documents based on Lucene u-compare.org a web-based integrated platform for the purpose of sharing and comparing UIMA components and tools, including visualizers and utilities bio-nlp number of popular bio-informatic annotators as UIMA components wrapped by the center of Computational Pharmacology at the University of Colorodo Semantic Web ? Приложения для UIMA


Слайд 103

UIMA


Слайд 104

OASIS Specification http://docs.oasis-open.org/uima/v1.0/cd01/uima-spec-cd-01.html Apache UIMA http://incubator.apache.org/uima/ Getting started http://incubator.apache.org/


Слайд 105

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web 2.0+3.0) IE + cлабоструктурированные веб-документы IE + Облачные технологии


Слайд 106

Эволюция ИТ “Clouds will transform the information technology (IT) industry… profoundly change the way people work and companies operate.”


Слайд 107

Gartner Hypercycle


Слайд 108

Облачные сервисы (Cloud Services) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет. Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов. Облачные вычисления


Слайд 109

К настоящему времени можно выделить три основных вида облачных вычислений: инфраструктура как сервис (Infrastructure as a Service, IaaS); платформа как сервис (Platform as a Service, PaaS); программное обеспечение как сервис (Software as a Service, SaaS). Виды “облаков”


Слайд 110

Облачная экосистема


Слайд 111

Облачная экосистема 112 Cloud Applications (Apps-as-a-Service) Cloud (Application) Platforms (Platform-as-a-Service) Cloud Infrastructure (Infrastructure-as-a-Service) App Deploy App Dev/Test


Слайд 112

Облачные сервисы


Слайд 113

Облачная платформа превращает ресурс в услугу: IaaS, PaaS, SaaS Облачная платформа автоматизирована Облачная платформа автономна Ресурсы в облаке измеряемы Облако управляемо из приложений (PaaS) Облако, как корпоративная платформа


Слайд 114

Web 2.0


Слайд 115

Web 2.0 + 3.0


Слайд 116

www.opencalais.com/ 50.000 API calls, content - 100K Zemanta 1.000 API calls, content - 8K Services


Слайд 117

http://aws.amazon.com/


Слайд 118


Слайд 119

Cloud IE


Слайд 120


Слайд 121


Слайд 122

Благодарю за внимание. Вопросы?


×

HTML:





Ссылка: