Документация к объекту (информация о ресурсе))

Материал из DvoWiki
Перейти к: навигация, поиск

Основное назначение:

  1. Используется для передачи информации о ресурсе между модулем добычи метаинформации и модулем добавления информации в семантическую сеть.
  2. Объект предназначен для сериализации и сохранения в базе данных.

Требования к содержимому объекта:

  1. Объект должен содержать метаинформацию о ресурсе записанную в XML форме.
  2. Информацию о тексте представленном в ресурсе такую как:
    1. Текст в кодировке UTF-8 (в виде в котором его удалось получить из ресурса)
    2. Информация касательно текста, такая как встречающиеся слова, частоты слов, предлжения и т.д. (Требует дальнейшего уточнения)
  3. URI ресурса (необходим для использования в качестве ключа при работе дополнительных индексов - с этим URI будет связываться контент документа)

Структура XML документа.

Пример

<?xml version="1.0" encoding="UTF-8"?>


<root>
   <resource uid="http://www.dvo.ru/somres.html"> 
       <autor>autor_inst</autor>
       <autor>autor_inst2</autor>
       <hash_key>hash_key_inst1</hash_key>
       <hash_key>hash_key_inst2</hash_key>
       <media>
           <media_type>media_type_inst</media_type>
           <bitrate>bitrate_1</bitrate>
           <artist>artist</artist>
           <album>album</album>
           <test_node>
               <bitrate>test_bitrate</bitrate>
           </test_node>
       </media>
       <text>
           <object_index>
               <obj_inst>object_1</obj_inst>
               <obj_inst>object_2</obj_inst>
               <obj_inst>object_3</obj_inst>
               <obj_inst>object_4</obj_inst>
           </object_index>
           <name_index>
               <person>person1</person>
               <person>person2</person>
               <person>person3</person>
               <person>person3</person>
           </name_index>
       </text>
   </resource>
</root>

Онтология согласно которой строится описание метаинформации

<?xml version="1.0"?>
<rdf:RDF xmlns="http://www.owl-ontologies.com/Ontology1181175386.owl#"
    xml:base="http://www.owl-ontologies.com/Ontology1181175386.owl"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
    xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:owl="http://www.w3.org/2002/07/owl#">
   <owl:Ontology rdf:about=""/>
   <owl:DatatypeProperty rdf:ID="age">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Person"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="album">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#MediaInfo"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="artist">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#MediaInfo"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="autor">
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="bitrate">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#MediaInfo"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="genere">
       <rdfs:domain rdf:resource="#MediaInfo"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="given_name">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Person"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="hash_key">
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:ObjectProperty rdf:ID="media_info">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="#MediaInfo"/>
   </owl:ObjectProperty>
   <owl:DatatypeProperty rdf:ID="media_type">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#MediaInfo"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:Class rdf:ID="MediaInfo"/>
   <owl:DatatypeProperty rdf:ID="name">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Person"/>
   </owl:DatatypeProperty>
   <owl:ObjectProperty rdf:ID="name_index">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="#NameIndex"/>
   </owl:ObjectProperty>
   <owl:DatatypeProperty rdf:ID="name_index_instance">
       <rdfs:domain rdf:resource="#NameIndex"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:Class rdf:ID="NameIndex"/>
   <owl:ObjectProperty rdf:ID="object_index">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="#ObjectIndex"/>
   </owl:ObjectProperty>
   <owl:DatatypeProperty rdf:ID="object_index_instance">
       <rdfs:domain rdf:resource="#ObjectIndex"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:Class rdf:ID="ObjectIndex"/>
   <owl:DatatypeProperty rdf:ID="owner">
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:Class rdf:ID="Person"/>
   <owl:Class rdf:ID="Resource"/>
   <owl:DatatypeProperty rdf:ID="size">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
   <owl:DatatypeProperty rdf:ID="uri">
       <rdf:type rdf:resource="http://www.w3.org/2002/07/owl#FunctionalProperty"/>
       <rdfs:domain rdf:resource="#Resource"/>
       <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
   </owl:DatatypeProperty>
</rdf:RDF>

Текущий вид объектов

Общий вид

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<meta uid="ftp://192.168.1.6/files/books/JAVA/docs/api/javax/swing/textGlyphView.GlyphPainter.html"> </meta>

XML содержащий описание hash сумм

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<root>
   <meta uid="ftp://192.168.1.6/files/books/JAVA/docs/api/javax/swing/textGlyphView.GlyphPainter.html">
       <uids>
               <md5>45cb3d09161d83d8a0ece92b38132300</md5>
               <md2>4bcb1a09bcb08c71a89b92ed541e8838</md2>
               <sha5>1c402d3f9529ccb21afa53552deb383139ea4d45cbac0d2c8acaa1893a . . .</sha5>       
               <sha3>50d594ad1 . . .</sha3>
               <sha2>d4ad580c3c902939b360c141a773265ea1d8aee17a008af3ca15781e39fc67af</sha2>
               <sha1>ea4dfa3dc55c02de7134e52c0ef0703597cfc8fb</sha1>
       </uids>
   </meta>
<root>

XML содержащий общее описание ресурса

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <meta uid="http://isohunt.com/torrent/ihq=24521891b900e6bb5efd86578b4852efac5b3c1">
    <general>
       <name>test</test>
       <size>17889</size>
       <type>html/torrentinfo</type>
       <parametrs>ihq=24521891b900e6bb5efd86578b4852efac5b3c1</parametrs>
       <protocol>http</protocol>
       <url>isohunt.com/torrent</url>
    </general>
  </meta>
</root>

XML содержащий описание TorrentInfo

<?xml version="1.0" encoding="UTF-8"?>
<root>
 <meta uid="http://isohunt.com/torrent/ihq=b43c1575b55c23406d35a18ae65a315f51905caf">
  <torrentfile>
    <name>[Nemui] Regatta ep06 english hard sub.avi</name>
    <size>732.41 MB</size>
    <subject>Pics</subject>
  </torrentfile>
 </meta>
</root>

XML содержащий описание pdfinfo

<?xml version="1.0" encoding="UTF-8"?>
<root>
 <meta uid="ftp://ftp.dvo.ru/limited/Books/htdocs/Chemistry/Chemical.pdf">
  <pdfinfo>
    <creationDate>Thu Mar 31 06:48:47 VLAST 2005</creationDate>
    <creator>ABBYY FineReader</creator>
    <headerString>%PDF-1.5</headerString>
    <modificationDate>Thu Mar 31 08:21:06 VLAST 2005</modificationDate>
    <author></author>
    <keywords></keywords>
    <modificationDate></modificationDate>
    <producer></producer>
    <subject></subject>
    <title></title>
    <trapped></trapped>
  </pdfinfo>
 </meta>
</root>

XML содержащий описание torrent файла

<?xml version="1.0" encoding="UTF-8"?>
        <root>
                <meta uid="direct://http://ids.snort.event/553857">
                        <torrentfile>
                                <sha>5600ff4e459837e193652aad9d9108f6547a3114</sha>
                                <name>Ugly.Betty.season.1.RusSound</name>
                                <filename size="282851328">ugly.betty.s01e01.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="365119488">ugly.betty.s01e02.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="364998656">ugly.betty.s01e03.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="365101056">ugly.betty.s01e04.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="282318848">ugly.betty.s01e05.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="282703872">ugly.betty.s01e06.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="282720256">ugly.betty.s01e07.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="282578944">ugly.betty.s01e08.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="365293568">ugly.betty.s01e09.rus.dvdrip.othfilm.ru.avi</filename>
                                <filename size="282660864">ugly.betty.s01e10.rus.dvdrip.othfilm.ru.avi</filename>
                        </torrentfile>
                </meta>
        </root>

XML содержащий описание snort event

<?xml version="1.0" encoding="UTF-8"?>
        <root>
                <meta uid="direct://http://ids.snort.event/537552">
                        <snortevent>
                                <Classification_id>0</Classification_id>
                                <Dport_icode>80</Dport_icode>
                                <Event_id>537552</Event_id>
                                <Event_microsecond>54010</Event_microsecond>
                                <Event_second>1207712654</Event_second>
                                <Generator_id>1</Generator_id>
                                <Ip_destination>67.15.70.76</Ip_destination>
                                <Ip_source>192.168.2.38</Ip_source>
                                <Packet_action>0</Packet_action>
                                <Priority_id>0</Priority_id>
                                <Protocol>6</Protocol>
                                <Sensor_id>0</Sensor_id>
                                <Signature_id>70000</Signature_id>
                                <Signature_revision>0</Signature_revision>
                                <Sport_itype>37169</Sport_itype>
                        </snortevent>
                </meta>
        </root>

XML содержащий описание Текст

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <meta uid="http://some.file.ru/file">
     <text>
        <content code="base64">TEST TE STETE</content>
     </text>
   </meta>
</root>

Html info

Некоторая информация об html файлах

<?xml version="1.0" encoding="UTF-8"?>
 <root>
  <meta uid="http://www.torrentportal.com/details/3326554/Armint.html">
   <htmlInfo>
    <title> Armin Van Buuren-Live At The Gallery (Canus Music by Jade) (3326554) - Torrent Portal - Free BitTorrent File Download Index and Torrent Search</title>
    <charset>UTF-8</charset>
    <url link="http://www.bitzip.com/?tp" text="BitZip" title="" type=""/>
    <url link="http://torrentz.ws/" text="torrentz.ws" title="Bit Torrent 
Downloads" type=""/>
    <url link="http://www.fenopy.com" text="Fenopy.com" title="" type=""/>
    <url link="http://www.fulldls.com" text="FullDls.com" title="" type=""/>
    <url link="http://www.torrenthound.com" text="TorrentHound" title="" type=""/>
    <url link="/account-login.php" text="Login" title="" type=""/>
  </htmlInfo>
 </meta>
</root>

flow list next edition

 <?xml version="1.0" encoding="UTF-8"?>
  <root>
   <meta uid="http://some/flowList">
    <flow>
     <ip src="192.168.2.80">
       <bittorent> 
         <get hash="141910913c19fe1d92ec20e282067d52518da938d" last_time_check="Sat May 03 11:44:06 VLAST 2008"/>
         <get hash="17710948474412a06dda3da998bfd2b820e0839db" last_time_check="Sat May 03 11:44:32 VLAST 2008"/>
       </bittorent>
     </ip>
     <ip src="192.168.2.193">
       <bittorent>
         <get hash="86ca31eaaf9fd8bf1bf3178af783261a84168c90" last_time_check="Sat May 03 11:43:50 VLAST 2008"/>
         <get hash="158b06165d79a917f9cb3d78ec37d35cf76ac8fac" last_time_check="Sat May 03 11:43:56 VLAST 2008"/>
         <get hash="d838a87a0651c148279a9d3c6ac9942a658bc779" last_time_check="Sat May 03 11:44:06 VLAST 2008"/>
         <get hash="cfdf1bdb13376d118c0de2deeac56cba2313ac7a" last_time_check="Sat May 03 11:44:32 VLAST 2008"/>
         <get hash="2503ca26744a1465216e77e5a83976134e68cc9e" last_time_check="Sat May 03 11:44:34 VLAST 2008"/>
       </bittorent>
     </ip>
   </flow>
  </meta>
 </root>

Satellite Metadata files

Satellite MetaData files

Доступ к объектам

осуществляется через TaskList

TaskList(connectAtributes prop,String instanceName,genLoger loger)

  /**
    * создать новый класс
    * @param prop параметры подключения к бд
    * где содержится список заданий (с указанием таблицы)
    * @instanceName может быть "" 
    * @param loger логер для регисрации сообщений
  */

затем вызываем метот init() : boolean если данный метод вернул true то подключение произошло успешно

получение нового задания public Object getNewTask()

после работы вызывается метод close() Работа с TaskList