Tapping av World Wide Web

aav Odd de Presno.


Publisert i Datatid, Norge nr. 10/1994, side 16.


WWW er Internets mest populære informasjonstjeneste. Allerede etter 12 måneders drift hadde den passert den nesten fire år eldre Gopher. I juni leverte WWW-tjenerne 946 milliarder bytes med informasjon, hvilket var 2500 prosent mer enn i juni 1993.

Fortsetter det i samme tempo, vil WWW kunne passere verdens digitale taletrafikk i volum om tre år.

Louvre-museet i Frankrike formidler mer enn 1300 "HTML sider" med informasjon og 800 bilder fra sin samling av malerier laget av berømte kunstnere. Deres WebLouvre-tjeneste er på http://mistral.enst.fr/

HTML er en forkortelse for Hypertext Markup Language. En WWW "side" kan inneholde både mindre og mye mere enn en skjermfull. HTTP står for Hypertext Transfer Protocol. Leseprogrammer for WWW bruker HTTP-kodene for å finne den "siden" du ønsker å lese.

Lenge måtte man ha "direkte kontakt" med Internet for å kunne bruke World Wide Web. Enten måtte tjenesten du brukte gi adgang til en WWW-leser ("WWW browser"), som programmet Lynx, eller din maskin måtte være registrert som en vert på nettet (ha et IP-abonnement).

Nå kan du også bruke WWW pr. elektronisk post!

WWW pr. epost kan gjøres ved å sende en melding til LISTPROC@WWW0.CERN.CH. Skriv ordet "help" i tekstfeltet for å få en kortfattet bruksanvisning.

Bruk er enkelt. Legg kommandoen "send <URL>" inn i meldingens tekst. URL (Universal Resource Locater) er en betegnelse du vil møte mye i forbindelse med WWW. Det er en standard identifikasjon av nettressurser integrert i WWW-sidene. Koden vi brukte over (http://mistral.enst.fr/) er en URL.

Eksempel: Tjenesten The WebCrawler Index kan hjelpe deg med å finne frem i virvaret av WWW-sider. Den er basert på innholdet i dokumenter på nesten 4,000 WWW-tjenere verden over. URL- koden er http://www.biotech.washington.edu/WebCrawler/WebQuery.html .

En av hypertekst-pekerne i denne WWW-siden lar deg "hoppe" til en side med eksempler. La oss vise hvordan denne hentes. Send en melding til LISTPROC@WWW0.CERN.CH . I meldingens tekst skriver du

send http://www.biotech.washington.edu/WebCrawler/WebCrawlerExamples.html

Hele kommandoen må skrives på en linje. Da vi sendte det, fikk vi rapporten i figur 1.

Den siste linjen i rapporten er interessant. Koden "[1]" viser til denne WWW-sidens første og eneste hypertext-markerte ord, som er "bp@cs.washington.edu[1]".

De som leser WWW-sider med programmet Mosaic, vil klikke på ordet for å lese det "som ligger under". Vi som bruker elektronisk post må sende URL-referansen i siste linje til LISTPROC for prosessering med kommandoen:

send http://www.cs.washington.edu/homes/bp/bp.html

LISPROC har også en kommando kalt "deep". Send følgende kommando

deep http://www.biotech.washington.edu/WebCrawler/WebCrawlerExamples.html

for både å få eksempelsiden og de sidene som ligger videre nedover i hierarkiet av hypertekst-referanser. Merk: Noen WWW-sider har mange slike referanser, så vær forsiktig.

WWW pr. epost greier ikke alt. Er det ønskede dokumentet for stort, får du kun de første 5.000 linjene.

Noen WWW-sider blir ikke oversendt, selv om de burde vært det. Årsaken kan være at nettverksforbindelsen feilet i det LISTPROC forsøkte å behandle forespørselen din.

Enkelte spesielle WWW-kommandoer får jeg ikke til å fungere, når jeg bruker tjenesten pr. elektronisk post. Et eksempel er søk i Lycos-tjenesten, som er omtalt under. La oss håpe at det kommer senere.

Orden i virvaret!

Den dårlige nyheten er at the Web begynner å bli for stor. Det er allerede vanskelig å finne ting. En professor ved MIT, Michael L. Dertouzos, sa det slik i en pressemelding i august:

"Right now, it takes a great deal of time and patience to browse through the Internet. An incredible amount of information is available, but it is not easy to find. You point your computer mouse, you click and you use your brain to decide what you want to explore next."

Ønsker du hele teksten, kan du hente den på følgende URL: http://www0.cern.ch/hypertext/WWW/History/Press/Release_940707.html.

The WebCrawler Index kan hjelpe noe. webNews er en annen nyttig tjeneste med et arkiv over Usenet-artikler om WWW.

URL: gopher://twinbrook.cis.uab.edu/hwebNews.80

Lycos er tjenesten som gjør vei i vellinga. Denne søketjenesten ved the Carnegie Mellon University Center for Machine Translation kan nås på

URL: http://fuzine.mt.cs.cmu.edu/mlm/lycos-home.html

Den dårlige nyheten er at du ikke kan søke Lycos, om du bare har adgang til WWW pr. elektronisk post. Jeg har i hvertfall ikke greidd det enda.

Lycos har en database med konsentrater av Web-dokumenter. I august inneholdt den 634.000 WWW-dokumenter fra rundt 5.000 HTTPtjenere (også gopher og ftp-kilder).

Når du søker Lycos etter informasjon, får du en referanse, en URL-kode (som du kan klikke på for å gå direkte dit), angivelse av funnets antatte relevans ("match score"), innholdsfortegnelse, liste over nøkkelord og et utdrag av begynnelsen av teksten.

Du får slik informasjon for de 50 dokumentene med høyest poengsum ut fra dine søkebegreper. Lycos rangerer ordene høyere om de forekommer tidligere i dokumentet. Funn i tittel eller i første avsnitt gir høyere poengsumm enn noe annet.

Søking er enkelt. Velg en database fra Lycos "home page", dvs. fra den WWW-siden du kommer til ved hjelp av URL-en over. Trykk på "s" for å søke, tast inn søkeordene dine og søket begynner.

Boleanske søk (med OR, AND eller NOT) er ikke tilgjengelig enda. Du kan legge inn ett eller flere nøkkelord eller begynnelsen på ord i en hvilken som helst rekkefølge. Skriv en "-" foran ord for å angi at det ikke skal finnes i søkeresultatet.

Ordene må være minst tre tegn lang, starte med en bokstav og må ikke inneholde bindestreker eller tegn som ikke er alfanumeriske.

Jeg satte i gang uten å lese bruksanvisningen. Søkekommandoen var "online.txt", som er filnavnet til boken min, The Online World resource handbook. Den ligger på Internet som en ren ASCII fil.

Lycos ga meg først meldingen i figur 2. Ordet "txt" kunne ikke brukes og ble derfor ignorert. Deretter kom funn nummer 1 (i figur 3).

Blading gjennom WWW går irriterende sent, om du bruker en oppringt forbindelse som meg. Jeg pleier derfor å trykke "p" (for utskrift) og "mail to myself".

Når jeg går ut av Lynx-programmet, ligger teksten ofte allerede og venter i postboksen. Kommunikasjonsprogrammet mitt henter det automatisk og jeg har det på PCens harddisk på noen sekunder. Der går det vesentlig hurtigere å bearbeide funnene.

Lycos-søket fant mange irrelevante WWW-sider. "Online" brukes i mange sammenhenger, som i "Online Exhibits" og "Online data available". Det jeg søkte kom imidlertid på toppen av listen.

Meget bra. Anbefales!

Andre "peker-tjenester" Sjekk ut PROJECT DA-CLOD på http://schiller.wustl.edu/DCLDOC/daclod.html for å få adgang til en hierarkisk organisert database over WWW "hyperlinks".

The Web Self Publishing System (WSPS) er en offentlig ajourført database over URL-pekere organisert i et gruppehierarki:

URL: http://sparc57.cs.uiuc.edu:8000/

Galaxy er en perle. Den har flere indekser og gir deg følgende valg: Search Galaxy Pages, Find Galaxy Entries, Search the World- wide Web, Search Gopher Space, Find Gopher Jewels Entries, Search Hytelnet Services. Den har også pekere til søkbare indekser og databaser rundt om på nettet.

RL: http://galaxy.einet.net/search.html

Avslutt oppdagelsesreisen med "Wandering the World Wide Web" på

URL: http://dartmouth.edu/pages/wwwNav.html


Ramme 1:

World Wide Web, også kalt WWW eller W3, er en tjeneste på Internet, som gir adgang til dokumenter, filer, konferanser og andre tjenester på en måte som kan minne om Gophers menyer. Via WWW kan du få adgang til WAIS-databaser, FTP (filoverføring) og Gopher.

I stedet for menyer bruker WWW hypertekst med krysskoplinger mellom ting. Dette er tekst, som inneholder markerte ord. Ved å velge (f.eks. klikke på) et slikt ord kan du hoppe over i et annet "spor".

Eksempel: En side med informasjon om World Wide Web inneholder det markerte ordet Mosaic, som er navnet på et populært leseprogram. Klikker du på ordet, får du mer informasjon om Mosaic. Når du er ferdig kan du gå tilbake til utgangspunktet eller lese mer om ord, som evt. er markert i WWW-siden om Mosaic.


Figur 1

Figurtekst: Eksempel på bruk av World Wide Web pr. elektronisk post. Følgende kommando ble sendt til LISTPROC@WWW0.CERN.CH:

send http://www.biotech.washington.edu/WebCrawler/WebCrawlerExamples.html

Resultat:

 Date: Mon, 15 Aug 1994 18:10:44 +0200
 From: daemon@www0.cern.ch (The CERN WWW Team Administration) 
 Subject: Hints for Searching the WebCrawler Index (was:  ) 
 
 This is a test version. Please mail any comments to www-request@info.cern.ch 
 The document you requested, which URL is 
http://www.biotech.washington.edu/WebCrawler/WebCrawlerExamples.html, follows
Hints for Searching the WebCrawler Index The WebCrawler knows about a lot of documents, so it pays to make precise queries. Often, though, you can be too precise, so finding what you want may take a couple of queries. Here are some suggestions about what to do when you don't get what you want, some examples to help you out, and detailed explanation of what happens to your query before it's run. WHAT TO DO WHEN... Your search produces no results. Check your spelling! If that looks OK, then try to be less specific in your query. For instance, the query molecular biotechnology DNA sequencing genetics chromosome human genome project is too specific - - no one document contains all of those keywords. Something like molecular biotechnology DNA sequencing is more appropriate. Your search produces too many results. Be more specific, and make sure you have the AND button checked. Try to think of words that uniquely identify what you're looking for. Some words are of little value, because they identify lots of documents in the WebCrawler's index. For instance, the words information and university together identify nearly half the documents in the index, so they're not very useful in trying to narrow down the search. You get an error from the WebCrawler. The WebCrawler will return an unfriendly error message if it's too busy, or if it chokes on your query. If it repeatedly has trouble with your query, please let me know, as I'm trying to eliminate these problems. Thanks! Examples Most specific queries work quite well. For instance, if you're looking for information on the music group They Might Be Giants, search for They Might Be Giants, or just TMBG. Some keywords are found in many places. For example, instead of searching for kermit, use something more descriptive like kermit columbia or kermit source code communication. Make sure the "AND" button is checked. To find references to the New York Times, try the query New York Times. To be more specific, try something like New York Times online newspaper. How a query works The query is parsed in to keywords on space and punctuation boundaries. Each word is folded to lower case, and any endings are stripped (NeXT Computers becomes next computer). Each word is checked against a stop list, to see if it's too common to worry about (to be or not to be is a null query!). Each word is fed to the index, and the resulting lists of documents are combined. bp@cs.washington.edu[1] *** References from this document *** [1] http://www.cs.washington.edu/homes/bp/bp.html


Figur 2

Søk i WWW-sider etter søkeordet "online.txt" med Lycos. Først en feilrapport.

 Search test: online.txt
   Printing only the first 50 of 1834 hits on words: online online3 
   online4 onlinebible onlinebible204 onlinecat onlinecl onlinedata 
   onlinedocs onlinegalleriesguide onlinejournals onlinelibrary 
   onlinemags onlinemodes onlineprod onlinepub onlinepublishing93 onliner 
   onlineresources onlinetraining 
 Query Error 
   Note that the following query words are stop words and were ignored: 
 txt 
   Search terms in Lycos must be at least 3 characters long and not on 
   the stop list: about all also and any are but can dir edu following 
   for form from get gmt has have here how img last may more new not one 
   other our out please pre pub rel see some that the there these this 
   txt use using was what which will with you your.


Figur 3

Søk i WWW-sider etter søkeordet "online.txt" med Lycos. Funn nummer 1. Topp poengsum.

_________________________________________________________________

   ID43877: [score 1.0000] (docno 144063) 
   ftp://ftp.eunet.no/pub/text/online.1.3.txt 
   bytes: 99969 
   words: 10000 
   keywords: referativnyi, skelbaekgade, omverdenen, semaforum, deedub, 
   passin, zurnal, telebase*4, diametrically, puertoriquena, 
   dataforlaget, assasination, uuencodeing, desantnoye, bibliodata, 
   stalinists, makarenkov, uchilische, nishimachi, handbills, discutir, 
   oestreng, zabrodin, portacom*2, relaynet, xywrite, aniline, viscose, 
   koulkov*2, saikawa, papered, networx, onliner, semafor*2, vysshee, 
   aartsen, hasumi, heintz, dadoka, ryazan, amaran, alexey, rebelo, 
   sarnow*2, skjerm, cabled, iquest*4, rsfsr*4, yalue, xussr, kanto, 
   easyn, vinko*2, menno*2, stas*2, egen, nwi, opresno*4, saltrod*4, 
   twics*6, valery*2, parti*12, grahamstown, helstorfer, socialize, 
   marzipan, typists, asuntos, arendal*2, outdial, xinhua*2, pavlov, 
   viniti, mtbf, datamation*3, surcharge*3, ulrik*5, metanet*2, 
   kindergartens, exclamations, unjustified, healthnet, clamped, 
   yeltsin*2, kidcafe*2, agence, tobago, verden, crimea, salom, tass*2, 
   kbh, nok*2, thunderball, silenced, espanol, hyougo, heise, ibmhw, 
   macau, scilink*4 
   excerpt: SHAREWARE If you READ or use this book, then you must pay 
   the registration fee. ********************* * THE ONLINE WORLD * 
   ********************* Version 1.3 - January 1994 (Version 1.0 was 
   released in Aug. 93) By Odd de Presno 4815 Saltrod, Norway (Europe) 
   Voice (registrations only): +47 370 31204 Internet mail: 
   oddpresno@online.no Data/BBS: +47 370 31378 PREFACE ======= This is 
   the ASCII online distribution of the Online World. It deals with 
   the practical aspects of using the rapidly growing global on-line 
   information resource. The book is distributed in a form that is 
   designed to be easily accessible The main subject of the book is what 
   you can get out of the online 


| Til artikkelmenyen |

Det er forbudt å distribuere denne artikkelen - eller deler av den - i elektronisk, trykt eller kopiert form mot betaling.