Pin
Send
Share
Send


Веб-мұрағат бұл бүкіләлемдік ғаламтор желісінің бөліктерін жинау және болашақ зерттеушілерге, тарихшыларға және қоғамға арналған мұрағат сайты сияқты архивте сақталуын қамтамасыз ету процесі. Интернеттің үлкен мөлшеріне байланысты веб-мұрағатшылар әдетте автоматтандырылған жинау үшін веб-тексерушілерді пайдаланады. Мұрағаттау тәсіліне негізделген ең үлкен веб-мұрағат ұйымы - бүкіл Интернет мұрағатын жүргізуге тырысатын Internet Archive. Ұлттық кітапханалар, ұлттық мұрағаттар және ұйымдардың әртүрлі консорциумдары мәдени маңызды веб-мазмұнды мұрағаттауға қатысады. Коммерциялық веб-архивтеу бағдарламалық жасақтамасы және қызметтері заңды немесе реттеуші мақсаттар үшін өз веб-мазмұнын мұрағаттауды қажет ететін ұйымдар үшін қол жетімді.

Веб-сайттар көбінесе авторлық құқықпен қорғалған болғандықтан, веб-мұрағатта құқықтық және әлеуметтік мәселелер қарастырылуы керек. Интернет-ортаның ғаламдық сипатына байланысты күрделі мәселелер туындайды.

Интернетті жинау

Веб-мұрағатшылар, әдетте, HTML веб-парақтарын, стиль кестелерін, JavaScript, суреттер мен бейнелерді қоса, веб-мазмұнның барлық түрлерін мұрағаттайды. Сондай-ақ, олар қол жеткізу уақыты, MIME түрі және мазмұн ұзындығы сияқты жиналған ресурстар туралы метадеректерді мұрағаттайды. Бұл метадеректер архивтелген жинақтың түпнұсқалығын және дәлелділігін анықтауда пайдалы.

Жинау әдістері

Қашықтан егін жинау

Веб-мұрағаттаудың кең таралған әдісі веб-парақтарды жинау процесін автоматтандыру үшін веб-сканерлерді пайдаланады. Веб-тексерушілер, әдетте, веб-беттерді шолғышты пайдаланушыларды веб-сайтты қалай қарайтын болса, солай қарастырады, сондықтан веб-мазмұнды қашықтықтан жинаудың салыстырмалы қарапайым әдісін ұсынады.

Веб-тексерушілер

Веб-мұрағаттау үшін жиі қолданылатын веб-тексерушілердің мысалдары:

Геритрикс

Геритрикс бұл веб-мұрағаттау үшін арнайы жасалған Internet Archive веб-тексерушісі. Ол Java-да ашық және Java-да жазылған. Негізгі интерфейске веб-шолғыштың көмегімен қол жеткізуге болады, онда пәрмен жолының құралы бар, оны тексеріп шығуды бастау үшін қолдануға болады.

Геритрикс Internet Archive және Скандинавия ұлттық кітапханаларымен бірлесіп 2003 жылдың басында жазылған спецификациялар бойынша жасалды. Алғашқы ресми шығарылым 2004 жылдың қаңтарында болды, содан бері Интернет-мұрағат мүшелері және басқа мүдделі тараптар үнемі жетілдіріліп отырды.

Heritrix-ті бірқатар ұйымдар мен ұлттық кітапханалар пайдаланады, олардың ішінде:

  • Кітапхана және мұрағат Канада
  • Bibliothèque nationale de France
  • Исландия ұлттық және университет кітапханасы
  • Жаңа Зеландия Ұлттық кітапханасы
  • Netarkivet.dk
  • Интернет2 құжаттамасы

HTTrack

HTTrack бұл Xavier Roche жасаған және GNU General Public License лицензиясы бойынша ақысыз және ашық веб-шолғыш және офлайн шолғыш, ол бүкіләлемдік веб-сайттарды Интернеттен жергілікті компьютерге жүктеуге мүмкіндік береді. Әдепкі бойынша, HTTrack жүктелген сайтты түпнұсқа сайттың сілтеме-құрылымымен реттейді. Жүктелген (немесе «айна») веб-сайтты браузерде сайттың бетін ашып қарауға болады.

Сондай-ақ, HTTrack бар айна сайтын жаңарта алады және үзілген жүктеулерді жалғастыра алады. HTTrack опциялар мен сүзгілер бойынша толық конфигурацияланған (кіреді / алып тастайды) және анықтама жүйесінің біріктірілген жүйесі бар. Негізгі командалық нұсқа және екі GUI нұсқасы бар (WinHTTrack және WebHTrack); біріншісі сценарийлер мен крон жұмыстарының бөлігі бола алады.

HTTrack веб-сайтты жүктеу үшін веб-тексергішті пайдаланады. Бағдарлама кезінде өшірілмеген болса, роботтарды шығару протоколына байланысты веб-сайттың кейбір бөліктері әдепкі бойынша жүктелмеуі мүмкін. HTTrack негізгі JavaScript және Апплеттер немесе Flash ішінде жасалынған сілтемелерді, бірақ күрделі сілтемелерді (функцияларды немесе өрнектерді қолдану арқылы) немесе серверлік кескін карталарын құра алады.

Басқалар

Талап ету бойынша

«Талап бойынша» веб-ресурстарды мұрағаттау үшін веб-шолуды пайдалану арқылы көптеген қызметтер бар:

  • WebCite - ғылыми авторларға, журнал редакторлары мен баспагерлерге сілтеме жасалған Интернет-сілтемелерді тұрақты архивтеуге және алуға арналған қызмет (Eysenbach and Trudel, 2005).
  • Archive-It, жазылым қызметі, мекемелерге өздерінің веб-мұрағаттарын құруға, басқаруға және іздеуге мүмкіндік береді.
  • Hanzo Archives веб-мазмұнға арналған мұрағаттық саясатты жүзеге асыратын және электронды ашуды, сот ісін қолдауды немесе реттеуді сақтауға мүмкіндік беретін коммерциялық веб-мұрағаттау құралдары мен қызметтерін ұсынады.

Мәліметтер базасын мұрағаттау

Деректер қорын мұрағаттау дегеніміз - дерекқорға негізделген веб-сайттардың негізгі мазмұнын мұрағаттауға арналған әдістер. Әдетте бұл XML-ді қолдана отырып, дерекқор мазмұнын стандартты схемаға шығаруды талап етеді. Осы стандартты форматта сақталғаннан кейін бірнеше дерекқорлардың мұрағатталған мазмұнын бір қол жеткізу жүйесін қолдана отырып жасауға болады. Бұл тәсілді Bibliothèque Nationale de France және Австралияның Ұлттық кітапханасы жасаған DeepArc және Xinq құралдары мысалға келтіреді. DeepArc реляциялық дерекқордың құрылымын XML схемасына және мазмұнды XML құжатына экспорттауға мүмкіндік береді. Содан кейін Xinq бұл мазмұнды желіде жеткізуге мүмкіндік береді. Веб-сайттың бастапқы орналасуы мен тәртібін дәл сақтау мүмкін болмағанымен, Xinq негізгі сұрау және іздеу функцияларының көшірмесін жасауға мүмкіндік береді.

Транзакциялық мұрағаттау

Транзакциялық мұрағаттау - бұл веб-сервер мен веб-браузер арасында болатын нақты транзакцияларды жинайтын оқиғаға негізделген тәсіл. Ол, ең алдымен, белгілі бір веб-сайтта, нақты уақытта қаралған мазмұнның дәлелдерін сақтау құралы ретінде қолданылады. Бұл, әсіресе, ақпаратты ашуға және сақтауға қатысты заңдық немесе реттеуші талаптарды сақтауды қажет ететін ұйымдар үшін маңызды болуы мүмкін.

Транзакциялық мұрағаттау жүйесі, әдетте, әрбір HTTP сұрауына жауап беру және веб-серверден жауап алу, қайталанатын мазмұнды жою үшін әр жауапты сүзу және жауаптарды биттік ағын ретінде үнемі сақтау арқылы жұмыс істейді. Транзакциялық мұрағаттау жүйесі веб-серверде бағдарламалық жасақтаманы орнатуды қажет етеді, сондықтан оны қашықтағы веб-сайттан мазмұн жинау үшін пайдалануға болмайды.

Коммерциялық транзакциялық мұрағаттау бағдарламалық жасақтамасының мысалдары мыналарды қамтиды:

Қиындықтар мен шектеулер

Тазалаушылар

Интернетті жинаудың негізгі құралы ретінде веб-мұрағатқа сүйенетін веб-мұрағаттарға веб-тексерудің қиындықтары әсер етеді:

  • Роботтарды алып тастау протоколы тексеріп шығушылардан веб-сайттың қол жетімді емес бөліктерін сұрауы мүмкін. Кейбір веб-мұрағатшылар сұранысты елемей, сол бөліктерді тексеріп шығуы мүмкін.
  • Веб-сайттың үлкен бөліктері Терең Веб-те жасырылуы мүмкін. Мысалы, веб-пішіннің артындағы нәтижелер парағы терең интернетте орналасқан, себебі тексеріп шығушы нәтижелер бетіне сілтеме жасай алмайды.
  • Кейбір веб-серверлер әдеттегі шолғыш сұрауына қарағанда веб-тексергіштің басқа бетін қайтаруы мүмкін. Бұл әдетте іздеу жүйелерін веб-сайтқа көбірек трафик жіберуге алдау үшін жасалады.
  • Тексеріп шығу торлары (мысалы, күнтізбелер) тексеріп шығушыға шексіз парақтарды жүктеуге әкелуі мүмкін, сондықтан тексерушілер әдетте олар тексеріп жатқан динамикалық беттердің санын шектеуге теңшелген.

Ғаламның үлкендігі соншалық, оның көп бөлігін тексеріп шығуға көптеген техникалық ресурстар қажет. Веб тез өзгеріп отырады, сондықтан веб-тораптың бөліктері оны тексеріп шығуды аяқтағанға дейін өзгеруі мүмкін.

Жалпы шектеулер

Веб-мұрағатшылар тек веб-мұрағаттаудың техникалық мәселелерімен айналысып қана қоймай, сонымен бірге зияткерлік меншік туралы заңдармен күресуі керек. Питер Лиман (2002) «Интернет көпшілікке белгілі қоғамдық қор ретінде қарастырылатынына қарамастан, ол авторлық құқықпен қорғалған; сондықтан мұрағатшылардың Интернетті көшіруге заңды құқығы жоқ» дейді. Алайда көптеген елдердің ұлттық кітапханаларында заңды депозитті кеңейту арқылы интернеттің бір бөлігін көшіруге заңды құқығы бар.

WebCite немесе Internet Archive сияқты көпшілікке қол жетімді етілген кейбір жеке коммерциялық емес веб-архивтер мазмұн иелеріне көпшілік қол жеткізгісі келмейтін мұрағатталған мазмұнды жасыруға немесе алып тастауға мүмкіндік береді. Басқа веб-архивтерге белгілі бір жерлерден ғана қол жетімді немесе пайдалану реттелген. Сондай-ақ, WebCite өзінің жиі қойылатын сұрақтарына Google-ді жеңген кэштеу механизміне қатысты сотқа сілтеме жасайды.

Веб-катиондау аспектілері

Кез-келген сандық курация сияқты веб-катион мыналарды қамтиды:

  • Тексерілетін веб-активтерді жинау
  • Веб-активті іздеу және шығаруды қамтамасыз ету
  • Жинақ мазмұнының сенімділігі мен тұтастығын сертификаттау
  • Жинақ мазмұнының семантикалық және онтологиялық сабақтастығы және салыстырмалылығы

Сонымен, интернетті жинау әдістері туралы талқылаудан басқа, қол жеткізуді, сертификаттауды және ұйымдастыруды қамтамасыз ететін әдістер де қосылуы керек. Бұл курация қадамдарын қарастыратын танымал құралдар жиынтығы бар:

Интернетті консервациялаудың халықаралық консорциумының веб-курациясы үшін құралдар жиынтығы:

  • Heritrix - ресми сайт - веб-актив жинау
  • NutchWAX - веб-архивтік коллекцияларды іздеу
  • Wayback (Open Source Wayback Machine) - NutchWax көмегімен веб-мұрағат коллекцияларын іздеу және шарлау
  • Веб-куратор құралы - веб-коллекцияны таңдау және басқару

Веб-мұрағаттарды өңдеудің басқа да ашық бастапқы құралдары:

  • WARC құралдары - веб-мұрағаттарды программалық түрде құруға, оқуға, талдауға және өңдеуге арналған
  • Іздеу құралдары - веб-мұрағаттарда толық мәтінді және метадеректерді индекстеуге және іздеуге арналған

Веб-архивтердің мысалы

Интернет мұрағаты

The Интернет мұрағаты (ИА) - еркін және ашық қол жетімді онлайн сандық кітапхананы құруға және жүргізуге арналған коммерциялық емес ұйым, оған бүкіләлемдік Интернет мұрағаты кіреді. Сан-Франциско, Калифорниядағы Пресидиода орналасқан кеңселермен және Сан-Францискода, Редвуд-Ситидегі және Калифорниядағы CA орталықтарымен бірге мұрағатқа «Дүниежүзілік тордың суреттері» кіреді (әр түрлі нүктелерден алынған беттердің мұрағатталған көшірмелері) уақыт), бағдарламалық жасақтама, фильмдер, кітаптар және аудио жазбалар. Интернет-архивтің тұрақтылығы мен тұрақтылығын қамтамасыз ету үшін оның коллекциясы Египеттегі Библиотека Александринада көрсетілген, әзірге әлемдегі жалғыз кітапхана айнасы бар.1 IA өз жинақтарын зерттеушілерге, тарихшылар мен ғалымдарға ақысыз қол жетімді етеді. Ол Американдық кітапханалар қауымдастығының мүшесі болып табылады және Калифорния штатында кітапхана ретінде ресми түрде танылған.2

The Қайтару машинасы3 Internet Archive жасаған сандық уақыттық капсула. Бұл қызмет пайдаланушыларға уақыт аралығында веб-парақтардың мұрағатталған нұсқаларын көруге мүмкіндік береді.

Сондай-ақ қараңыз

  • Мұрағат
  • Сандық сақтау
  • Интернет мұрағаты
  • Конгресс сандық кітапханасы жобасы
  • Ұлттық сандық ақпараттық инфрақұрылым және оны сақтау бағдарламасы
  • Веб-шолғыш

Ескертпелер

  1. Andr Александрия жаңа кітапханасындағы Интернет-мұрағат, Халықаралық ақпараттық ғылымдар мектебі (ISIS). 22 қараша 2008 ж.
  2. Internet «Интернет-мұрағат ресми түрде кітапхана» 2008 жылғы 22 қарашада шығарылды.
  3. ↑ web.archive.org 2008 жылғы 22 қарашада шығарылды.

Пайдаланылған әдебиеттер

  • Қоңыр, А. 2006. Веб-сайттарды мұрағаттау: ақпаратты басқарудың мамандары үшін практикалық нұсқаулық. Фасеттік баспа. ISBN 1-85604-553-6
  • Брюгер, Н. 2005. Веб-сайттарды мұрағаттау. Жалпы ойлар мен стратегиялар Интернетті зерттеу орталығы. ISBN 87-990507-0-6. 11 қараша 2008 ж.
  • Күн, М. 2003. Біздің өміріміздің матасын сақтау: Интернетті сақтау бастамаларына шолу Сандық кітапханаларға арналған ғылыми зерттеулер мен озық технологиялар: 7-ші Еуропалық конференция материалдары (ECDL), 461-472. 11 қараша 2008 ж.
  • Эйзенбах, Г. және Трудель М. 2005. Бару, жүру, әлі де бар: сілтеме жасалған веб-беттерді тұрақты мұрағаттау үшін WebCite қызметін пайдалану Медициналық Интернет-зерттеу журналы 7 (5). 11 қараша 2008 ж.
  • Фитч, Кент. 2003 ж. «Веб-сайтты мұрағаттау - веб-сайт жасаған әр түрлі жауаптарды тіркеуге арналған тәсіл» Аусвеб 03. 11 қараша 2008 ж.
  • Лайман, P. 2002. Бүкіләлемдік ғаламторды мұрағаттау Сақтаудың ұлттық стратегиясын құру: сандық медианы мұрағаттау мәселелері. 11 қараша 2008 ж.
  • Масанес, Дж (ред.) 2006 жыл. Веб-мұрағат. Спрингер-Верлаг. ISBN 3-540-23338-5

Сыртқы сілтемелер

Барлық сілтемелер 2013 жылдың 10 тамызында алынды.

  • Интернетті сақтаудың халықаралық консорциумы (IIPC) - болашақ ұрпақ үшін ғаламтордан қол жетімді білім мен ақпаратты алу, сақтау және сақтау болып табылатын халықаралық консорциум.
  • Халықаралық веб-мұрағат шеберханасы (IWAW) - веб-мұрағатқа бағытталған жыл сайынғы семинар
  • Конгресс кітапханасы, сандық коллекциялар мен бағдарламалар
  • Конгресс кітапханасы, Web Capture
  • Веб-архивтеу библиографиясы - веб-мұрағат ресурстарының ұзақ тізімі
  • Веб-мұрағат бағдарламалары:

Pin
Send
Share
Send