第三期 88年4月

【專題論述】


轉型中的大學圖書館-求知的美好新世界
 
二十一世紀電子出版品的發展趨勢
 
電子期刊在大學圖書館的利用與發展 
 
Metadata 在電子圖書館所扮演的角色
 
應用數位化文獻的問題探討-以期刊為例
 
電子化圖書館的管理-兼談香港科技大學圖書館
 
電子圖書館時代圖書館員的角色扮演
 
電子圖書館募款制度的可行性探討
 
 
【新知廣場】
網路資源搜尋引擎
 
【圖書館巡禮】
台灣大學圖書館-傳承、超越、邁向未來的知識殿堂 
 
 
【館務紀要】
國立成功大學圖書館八十七年大事記
 
國立成功大學圖書館八十七年回顧 
 
溫馨贈書情-記農學圖書公司贈書始末 
 
 

 
   

 

Metadata 在電子圖書館所扮演的角色



陳雪華 教授
台灣大學圖書資訊學系


壹、前言
  台灣地區有許多學術研究單位、圖書館、博物館等機構典藏史籍文獻及各種器物,這些為數甚多的珍藏,為避免損壞,常是無法開放給大眾參觀。有些或者可以開放參觀,但因時空限制,許多人無法一賭其收藏品的內涵。現在,透過無遠弗屆的網際網路連結,若能夠將這些寶貴的資源成限於全球資訊網上,既能夠擴大瀏覽的族群,也能夠讓終將損壞的珍貴資源以另一種方式維持其恆久的生命。
  目前呈現於全球資訊網的各類資源有價值的並不多,因此如何將現有的珍貴資源展現於網路上,使其具有恆久的生命,開放給更廣泛的使用族群是首要的工作。其次必須針對這些資源的特性加以組織與整理,才能有效地檢索、使用。

貳、電子圖書館       
  有人覺得電子圖書館等於 Database,但這兩年來,我們發現電子圖書館遠遠超過 Database。電子圖書館的目的有下列三種:

  1. 文化保存:將珍藏文件保存起來。
  2. 學術研究:容易讓學者透過網路找尋到所須的資料。
  3. 教育學習:網路的使用者最多的是一般大眾,因此應該讓這些珍貴素材具有普及教育的價值,供一般大眾使用。

  所謂電子圖書館,不僅只要將各類文件或物件數位化放在網路上供人取用而已,還具有以下幾點特質:

  1. 電子圖書館應該是實體圖書館或是資訊檢索系統的延伸,在多媒體、分散式以及協力的網路環境中,提供以使用者為導向的資源儲存、搜尋、處理與檢索的功能。
  2. 電子圖書館不僅指數位化的資源配合資訊管理科技,它更意指在一個環境能夠整合資源、服務與人等各因素,以支援資料 (Data)、資訊 (Information)、知識 (Knowledge) 的創造、傳遞、使用、保存等完整的資訊循環週期,其工作方向在於協助知識的產生、分享與利用,並加速循環過程,使知識的成長比以前快速。
  3. 以使用者為導向,提供好用的電子圖書館,良好的組織與整理的工作是極必要的。談到資訊組織與整理,圖書館界在這個領域有非常悠久的傳統與歷史,如:編目規則、機讀格式、分類法、標題法、索引摘要。

參、Metadata
  在網路上使用資料的方式可以從瀏覽 (Browsing) 和檢索兩個角度來看。就瀏覽而言,一般即主題指南 (Subject Information),好的電子圖書館會提供這樣的導覽,這是屬於逛街式的,讓使用者對整內容有概括性的認識,但較花時間。就檢索而言,檢索工具 (search Engines) 如要使其更好用,則需透過完整性的 Metadata。
一、何謂Metadata
  廣義的 Metadata 包括檢索工具、主題指南、完整性的 Metadata。在主題指南方面,圖書館界常用的有分類法、標題法、其他 (Yahoo、蕃薯藤,院系別等)。我們目前所講的或是網路上所提的 Metadata 是屬於狹義型的,即完整性的 Metadata。
  在國內對 Metadata 有幾種不同方式的翻譯,尚無一定標準,目前較常使用者,如:資源描述格式、詮釋資料、元資料。Metadata 有以下幾種解釋:

  1. Data about data
  2. Data describes other data
  3. Additional information that is necessary for data to be useful (為使額外的資料更好用,Metadata 是必要的)。
  4. Metadata 是對藏品資料屬性的一組描述,目前在促進資料系統中對資料之檢索、管理、與分析。
  5. Metadata 在傳統圖書館中即以目錄卡片或 OPAC 中的機讀編目格式的形式,扮演了資料找尋工具的重要角色。
  6. Metadata 具有傳統目錄之「著錄」功能,目的在使資料的管理維護者及使用者可透過 Metadata 了解並辨識資料,進而去利用和管理資料。

二、Metadata 的必要性
  有些人覺得既然網路上已充斥著數位化資料,為何不直接使用,而需要 Metadata?縱使如此,Metadata 還是有其必要性的,以下分幾方面探討:
(一) 數位化資料 vs. Metadata

  1. Metadata 通常比藏品本身小很多,在資料找尋的過程中更容易處理。
  2. 目前的技術仍很難做到以非文字物件做為搜尋或自動選取的基礎。
  3. Metadata 可提供不存在於藏品本身之資訊(如主題、稽核資料等)。

(二) 全文檢索 vs. Metadata
  Metadata 是經由人工判讀將藏品中的重要資訊抽離或標示出來,這個動作賦予 Metadata 相當強之語意,這是目前自動化技術上無法真正達到的。全文檢索的缺點在於沒有作 Authority Control,因此可能會發生檢索不到或是檢索到非所需的資訊。因此 Metadata 可與全文檢索相輔相成

三、Metadata 的功能
(一) 從使用者的角度來看

  1. 定位 (Location):如何知道所需的資源在哪裡,如 Call Number。
  2. 探索 (Discovery):如何找到所需的資源。
  3. 文件紀錄 (Documentation):每一筆 Metadata 都非常詳細紀錄被數位化的對象,因此縱使無法看到資源本身,但仍可對文件有相當清楚的認識,有時甚至比看到原文還更容易瞭解。
  4. 評估 (Evaluation)
  5. 選擇 (Selection)

(二) 從系統角度來看

  1. 描述藏品特徵
  2. 提供瀏覽及檢索功能
  3. 管理功能 (如系統識別號)
  4. 組合各個物件 (Object) 以及藏品的再呈現

四、Metadata 的格式
  Metadata 的種類目前無可計數,以下介紹幾類較為重要的 Metadata 格式:

(一) 描述科技文獻

  1. BibTeX:LaTeX 的一部份
  2. EELS:瑞典技術大學工程電子圖書館
  3. EEVL:英國愛丁堡工程虛擬圖書館
  4. RFC1807:透過電子郵件傳遞技術報告

(二) 描述人文及社會等學科資源

  1. ICPSRSGML Codebook Initiative:屬於社會學科 data sets,特別是政治學的資料。
  2. TEI (Text Encoding Archival) Headers:用在人文學及語言學上,促進資源的交換及協助人文學者充分利用電子資源。

(三) 描述政府資訊
  GILS (Government Information Locator Service):由美國聯邦政府訂定,為一種國家標準。
(四) 描述地理空間性資源
  FGDC (Federal Geographic Data Committee Standard),又稱 CSDGM (Content Standards for Digital Geospatial Metadata):為美國聯邦政府所訂定,加州大學聖塔芭芭拉分校 Alexandria Digital Library 就是用此格式來描述。在眾多的Metadata中,此格式發展的最為成熟,亦發展出來 Authoring Tool。
(五) 描述博物館藏品及檔案特藏

  1. CDWA (Categories for the Description of Works of Art)
  2. CIMI (Computer Interchange of Museum Information)
  3. EAD (Encoding Archival Description):描述檔案的格式,提倡者為 LC(Library of Congress),亦深受 MARC 的影響。

(六) 描述大量網路資源

  1. URCs (Uniform Resource Characteristics/Citations):與 URI、URL 同一機構制定。
  2. Dublin Core (Dublin Metadata Core Element Set):由 OCLC 推展出來。

五、Metadata 的來源
  Metadata 的創作者與來源可以分為作者、資源儲存的管理者、其他單位的創見者。針對電子圖書館而言,其 Metadata 創作者大多屬於資源儲存管理者。

六、Metadata 的著錄層次
(一) 無結構化的索引,例如 Search Engine 自動擷取的資料。
(二) 相當結構化,但較精簡,提供足夠資源描述資訊,例如 OCLC 的 NetFirst、Dublin Core。
(三) 相當結構化,並且非常複雜,有其特殊領域,提供詳細的資源描述資訊。

七、Metadata 實施現況
  Metadata 在實施應用方面,除 MARC 外,其他均處於發展階段。MARC 因其紀錄量多、架構詳細、且有編目規則做為描述的基礎,使其在描述有形館藏時技術成熟且歷史悠久;然而傳統的 MARC 應用於目前的網路環境稍嫌不足,因此從 1992 年起,即針對 MARC 做了一些修改:
(一) 欄號 856:用以描述電子資源,可 Hyperlink 電子資源本身。
(二) 欄號 505:將目次內容掃描呈現 (主要對象還是紙本式資料)。

肆、Dublin Core
  Dublin Core 於 1995 年 3 月 OCLC/NCSA Metadata Workshop 會議中被提出 (第一次 Dublin Core 研討會)。
一、何謂 Dublin Core
  它是一組描述網路資源之簡單欄位,提出時只有 13 個基本欄位。Dublin Core (簡稱 DC) 的描述對象為文獻式資源 Document-Like-Objects。

二、Dublin Core 的基本原則
(一) 簡單
  在格式及欄位上力求簡單,使用簡便,不需要專業訓練。其優點如下:1. 作者可自行建立 Metadata;2. 軟體廠商可自行發展編輯器 (Authoring Tool),並可延展;3. 可做為進一步書目描述的基礎;4. 不同族群間語意的共通性。
(二) 彈性

  DC 有四大彈性:延展性 (Extensibility)、選擇性 (Optionality)、可重複性 (Repeatability)、可變性 (Modifiability),具有相當彈性以符合不同族群的需求,且可利用 Qualifiers 如 (“Sc-heme”, “Type”),對外連結到更完整的紀錄。
  DC 的利用基點為改進目前 Search Engine 以沒有結構的關鍵字描述之缺點,且 DC 簡單的格式、結構化描述、及所具有的延展性,使其在未來可再進一步的深入描述。

三、Dublin Core 的發展
  DC 的初期應用起源於用來描述網路上數量龐大的 “文獻式資源”HTML 文件,但未標準化。
  DC 的第一次研討會有些未解決的問題:1. 彈性與一致性的衝突。2. 沒有清楚的結構及用法。3. 沒有標準的應用方法。
  第二次的 DC 研討會於 1996 年 4 月在英國的 Warwick 舉行,會中最重要的是提出了“Warwick Framework”的觀點。所謂 Warwick Framework 是一個可將不同型態的 Metadata 物件分別包裝起來,以進行資訊交換的架構,它必須具有能將不同的 Metadata 物件視為單獨的模組、同時噓考慮到未來出現新的 Metadata 格式、及內部的 Metadata 物件可以連結到外部等特性;利用 Framework 可使眾多的 Metadata 語意共通,讓不同 Metadata 間可以相互對應。另外還提出使用指南,由作者、資料保存管理者製作。
  至於 DC 應用在 HTML 文件方面、即 DC 與 HTML 的對應,1996 年 W3 Conference 會中提出將 Metadata 融入 HTML 文件的建議。
  第三次 DC 研討會於 1996 年 9 月在 OCLC 總部召開 (CNI/OCLC Image Metadata Workshop),將影像資料視為“Document-Like-Objects”是此次會議的最大收穫;並將原來的 13 個欄位稍加修改,增加Description、Right Management 兩個欄位,擴張成 15 個,即可用來描述影像資料。此 15 個欄位如下:

  1. 標題與關鍵詞 (Subject & Keywords)
  2. 題名 (Title)
  3. 作者 (Author & Creator)
  4. 描述語 (Description)
  5. 出版者 (Publisher)
  6. 其他貢獻者 (Other contributors)
  7. 日期 (Date)
  8. 資源的類型 (Resource type)
  9. 資料格式 (Format)
  10. 資源識別碼 (Resource identifier)
  11. 關係 (Relation)
  12. 來源 (Source)
  13. 語言 (Language)
  14. 涵蓋範圍 (Coverage)
  15. 權限管理 (Right management)

  DC 在影像描述的應用,以 CIMI (Consoritum for Computer Interchange of Museum Information,美國博物館資訊交換協會) 為例,即是採用 DC 來描述影像資料。
  第四次 DC 研討會在澳洲坎陪拉舉行,此時 DC 漸趨成熟,發展階段結束,規劃部署階段開始。此時有三個重點:欄位組及 Qualifiers 的正式確定;延展性的爭議;某些來為必須更清楚的定義以及 Canberra Qualifiers 的產生。
  在延展性的爭議方面,如要維持 DC 簡單及一致的特性,則需有條件地使用 Qualifiers,淡江會犧牲掉很多藏品的特質。但盡量發展 Qualifiers 來滿足不同群體的不同需求則會與 DC 要求簡單、一致的特性相衝突。因此最後決議,為使其可以延展、也可以一致,而有“Canberra Qualifiers”的產生。
  Canberra Qualifiers 有三類:Language 描述時所用的文字 (非所描述的資源所使用的文字)、Scheme、Type。
  Qualifiers 使用實例:(採用 HTML 第二版)

  1. <META NAME= “DC.Title” content= “(LANG=en) Cataloging of Internet resources”>
  2. <META NAME= “DC.Creater”content= “(TYPE=editor) Hsueh-Hua Chen”>
  3. <META NAME= “DC.Subject” content= “(SCHEME=LCSH) Cataloging of computer files”>
  4. <META NAME= “DC.Identifier” content= “(SCHEME=ISBN) 0-670-77289-5”>

  第五次 DC 檢討會於 1997 年 10 月在芬蘭赫爾辛基舉行,會中達成以下幾點共識:

  1. 加快標準化的腳步。
  2. 區分簡單、複雜兩種 Dublin Core 格式:即有無使用 Qualifier。
  3. 語法上以 HTML 和 RDF 格式為主。
  4. 針對未有定論的議題成立工作小組 (如 Date, Relation, Rights Management)。
  5. 次欄位 (項目) 及 Qualifiers 使用的制定原則。

  Dublin Core 的價值在於:

  1. 激勵作者與出版者提供這些詮釋資料的項目。
  2. 激勵網路出版工具中加上產生詮釋資料的樣板 (template) 在內。
  3. 激勵軟體廠商發展 Authoring Tool,使資料容易鍵入。
  4. 可做為詳細編目之基礎。
  5. 紀錄容易被了解。

四、Dublin Core 的應用實例
  Dublin Core 從 1995 年發展至今,時間雖不常但使用者眾。其運用實例如下:

  1. The Nordic Metadata Project
  2. DSTC (Distributed Systems Technology Center)—TURNIP, HotOIL, MetaWeb
  3. OCLC Office of Research
  4. The National Document and Information Service
  5. Mapping between the Dublin Core and Marc records
  6. 加州大學聖塔芭芭拉分校 Alexandria Project
  7. 加洲柏克萊大學 Digital Library 計畫
  8. CIMI (Consortium for Computer Interchange of Museum Information)

第 1.2