Metadata 在電子圖書館所扮演的角色
陳雪華 教授
台灣大學圖書資訊學系
壹、前言
台灣地區有許多學術研究單位、圖書館、博物館等機構典藏史籍文獻及各種器物,這些為數甚多的珍藏,為避免損壞,常是無法開放給大眾參觀。有些或者可以開放參觀,但因時空限制,許多人無法一賭其收藏品的內涵。現在,透過無遠弗屆的網際網路連結,若能夠將這些寶貴的資源成限於全球資訊網上,既能夠擴大瀏覽的族群,也能夠讓終將損壞的珍貴資源以另一種方式維持其恆久的生命。
目前呈現於全球資訊網的各類資源有價值的並不多,因此如何將現有的珍貴資源展現於網路上,使其具有恆久的生命,開放給更廣泛的使用族群是首要的工作。其次必須針對這些資源的特性加以組織與整理,才能有效地檢索、使用。
貳、電子圖書館
有人覺得電子圖書館等於 Database,但這兩年來,我們發現電子圖書館遠遠超過 Database。電子圖書館的目的有下列三種:
- 文化保存:將珍藏文件保存起來。
- 學術研究:容易讓學者透過網路找尋到所須的資料。
- 教育學習:網路的使用者最多的是一般大眾,因此應該讓這些珍貴素材具有普及教育的價值,供一般大眾使用。
所謂電子圖書館,不僅只要將各類文件或物件數位化放在網路上供人取用而已,還具有以下幾點特質:
- 電子圖書館應該是實體圖書館或是資訊檢索系統的延伸,在多媒體、分散式以及協力的網路環境中,提供以使用者為導向的資源儲存、搜尋、處理與檢索的功能。
- 電子圖書館不僅指數位化的資源配合資訊管理科技,它更意指在一個環境能夠整合資源、服務與人等各因素,以支援資料 (Data)、資訊 (Information)、知識 (Knowledge) 的創造、傳遞、使用、保存等完整的資訊循環週期,其工作方向在於協助知識的產生、分享與利用,並加速循環過程,使知識的成長比以前快速。
- 以使用者為導向,提供好用的電子圖書館,良好的組織與整理的工作是極必要的。談到資訊組織與整理,圖書館界在這個領域有非常悠久的傳統與歷史,如:編目規則、機讀格式、分類法、標題法、索引摘要。
參、Metadata
在網路上使用資料的方式可以從瀏覽 (Browsing) 和檢索兩個角度來看。就瀏覽而言,一般即主題指南 (Subject Information),好的電子圖書館會提供這樣的導覽,這是屬於逛街式的,讓使用者對整內容有概括性的認識,但較花時間。就檢索而言,檢索工具 (search Engines) 如要使其更好用,則需透過完整性的 Metadata。
一、何謂Metadata
廣義的 Metadata 包括檢索工具、主題指南、完整性的 Metadata。在主題指南方面,圖書館界常用的有分類法、標題法、其他 (Yahoo、蕃薯藤,院系別等)。我們目前所講的或是網路上所提的 Metadata 是屬於狹義型的,即完整性的 Metadata。
在國內對 Metadata 有幾種不同方式的翻譯,尚無一定標準,目前較常使用者,如:資源描述格式、詮釋資料、元資料。Metadata 有以下幾種解釋:
- Data about data
- Data describes other data
- Additional information that is necessary for data to be useful (為使額外的資料更好用,Metadata 是必要的)。
- Metadata 是對藏品資料屬性的一組描述,目前在促進資料系統中對資料之檢索、管理、與分析。
- Metadata 在傳統圖書館中即以目錄卡片或 OPAC 中的機讀編目格式的形式,扮演了資料找尋工具的重要角色。
- Metadata 具有傳統目錄之「著錄」功能,目的在使資料的管理維護者及使用者可透過 Metadata 了解並辨識資料,進而去利用和管理資料。
二、Metadata 的必要性
有些人覺得既然網路上已充斥著數位化資料,為何不直接使用,而需要 Metadata?縱使如此,Metadata 還是有其必要性的,以下分幾方面探討:
(一) 數位化資料 vs. Metadata
- Metadata 通常比藏品本身小很多,在資料找尋的過程中更容易處理。
- 目前的技術仍很難做到以非文字物件做為搜尋或自動選取的基礎。
- Metadata 可提供不存在於藏品本身之資訊(如主題、稽核資料等)。
(二) 全文檢索 vs. Metadata
Metadata 是經由人工判讀將藏品中的重要資訊抽離或標示出來,這個動作賦予 Metadata 相當強之語意,這是目前自動化技術上無法真正達到的。全文檢索的缺點在於沒有作 Authority Control,因此可能會發生檢索不到或是檢索到非所需的資訊。因此 Metadata 可與全文檢索相輔相成。
三、Metadata 的功能
(一) 從使用者的角度來看
- 定位 (Location):如何知道所需的資源在哪裡,如 Call Number。
- 探索 (Discovery):如何找到所需的資源。
- 文件紀錄 (Documentation):每一筆 Metadata 都非常詳細紀錄被數位化的對象,因此縱使無法看到資源本身,但仍可對文件有相當清楚的認識,有時甚至比看到原文還更容易瞭解。
- 評估 (Evaluation)
- 選擇 (Selection)
(二) 從系統角度來看
- 描述藏品特徵
- 提供瀏覽及檢索功能
- 管理功能 (如系統識別號)
- 組合各個物件 (Object) 以及藏品的再呈現
四、Metadata 的格式
Metadata 的種類目前無可計數,以下介紹幾類較為重要的 Metadata 格式:
(一) 描述科技文獻
- BibTeX:LaTeX 的一部份
- EELS:瑞典技術大學工程電子圖書館
- EEVL:英國愛丁堡工程虛擬圖書館
- RFC1807:透過電子郵件傳遞技術報告
(二) 描述人文及社會等學科資源
- ICPSRSGML Codebook Initiative:屬於社會學科 data sets,特別是政治學的資料。
- TEI (Text Encoding Archival) Headers:用在人文學及語言學上,促進資源的交換及協助人文學者充分利用電子資源。
(三) 描述政府資訊
GILS (Government Information Locator Service):由美國聯邦政府訂定,為一種國家標準。
(四) 描述地理空間性資源
FGDC (Federal Geographic Data Committee Standard),又稱 CSDGM (Content Standards for Digital Geospatial Metadata):為美國聯邦政府所訂定,加州大學聖塔芭芭拉分校 Alexandria Digital Library 就是用此格式來描述。在眾多的Metadata中,此格式發展的最為成熟,亦發展出來 Authoring Tool。
(五) 描述博物館藏品及檔案特藏
- CDWA (Categories for the Description of Works of Art)
- CIMI (Computer Interchange of Museum Information)
- EAD (Encoding Archival Description):描述檔案的格式,提倡者為 LC(Library of Congress),亦深受 MARC 的影響。
(六) 描述大量網路資源
- URCs (Uniform Resource Characteristics/Citations):與 URI、URL 同一機構制定。
- Dublin Core (Dublin Metadata Core Element Set):由 OCLC 推展出來。
五、Metadata 的來源
Metadata 的創作者與來源可以分為作者、資源儲存的管理者、其他單位的創見者。針對電子圖書館而言,其 Metadata 創作者大多屬於資源儲存管理者。
六、Metadata 的著錄層次
(一) 無結構化的索引,例如 Search Engine 自動擷取的資料。
(二) 相當結構化,但較精簡,提供足夠資源描述資訊,例如 OCLC 的 NetFirst、Dublin Core。
(三) 相當結構化,並且非常複雜,有其特殊領域,提供詳細的資源描述資訊。
七、Metadata 實施現況
Metadata 在實施應用方面,除 MARC 外,其他均處於發展階段。MARC 因其紀錄量多、架構詳細、且有編目規則做為描述的基礎,使其在描述有形館藏時技術成熟且歷史悠久;然而傳統的 MARC 應用於目前的網路環境稍嫌不足,因此從 1992 年起,即針對 MARC 做了一些修改:
(一) 欄號 856:用以描述電子資源,可 Hyperlink 電子資源本身。
(二) 欄號 505:將目次內容掃描呈現 (主要對象還是紙本式資料)。
肆、Dublin Core
Dublin Core 於 1995 年 3 月 OCLC/NCSA Metadata Workshop 會議中被提出 (第一次 Dublin Core 研討會)。
一、何謂 Dublin Core
它是一組描述網路資源之簡單欄位,提出時只有 13 個基本欄位。Dublin Core (簡稱 DC) 的描述對象為文獻式資源 Document-Like-Objects。
二、Dublin Core 的基本原則
(一) 簡單
在格式及欄位上力求簡單,使用簡便,不需要專業訓練。其優點如下:1. 作者可自行建立 Metadata;2. 軟體廠商可自行發展編輯器 (Authoring Tool),並可延展;3. 可做為進一步書目描述的基礎;4. 不同族群間語意的共通性。
(二) 彈性
DC 有四大彈性:延展性 (Extensibility)、選擇性 (Optionality)、可重複性 (Repeatability)、可變性 (Modifiability),具有相當彈性以符合不同族群的需求,且可利用 Qualifiers 如 (“Sc-heme”, “Type”),對外連結到更完整的紀錄。
DC 的利用基點為改進目前 Search Engine 以沒有結構的關鍵字描述之缺點,且 DC 簡單的格式、結構化描述、及所具有的延展性,使其在未來可再進一步的深入描述。
三、Dublin Core 的發展
DC 的初期應用起源於用來描述網路上數量龐大的 “文獻式資源”HTML 文件,但未標準化。
DC 的第一次研討會有些未解決的問題:1. 彈性與一致性的衝突。2. 沒有清楚的結構及用法。3. 沒有標準的應用方法。
第二次的 DC 研討會於 1996 年 4 月在英國的 Warwick 舉行,會中最重要的是提出了“Warwick Framework”的觀點。所謂 Warwick Framework 是一個可將不同型態的 Metadata 物件分別包裝起來,以進行資訊交換的架構,它必須具有能將不同的 Metadata 物件視為單獨的模組、同時噓考慮到未來出現新的 Metadata 格式、及內部的 Metadata 物件可以連結到外部等特性;利用 Framework 可使眾多的 Metadata 語意共通,讓不同 Metadata 間可以相互對應。另外還提出使用指南,由作者、資料保存管理者製作。
至於 DC 應用在 HTML 文件方面、即 DC 與 HTML 的對應,1996 年 W3 Conference 會中提出將 Metadata 融入 HTML 文件的建議。
第三次 DC 研討會於 1996 年 9 月在 OCLC 總部召開 (CNI/OCLC Image Metadata Workshop),將影像資料視為“Document-Like-Objects”是此次會議的最大收穫;並將原來的 13 個欄位稍加修改,增加Description、Right Management 兩個欄位,擴張成 15 個,即可用來描述影像資料。此 15 個欄位如下:
- 標題與關鍵詞 (Subject & Keywords)
- 題名 (Title)
- 作者 (Author & Creator)
- 描述語 (Description)
- 出版者 (Publisher)
- 其他貢獻者 (Other contributors)
- 日期 (Date)
- 資源的類型 (Resource type)
- 資料格式 (Format)
- 資源識別碼 (Resource identifier)
- 關係 (Relation)
- 來源 (Source)
- 語言 (Language)
- 涵蓋範圍 (Coverage)
- 權限管理 (Right management)
DC 在影像描述的應用,以 CIMI (Consoritum for Computer Interchange of Museum Information,美國博物館資訊交換協會) 為例,即是採用 DC 來描述影像資料。
第四次 DC 研討會在澳洲坎陪拉舉行,此時 DC 漸趨成熟,發展階段結束,規劃部署階段開始。此時有三個重點:欄位組及 Qualifiers 的正式確定;延展性的爭議;某些來為必須更清楚的定義以及 Canberra Qualifiers 的產生。
在延展性的爭議方面,如要維持 DC 簡單及一致的特性,則需有條件地使用 Qualifiers,淡江會犧牲掉很多藏品的特質。但盡量發展 Qualifiers 來滿足不同群體的不同需求則會與 DC 要求簡單、一致的特性相衝突。因此最後決議,為使其可以延展、也可以一致,而有“Canberra Qualifiers”的產生。
Canberra Qualifiers 有三類:Language 描述時所用的文字 (非所描述的資源所使用的文字)、Scheme、Type。
Qualifiers 使用實例:(採用 HTML 第二版)
- <META NAME= “DC.Title” content= “(LANG=en) Cataloging of Internet resources”>
- <META NAME= “DC.Creater”content= “(TYPE=editor) Hsueh-Hua Chen”>
- <META NAME= “DC.Subject” content= “(SCHEME=LCSH) Cataloging of computer files”>
- <META NAME= “DC.Identifier” content= “(SCHEME=ISBN) 0-670-77289-5”>
第五次 DC 檢討會於 1997 年 10 月在芬蘭赫爾辛基舉行,會中達成以下幾點共識:
- 加快標準化的腳步。
- 區分簡單、複雜兩種 Dublin Core 格式:即有無使用 Qualifier。
- 語法上以 HTML 和 RDF 格式為主。
- 針對未有定論的議題成立工作小組 (如 Date, Relation, Rights Management)。
- 次欄位 (項目) 及 Qualifiers 使用的制定原則。
Dublin Core 的價值在於:
- 激勵作者與出版者提供這些詮釋資料的項目。
- 激勵網路出版工具中加上產生詮釋資料的樣板 (template) 在內。
- 激勵軟體廠商發展 Authoring Tool,使資料容易鍵入。
- 可做為詳細編目之基礎。
- 紀錄容易被了解。
四、Dublin Core 的應用實例
Dublin Core 從 1995 年發展至今,時間雖不常但使用者眾。其運用實例如下:
- The Nordic Metadata Project
- DSTC (Distributed Systems Technology Center)—TURNIP, HotOIL, MetaWeb
- OCLC Office of Research
- The National Document and Information Service
- Mapping between the Dublin Core and Marc records
- 加州大學聖塔芭芭拉分校 Alexandria Project
- 加洲柏克萊大學 Digital Library 計畫
- CIMI (Consortium for Computer Interchange of Museum Information)
第 1.2 頁
|