分成「一般檢索」與「進階檢索」。
一般檢索就是對全文與各詮釋資料欄位進行檢索。
進階檢索則可進一步指定查詢詞彙須出現在特定欄位,即「標題」、「作者」、「出處」、「分類」、「中曆年份」,與「西元年份」。
上圖是一般檢索,而按了右邊的「進階檢索」後,則檢索框會變成進階檢索,即為下圖。
底下分成三部份。第一部分先介紹一般檢索,第二部份介紹進階檢索,第三部份介紹後分類檢索。
(1).1 最簡單的檢索例子
例如,我們想在古契書中尋找「找洗」,想看看這個台灣清治時期相當特殊的商業交易行為,我們可以在查看古契書文獻集時,於「文件檢索」全文搜尋框輸入「找洗」,然後直接按「Enter」鍵或是搜尋框右邊的「送出」按鈕;稍帶一會,即會顯示出 THDL 古契書中,包含「找洗」的各篇全文文件。
我們稱這些全文文件為「檢索結果」。
這是最簡單、只有檢索一個詞的檢索方式。我們稱這個詞為「關鍵詞」(keyword)。關鍵詞可以只有一個字,或是包含兩、三個字的詞,如人名、地名,或是某句我們感興趣的句子。
在上面這個例子中,檢索結果即一些全文文件,而每篇文件裡頭都有我們要找的關鍵詞「找洗」;我們稱這些文件「符合」檢索條件,並稱該關鍵詞「出現」在這些文件中,而這些文件則「包含」該關鍵字。下面我們會以這些術語來說明 THDL 的檢索。
除了只找一個關鍵詞外,我們也可以輸入多個關鍵詞做檢索。
跟 Google 不同的是,THDL 不加符號的多關鍵詞檢索,是只要某文件滿足其中一個關鍵詞,即算是滿足檢索條件,而該文件就成為了檢索結果之一;而 Google 的多關鍵詞檢索,則是會先顯示所有關鍵詞都出現的文件,然後才顯示只有部分關鍵詞出現在文件中的文件。如果要做多個關鍵詞「全符合」、或者運用其他功能的檢索,就得使用「檢索符號」。
(1).2 兩個一般檢索常用的符號
A. 多關鍵詞全符合檢索:「+」
在 1.1 中,我們提過若我們想要找「兩個以上的關鍵詞都出現在文件中」的文件,我們必須使用「檢索符號」。這個檢索符號就是「+」(加號)。例如,我們可以在查看古契書文獻集時,於文件檢索框中輸入「+杜賣 +歸就」,查看「親族之間的買賣」。
B. 讓某關鍵詞不出現於檢索結果:「-」
在檢索結果中,我們想讓讓某關鍵詞不出現在檢索結果中,就用「-」(減號)。承上例,我們若對親族間買賣中的鬮分契沒有興趣,或者想要進一部篩選檢索結果,我們可以在文件檢索框中輸入「+杜賣 +歸就 -鬮分」,專門看不是鬮分契的親族買賣。
(1).3 用多個關鍵詞做一般檢索的兩個例子
A.「+杜賣 贈 增 -張增榮」
第一個例子是古契書的檢索範例。這個例子是希望能觀察全文具有「杜賣」的文件中,出現「贈」或「增」的情形。
以這個檢索條件來搜尋所得到的檢索結果裡頭,每篇文件一定包含二字詞「杜賣」,一定不會包含三字詞「張增榮」,並且「贈」字與「增」字則至少會出現其一,即可能只出現「贈」、可能只出現「增」,也可能二字都出現。
多打個「-張增榮」是因為我們不希望「增」字是出現在人名「張增榮」中,因此就將「張增榮」這詞加以排除。
要特別注意的是,由於我們將包含「張增榮」這人名的文件剔除了,所以若這些文件中有「增」字單獨出現,而不只是「張增榮」三字詞裡頭的字,這些文件也不會出現於檢索結果中。
B. 「+林爽文 +敗 -勝 戰 福康安」
第二個例子是明清檔案的檢索範例。我們想在明清檔案中特別查看林爽文事件,並且是特別描述有一方打敗仗的文件。
此例中,檢索結果一定會出現三字詞「林爽文」與「敗」字,且一定不會出現「勝」字,而「戰」字與三字詞「福康安」則至少會出現其一。
這個檢索條件還可以再調整或增加檢索關鍵詞,以更符合我們要的結果,例如再加上「-克捷」等,剔除與勝利有關的辭彙。
(1).4 其他可用檢索符號
A. 詞彙標示:「=>」
在前面 1.2.A 檢索「+杜賣 +歸就」的例子中,點擊第一筆檢索結果、標題為「杜賣鬮分田園埔地盡付歸管合約字」的全文文件後:
我們可以看到頁面上頭的文件檢索框中,系統會自行出現「{cca100003-od-bk_isbn9570273399_000088-0001-u.xml} => 杜賣|歸就」這樣的句子。
前面那一串以 .xml 結尾的東西,就是該筆文件的檔名。後面的「=> 杜賣|歸就」,可以說是自動產生的一個指令,其意義在於告訴系統要在這篇文件中,特別標明「杜賣 」與「歸就」兩個辭彙。這麼做的目的,就是可以方便我們觀看檢索關鍵詞出現於文件何處。
因此,我們也可以在文件檢索框中,自行輸入這符號,特別標明一些關鍵詞。例如,若將 1.3.A 中的檢索字串「+杜賣 贈 增 -張增榮」改成「杜賣 贈 增=>張增榮」:
那麼檢索結果中,如果「增」字出現 於三字詞「張增榮」中,這個「增」就會特別標明出來,方便我們觀看檢索結果中,「增」字出現在「張增榮」裡頭的情形。改變檢索字串後,「增」字也可以單獨出現。
B. 比較文件集:「關鍵詞一 ?vs 關鍵詞二」
是「比較兩文件集」的檢索語法。「文件集」意即「某次檢索的結果」。
例如檢索「找洗 ?vs 絕賣」,我們就可以在檢索結果上方的「檢索結果分佈圖」,看到兩文件集的年代分布比較。
C. 兩文件集的交集:「關鍵詞一 ?in_cnt 關鍵詞二」
想知道這個檢索是在做什麼之前,我們先想一個比較簡單的檢索例子:單單檢索「林爽文」。
我們可以看到有出現 1565 筆文件包含「林爽文」這詞彙。
而如果我們想要看這些文件中,有幾筆、有哪些文件包含「福康安」,我們就可以輸入「林爽文 ?in_cnt 福康安」。
「in: 585」就是說,這 1565 筆包含人名「林爽文」的文件中,有 585 筆文件還有包含「福康安」。
跳到第二頁,我們即可在第 11 筆符合檢索條件的文件中,於標題左邊看到一個小圖寫著「in」;這就代表該篇文件裡頭,包含「福康安」。
「in_cnt」即為「in count」。
(2).1 詮釋資料(metadata)
除了可以在進階檢索做搜尋的四個詮釋資料欄位:「標題」、「作者」、「出處」、「分類」以外,THDL 的詮釋資料還有「檔名」、「成文日期」,以及「分類」。這些詮釋資料,是 THDL 數位化的過程中,建置人員手動新增的部份。
其中值得一提的是「分類」欄位。明清檔案的分類就是檔案的類別,即「奏摺」、「上諭」、「附片」……等,而古契書的分類即契書的各種類型,如「杜賣契」、「鬮分契」、「公文書類」、「典契」……等。
(2).2 進階檢索介紹
在檢索框右邊按下「進階檢索」,就會跳出我們可以多輸入的幾個欄位:
分別介紹如下。
全文暨所有欄位:即一般檢索的「文件搜尋」框。
標題:在此輸入文件的標題,例如「為移會事」、「臺灣總督府檔案」等。
作者:要找劉銘傳寫的文件,可在此輸入「劉銘傳」。
出處:要找與劉銘傳有關的文件,可在此輸入「劉銘傳」。
中曆年份:想找甲午戰爭的文件,可在此輸入「光緒20年」或「光緒二十年」,二者是一樣的。
西元年份:如上例,在此可輸入「1894」。
值得注意的是,進階檢索的六個欄位只能輸入一個關鍵詞。
在檢索後的「詮釋資料欄位」側欄可以點選某項目,以進一步篩選檢索的結果。
(3).1 範例一
一樣是「找洗」這個例子。在《古契書》檢索「找洗」後,在頁面左側的詮釋資料欄位,將分頁切換到「分類」,然後點擊「杜賣契」,即可進一部列出分類為「杜賣契」的古契書文件。
(3).2 範例二
在《明清檔案》檢索「林爽文 福康安」後,在頁面左側的詮釋資料欄位,將分頁保留為「年代」,然後點擊「清嘉慶十一年 (1806)」,即可進一部列出年代為「嘉慶十一年」的文件。這一年雖然林爽文事件已過,但卻有 45 篇文件提到他們二者的名字,比起鄰近的幾年高出許多。
最後,如果我們看的是《明清檔案》或《古契書》,那麼在檢索框搜尋完以後,我們可以看到頁面左邊出現「詮釋資料欄位」的側欄,有「年代」、「出處」、「作者」,以及「分類」。
而如果我們看的是「全部」,而非單單《明清檔案》或《古契書》,則會多出「文獻集」分頁,而少了「分類」,因為兩種文獻的分類是不同的。