| 計畫概述/Introduction
本計畫為國科會數位典藏技術分項計畫的其中一項。其目標及成果是要支援建立一個方便佛教學者建立知識架構的環境與研究平台。
研究平台的構想,是建立一個友善並有效率的介面,佛教學者可以透過它對龐大的數位佛教資源庫,進行統計分析(Statistical Analysis)、資訊檢索及抽取(Information Retrieval and Extraction)、文件分類與分群(Document Classification and Clustering)、資料探勘(Data Mining)等各項工作,以提供研究者不同於傳統佛學的研究方法及更多樣的參考資源和結果。
抽詞及建立跨語詞彙集,是達成上述研究平台目標的重要基礎工作。以各種不同版本及語言的佛經來說,抽詞及建立跨語詞彙表的工作,也可以應用在工具書的整理、文獻學與考證學的研究上。並且還能衍伸出多項資料統計議題上的研究與探討。
This is a project of the National Science Council's National Digital Archives Program, Taiwan. It aims to support the construction of a research platform and environment that will be convenient for Buddhist scholars to work on subject specific knowledge structures. There will be a friendly and efficient platform, on which Buddhist scholars can conduct Statistical Analysis, Information Retrieval and Extraction, Document Classification and Clustering, Data Mining, etc., to work on large numbers of digital Buddhist databases.
Term extraction is an important foundation towards building such a platform. Term extraction and cross-lingual thesaurus for the Tripitaka in different versions and languages can also be applied to constructing reference works, manuscript studies, document proving. Statisical questions can also be derived.
|
| 計畫成果/Performance
◎ 古典文獻(Cbeta)抽辭結果 / Term Extraction of the Tripitaka:
抽辭資源: CBETA
檔案總 bytes: 1.2 GB (utf8 files)
所有中文字所佔 bytes: 324,754,728(utf16 file)
Suffix Array Index bytes: 567,406,444(4 bytes for each charactor)
總中文字數: 141,851,611
總標點符號字數: 20,525,753
一次資料分析:
A. 與字辭典比對: Muller's | 佛光大詞典 | 去掉短詞(muller's base)
B. 亂數抽取比對: 第一組資訊
二次資料分析:
A. 與字辭典比對: Muller's | 佛光大詞典
計算分析條件最佳化與抽辭結果:
* 條件: 左R = 67, 右R = 71
* 篩出詞條 109,681 個
◎ 當代文獻(佛學學報)抽辭結果 / Term Extraction in Articles of Buddhist Modern Studies:
抽辭資源: 781單篇文獻 (中華佛學學報、華岡學學報、中華佛學研究、台大佛學學報、法鼓全集等)
檔案總 bytes: 78 MB (utf8 files)
所有中文字所佔 bytes: 19,328,504(utf16 file)
Suffix Array Index bytes: 33,851,932(4 bytes for each charactor)
總中文字數: 8,462,983
總標點符號字數: 1,201,269
資料分析: Muller's | 佛光大詞典
** 需要以一般性字典比較。以專業佛學字典比較及當代文獻本身數量較小,參數有過大以致暫時無法參考的狀況。
◎ 網路服務:
1. 語用索引及時空地理檢索系統
2. CBETA 語用索引 線上服務
[說明]
Concordance Index Search Engien for CBETA
XML-RPC Server
http://140.112.26.89
port:51112
取得字串的基本資料
[pre condition]
(1) kw: 欲檢索的 Unicode 字串
(2) opt: 順序或倒序檢索。順序 opt="forward"、倒序 opt="backward"
[run condition]
(3) call function: getTotalNo(ks, opt)
(4) RETURN: ("kw 在CBETA出現的總數", "索引起始位置", "索引結束位置", "kw 字串長度")
EX:
call: ans = getTotalNo("法源禪師", "forward")
return: ("10", "85187611", "85187620", "8")
ans[0] = "10" ("法源禪師"在CBETA全文出現過10次)
ans[1] = "85187611" ("法源禪師"在索引中的開始位置)
ans[2] = "85187620" ("法源禪師"在索引中的結束位置)
ans[3] = "8" ("法源禪師"在索引中的字串長度)
取得上述字串的CBETA原文 (經 Concordance 排序)
[pre condition]
(1) opt: 順序或倒序檢索。順序 opt="forward"、倒序 opt="backward" (須與 getTotalNo 的 opt 同一方向)
(2) index_b: 取得全文的起始位置 (ans[0] 超過 300 筆時, 可遞回繼續取得資料)
(3) index_e: 取得全文的結束位置 (同 getTotalNo 的 ans[2])
(4) kw_len: 檢索字串在索引中的長度 (同 getTotalNo 的 ans[3])
(5) p: p="off" 時, 取得全文完畢
[run condition]
(6) call function: getConcordance(opt, index_b, index_e, kw_len, p="")
(7) RETURN: CBETA全文, 經 Concordance 排序內容
EX:
call: ans = getConcordance("forward", "85187611", "85187620", "8", "on")
return: ("是否以送回最後一行資訊", "索引起始位置", "索引結束位置", "kw 字串長度", "全文結果")
ans[0] = "on" (還有"法源禪師"的資料) | = "off" ("法源禪師"的資料已傳送完畢)
ans[1] = "85187611" (下一個還未取得的"法源禪師"的資料在索引中的開始位置)
ans[2] = "85187620" ("法源禪師"在索引中的結束位置)
ans[3] = "8" ("法源禪師"在索引中的字串長度)
ans[4] = 法源禪師的檢索結果(如下)
曰。萬里崖州。標。廣法源禪師。上堂。春雨微微。簷 [X85n1593_p0474c14]
古帆新禪師。壽昌別源法源禪師。保寧古林茂禪師法嗣 [X83n1574_p0264c10]
。錢唐法真禪師。會稽法源禪師。新羅法融禪師。新羅 [T49n2035_p0251d10]
。錢唐法真禪師。會稽法源禪師。新羅法融禪師。新羅 [T49n2035_p0201a16]
藥山義銑禪師。湖州廣法源禪師。洪州百丈政禪師。南 [X78n1555_p0626b10]
師。靈山本言禪師。廣法源禪師。靈隱德章禪師。太平 [X83n1572_p0006b12]
師。靈山本言禪師。廣法源禪師。靈隱德章禪師。太平 [T51n2077_p0505a29]
師。靈山本言禪師。廣法源禪師。靈隱德章禪師。琅邪 [X80n1567_p0560a08]
師。靈山本言禪師。廣法源禪師。靈隱德章禪師。琅邪 [X80n1564_p0013b22]
說話。卓拄杖下座。廣法源禪師上堂。若論此事切莫道 [X64n1260_p0055a14]
|
[Note]
1. 先用 getTotalNo 取得:總數、索引起始點、索引結束點、搜尋字串長度
2. 再用 getConcordance 以回圈方式取得每次三百筆的紀錄
3. opt 參數必須一致
4. index_e, kw_len 在同一個辭彙的連續取得資料中不會改變
5. 目前在 Unix Like (Linux, Mac)系統運作正常, Docs 環境測試中
*Python 使用範例檔下載
*PHP 使用範例檔下載 (測試中)
*Java 使用範例檔下載 (測試中)
|
|