中文圖書引文索引數據庫平臺研究-成果簡介
發布人:系統管理員  發布時間:2016-09-30   瀏覽次數:37

  

引文索引方法利用學術文獻的引文來描述此引文的全文內容,這些引文一般與該學術文獻內容上是相關,再利用引文作為檢索路徑繼續查找與此引文的主題相關的新學術文獻,同時利用這些新的學術文獻的引文繼續檢索,重復此步驟不斷的獲取新的學術文獻。

截止目前,國內外引文索引檢索工具主要包括BkCICSCDCSSCI等引文索引數據庫。BkCI能夠為科研工作者提供全面體系化、專業權威化、豐富動態的學術研究知識來源,這些知識來源主要包括具有高有影響力的圖書文獻。國內CSCDCSSCI相應的引文數據主要是期刊論文間的引文數據,這些引文信息能夠有效地促進交叉學科和新穎學科的發展研究。

然而,當前引文索引檢索工具仍然存在一些值得深入研究的問題:

1BkCI收錄的圖書以英文為主,而在國內也具有許多高學術影響力的中文圖書,要滿足國內用戶查閱和發現這些中文圖書的需求,就需要構建中文圖書引文索引數據庫,同時不斷積累圖書的引文數據。

2)國內引文索引數據庫都缺乏圖書文獻的引文數據,要滿足用戶全面準確地發現高學術影響力圖書文獻,就需要構建類似BkCI的中文圖書引文索引數據庫。

為解決上述問題,本文研究構建中文圖書引文索引數據庫系統平臺Chinese Book Citation Index(簡稱CNBkCI)。CNBkCI系統平臺將所有中文圖書作為來源文獻,收集來源文獻、參考文獻、引證文獻、作者數據、項目數據、獎項數據6類數據資源,為用戶提供這些數據資源的檢索服務,同時通過該平臺對這些數據資源進行統計分析,從多維角度分析中文圖書學術成果的學術影響力。首先,本文研究文獻元數據、作者元數據、項目元數據、獎項元數據4類元數據規范,。其次,本文研究CNBkCI系統平臺的用戶角色設計、E-R圖設計、業務流程設計、系統功能設計、系統框架設計。最后,文獻資源是CNBkCI系統平臺數據來源的重要部分,本文重點研究CNBkCI系統平臺的文獻資源采集方法。

1元數據規范

 CNBkCI所收集的數據包括來源文獻、參考文獻、引證文獻、作者數據、項目數據、獎項數據,其中來源文獻僅包括圖書文獻,參考文獻主要包括圖書文獻、期刊文獻、學位論文、會議文獻、報紙、電子文獻、檔案、法律條文等,而引證文獻僅包括圖書文獻、期刊文獻、學位論文、會議文獻。根據CNBkCI所涉及到文獻種類,本文將文獻資源劃分為圖書文獻、期刊文獻、學位論文、會議文獻、其他文獻五類文獻,其中其他文獻包括報紙、電子文獻、檔案、法律條文等文獻資源。本文討論了文獻元數據、作者元數據、項目元數據、獎項元數據,其中文獻元數據包括來源文獻、參考文獻、引證文獻的元數據。

1)文獻元數據

為能夠準確地描述、檢索CNBkCI的來源文獻及其參考文獻和引證文獻,根據DC核心元數據,制定了圖書文獻元數據、期刊文獻元數據、學位論文元數據、會議文獻元數據、其他文獻元數據。

2)作者元數據

根據CNBkCI系統所包含的信息,作者元數據主要包含姓名、機構、郵編等信息,其中通過郵編可以獲取作者所在機構的地區信息。

3)項目元數據

根據CNBkCI系統所包含的信息,項目元數據主要包含項目批準號、項目來源、項目名稱等信息,其中項目批準號是項目的唯一標識符,項目來源是該項目受資助的基金名稱,項目名稱是項目負責人申請的課題名稱。

4)獎項元數據

根據CNBkCI系統所包含的信息,獎項元數據主要包含獎項名稱、獎項級別、獎項等級等信息,其中獎項級別主要劃分為國家級、省部級等級別,獎項等級主要劃分為一等獎、二等獎、三等獎等等級。

2CNBkCI系統平臺設計

 CNBkCI系統平臺是將所有中文圖書作為來源文獻,收集來源文獻、參考文獻、引證文獻、作者數據、項目數據、獎項數據6類數據資源,為用戶提供各類數據資源的全字段檢索、高級檢索、二次檢索、分類檢索服務,同時為用戶提供學科、中文圖書、出版社、作者、機構、地區、項目、獎項學術影響力的統計分析,最終促進所有學科的中文圖書學術成果的建設、發展與利用。

 CNBkCI系統平臺設計主要包括用戶角色設計、E-R圖設計、系統業務流程設計、系統功能設計、系統架構設計。

1)用戶角色設計

 CNBkCI系統平臺的用戶主要包括超級管理員、后臺管理員、企業類項目負責人、高校類項目負責人、其他項目負責人、編目員、審核員、前臺管理員、高校類客戶、其他客戶。

2E-R圖設計

 CNBkCI系統平臺的實體包括來源文獻實體、參考文獻實體、引證文獻實體、作者數據實體、項目數據實體、獎項數據實體,來源文獻實體與其他5類實體的關系都是多對多關系。

3)系統業務流程

 CNBkCI系統平臺業務流程主要涉及到系統的各類用戶角色、各類數據資源以及各種業務功能。在后臺管理角色中,編目員能夠通過人工錄入、批量導入、機器抓取收集來源文獻、參考文獻、引證文獻、作者數據、項目數據、獎項數據等數據資源。在前臺管理角色中,各類客戶能夠使用CNBkCI系統平臺所提供的全字段檢索、高級檢索、二次檢索、分類檢索4種檢索服務,同時能夠使用該系統平臺所提供的學科、中文圖書、出版社、作者、機構、地區、項目、獎項8大統計分析功能。

4)系統功能設計

 CNBkCI系統平臺的功能包括后臺功能和前臺功能,后臺功能主要包括用戶管理、數據管理,前臺功能主要包括檢索服務、統計分析。用戶管理包括權限分配、用戶修改2大功能。數據管理功能包括來源文獻管理、參考文獻管理、引證文獻管理、作者數據管理、項目數據管理、獎項數據管理6大管理功能。檢索服務功能包括全字段檢索、高級檢索、二次檢索、分類檢索4大檢索功能。

5)系統架構設計

 CNBkCI系統平臺的架構設計包括存儲層、管理層、應用層。存儲層是通過數據庫存儲來源文獻、參考文獻、引證文獻、作者數據、項目數據、獎項數據6類數據資源。管理層是為管理員提供人工錄入、批量導入、機器抓取3種方式添加各類數據資源,同時為管理員提供各類數據資源的檢索、修改、刪除等管理操作。應用層是為用戶提供全字段檢索、高級檢索、二次檢索、分類檢索等檢索服務,同時為用戶提供學科、中文圖書、出版社、作者、機構、地區、項目、獎項學術影響力的統計分析。

 CNBkCI系統平臺包括數據管理、檢索服務、統計分析3個子系統平臺,其中數據管理子系統平臺的主要工作是通過人工錄入、批量導入、機器抓取3種方法收集各類數據資源,而各類文獻資源是CNBkCI系統平臺數據來源的重要部分。因此,文獻資源采集方法是本課題重點難點研究的問題,下文將詳細討論CNBkCI系統平臺的文獻資源采集方法。

3CNBkCI文獻資源采集方法

 CNBkCI的文獻資源主要包括來源文獻、參考文獻、引證文獻三類文獻資源,同時其采集來源文獻與參考文獻、來源文獻與引證文獻的引文關系。CNBkCI的來源文獻僅包括圖書文獻,其采集方法從書商、國家圖書館等機構所收集的圖書Marc數據中提取圖書文獻的元數據信息。CNBkCI的參考文獻包括圖書文獻、期刊文獻、學位論文、會議文獻、報紙、專利、標準、科技報告、檔案、法律條文等文獻資源,其采集方法先數字化來源文獻的參考文獻,再利用網絡爬蟲從超星發現、中國知網兩大商業數據庫中擴展參考文獻的元數據信息。CNBkCI的引證文獻僅包括圖書文獻、期刊文獻、學位論文、會議文獻四類文獻,其采集方法利用來源文獻的元數據信息從超星發現、中國知網兩大商業數據庫中抓取引證文獻的元數據信息。

1)來源文獻采集方法

來源文獻采集方法是先利用MARC數據結構提取字段內容,再利用MARC數據塊匹配數據元素,最后通過這些數據元素填充到來源文獻的元數據信息中。來源文獻采集方法的方法流程如圖3.1所示,其方法步驟具體描述如下:

 ①從書商、國家圖書館收集作為來源文獻的圖書MARC數據集,利用記錄結束符(ACSII值為29)提取所有MARC記錄;

 ②遍歷所有MARC記錄,判斷是否為最后1個記錄,若不是,跳到③,否則跳到⑧;

 ③從②中的每個記錄的記錄頭標區12-16位置提取數據起始地址,再利用該起始地址計算地址目次區長度,并利用此長度提取地址目次區字符串,最后根據目次項12位固定長度提取所有的目次項;

 ④遍歷地址目次區所有目次項,判斷是否為最后1個目次項,若不是,跳到⑤,否則跳到②;

3.1來源文獻采集方法流程圖

 ⑤從④中地址目次區的每個目次項的0-23-67-11分別提取字段標識符、字段長度、字段起始位置,并提取該字段標識符所對應的字段內容,再將該字段標識符與MARC數據塊進行匹配,定位所提取字段標識符所包含的子字段內容,最后利用該字段內容與子字段分隔符(ACSII值為31)提取該字段所包含的所有子字段;

 ⑥遍歷⑤中所提取的所有子字段,判斷是否為最后1個子字段,若不是,跳到,否則跳到④;

 ⑦從⑥中每個子字段提取該子字段的標識符,將該標識符與MARC數據塊字段的子字段標識符進行匹配,再提取該子字段所包含的數據元素,最后返回到⑥繼續遍歷;

 ⑧處理完所有MARC記錄,獲取到所有來源文獻的元數據信息。

2)參考文獻采集方法

參考文獻采集方法是先通過參考文獻數字化獲取參考文獻的基本信息,再通過參考文獻的擴展化獲取參考文獻的擴展信息,最后通過這些基本信息和擴展信息填充到參考文獻的元數據信息中。參考文獻采集方法的方法流程如圖3.2所示,其方法步驟具體描述如下:

 ①從收集紙質版圖書來源文獻,掃描所有圖書來源文獻,獲取到這些圖書來源文獻的參考文獻圖片,并將這些參考文獻圖片存放到掃描文件中;

 ②遍歷所有圖書來源文獻,判斷是否為最后1個圖書來源文獻,若是,跳到③,否則跳到①;

 ③識別所有參考文獻圖片,獲取到這些參考文獻圖片的可編輯的參考文獻快照,并將這些參考文獻快照存放到文本文件中;

 ④遍歷所有參考文獻圖片,判斷是否為最后1個參考文獻圖片,若是,跳到⑤,否則跳到③;

 ⑤標注所有參考文獻快照,獲取到這些參考文獻的題名、文獻類型2個基本信息;

 ⑥遍歷所有參考文獻快照,判斷是否為最后1個參考文獻快照,若是,跳到⑦,否則跳到⑤;

 ⑦將所有參考文獻的基本信息、參考文獻快照存放到數據庫中,并遍歷所有參考文獻的基本信息;

3.2參考文獻采集方法流程圖

 ⑧遍歷所有參考文獻的基本信息,判斷是否為最后1個參考文獻的基本信息,若不是,跳到⑨,否則跳到⑩;

 ⑨通過網絡爬蟲根據參考文獻的文獻類型從超星發現、中國知網2大電子數據庫中選擇合適的匹配數據庫,并將參考文獻的題名輸入到匹配數據庫中進行檢索,再將返回的所有檢索結果與參考文獻快照進行匹配,最后通過正確匹配后提取參考文獻的責任者、中圖分類號、關鍵詞、摘要、出版年等擴展信息;

 ⑩擴展完所有參考文獻的基本信息,獲取到所有參考文獻的元數據信息。

3)引證文獻采集方法

引證文獻采集方法是通過網絡爬蟲根據圖書來源文獻的第一責任者、題名、出版年、出版社從超星發現、中國知網2大電子數據庫中獲取圖書文獻、期刊文獻、學位論文、會議文獻4類引證文獻的元數據信息。引證文獻采集方法的流程如圖3.3所示,其方法步驟具體如下:

 ①遍歷所有圖書來源文獻,判斷是否為最后1個圖書來源文獻,若是,跳到②,否則跳到?

 ②提取圖書來源文獻的第一責任者、題名、出版年、出版社4個字段信息;

 ③通過網絡爬蟲根據②的字段信息從超星發現庫中獲取圖書引證文獻列表,遍歷所有圖書引證文獻列表標題超鏈接并下載相應地頁面,從這些頁面中提取圖書引證文獻的元數據信息;

 ④遍歷圖書引證文獻列表,判斷是否為最后1個圖書引證文獻,若是,跳到⑤,否則跳到③;

 ⑤通過網絡爬蟲根據②的字段信息從中國知網的期刊論文庫中獲取期刊引證文獻列表,遍歷所有期刊引證文獻列表標題超鏈接并下載相應地頁面,從這些頁面中提取期刊引證文獻的元數據信息;

 ⑥遍歷期刊引證文獻列表,判斷是否為最后1個期刊引證文獻,若是,跳到⑦,否則跳到⑤;

 ⑦通過網絡爬蟲根據②的字段信息從中國知網的學位論文庫中獲取學位引證文獻列表,遍歷所有學位引證文獻列表標題超鏈接并下載相應地頁面,從這些頁面中提取學位引證文獻的元數據信息;

 ⑧遍歷學位引證文獻列表,判斷是否為最后1個學位引證文獻,若是,跳到⑨,否則跳到⑦;


3.3引證文獻采集方法流程圖

 ⑨通過網絡爬蟲根據②的字段信息從中國知網的會議論文庫中獲取會議引證文獻列表,遍歷所有會議引證文獻列表標題超鏈接并下載相應地頁面,從這些頁面中提取會議引證文獻的元數據信息;

 ⑩遍歷會議引證文獻列表,判斷是否為最后1個會議引證文獻,若是,跳到①,否則跳到⑨;

 ?遍歷完所有的圖書來源文獻,獲取到所有引證文獻的元數據信息。

由于時間和經費局限,本課題僅完成了元數據規范、CNBkCI系統平臺設計、文獻資源采集方法,其中文獻資源采集方法是本課題重點難點研究問題,對于CNBkCI系統平臺的檢索服務、統計分析功能實現還有待于后續研究。

通過深入研究上述內容,本研究所構建的CNBkCI具有豐富的理論意義和應用價值:

1)促進圖書學術影響力分析理論研究,同時豐富圖書評價理論,完善引文分析理論,促進學術影響力分析研究,進而完善學術評價理論;為構建會議文獻、學位論文、科研報告等學術文獻的引文分析理論提供借鑒;為分析期刊論文引文分析、圖書文獻引文分析、會議文獻引文分析的聯系提供理論支撐。

2)通過建立中文圖書引文數據,完善學術文獻引文索引數據庫信息,同時為期刊文獻引文數據、會議論文引文數據、圖書文獻引文數據、科研報告引文數據的整合提供訪問接口;通過圖書檢索服務,為用戶擴充學術研究知識來源并增強引文導航,方便用戶快捷地掌握學科間引文脈絡,發現學科知識新增長點;通過統計分析中文圖書的引文數據,評價圖書、作者、機構、地域的學術影響力,促進學術交流及成果利用與轉化,指導各學科信息資源的建設。

 
广东快乐10分走势图电视