# 北京邮电大学暑期课程信息检索与信息抽取课程设计
<br><br>
## 文件介绍
<br>
|文件名|作用|
|:---|:---|
| \_\_init\_\_.py|flask程序入口|
|algorithm.py|信息检索与抽取算法1|
|algorithm2.py|信息检索与抽取算法2|
|words.py|算法1用到的向量空间模型计算方法|
|name.py|命名实体识别|
|static文件夹|css,image,js文件|
|template文件夹|html文件|
|introduction/china.zip|网络爬虫得到的保存着中国所有景点信息的TXT文件|
|introduction/TRAVELDB.sql.zip|数据库建表sql文件|
|introduction/IR-IE.docx|实验报告|
|introduction/stopwords.txt|停用词表|
## 说明
<br>
默认使用的是算法2,要改为算法1,请将 *\_\_init\_\_.py* 文件中的 *import algorithm2 as ag* 改为
*import algorithm as ag*, <br>
并在words.py中设置 *mystopwords = stopwordslist(stopwords.txt文件路径)*。 <br>
introduction/china.zip解压缩后的 *景点名.txt* 文件是该景点的总介绍,*景点名_detail.txt* 文件是该景点详细文字介绍的 <br>
分词结果。 <br>
<div align=center><img width="480" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/plot.png"/></div>
<br>
<div align=center><img width="480" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/plot_detail.png"/></div>
## 程序运行截图
<br>
### 主界面
<br>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/1.png"/></div>
### 搜索框输入历史悠久的红色旅游景点
<br>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/2.png"/></div>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/3.png"/></div>
### 搜索框输入令人心旷神怡的地方
<br>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/4.png"/></div>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/5.png"/></div>
### 搜索框输入江西革命圣地
<br>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/6.png"/></div>
<div align=center><img width="580" height="360" src="https://github.com/cswangyuhui/TouristScenicSpotSearchEngine/blob/master/introduction/7.png"/></div>
基于Python的信息检索与信息抽取系统-课程设计.rar
需积分: 0 112 浏览量
更新于2023-06-15
4
收藏 110.92MB RAR 举报
本项目利用Python实现了一个信息检索与信息抽取系统,包括数据、前端和后端代码。
信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(Information Search)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。一般情况下,信息检索指的就是广义的信息检索。
信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。抽取系统的输入信息是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
Python极客之家
- 粉丝: 1w+
- 资源: 79
最新资源
- 【新增】-033 -服装公司薪酬制度.doc
- 【新增】-036 -工程公司薪酬方案.doc
- 永磁同步电机(pmsm)矢量控制控制(FOC)matlab simulink仿真模型
- 【新增】-039 -工程公司薪酬体系设计方案.doc
- 【新增】-044 -广告公司薪酬方案.doc
- 【新增】-048 -互联网公司薪酬体系设计方案及标准.doc
- 【新增】-046 -国际(香港)有限公司薪酬体系设计方案.doc
- 【新增】-049 -花卉超市薪酬管理制度.doc
- 【新增】-054 -化妆品公司薪酬体系.doc
- 【新增】-056 -化妆品销售部薪酬与绩效考核方案 (1).doc
- 【新增】-061 -建材公司薪酬体系.doc
- 【新增】-064 -教育培训机构各岗位薪酬体系标准.doc
- 【新增】-070 -科技公司薪酬体系方案.doc
- 【新增】-055 -化妆品公司薪资管理与绩效考核制度.doc
- 【新增】-068 -科技公司薪酬体系.doc
- 【新增】-075 -连锁门店及总部薪酬体系.doc