`
deepfuture
  • 浏览: 4332232 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79402
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68349
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101473
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281118
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14595
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65542
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31309
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45189
社区版块
存档分类
最新评论

索引文件与倒排文件

 
阅读更多
1、索引文件
索引文件是指除了文件本身(数据区)之外,还要为文件建立一个索引表,索引表的每一项是由一个关键字值和一个指针(即存储位置)构成的二元组(k,p),k是对应记录的关键字值,p是该记录的外存地址。每个索引项可以对应文件的一个逻辑记录,这叫密集索引。如果索引文件的数据区的记录按关键字排列有序,则称索引顺序文件,对于索引顺序文件,可对一组记录建立一个索引项,这种索引叫稀疏索引,此时k是一组记录上关键字值最小的或最大记录的关键字值,p是一组记录的外存地址。
对索引文件的检索过程分两步进行:首先查找索引表,若索引表上存在该记录,则根据索引项的指针域访问外存上的该记录,否则表明外存中不存在该记录,也就不需访问外存。索引文件适合于随机存取,索引顺序文件即适合于随机存取又适合于顺序存取
2、倒排文件
在实际应用中,有时需要按某些次关键字的值查找记录,为此可以按次关键字建立索引,这种索引叫倒排索引,带有倒排索引的文件叫倒排索引文件,又称为倒排文件倒排文件可以实现快速检索。
分享到:
评论

相关推荐

    c++实现倒排索引算法

    c++倒排索引算法

    MapReduce倒排索引代码

    倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。...带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

    信息检索 倒排索引

    编写程序实现为给定目录下txt文件建立倒排索引文件il.txt 运行后会自动生成 1.txt,2.txt,4.txt,其中 1.txt,2.txt需要你自己输入需要排序的文档(如莎士比亚的文集),排序结果输出在il.txt中

    山东大学 大数据实验二 倒排索引算法Java实现

    山东大学大数据课程的实验二。...代码重构了setup(),map(),combiner(),partitation()和reducer()函数,功能是对文档进行倒排索引,得到一个单词有序,且单词的文件列表同样有序的倒排列表集合。

    简单的Hadoop分区和倒排索引示例

    简单的Hadoop分区和倒排索引示例,需要有Hadoop分布式环境支撑。分区案例功能:分析通讯录文件,统计员工和科长的个数 根据职级分区,员工放一个文件,科长放一个文件。MyEclipse项目可以直接导入。

    倒排索引表

    倒排索引的实现。 一个文件含有几个文件的名字,打开这个文件之后读其他文件的内容,将内容出现的文件号输出。

    论文研究-倒排链表多层自索引结构的分析与设计.pdf

    为了进一步缩短查询时间,通过对当前索引文件自索引结构的分析,设计了倒排链表的多层自索引结构。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引;在此基础上,实现了索引压缩与查询系统。...

    spark实现财经新闻搜索引擎(正文提取、中文分词、倒排索引构建、执行搜索)

    评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章...

    词频统计+倒排索引+数据去重+TopN

    词频统计+倒排索引+数据去重+TopN

    hadoop倒排索引实现 完整代码+报告

    首先在基本要求中,Map 我们对于输入的文件每句进行切割,将单词与文件名作为(text)key,并且对每个词设置词频 1(text)。 接下来在 combiner 中,我们统计每个单词的 value 并加起来为 sum,并把原来 key 中的...

    Python倒排索引之查找包含某主题或单词的文件

    倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。 假设我们现在有文件: test1.txt中存有:我们爱自然语言处理 test2.txt中存有:我们爱计算机视觉 正向索引: {“test1.txt”:[“我们”,“爱”,”自然...

    java实现倒排索引表的布尔查询

    java实现读取多个文件构成hashmap创建倒排索引表,然后实现布尔查询. 代码比较丑陋,初学者写的。多多包涵!

    实体识别与倒排索引优化实验数据

    Amazon和Google的商品项目表CSV文件,以及已有的实体识别对照表,可以用来与你自己做出来的结果对照。

    论文研究-基于R-tree和倒排文件的混合索引的设计与实现 .pdf

    基于R-tree和倒排文件的混合索引的设计与实现,高梦娇,吕玉琴,在移动用户进行搜索查询时,一般希望搜索引擎不仅可以提供与查询内容密切相关的网页,而且可以提供与用户所在位置距离相近的网页

    Hadoop倒排索引程序

    这是一个在hadoop集群环境下的文档倒排程序。数据源是莎士比亚文集(运行是需要设置)

    MapReduce实现倒排索引-可运行的jar包

    运行说明:在linux终端输入 $ hadoop jar test-1.0-SNAPSHOT.jar WordCount /input/* /MyOutput1/ 后两个参数是hdfs上面【输入】的文本文件目录和【输出】目录。 记得清空输出目录。

    JAVA倒排索引及JSP网页显示

    完整的以lucene为基础架构的倒排索引建立以及JSP显示。部分爬虫文件目录请自行爬取创建

    spimi算法的c++实现倒排索引器并gamma编码压缩

    spimi算法实现的倒排索引的构建,并且对倒排索引进行了Gamma编码压缩,对词典进行了单一字符串压缩,分别写入了二进制的倒排索引文件和词典文件

    论文研究-倒排索引优化的波形激光雷达数据存储和访问.pdf

    设计实现了一种基于倒排索引的文件格式,建立了从波形数据到属于该束激光脉冲的点云的倒排映射关系,消除了LAS1.3文件中波形数据访问的无序性,也大大降低了波形数据处理过程中程序访问的复杂性。实验表明,新的索引...

Global site tag (gtag.js) - Google Analytics