- 浏览: 4332232 次
- 性别:
- 来自: 湛江
博客专栏
-
SQLite源码剖析
浏览量:79402
-
WIN32汇编语言学习应用...
浏览量:68349
-
神奇的perl
浏览量:101473
-
lucene等搜索引擎解析...
浏览量:281118
-
深入lucene3.5源码...
浏览量:14595
-
VB.NET并行与分布式编...
浏览量:65542
-
silverlight 5...
浏览量:31309
-
算法下午茶系列
浏览量:45189
最新评论
-
yoyo837:
counters15 写道目前只支持IE吗?插件的东西是跨浏览 ...
Silverlight 5 轻松开启绚丽的网页3D世界 -
shuiyunbing:
直接在前台导出方式:excel中的单元格样式怎么处理,比如某行 ...
Flex导出Excel -
di1984HIT:
写的很好~
lucene入门-索引网页 -
rjguanwen:
在win7 64位操作系统下,pygtk的Entry无法输入怎 ...
pygtk-entry -
ldl_xz:
http://www.9958.pw/post/php_exc ...
PHPExcel常用方法汇总(转载)
相关推荐
c++倒排索引算法
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。...带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。
编写程序实现为给定目录下txt文件建立倒排索引文件il.txt 运行后会自动生成 1.txt,2.txt,4.txt,其中 1.txt,2.txt需要你自己输入需要排序的文档(如莎士比亚的文集),排序结果输出在il.txt中
山东大学大数据课程的实验二。...代码重构了setup(),map(),combiner(),partitation()和reducer()函数,功能是对文档进行倒排索引,得到一个单词有序,且单词的文件列表同样有序的倒排列表集合。
简单的Hadoop分区和倒排索引示例,需要有Hadoop分布式环境支撑。分区案例功能:分析通讯录文件,统计员工和科长的个数 根据职级分区,员工放一个文件,科长放一个文件。MyEclipse项目可以直接导入。
倒排索引的实现。 一个文件含有几个文件的名字,打开这个文件之后读其他文件的内容,将内容出现的文件号输出。
为了进一步缩短查询时间,通过对当前索引文件自索引结构的分析,设计了倒排链表的多层自索引结构。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引;在此基础上,实现了索引压缩与查询系统。...
评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章...
词频统计+倒排索引+数据去重+TopN
首先在基本要求中,Map 我们对于输入的文件每句进行切割,将单词与文件名作为(text)key,并且对每个词设置词频 1(text)。 接下来在 combiner 中,我们统计每个单词的 value 并加起来为 sum,并把原来 key 中的...
倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。 假设我们现在有文件: test1.txt中存有:我们爱自然语言处理 test2.txt中存有:我们爱计算机视觉 正向索引: {“test1.txt”:[“我们”,“爱”,”自然...
java实现读取多个文件构成hashmap创建倒排索引表,然后实现布尔查询. 代码比较丑陋,初学者写的。多多包涵!
Amazon和Google的商品项目表CSV文件,以及已有的实体识别对照表,可以用来与你自己做出来的结果对照。
基于R-tree和倒排文件的混合索引的设计与实现,高梦娇,吕玉琴,在移动用户进行搜索查询时,一般希望搜索引擎不仅可以提供与查询内容密切相关的网页,而且可以提供与用户所在位置距离相近的网页
这是一个在hadoop集群环境下的文档倒排程序。数据源是莎士比亚文集(运行是需要设置)
运行说明:在linux终端输入 $ hadoop jar test-1.0-SNAPSHOT.jar WordCount /input/* /MyOutput1/ 后两个参数是hdfs上面【输入】的文本文件目录和【输出】目录。 记得清空输出目录。
完整的以lucene为基础架构的倒排索引建立以及JSP显示。部分爬虫文件目录请自行爬取创建
spimi算法实现的倒排索引的构建,并且对倒排索引进行了Gamma编码压缩,对词典进行了单一字符串压缩,分别写入了二进制的倒排索引文件和词典文件
设计实现了一种基于倒排索引的文件格式,建立了从波形数据到属于该束激光脉冲的点云的倒排映射关系,消除了LAS1.3文件中波形数据访问的无序性,也大大降低了波形数据处理过程中程序访问的复杂性。实验表明,新的索引...