sphinx全文索引
首页->学习资料->编程语言->php教程->大型网站技术 关键词: 发布时间:2016-03-12 16:52:57 浏览次数:1744

应用场景:如百度搜索、按歌词搜歌曲等


以下在windows环境下操作:


什么是sphinx?

 

Sphinx是一个独立的全文索引引擎,专门用来对大数据量的大文本字段类型建索引的软件。

 

sphinx的使用流程:


                    

如:查询出所有歌词中带有冬天。

1. 先查询sphinx中的索引,然后sphinx会返回所有带冬天的歌曲的id

2. 再根据id 查询mysql数据库

SELECT * FROM songs WHERE id IN (1,2,3,4)

这里因为id上有索引,所以这个SQL会非常快!绝对比直接执行

SELECT * FROMsongs WHERE gechi LIKE “%冬天%”快(前提:数据量大的时候)

 

最常用的两个命令:

indexer.exe  : 建索引

searchd.exe  : sphinx 的服务器(在建完索引之后,启动服务器提供索引查询的服务器)

 

 

为数据创建建索引

 

流程:

1.        先连接MYSQL

2.        执行前置SQL (sql_query_pre)

3.        执行主查询取出数据 (sql_query)

4.        对取出的数据建立索引

5.        执行后置SQL

6.        关闭MYSQL的连接

 

 

 

 

第一步:修改配置文件

第二步:在命令行中运行indexer.exe程序

indexer.exe -c d:/sphinx/sphinx.conf   songs   --> 为songs这个数据源建索引

indexer.exe -c d:/sphinx/sphinx.conf  --all     --> 为配置文件中所有的数据源都创建索引


 

启动服务器

searchd.exe -c d:/sphinx/sphinx.conf


服务器还有的参数:

searchd 开启服务端

searchd -d 配置文件 索引名称

服务端默认监听9312端口

常用命令:

-c 指定配置文件路径

--stop 停止当前服务

--status 查看当前状态

--install 安装为windows服务

--delete 删除windows服务

--port 监听的端口

--index indexName 只查询某个索引,默认查询所有索引

 

使用用PHP查询数据

<?

header('Content-Type:text/html;Charset=utf-8');

require ('sphinxapi.php');//引入api,在sphinx解压目录的api目录下

$sc=new SphinxClient();

$sc->setMatchMode(匹配模式名);

$sc->setServer('localhost',9312);

 $result=$sc->query(要查的词,数据源名称);

?>


匹配模式

SPH_MATCH_ALL:分词后的每个字、词都得出现,可以不连续,默认方式

SPH_MATCH_ANY:分词后的词至少匹配一个

SPH_MATCH_PHRASE:所有的字都必须出现,并且连在一起

SPH_MATCH_BOOLEAN:将查询看作一个布尔表达式

SPHP_MATCH_EXTENDED:将查询看作一个sphinx表达式

 

 

自动索引的更新:sphinx的主索引+增量索引

 

第一步:先建一个表用来存当前已经创建索引的最后一条记录的ID

CREATE TABLE a

(

id int unsignednot null auto_increment,

max_id intunsigned not null default ‘0’,   # 最后一条已经创建了索引的ID

primary key (id)

)

第二步:修改配置文件

主数据源中添加sql_query_post记录下最后的ID

配置文件中增加:

sql_query_post = replace into a(id,max_id) select 1,max(id) from 表名

再添加一个增量部分的数据源

sql_query=select id,titile,content from songs where id> select max_id from a

增量索引配置与上面相同

 

第三步:

1. indexer.exe-c d:/sphinx/sphinx.conf songs

2. 定期执行以下步骤:

indexer.exe -cd:/sphinx/sphinx.conf  songs_zl     --> 为增量的数据创建索引

indexer.exe--merge songs songs_zl --rotate   -->   --rotate:选择phinx服务器索引有更新要替换新的索引

 

replace into 的意思:如果这条记录不存在就插入这条记录,如果已经存在就更新这条记录

 

如何定期执行?

把以上两个命令写到一个文件中,文件名为sphinx.bat (批处理文件),然后使用windws系统自带的计划任务来设置这个脚本定期执行

开始》程序》附件》系统工具》计划任务


 

什么是SphinxSE?

在windows下sphinx与mysql是分开的,如果要进行全文索引,先要查sphinx取得搜索结果对应数据的id,然后通过id去查mysql数据库,这样每次都要连接两次;sphinxSE是一个可以集成于mysql的插件,但是得在开源的操作系统(如linux)下重新编绎mysql将他们整合到一起;这样直接连接mysql就可以操作sphinx了;

 


赞:(0)
踩:(0)
相关文章
大型网站及面临的问题及解决方法
网页静态化
thinkphp网页静态化
高并发时表锁与文件锁
海量订单数据存储方法
高并发时商品库存处理方法
高并发测试及系统状态监测
PHP解决抢购、秒杀、抢楼、抽奖等
php多线程例子
php上传到七牛
热门文章
win7中将文件拷贝到虚拟机linux下
phpexcel设置行高及列宽,背景颜色,
rabbitmq无法启动
intellij idea不显示git push按钮
php7中使用mongodb的aggregate进行
centos7.4 64位下swoole安装及配置
laravel页面静态化的方法
navicate连接mycat报1184错误
单点登录sso原理及php实现方式及de
devops-jenkins容器为pending状态
好评文章
phpexcel设置行高及列宽,背景颜色,
php7中使用mongodb的aggregate进行
intellij idea打开文件所在文件夹
windows下使用MongoDB Compass Com
win7中将文件拷贝到虚拟机linux下
laravel 中悲观锁 & 乐观锁的使用
单点登录sso原理及php实现方式及de
navicate连接mycat报1184错误
rabbitmq无法启动
laravel整合dingo/api方法步骤:jwt
标签
rabbitmq mysql备份 elasticsearch golang swoole
我的项目
【github】www.github.com/hurong241
【码云】gitee.com/hu_rong/projects
【docker hub】hub.docker.com/repositories/hurong241
【packagist】packagist.org/users/hurong241/packages
站点信息
建站时间:2011年
文章数:607篇
浏览数:941420
粤ICP备18028092号-1  微信:hurong241