目前国内的SEO过多重视具体的排名技术研究,而忽视了营销知识的学习。石头写本文的目的,是通过一个小的例子来抛砖引玉,让更多的seo不仅关注技术,也关注基本的营销理论和效果评估分析方法。
最 近有一客户咨询,他希望能将他的站点流量翻一倍。进而提升站点的产品销售业绩。该客户是一个小行业细分的某一类产品销售,他的大部分关键词在各大搜索引擎 本身已经就在钱三名了。给我看了他的流量统计后,我就提问:“你有统计过你站点的客户转化率吗 ?”对方回答说不知道。他们根本不知道到底站点的访问量跟站点后台新增客户数量有什么关系,比例是多少。
所以我就再问:“既然如此,你怎么就判断你提升业绩目前的方法就是提升站点流量呢?也许通过搜索引擎找你这类产品的整个次数本身就很少,你的站点流量提升已经接近饱和了呢?”
以上举的就是一个小小的例子,想说明的是,对于一些销售具体产品或服务的站点,在对站点实施seo/sem,一定要简单地判断:
a. 目前整个行业大致的搜索量的范围和增长潜力 。
b.目前站点的搜索流量是多少。
c. 目前的客户转化率是多少。而整个行业的普遍转化率大概又是多少?
如 果转化率达到了正常水平,而通过关键词工具等发现搜索流量增长有巨大潜力,那么这个时候重点才是进一步提升流量。这种情况也是大部分站点遇到的情况。还有 一种情况是,站点的搜索流量在同行来说,已经不错。而转化率过低(比如低于3%),这个时候,通过修改站点的产品描述,购买流程,完善在线服务功能等提升 转化率,则比提升流量的效果更为明显!
当然上面这些还是比较简单的,如果更复杂的,还需要计算出每个客户的投入成本和平均收益。进而能衡量那一种营销方法更有效。
推荐: 《站点转化率基础知识》 英文版,关于客户转化率等有比较详细的阐述。
Q:到底使用那一個會比較好,連字型 ( - ),還是底線 ( _ )?
A: Google將連字型 ( - )當作空格。而底線 ( _ )則否。
因此,當您輸入搜尋引擎關鍵字“search_engine_optimization” 查尋時
搜尋引擎不會顯示“search engine optimization” 在搜尋結果頁( SERP)。
但是“search-engine-optimization” 卻會顯示。
因此結論是使用連字型 (- )會比較適當。
這個規則似乎適用於在目錄、檔案名稱和網域名稱。
Search engine optimisation is a form of marketing. It is the process of making a site or individual web pages relevant to particular keyword searches performed on search engines. In short, the better optimised the web page is, the higher the ranking it will achieve in search engine results.
Where should a Shop Owner start: Try to approach search engine optimisation with a plan. How would you search for your products? Which search engine would you use? Ask friends, colleagues and your current customers. Then you need to identify about 5 to 10 words and phrases that people are most likely to use in a search for your site. These are your keywords and key phrases. This might apply to your site as a whole or an individual page showing a particular product.
http://www.google.com/intl/en/press/intl-zeitgeist.html#cn
What's an SEO? Does Google recommend working with companies that offer to make my site Google-friendly?
SEO is an abbreviation for "search engine optimizer." Many SEOs provide useful services for website owners, from writing copy to giving advice on site architecture and helping to find relevant directories to which a site can be submitted. However, a few unethical SEOs have given the industry a black eye through their overly aggressive marketing efforts and their attempts to unfairly manipulate search engine results.
这是一个web搜索的基本程序,从命令行输入搜索条件(起始的URL、处理url的最大数、要搜索的字符串),
它就会逐个对Internet上的URL进行实时搜索,查找并输出匹配搜索条件的页面。 这个程序的原型来自《java编程艺术》,
为了更好的分析,站长去掉了其中的GUI部分,并稍作修改以适用jdk1.5。以这个程序为基础,可以写出在互联网上搜索
诸如图像、邮件、网页下载之类的“爬虫”。
江南白衣
Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。
Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。
1.Nutch 0.8 的安装与运行
nutch 0.7.2的中文安装文档满街都是,nutch 0.8的安装文档见Tutorial (0.8) , 要注意两点:
一是 crawl命令里的urls参数从指定文件变为了指定目录, 即原来的urls 要改存到urls/foo 里。
二是 nutch-default.xml里http.agent.name属性默认为空,必须在nutch-site.xml中为该属性设值,否则会出错。
注意nutch 爬行时的信息用log4j输出在/logs 目录下了,默认不再直接输出到屏幕,除非你在配置文件里设fetcher.verbose为true。
Luke(http://www.getopt.org/luke) 是一个必备的索引阅读工具。
另外,nutch需要在unix下奔跑,如果要装在windows上,大家可以先装个cygwin。(下载它的setup.exe 在线安装很快装完)。
最后,nutch 0.8的recawl 脚本也不同了。
2.Nutch You should know
2.1 一份文档
nutch的文档不多,而且多是安装文档,要深入nutch,就必须一字不漏的阅读:
Introduction to Nutch, Part 1 Crawling 和 Introduction to Nutch, Part 2 Searching
然后就是看源码了,好在nutch的源码非常均匀,简短,没有花哨的技巧,很容易把事情看明白。
2.2 三个目录
首先理解nutch的三个数据目录:
1.crawdb,linkdb 是web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期。
2.segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。
3.index 是lucene的索引目录,是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
2.3 爬行过程
爬行过程在Introduction to Nutch, Part 1 Crawling 里已有详细说明,或许直接看Crawl类来理解爬行的过程。
这里有一幅更直观的图:
Nutch用入口地址,地址正则表达式,搜索深度三种形式来限制。
因为使用了Hadoop(下篇再讲),Nutch的代码都按照Hadoop的模式来编写以获得分布式的能力,因此要先了解一下Hadoop,明白它Mapper,Reducer, InputFormat, OutputFormat类的作用才能更好的阅读。
1.Fetcher类, 在run()里多线程运行FetcherThread,并调用恰当的Protocol插件(支持http,ftp等协议)获取内容,调用恰当的 Parser将内容(html,pdf,excel)分析为文本,然后把内容放到FetcherOutput类里,最后由 FetcherOutputFormat类定义写盘到segments的过程。
2.Indexer类,使用hadoop遍历所有segments 目录,将parseData文件序列化成ParseData类,从中获得各种资料然后调用插件进行索引,最后仍然由ouputFormat类完成写入索引的工作。
注意,如果你仅想使用Nutch的爬虫,而不是其索引功能,可以仿照Indexer重写自己的实现,比如把segments内容直接搬进数据库。
3.Nutch 每条索引记录的字段
url: 作为唯一标标识值,由BasicIndexingFilter类产生。
segment: 由Indexer类产生。Nutch抓回来的页面内容放在segments目录,lucene只会索引,不会store原文内容,因此在查询时要以 segment与url作为外键,由FetchedSegments类根据hitsDetail从segments目录获得content。
boost:优先级,由Indexer类调用插件计算产生。
title:显示标题,在BasicIndexingFilter插件中被索引和存储。
content: 主要的被搜索项,在BasicIndexingFilter插件中被索引。
2.4 搜索过程
Nutch提供了一个Fascade的NutchBean类供我们使用,一段典型的代码如下
NutchBean bean = new NutchBean();
Query query = Query.parse(args[0]);
Hits hits = bean.search(query, NUM_HITS,"title",true);
for (int i = 0; i < hits.getLength(); i++) {
Hit hit = hits.getHit(i);
HitDetails details = bean.getDetails(hit);
String title = details.getValue("title");
String url = details.getValue("url");
String summary =bean.getSummary(details, query);
}
这里NutchBean为我们做了几样事情:
一是按Title field来排序。
二是支持分布式查询,如果有配置servers,就会使用hadoop的IPC系统,调用所有server上的nutchBeans,最后规约出总的结果。
三是每个站点像Google一样只显示分数最高的一页,如果用户还想看同站的其他结果,就需要进一步调用API访问。
四是生成Summary,从segments目录按segments和url 获得content, 并按一定算法抽取出像Google一样的包含关键字的文档片断。
3. 修改源码或编写插件
Nutch的源码很容易修改和重新编译,注意新编译的class要压回nutch-0.8.job(实际是一个jar)才能生效。
Nutch的插件机制及度类似Eclipse, 详看http://wiki.apache.org/nutch/WritingPluginExample,只要实现某个插件接口,然后在plugins.xml里定义class,扩展点和依赖的jar,如
<runtime>
<library name="index-basic.jar">
<export name="*"/>
</library>
</runtime>
<requires>
<import plugin="nutch-extensionpoints"/>
</requires>
<extension id="org.apache.nutch.indexer.basic"
name="Nutch Basic Indexing Filter"
point="org.apache.nutch.indexer.IndexingFilter">
<implementation id="BasicIndexingFilter" class="org.apache.nutch.indexer.basic.BasicIndexingFilter"/>
</extension>
</plugin>
下面是笔者在工作之余,翻译其一篇2年前的访谈录,原文(Doug Cutting Interview)在网上Google一下就容易找到。希望对搜索引擎开发的初学者起到一个抛砖引玉的效果。
RankingBooster 2.0 国外下载
Windows 98/Me/NT/2000/XP/2003
Alexa排名工具。一個據說可以刷新Alexa排名的工具,可以選擇刷新的線程。其官方網站介紹,每天用上幾個小時才能達到效果,線程建議在4以內。有興趣的朋友可以測試一下。
Link Popularity Check 3.0 国外下载
Windows 98/Me/NT/2000/XP/2003
檢查你的網站鏈接流行度情況
Free Monitor For Google 1.2 国外下载
Windows 98/Me/NT/2000/XP/2003
Google搜索引擎关键字排名查询工具。
