当前位置:首页 > SEO > 正文

seo预处理(seo 技术)

本篇文章给大家谈谈seo预处理,以及seo 技术对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

SEO优化中的“预处理”是什么意思

“预处理”也被称为“索引”。因为索引是预处理最主要的内容。

1. 提取文字

2. 中文分词

3. 去停止词

4. 消除噪声

5. 去重

6. 正向索引正向索引也被简称为索引

7. 倒排缩影搜索引擎将正向索引数据库重新构造为倒排索引

8. 连接关系计算连接关系计算也是预处理中很重要的一部分

9. 特殊文件处理特殊文件包含:PDF,word,wsp,xls,ppt,txt等。

10. 质量判断

11. 在预处理阶段,搜索引擎会对内容质量和连接质量进行判断

SEO网站优化搜索引擎蜘蛛抓取预处理过程?

1、提取文字 现在的搜索引擎还是以文字内容为基础,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包含了大量的HTML格式标签,JavaScript 程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。2、中文处理分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个词组成一个词,哪些字本身就是一个词。比如“公务员考试”将被分词为“公务员”和“考试”两个词。3、去停止词无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“阿”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the ,a ,an ,to ,of 等。4、去除噪音 绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类“ 这些关键词时仅仅因为页面上有这些词出现而返回博客贴子是毫无意义的,完全不相关。所以这些区城都司于噪声,对页面主题只能起到分散作用。5、去重 去重的基本方法是对页面特征关系 词计算指指纹,也就是说从页面主体内容中选取最有的一部分关键词(经常是出现频率最高的关系词),然后计算这些关键词的数字指纹。这些关键词选取是在分词、去停止词、消噪之后。通常选取10个特征关键词就可以达到比较高的计算准备性,再选取更多词对去重准确性提高的贡献也就不大了。6、正向索引7、倒序索引8、链接关系计算页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重9、特殊文件处理 除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序

搜索引擎工作原理是什么?SEO优化背后的原理?

搜索引擎的工作原理总共有四步:

第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,所以称为爬行。

第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。

第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。

不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。

扩展资料:

定义

一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter

Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件 。

由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。

关于seo预处理和seo 技术的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

取消
扫码支持 支付码