您的位置:首页 > 编程语言 > PHP开发

php strpos 字符串查找函数内部源码实现

2013-05-27 00:00 274 查看
此函数查找字符串从前面开始查找。

此函数对应的c函数的代码为:ext/standard/string.c

/* {{{ proto int strpos(string haystack, string needle [, int offset])
Finds position of first occurrence of a string within another */

PHP_FUNCTION(strpos)

{

zval *needle;

char *haystack;

char *found = NULL;

char needle_char[2];

long offset = 0;

int haystack_len;
/* "

sz|l" 表示一个字符串(如果是一个字符串的话,根据zend_parse_parameters的用法,那么haystack后面的第二个参数就是个int类型,也就是haystack的长度haystack_len),一个zval,再加一个可选的long型,因此用"sz|l"来表示。
如果想实现可选参数的话,例如一个字符串,一个浮点,再加一个可选的bool型,可以用"sd|b"来表示。*/

if (zend_parse_parameters(ZEND_NUM_ARGS()
TSRMLS_CC, "sz|l", &haystack, &haystack_len, &needle, &offset) == FAILURE) {

return;

}

if (offset < 0 || offset > haystack_len) {

php_error_docref(NULL TSRMLS_CC, E_WARNING, "Offset not contained in string");

RETURN_FALSE;

}

if (Z_TYPE_P(needle) == IS_STRING) {

if (!Z_STRLEN_P(needle)) {

php_error_docref(NULL TSRMLS_CC, E_WARNING, "Empty needle");

RETURN_FALSE;

}

found =
php_memnstr(haystack + offset,

Z_STRVAL_P(needle),

Z_STRLEN_P(needle),

haystack + haystack_len);

} else {

if (php_needle_char(needle, needle_char TSRMLS_CC) != SUCCESS) {

RETURN_FALSE;

}

needle_char[1] = 0;

found = php_memnstr(haystack + offset,

needle_char,

1,

haystack + haystack_len);

}

if (found) {

RETURN_LONG(found - haystack);

} else {

RETURN_FALSE;

}

}

/* }}} */

其中红色函数:php_memnstr则是在main/php.h定义的:#define php_memnstr zend_memnstr,那么就需要找zend_memnstr的位置,通过搜索此函数的位置在:和ext通缉的Zend/zend_operators.h里面实现的。

//此函数的作用是在haystack中查找needle,如果不存在返回null,如果存在,返回指向haystack中needle头字符的指针
static inline char *zend_memnstr(char *haystack, char *needle, int needle_len, char *end)
{
//p代表haystack字符串首地址位置
char *p = haystack;
//needle尾字符
char ne = needle[needle_len-1];

//如果needle中只有1个字符,调用c中memchr查找
if (needle_len == 1) {
return (char *)memchr(p, *needle, (end-p));
}

if (needle_len > end-haystack) {
return NULL;
}

//查找头字符memchr时,最长end - needle_len
end -= needle_len;

while (p <= end) {
//在p中前end-p+1(即haystack_len+1)个字节查找*needle的头字符,如果找到,并且尾字符一致时
if ((p = (char *)memchr(p, *needle, (end-p+1))) && ne == p[needle_len-1]) {
if (!memcmp(needle, p, needle_len-1)) {//中间字符一致
return p;
}
}

if (p == NULL) {
return NULL;
}
//中间字符不一致,将p的指针指向下一个字符。
p++;
}

return NULL;
}

/*

Searches at bufferfor the given character, stopping when characteris first found or cnt bytes have been searched through.

从buffer所指内存区域的前count个字节查找字符ch,当第一次遇到字符ch时停止查找。如果成功,返回指向字符ch的指针;否则返回NULL。

*/

void * my_memchr(const void * buffer,int ch,int count)

{

while ( count && (*(unsigned char *)buffer != (unsigned char)ch) )

{

buffer = (unsigned char *)buffer + 1;

count--;

}

return(count ? (void *)buffer : NULL);

}
/************************************************************************/
/* 字符串函数memcmp
原型:extern int memcmp(void *buf1, void *buf2, unsigned int count);
功能:比较内存区域buf1和buf2的前count个字节
说明:当buf1<buf2时,返回值<0  
  当buf1=buf2时,返回值=0   
当buf1>buf2时,返回值>0 */

源程序:

int memcmp(const void * cs,const void * ct,size_t count)
{
const unsigned char *su1, *su2;
int res = 0;

for( su1 = cs, su2 = ct; 0 < count; ++su1, ++su2, count--)
if ((res = *su1 - *su2) != 0)
break;
return res;
}

/************************************************************************/

附上函数zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss", &r1, &n, &r2, &m)

其中ss的含义在以下类型表格中说明,

类型说明见下表:

Boolean b zend_bool
Long l long
Double d double
String s char*, int
Resource r zval*
Array a zval*
Object o zval*
zval z zval*
由此可见如果类型为string的话,那么需要一个字符串的指针和一个int值。

另注释:转载自五四陈科学院[http://www.54chen.com]中TSRMLS_CC的含义,请参考以下文章:http://bbs.phpchina.com/thread-185497-1-1.html;

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  php strpos