例如本人在百度上搜索一个东西,会出来很多信息,但是假设本人想一个特定的网站,但是这个标题是在百度的第10几页,本人要一页页的查找很麻烦,本人想用C语言保存当前网页的信息,查找是不是有这个字符串,该怎么编写呢?求高手指点!
解决方案
10
爬虫,正则,curl
5
关注
10
使用curl库下载网页内容
使用regex正则表达式查找关键字
正则表达式速查 正则表达式举例 正则表达式学习 (4页A4纸)http://download.csdn.net/detail/zhao4zhong1/1808549
正则表达式参考下面:
使用regex正则表达式查找关键字
正则表达式速查 正则表达式举例 正则表达式学习 (4页A4纸)http://download.csdn.net/detail/zhao4zhong1/1808549
正则表达式参考下面:
//凡是?。!后面跟1~1000后面跟半角.的,在?。!后面加回车换行。 //in.txt: //1.测试。2.测试2?3.测试3!4.测试 //四。5.测试。6.测试6?7.测试3!8.测试 //运行该程序将输出重定向到例如out.txt即可将输出保存到文件out.txt中 #include <iostream> #include <fstream> #include <string> #include <regex> using namespace std; int main() { wifstream wifs("in.txt"); wifs.imbue(locale("chs")); wstring wstr(L""),wln; while (wifs) { getline(wifs,wln); wstr+=wln; } wifs.close(); wcout.imbue(locale("chs")); wcout << wstr << endl; wstring rs = L"([?。!])(\d{1,3}\.)"; wregex expression(rs); wstr = regex_replace(wstr, expression, wstring(L"$1\r\n$2")); wcout << wstr << endl; return 0; } //1.测试。2.测试2?3.测试3!4.测试四。5.测试。6.测试6?7.测试3!8.测试 //1.测试。 //2.测试2? //3.测试3! //4.测试四。 //5.测试。 //6.测试6? //7.测试3! //8.测试 //
5
python吧.
10
5
看起来有点复杂哦,
10
在百度搜“C源代码 curl regex”