使用胡浏览器 MCP 服务器进行跨平台浏览器自动化
胡浏览器 MCP 服务器支持在桌面和移动设备上进行强大的企业级浏览器自动化。
主要功能
- 快速轻量:使用可访问性树进行高效、可靠的自动化。
- LLM 友好:结构化数据访问——无需视觉模型或基于像素的输入。
- 确定性操作:避免了基于截图方法中常见的模糊性。
- 灵活模式:支持可访问性快照(默认)和视觉(截图)两种模式。
- 企业级就绪:精细的配置、持久化或隔离的用户配置文件以及强大的会话管理。
为什么选择胡浏览器 MCP 服务器?
胡浏览器 MCP 服务器将浏览器自动化提升到一个新水平,灵感来源于 MCP 生态系统中的最新创新:
- 真正的本地化与私密性:完全在你的机器上运行——数据不会离开你的浏览器,确保最大程度的隐私和安全。
- 无缝集成:直接与你现有的浏览器环境配合使用,保留你的登录状态、书签和设置。无需单独的浏览器实例或重复登录。
- AI 驱动的内容分析:内置的语义搜索和智能文本提取功能,让 LLM 和代理能够根据上下文理解、总结和与网页内容互动。
- 跨标签页上下文:在多个标签页之间自动化和协调操作,支持复杂的工作流和多页面任务。
- 可流式传输的 HTTP:在你的浏览器和 AI 助手之间享受快速、实时的通信。
- SIMD 加速的 AI:体验高达 8 倍速的向量操作,实现闪电般的语义搜索和内容匹配。
- 20 多种自动化工具:从截图和网络监控到书签管理和浏览历史分析,胡浏览器 MCP 服务器为每种自动化场景提供了丰富的工具集。
- 完整的 Chrome API 访问:超越标准的自动化——利用原生浏览器 API 实现高级用例。
胡浏览器 MCP 服务器如何脱颖而出
高级用例
- AI 总结与绘图:让 LLM 总结网页,甚至控制像 Excalidraw 这样的绘图工具。
- 自动化样式与脚本注入:即时修改页面样式或注入脚本以进行自定义自动化。
- 网络请求捕获:轻松监控和分析网络流量,用于调试或数据提取。
- 浏览历史洞察:用 AI 分析和总结你的浏览历史。
- 书签管理:以编程方式组织、添加或删除书签。
- 网页对话:以自然语言翻译、总结或与网页内容互动。
面向未来且可扩展
胡浏览器 MCP 服务器正在积极发展,即将推出的功能包括身份验证、工作流自动化、录制/回放以及增强的浏览器支持。加入社区,帮助塑造浏览器自动化的未来!
用户配置文件
- 持久化:在多次运行之间存储登录和会话数据(默认)。
- 隔离:每个会话都是无状态的;数据在使用后被清除。非常适合测试和自动化。
支持的操作
- 一旦你授予服务器管理员访问权限,你就可以使用 MCP 协议来控制浏览器,就像你在本地操作浏览器一样。
- 几乎所有 Chrome 扩展 API 都受支持,只需将
chrome.tabs.create之类的调用替换为hubrowser.tabs.create。
HTML 树模式(默认)
- 访问 HTML 树的方式与在浏览器控制台中相同。将
window.document替换为hubrowser.document。
视觉模式
- 使用截图进行基于视觉的交互。视觉模式非常适合基于截图的 X/Y 坐标进行交互的模型。
📊 浏览器管理
navigate:导航到 URL 并控制视口back:浏览器导航控制forward:浏览器导航控制get_windows:列出所有浏览器窗口get_tabs:列出所有浏览器标签页close_windows:关闭特定窗口close_tabs:关闭特定标签页
📸 截图与视觉
🌐 网络监控
net_capture_start/stop:webRequest API 网络捕获net_debugger_start/stop:带响应体的调试器 APInet_request:发送自定义 HTTP 请求net_requests:监控网络活动
🔍 内容查询
- 语义搜索和智能文本提取(详见工具文档)
get_screenshot:捕获截图(快照/视觉模式)。具有元素定位、整页支持和自定义尺寸的高级截图功能
🎯 交互
click_element:使用 CSS 选择器点击元素fill_or_select:填写表单和选择选项keyboard:模拟键盘输入和快捷键click、drag、hover、type、select_option、press_key:元素级操作
📚 数据管理
history:带时间过滤器的浏览器历史搜索bookmark_search:按关键字查找书签bookmark_add:添加带文件夹支持的新书签bookmark_delete:删除书签
实用工具与其他操作
file_upload、handle_dialog、pdf_save、console_messages、install、close、resizescreen_capture、screen_move_mouse、screen_click、screen_drag、screen_type:视觉模式操作
计划与工作流
wait_for:等待元素或事件
每个操作都为强大的企业级浏览器自动化而设计,支持基于可访问性和基于视觉的工作流。
胡浏览器 MCP 通过强大、可扩展且对 LLM 友好的浏览器自动化,为企业功能赋能。
准备好亲眼见证胡浏览器 MCP 的强大功能了吗?
探索一套为真实世界浏览器控制和数据提取而设计的强大自动化工具。如需获取完整、最新的列表,请联系我们。
请求演示:hi@selfreason.com
