Python海量數據處理腳本大集合:pyWhat

pyWhat:精簡海聯數據,直達數據弱點要害- 精選真開源,釋放新價值。

image

概覽

pyWhat是Github社區上一款比較實用的開源Python腳本工具。它能夠快速提取信息中的 IP 地址、郵箱、信用卡、數字貨幣錢包地址、YouTube 視頻等內容。當你遇到了一串莫名其妙的文本,比如說“5f4dcc3b5aa765d61d8327deb882cf99”,而你又一頭霧水的時候,你該怎么辦?在pyWhat的幫助下,我們只需要詢問what “5f4dcc3b5aa765d61d8327deb882cf99”,那么pyWhat就會告訴你你想知道的一切!pyWhat的任務就是幫助你識別目標數據,無論你提供的是文件還是文本,甚至是十六進制參數!不僅如此,pyWhat 還可對文件和目錄進行掃描,通過遞歸搜索,快速獲取核心信息,并對結果進行篩選、過濾、排序、導出等操作


主要功能

  • Pcap文件快速分析

假設你在一次網絡攻擊活動中獲取到了一個.pcap文件,那么pyWhat將可以快速幫助你識別下列信息:

所有的哈希信用卡卡號加密貨幣地址
社保號碼

只需幾秒鐘,pyWhat就可以快速幫助你識別目標文件中的關鍵數據。

image

  • 如何使用

    $ pip3 install pywhat

    installs optional dependencies that may improve the speed

    $ pip3 install pywhat[optimize]

    $ brew install pywhat

  • 漏洞賞金

你可以使用 PyWhat 來掃描一些可以通過漏洞賞金計劃賺錢的東西,例如:API 密鑰、Webhook、證書

和更多的事務。使用以下命令運行 PyWhat:

pywhat --include "Bug Bounty" TEXT

示例:GitHub 存儲庫 API 密鑰泄露

  1. 下載組織的所有 GitHub 存儲庫;

  2. 搜索任何可以作為賞金提交的內容,例如 API 密鑰;

    Download all repositories

    GHUSER=CHANGEME; curl “https://api.github.com/users/$GHUSER/repos?per_page=1000” | grep -o ‘git@[^"]*’ | xargs -L1 git clone

    Will print when it finds things.

    Loops over all files in current directory.

    find . -type f -execdir pywhat --include ‘Bug Bounty’ {} ;

示例: 掃描所有網頁以尋找賞金

# Recursively download all web pages of a site
wget -r -np -k https://skerritt.blog# Will print when it finds things.
# Loops over all files in current directory.
find . -type f -execdir pywhat --include 'Bug Bounty' {} \;
  • 排序、導出

排序:可以使用pyWhat對輸出進行排序,使用what --help獲取更多信息。

what -k rarity --reverse TEXT

導出:可以使用pyWhat導出為 json what --json,并且可以使用 將結果直接發送到文件what --json > file.json。

無邊界模式:pyWhat具有一種特殊模式,用于匹配字符串中的可識別信息。默認情況下,它在 CLI 中啟用,但在 API 中禁用。使用what --help或參考API文檔https://github.com/bee-san/pyWhat/wiki/API了解更多信息。

  • 性能比較與優化

在性能比較與優化方面,PyWhat庫在文本解析任務中展現了出色的效率。以下是一些性能測試和優化建議,以幫助開發者更好地了解和提升PyWhat庫的性能。

import time
from pywhat import what# 生成一個包含大量文本的列表
texts = ["文本內容" + str(i) for i in range(100000)]# 記錄解析開始時間
start_time = time.time()# 在大量文本上執行解析操作
for text in texts:result = what(text)# 記錄解析結束時間
end_time = time.time()# 計算解析時間
elapsed_time = end_time - start_time
print(f"解析 {len(texts)} 個文本的總時間: 0.0545 秒")
  • 多語言支持

PyWhat庫支持多種語言,使其更具國際化的特性。用戶可以選擇在文本解析中使用的語言,以確保對不同語種的支持。以下是一個使用語言選擇的示例:

from pywhat import whattext = "明天天氣如何?"
result = what(text, lang="zh")  # 選擇中文語言解析print(result)
  • 自定義規則

PyWhat庫允許用戶定義自己的規則,以適應特定的文本解析需求。這對于處理特殊格式或特定領域的文本非常有用。以下是一個自定義規則的示例:

from pywhat import what, Ruletext = "根據自定義規則解析文本"
rule = Rule("自定義規則", ["自定義", "解析"])
result = what(text, custom_rules=[rule])print(result)

信息

截至發稿概況如下:

  • 軟件地址:https://github.com/bee-san/pyWhat

  • 軟件協議: MIT license

  • 編程語言

語言占比
Python99.7%
Dockerfile0.3%
  • 收藏數量:6.4K

pyWhat是一款強大的開源Python工具,它在信息識別與數據分析領域展示了高度的靈活性與實用性。該工具能夠智能解析文本或文件中的各種關鍵信息,比如IP地址、電子郵件、信用卡號乃至加密貨幣錢包地址等,顯著提升了從復雜數據中提取價值的效率。對于安全研究人員而言,其快速分析Pcap文件的能力,以及在漏洞賞金狩獵場景中的應用尤為突出,能夠幫助用戶自動化發現API密鑰、Webhook配置等敏感信息,有效促進網絡安全的維護。

隨著數據量的爆炸性增長,如何進一步優化像pyWhat這類工具的性能,使其在保持高速解析能力的同時,又能兼顧資源消耗與跨平臺兼容性?此外,用戶自定義規則的潛力如何被充分挖掘,以應對日新月異的互聯網信息格式與安全挑戰,也是值得深入探討的話題。

各位在使用 PyWhat 的過程中是否發現了什么問題?熱烈歡迎各位在評論區分享交流心得與見解!!!


聲明:本文為辣碼甄源原創,轉載請標注"辣碼甄源原創首發"并附帶原文鏈接。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/37930.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/37930.shtml
英文地址,請注明出處:http://en.pswp.cn/web/37930.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【golang】go mod私有倉庫配置

文章目錄 Golang版本控制go mod使用私有倉庫(gitlab)依賴設置配置代碼托管站點Go mod尋找代碼倉庫原理使用代理實現代碼托管站點訪問 Golang版本控制 go version v1.22.0 當我們新建一個go項目時,在項目根目錄下執行go mod init可以初始化go.mod文件用于管理包依賴。…

Spring Data與多數據源配置

Spring Data與多數據源配置 大家好,我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編,也是冬天不穿秋褲,天冷也要風度的程序猿!今天我們來探討如何在Spring Data中配置和使用多個數據源。 在現代應用程序中&…

計算機相關術語科普之什么叫網關(Gateway)

網關(Gateway)是一個在計算機網絡中起到關鍵作用的設備或系統,它扮演著網絡間連接器或協議轉換器的角色。 一、定義與功能 1)定義: 網關是在不同網絡之間實現互連的復雜設備,僅用于兩個高層協議不同的網…

【PYG】Planetoid中邊存儲的格式,為什么打印前十條邊用edge_index[:, :10]

edge_index 是 PyTorch Geometric 中常用的表示圖邊的張量。它通常是一個形狀為 [2, num_edges] 的二維張量,其中 num_edges 表示圖中邊的數量。每一列表示一條邊,包含兩個節點的索引。 實際上這是COO存儲格式,官方文檔里也有寫,…

Web 品質標準

Web 品質標準 引言 隨著互聯網的快速發展,Web應用已經滲透到我們生活的方方面面。為了確保Web應用的質量,提高用戶體驗,Web品質標準應運而生。這些標準涵蓋了多個方面,包括性能、安全性、可訪問性、用戶體驗等。本文將詳細介紹這些標準,并探討它們在實際開發中的應用。 …

上位機圖像處理和嵌入式模塊部署(mcu 項目1:固件編寫)

【 聲明:版權所有,歡迎轉載,請勿用于商業用途。 聯系信箱:feixiaoxing 163.com】 說完了上位機的開發,接下來就是固件的開發。前面我們說過,目前使用的開發板是極海apm32f103的開發板。它自身包含了iap示例…

一些迷你型信息系統

只有一個表,比較簡單易用; 1 博物館信息查詢系統 信息錄入,瀏覽,添加,更新,刪除; 下載, https://download.csdn.net/download/bcbobo21cn/89505217

中國網絡安全審查認證和市場監管大數據中心數據合規官CCRC-DCO

關于CCRC-DCO證書的頒發機構,它是由中國網絡安全審查認證與市場監管大數據中心(簡稱CCRC)負責。 該中心在2006年得到中央機構編制委員會辦公室的批準成立,隸屬于國家市場監督管理總局,是其直轄的事業單位。 依據《網絡…

計算機的錯誤計算(十八)

摘要 計算機的錯誤計算(四)指出一元二次方程的計算精度問題。本節給出其一種解決方案。 計算機的錯誤計算(四)與(十七)分別指出一元二次方程的求解是具有挑戰性的難題,其出錯原因是因為相減相消…

YOLOv10(7):YOLOv10訓練(以訓練VOC數據集為例)

YOLOv10(1):初探,訓練自己的數據_yolov10 訓練-CSDN博客 YOLOv10(2):網絡結構及其檢測模型代碼部分閱讀_yolov10網絡結構圖-CSDN博客 YOLOv10(4):損失&…

汽車之家論壇評論全面采集實戰指南:Python爬蟲篇

聚焦汽車之家,解鎖評論寶藏 在這個數據為王的時代,每一個角落的信息都可能成為寶貴的洞察來源。汽車之家,作為汽車行業內的權威論壇,其海量的用戶評論不僅是消費者購車的重要參考,也是汽車品牌與市場研究者不可忽視的…

【Android面試八股文】在你之前的Android項目中,你是如何進行性能優化的?

在之前的Android項目中,優化和提升性能是一個重要且常見的任務。 以下是一些常用的性能優化方法和策略: 分析和測量: 使用Android Studio中的Profiling工具(如Profiler、Trace等)進行性能分析,識別CPU、內存和網絡使用情況。使用第三方工具(如Systrace)來分析系統層面…

iOS 練習項目 Landmarks (四):添加 AutoLayout 約束

iOS 練習項目 Landmarks (四):添加 AutoLayout 約束 iOS 練習項目 Landmarks (四):添加 AutoLayout 約束新增 topLabel圖片視圖圓形裁切陰影使用 AutoLayout 為詳情頁的組件添加約束DetailViewControllerDe…

如何在 Logback 和 Log4j 中獲取日志:一個開發者指南

日志記錄是軟件開發中的關鍵實踐,它幫助我們監控應用程序的行為,定位問題并優化性能。在 Java 生態系統中,Logback 和 Log4j 是兩個廣泛使用的日志框架,它們都基于 SLF4J API 提供日志服務。本文將指導你如何在這兩個框架中獲取日…

7-490 將字符串“software“賦給一個字符指針,并從第一個字母開始間隔地輸出該串(簡單字符串)

編程將字符串"software"賦給一個字符指針 然后從第一個字母開始間隔地輸出該串 請用指針法完成。 輸入樣例: 在這里給出一組輸入。例如&#xff1a; 無輸入輸出樣例: 在這里給出相應的輸出。例如&#xff1a; sfwr #include <stdio.h> #include <stri…

Linux環境下快速部署Spring Boot應用:高效命令組合實踐

概要&#xff1a; 本文旨在介紹一種高效的Linux命令組合&#xff0c;用于簡化Spring Boot項目的部署與管理流程。通過結合使用nohup、java -jar、輸出重定向以及進程管理命令&#xff0c;我們能夠實現Spring Boot應用的快速后臺啟動及便捷的進程控制&#xff0c;尤其適合于自動…

什么是 JVM( Java 虛擬機),它在 Java 程序執行中扮演什么角色?

JVM&#xff0c;全稱Java Virtual Machine&#xff0c;中文譯作“Java虛擬機”&#xff0c;它是運行Java程序的軟件環境&#xff0c;也是Java語言的核心部分之一。 想象一下&#xff0c;如果你是一位環球旅行家&#xff0c;每到一個新的國家&#xff0c;都需要學習當地的語言才…

【Linux】初識操作系統

一、馮?諾依曼體系結構 在學習操作系統之前&#xff0c;我們先來認識一下馮?諾依曼體系結構&#xff0c;我們常見的計算機&#xff0c;如筆記本。我們不常見的計算機&#xff0c;如服務器&#xff0c;大部分都遵守馮諾依曼體系。 截至目前&#xff0c;我們所認識的計算機&am…

神經網絡訓練(一):基于殘差連接的圖片分類網絡(ResNet18)

目錄 一、簡介:二、圖片分類網絡1.記載訓練數據(torch自帶的cifa10數據集)2.數據增強3.模型構建4.模型訓練三、完整源碼及文檔一、簡介: 基于殘差連接的圖片分類網絡,本網絡使用ResNet18作為基礎模塊,根據cifa10的特點進行改進網絡,使用交叉熵損失函數和SGD優化器。本網…

使用pyqt5編寫一個七彩時鐘

使用pyqt5編寫一個七彩時鐘 效果代碼解析定義 RainbowClockWindow 類初始化用戶界面顯示時間方法 完整代碼 在這篇博客中&#xff0c;我們將使用 PyQt5 創建一個簡單的七彩數字時鐘。 效果 代碼解析 定義 RainbowClockWindow 類 class RainbowClockWindow(QMainWindow):def _…