html 標簽 r語言,從R中的字符串中刪除html標簽

我正在嘗試將網頁源代碼讀入R并將其作為字符串處理。我正在嘗試刪除段落并從段落文本中刪除html標簽。我遇到了以下問題:

我嘗試實現一個功能來刪除html標簽:

cleanFun=function(fullStr)

{

#find location of tags and citations

tagLoc=cbind(str_locate_all(fullStr,"")[[1]][,1]);

#create storage for tag strings

tagStrings=list()

#extract and store tag strings

for(i in 1:dim(tagLoc)[1])

{

tagStrings[i]=substr(fullStr,tagLoc[i,1],tagLoc[i,2]);

}

#remove tag strings from paragraph

newStr=fullStr

for(i in 1:length(tagStrings))

{

newStr=str_replace_all(newStr,tagStrings[[i]][1],"")

}

return(newStr)

};

這適用于某些標簽,但不適用于所有標簽,此示例失敗的示例是以下字符串:

test="junk junk junk junk"

目標是獲得:

cleanFun(test)="junk junk junk junk"

但是,這似乎不起作用。我認為這可能與字符串長度或轉義字符有關,但是我找不到涉及這些的解決方案。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/529085.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/529085.shtml
英文地址,請注明出處:http://en.pswp.cn/news/529085.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python給圖片加半透明水印_Python 批量加水印就這么簡單!

工作的時候,尤其是自媒體,我們必備水印添加工具以保護我們的知識產權,網上有許多的在線/下載的水印添加工具,但他們或多或少都存在以下問題: 在線工具需要將圖片上傳到對方服務器,信息不安全。 很多工具不具備批量處理…

html 選中狀態,html默認選中狀態

html中標簽用法解析及如何設置selec標簽定義和用法 select 元素可創建單選或多選菜單。當提交表單時,瀏覽器會提交選定的項目,或者收集用逗號分隔的多個選項,將其合成一個單獨的參數列表,并且在將 表單數據提交給服務器時包括 nam…

nemesis什么車_nemesis是什么意思_nemesis的翻譯_音標_讀音_用法_例句_愛詞霸在線詞典...

全部報應Was he aiming at Bryant, his old nemesis and a favorite target in the past?他是不是暗指科比, 一直的“競爭對手”和過去最中意的目標?期刊摘選After the defeat of their old arch nemesis, the Turtle have grown apart as a family.在擊敗舊時強敵后, 忍者神…

wxpython制作表格界面_[Python] wxPython 菜單欄控件學習總結(原創)

1、總結 1、大體創建過程 1、創建一個 菜單欄 : menuBar wx.MenuBar()相當于這個白色地方,沒有File這個菜單 2、創建 菜單 : fileMenu wx.Menu()這兩個不是直接“用的”,叫菜單。既用來分類其他 菜單項 的文件夾樣 3、創建 菜單項 : newItem wx.MenuI…

android 8三星note8,信息太多很煩瑣?告訴你三星Note8有妙招

不知從何時開始,我們眼前的信息變得豐富而繁雜。簡潔的新聞無需經過報紙過濾,發生數分鐘已經城皆知。預測晴雨也無需依靠天氣先生,點亮手機即可洞悉風雨。生活在信息時代的我們僅用幾英寸的窗口觀察世界,信息的洪流難免會遮蔽眼前…

realloc函_realloc(重新分配內存空間的函數)

在頭文件中定義void * realloc(void * ptr,size_t new_size);重新分配給定的內存區域。它必須預先分配malloc(),calloc()或realloc()尚未釋放與free或呼叫realloc。否則,結果是不確定的。重新分配由以下兩者之一完成:a)ptr如有可能…

python做excel表格教程視頻_基于Python實現excel表格讀寫

首先安裝對應的xlrd和xlwt 打開cmd命令窗口輸入pip install xlrd和pip install xlwt就可以安裝。之后輸入pip list檢查是否成功配置:xlrd操作# 接下來就是常用的語法操作: excel_data xlrd.open_workbook(文件路徑)#得到對應的工作表 sheet excel_data…

虛無鴻蒙哪個厲害,【圖說鴻蒙】鴻蒙設定之七柱神(五)

原標題:【圖說鴻蒙】鴻蒙設定之七柱神(五)七柱神玄冥神飛來流去本無心,無空無我混天塵。幻作人形深簡出,不是老嫗是海神。玄冥神 虛無荒海司掌海洋、流動之力 神威之色為藍執掌海洋、流動之力的神,是神道“熵”的最高掌控者&#…

java lambda 排序_Java8特性:Lambda表達式之概念篇

Java自誕生已經有十幾個年頭了,目前也已經發布了第十三個大版本,其中Java8是常用的版本中最新的一個版本。而Java8最大的特性就是:Lambda表達式、函數式接口和Stream流。本篇我只介紹Lamda表達式的概念以及簡單使用,至于別的我打算…

jq獲取表格里的checkbox_Python抓取網頁表格(一)

Python有很多包可以抓取數據,如selenium、requests、scrapy、pandas,每個包都有其適用性,個人認為在抓取數據時,代碼簡潔性和數據獲取的準確性是需要考慮的因素,時間快慢倒不用太在意,畢竟用python抓數據本…

html一個空格多少像素,一個空格占幾個字符?

一個空格通常占2個字符,但有些特殊情況占用3個字符。在程序中,空格占用的字符數取決于程序使用的字符集,如:1、使用多字節字符集時,半角空格占用1個字節,全角空格占用2個字節。2、使用Unicode字符集時&…

各種摳圖動態圖片_不用手。自動、智能摳圖,圖片去背景

BgEraser 是一款基于 AI 的自動、智能圖片去背景工具,無需勾選可用、可刪除區域,上傳圖片,立即下載即扣圖完成的圖片。AppinnBgEraser 真是懶人的福音。在此之前,比如很好用的在線去背景服務 remove.bg,是需要用戶手動…

html用dom顯示xml,html DOM文件引用一個XML文件將不會在瀏覽器中打印

我完全不熟悉這一點,我正在上課,現在變成了一個令人頭疼的問題。我有這個HTML DOM文件,它引用了一個XML文件,我需要在瀏覽器中顯示在屏幕上。它應該只打印標題,標題,第一個,最后一個&#xff0c…

bigdecimal 保留兩位小數_Python的保留小數及對齊

Python的保留小數:方法1:用round函數(有坑)。median 12.3004886print(round(median, 2)) # 保留兩位小數print(round(median, 3)) # 保留三位小數print(round(median, 4)) # 保留四位小數運行結果:12.312.312.3005可以看出Python中的r…

分布式光伏補貼_四川:2020年起工商業分布式光伏已無補貼

來源:四川省發改委日前,四川省發改委發布《四川省分布式光伏建設管理相關政策》,對該省分布式光伏發電項目定義、分類、備案程序、需要國補的項目相關政策進行了梳理。值得注意的是,文件明確,自2020年起,四…

用計算機玩游戲最簡單的方法,如何制作電腦簡易命令小游戲

滿意答案sylvia10172019.01.20采納率:48% 等級:7已幫助:460人簡單的Dos小游戲開始學習java,這周只簡單的學習了C的基本語法:輸入輸出,判斷循環,因此用這些東西在java上瞎寫了一個DOS小游戲。…

pandas filter_數據分析之Pandas操作(2)

接著數據分析之Pandas操作(1)的介紹,本次介紹在實際應用場景中幾個常用的函數。還是以titanic生存數據為例,本次需要導入pandas 、numpy 、scipy三個工具包。import pandas as pdimport numpy as npfrom scipy.stats import zscoretrain_data pd.read_c…

ios 隱藏app的插件_等了5年終于復活,iPhone上最干凈好用的微博App

來,先跟小虎妞一起回憶下2013年的微博客戶端。(圖源水印)那時候,首頁還是按時間順序來的,也沒有赴美產子、老爺夫人知道錯了的廣告。后來,隨著微博一次次改版,客戶端越來越臃腫,第三方微博客戶端像雨后春筍…

html高度為零,html中父div高度為0的原因

問題:在chrome中看到父div高度為0,但里面明明有內容。原因:簡單的講原因就是子元素如果設了float屬性,這些子元素就脫離了父div容器的控制,所以父容器認為里面沒內容,高度自然變成了0.解決辦法:…

算法訓練營Day23

#Java #回溯 #組合問題 開源學習資料 Feeling and experiences: 組合總和III:力扣題目鏈接 找出所有相加之和為 n 的 k 個數的組合,且滿足下列條件: 只使用數字1到9每個數字 最多使用一次 返回 所有可能的有效組合的列表 。…