Merhaba arkadaşlar bugün sizlere C# tarafında elinizde bulunan bir html formatındaki textten html taglarını çıkartarak sadece yazı kısmının nasıl alabileceğinizden bahsedeceğim.
Bu kısım için basit bir method hazırladım bu kısımda ihtiyaçlara göre sizde düzenleme yaparak eklemeler yapabilirsiniz.
1 2 3 4 5 6 7 8 9 10 11 12 |
private static string GetPlainTextFromHtml(string htmlString) { string htmlTagPattern = "<.*?>"; var regexCss = new Regex("(\\<script(.+?)\\</script\\>)|(\\<style(.+?)\\</style\\>)", RegexOptions.Singleline | RegexOptions.IgnoreCase); htmlString = regexCss.Replace(htmlString, string.Empty); htmlString = Regex.Replace(htmlString, htmlTagPattern, string.Empty); htmlString = Regex.Replace(htmlString, @"^\s+$[\r\n]*", "", RegexOptions.Multiline); htmlString = Regex.Replace(htmlString, " ", " "); htmlString = Regex.Replace(htmlString, " ", " "); return htmlString; } |
Yukarıdaki metodu projenize ekleyerek kullanabilirsiniz.
Bir örnek ile gösterecek olursak:
1 |
string html = "<!DOCTYPE html><html><body><h1>My First Heading.</h1><p>My first paragraph.</p></body></html>"; |
Elimizde böyle bir html formatında string bir değişkenimiz olduğunu farz edelim. Projemize eklediğimiz “GetPlainTextFromHtml” methoduna parametre olarak bu değişkeni yolluyoruz.
1 |
string text = GetPlainTextFromHtml(html); |
Bu durumda ise text değişkenimde html taglarından çıkarılarak sadece yazının kaldığı bir değer kalacaktır. text değişkenimizde “My First Heading.My first paragraph.” olarak değerimizi tutuyor olacaktır.
İlk Yorumu Siz Yapın